JagoSatu.com - Google Cloud baru saja mengalami kekacauan besar pada 12 Juni 2025 lalu. Menurut laporan insiden resmi mereka, gangguan ini menyebabkan lonjakan drastis kesalahan "503" di layanan Google Cloud, Google Workspace, dan Google Security Operations, yang tentu saja berdampak pada pelanggan di seluruh dunia. Ini bukan cuma masalah sepele; ini adalah kegagalan sistem yang melumpuhkan sebagian besar internet!
Akar masalahnya, yang diungkapkan oleh Google sendiri, adalah fitur baru yang belum diuji dengan baik, yang ditambahkan ke Service Control — sebuah sistem yang mengelola permintaan API. Fitur ini punya jalur kode yang tidak terpakai saat peluncuran dan tidak memiliki penanganan kesalahan yang tepat. Ketika ada perubahan kebijakan dengan bidang kosong yang tidak diinginkan "dipaksa masuk", ini memicu null pointer yang menyebabkan seluruh sistem macet total dan masuk ke siklus kerusakan. Ibaratnya, ini seperti lupa pasang rem parkir di truk gandeng; kesalahan kecil, tapi konsekuensinya luar biasa besar!
Tim Site Reliability Engineering Google bergerak cepat, berhasil mengidentifikasi akar masalah hanya dalam 10 menit dan menerapkan perbaikan "tombol merah" dalam 25 menit. Namun, beberapa wilayah yang lebih besar, seperti us-central-1, mengalami "efek berantai" saat layanan dimulai ulang, yang membebani infrastruktur dasar di sana. Pemulihan penuh di wilayah tersebut memakan waktu 2 jam 40 menit. Bicara soal kegagalan berjenjang; satu kesalahan kecil bisa meruntuhkan seluruh "bangunan kartu"!
Google mengakui kalau infrastruktur pemantauan mereka juga ikut offline karena gangguan ini, membuat beberapa pelanggan sama sekali tidak tahu menahu apa yang terjadi. Mereka sudah membekukan semua perubahan di Service Control dan berjanji untuk memodifikasi arsitektur, meningkatkan pengujian, menerapkan feature flag, dan menggunakan randomized exponential backoff (entah apa pun artinya itu). Google bilang, "Kami sangat meminta maaf atas dampak gangguan ini. Pelanggan Google Cloud dan pengguna mereka mempercayakan bisnisnya pada Google, dan kami akan melakukan yang lebih baik." Jujur saja, kata-kata manis saja tidak cukup. Google perlu merombak serius proses pengujian dan penerapan mereka agar kejadian ini tidak terulang lagi.
Pada akhirnya, pemadaman ini jelas sangat memalukan bagi Google. Tidak hanya menghentikan layanan mereka sendiri, tapi juga memengaruhi banyak platform lain yang bergantung pada Google Cloud. Fakta bahwa alat pemantauan mereka sendiri ikut down selama insiden itu adalah "bonus" tambahan. Google harus membuktikan bahwa mereka bisa mengemban tanggung jawab besar sebagai operator infrastruktur cloud raksasa, atau para pelanggan bisa-bisa mulai beralih ke penyedia lain.
Bagaimana menurut kalian, apakah insiden ini akan sangat memengaruhi kepercayaan pelanggan terhadap Google Cloud? Atau ini hanya "kecelakaan" biasa yang wajar terjadi di sistem sebesar itu? (tmtiwow)
Editor : Toar Rotulung