there is a time for everything

現役ITコンサルタントが技術や育児情報を紹介するブログです。

Googleの大規模障害

cloud.google.com

Googleの中の人曰く

日本時間6/4 午前4時頃発生した、Googleの大規模障害について、中の人"Benjamin Treynor Sloss"さんが"公式ではない"としながらも状況をブログに書いてくれていました。

まぁ、私は訳あって起きていました(仕事じゃないですよ)が、YouTubeにアクセスする必要があったのでとっても困りました。

とはいえシステムなんていつ障害が起きてもおかしくありませんから、怒ったりはしていませんけどちょっと中の人の話を知りたいなと思ったわけです。

簡単に訳してみた

日曜の障害について、最新の状況を伝えるわ

昨日、USのGoogleのネットワーク障害のせいでGCPとかYouTube、Gmail諸々でめっさ重なったりエラーになってしもたわ。
特定の地域のネットワークキャパが小さくなったせいで、世界中のユーザーに迷惑掛けたわ。

Googleユーザーは結構困ったと思うんやけど、Gmailなんかはすぐに使えるようになったはずやで。
でも、実際影響受けた地域にとっては結構イタかったと思うわ。
特に広帯域使ってまうYouTube、GoogleCloudStorageやな。

昨日のインシデントで影響受けた人ら、ごめんやで。
世界中のみんなにGoogleのサービスを使ってもらえるようにするのが僕のミッションや。
ほんますまん。

インシデント内容

ほんなら、残りは今回の"ある地域の少数のサーバーに対する設定変更"で起きたインシデントの内容と、調査結果を伝えるわ。

その"設定変更"は、誤って隣接した複数の地域にも跨がって反映してしもた。そのせいで、その地域における半分以上のネットワークキャパを使えんようにしてしもたんよ。

当然ネットワークは混雑してしもて、僕らのネットワークシステムはその混み具合に対してトリアージしたんやわ。
クソ混み合った渋滞の中をチャリンコが通り抜ける程度には、大事な情報が届けられるようにな。

Googleのエンジニアチームはすぐに事態に気付いたんやけど、サッとは直せんかったわ。
というのも、うちのエンジニアもその"ネットワーク渋滞"に捕まってしもたからなんや。

とりあえず直したけど、そんな直接的な対応だけやなくて、この事象から考えられる全てのことに対策するつもりやで。

さいごに

僕らはGoogleのサービスにみんなが頼ってくれてることをわかってるし、これから先もGoogleは動き続けなあかんと思ってる。

これは僕らのミッションであり、着想や

今回の失敗でたくさん勉強になったし、Googleのサービスがより良く、より速く、また信頼できるものになるはずやで。

インシデント内容を知って

とりあえず、私の訳がひどいw

it is our mission, and our inspiration.

これ、どう訳すのが適切なんだろうか。
「着想」なんて使ってしまったけど、「構想」とか「長期計画」の方が文章の流れとしては違和感がなかったですね。

それはそれとして、どうも内容としては腑に落ちません。責めたい訳ではないのですが、「んー、そんなことある?」と感じます。
中の人も、セキュリティに関わる事項もあるでしょうから、多くを語れないのかもしれません。

なんにせよ、指先1つで世界にダメージを与えてしまうシステムって恐ろしいです。

私もGoogleのサービスに頼っている一人ですので、より良いサービスを届けてくださることを願っています。