Search

米クラウドフレアが起こした世界規模のネット障害、発端となったわずかな「ミス」とは - ITpro

netto.prelol.com

全3585文字

世界規模でサービスを展開している米Cloudflare(クラウドフレア)で、全体のトラフィックが半分に落ち込むトラブルが発生した。大規模データセンターにあるLAN内への経路を通知しなくなってしまったのだ。一体何が起こったのだろうか。

 ネットワークトラブルの代表的な原因の1つが機器の設定ミスである。ほんのわずかなミスにより機器が正常に動作しなくなり、ネットワーク全体のトラブルに発展する。このため設定を変更する際には細心の注意が求められる。

 2022年6月に米クラウドフレアで発生したトラブルも、まさに設定変更が原因だった。同社は世界中でCDN(Content Delivery Network)などのサービスを提供している。ルーターの設定ファイルのわずかなミスにより、世界中の大規模データセンター(DC)で障害が発生。全体のトラフィックが半分に落ち込む事態に発展した。

障害を起こした19の大規模データセンター

障害を起こした19の大規模データセンター

[画像のクリックで拡大表示]

 世界規模のネットワーク障害はどのように発生して収束したのか。今回、著名な技術者であり作家でもある同社最高技術責任者(CTO)のジョン・グラハム=カミング(JGC)さんに話を聞くことができた。JGCさんの話を基に、その一部始終を紹介しよう。

DCの構成を見直し

 クラウドフレアはDCのネットワーク構成を2021年から見直していた。従来は企業ネットワークと同じように、インターネットとのゲートウエイを根とし、そこから枝状に広がっていく構成で、縦方向(南北)にしかデータが流れないようになっていた。しかし同社が提供するサービスが多様化し、DC内の複数サーバー間(東西)で通信する必要性が高まった。

 そこで採用したのが、ルーターを相互に接続してメッシュを形成する「Clos(クロス)型」と呼ばれる構成だ。エッジルーターは全てのスパインルーターと接続している。これによりサーバー間は一定のホップ数以下で接続できるようになる。クラウドフレアは、まず大規模DCのネットワーク構成をClos型に変更していた。

ネットワーク構成をClos型に変更

ネットワーク構成をClos型に変更

[画像のクリックで拡大表示]

Adblock test (Why?)


April 28, 2023 at 03:00AM
https://ift.tt/ftie670

米クラウドフレアが起こした世界規模のネット障害、発端となったわずかな「ミス」とは - ITpro
https://ift.tt/4PnLXFf
Mesir News Info
Israel News info
Taiwan News Info
Vietnam News and Info
Japan News and Info Update

Bagikan Berita Ini

0 Response to "米クラウドフレアが起こした世界規模のネット障害、発端となったわずかな「ミス」とは - ITpro"

Post a Comment

Powered by Blogger.