Facebookがインターネットから姿を消した日についてすべての幹部が知っておくべきこと

公開: 2022-03-11

CTOを除いて、ほとんどの経営幹部には、技術的なネットワーク運用に深く関与するための帯域幅がありません。 したがって、1989年の技術会議で、社内と社外の両方の企業のネットワーク機能全体が2つのバーナプキンに書き留められた単一のプロトコルで実行されていることをリーダーが知ることは、驚きであり、おそらく懸念事項となる可能性があります。

これは、ボーダーゲートウェイプロトコルまたはBGPと呼ばれます。 これは、ソーシャルメディア、電子メール、クラウドドライブから、オフィスのセキュリティゲートでのエントリカードのスキャンまで、あらゆるものをナビゲートするために使用するサーバー上のすべてのトラフィックのルーティングを決定します。 BGPは、会社のネットワークを含め、すべてのネットワークが正しく機能するために依存しているものです。 これは、2021年10月4日月曜日にFacebookのすべての内部および外部ネットワークをダウンさせた要でした。

Facebookの停止がどのように発生したか

Facebookは、世界最大のソーシャルネットワーク以上のものです。 それは技術的な巨人です。 このサイトの30億人のアクティブユーザーは、毎日数百万ギガバイトのデータを生成し、17の大規模なグローバルデータセンターと、その広大なデジタル帝国を支える洗練されたアーキテクチャを必要としています。

テクノロジーの巨人は、ある意味でそれ自体が国家であり、ネットワークエンジニアリングとイノベーションのリーダーであり続けています。 しかし、それは、Facebookのネットワーク全体が7時間以上ダウンするのを世界が見た10月4日に証明されたように、停止に対して脆弱ではないという意味ではありません。 これは、常に稼働している世界経済の永遠であり、会社に推定1億ドルの収益をもたらした可能性があります。

事件を受けて、企業のリーダーは自分たちのプロセスをしっかりと見極める必要があると、Toptalソフトウェア製品開発マネージャーでRhinoSecurityLabsの元CTOであるAlexanderSereda氏は述べています。 「これがFacebookに起こる可能性がある場合、それはあなたにも起こる可能性があります」と彼は言います。

詳細はまだ明らかにされていませんが、Toptalの専門家は、上級リーダーがエピソードから学ぶことができるいくつかの重要な教訓を特定しました。その1つは、最先端のエンジニアリングでさえ人為的ミスによって元に戻すことができるということです。

停止後の数日間にFacebookがリリースした事後分析では、ネットワークをダウンさせる主な原因として、エンジニアがサーバープロトコル、特にBGPとやり取りするという人為的エラーが指摘されました。

会社の声明によると、「グローバルバックボーン容量の可用性を評価することを目的としてコマンドが発行されました。」 そのコマンドが何であり、どのようなエラーが含まれていたかはわかりませんが、Facebookは言っていません。 しかし、同社は「システムはこのようなミスを防ぐためにこのようなコマンドを監査するように設計されているが、その監査ツールのバグによりコマンドを適切に停止できなかった」と付け加えた。

同社はそのような問題をキャッチするために自動監査ツールを頼りにしていたため、この間違いは連鎖的な影響をもたらしました。

定期的な更新中に発行された誤ったコマンドにより、Facebookのバックボーン(データセンター間の光ファイバー接続の最上位ネットワーク)内のすべての接続が切断されました。 その時点で、ネットワークを介して利用可能なすべての経路のマッピングを担当する会社のBGPシステムは、会社のグローバルデータセンターへの有効なルートを見つけることができなくなりました。 これにより、Facebookはインターネットや会社独自の内部ネットワークから効果的に遮断されます。社内ネットワークもルーティング情報をBGPに依存しています。 自分の施設内にいるFacebookの従業員でさえも、誰もソーシャルネットワークをナビゲートできませんでした。

データセンターマネージャーの42%は、過去3年間に人為的ミスによるITの停止を経験しています。いくつかの一般的なエラーは、データセンタースタッフの実行、57%です。間違った手順、44%;不十分なメンテナンスまたは機器の調整、27%。インストールの問題、26%;不十分なスタッフ、22%;予防保守、20%;データセンターの設計または省略13%;およびその他のヒューマンエラー関連の障害、8%。
このデータは、Uptime Institute Data Center 2021ResiliencySurveyからのものです。

通常、更新情報がサーバー構成に追加されると、BGPは保存されたファイルから以前の場所をすべて複製し、Facebookをインターネットに接続するマッピングに新しい場所を追加します。 ただし、この場合、エンジニアがBGPバックアップを物理的に復元できるようになるまで、すべての場所が失われました。

「それは厳しい状況です。 障害につながる可能性のあるすべてのコマンドを防ぐことは常に困難です」と、企業がネットワークの信頼性を高めるのに20年以上の経験を持つToptalクラウドアーキテクト、開発者、およびGoogleの卒業生であるJamesNurmiは述べています。 「ルーターや複雑なデバイスを構成するという性質は、あるコンテキストでのコマンドがまさにあなたが望むものであるかもしれないが、別のコンテキストでのコマンドは災害につながる可能性があることを意味します。」

個人の過ちがFacebookの停止の中心にあったという事実は、その組織に固有の問題として却下されるべきではありません。 ヒューマンエラーは、ネットワーク停止の一般的な理由です。

Uptime Instituteは、Facebookが経験したようなデータ停止の範囲と結果に関する年次調査を公開しています。 COVID-19のパンデミックによりクラウドコンピューティングが大幅に増加した2020年には、データセンターの少なくとも42%が、ネットワークを操作する人のミスによりサーバー時間を失ったことがわかりました。インフラストラクチャまたはその他の技術的な欠点。

単一の内部ユーザーのエラーがFacebookのネットワークの大規模な崩壊を引き起こす可能性がある方法は、組織の高度なレベルのエンジニアリングに対する興味深い見解を提供します。 Facebookが今年初めに寄稿した学術研究論文によると、同社のエンジニアリングチームは、従来のアプローチと設計を再考することにより、ネットワーキングテクノロジーを可能な限り柔軟かつスケーラブルにすることに重点を置いています。 このホワイトペーパーでは、BGPの役割を、通常のルーティングプロトコルだけでなく、新しいサーバーやソフトウェアの更新を迅速に展開するためのツールにまで拡大した方法について詳しく説明しています。 ほぼ予言的に、このペーパーは、1つの誤ったコマンドがグローバルネットワークをシャットダウンする方法についてのロードマップのようなものも提供します。

Facebookの停止費用はいくらですか

昨年注目を集めた停止の大部分は、重要なシステムに影響を与えず、コラボレーションツール(Microsoft Teams、Zoomなど)、オンラインベッティングサイト、フィットネストラッカーの中断や速度低下など、ほとんどの場合不便な消費者やリモートワーカーに影響を与えました。 ただし、これらの停止を経験している企業にとって、収益の損失、生産性、および顧客の信頼という点での値札は重要でした。

Uptimeの前述のレポートにはさまざまなビジネスが含まれているため、停止のコストを一般化することは困難ですが、研究者は、ダウンタイムはローエンドで1時間あたり140,000ドルから、ハイエンドで1時間あたり540,000ドルにもなると見積もっています。 Fortuneの推定によると、Facebookの第2四半期の収益に基づくと、ソーシャルネットワークは10月4日の停止により、9,975万ドルの収益を失った可能性があります。

Facebookの2021年10月の停止、数字による。停止は開始から終了まで7.5時間続き、1分あたり推定221,666ドルの費用がかかり、合計で9,975万ドルの収益が失われました。
これらの見積もりは、Facebookの2021年第2四半期の91日間の収益290.8億ドルに基づいています。

Fortuneの見積もりは、停止が収益に与える潜在的な影響を理解するのに役立ちますが、実際の損失が何であるかは不明です、とデータサイエンティストのErik Stettler、Toptalのチーフエコノミスト、ベンチャー企業FirstrockCapitalの創設パートナーは述べています。 「見積もりは非常に直線的なアプローチを採用しました。 しかし、すべての時間単位が同じように代替可能であるとは限りません。Facebookの収益は、毎秒が1秒おきと同じ収益を生み出すと言うよりもはるかに複雑です」と彼は言います。

さらに、停止後にトラフィックが急増した場合、Facebookは損失の一部を取り戻した可能性があるとStettler氏は言います。 逆に、トラフィックが少ないままだった場合、会社はさらに多くを失った可能性があります。 明らかなことは、大規模なITの停止は企業に財政的影響を及ぼし、これらの障害に事前に備えることが重要であることです。 「どのテクノロジーも間違いです。 リスク管理では、何かが起こらないようにすることではなく、起こったときに準備を整え、その準備をビジネスプランの基本にすることです」と彼は言います。 「あなたのリーダーシップを示すのは、正しく行われる999日ではありません。うまくいかなかったのは、1000日のうちの1日です。」

Facebookの停止からの3つの重要な教訓

お客様にご迷惑をおかけしますが、セキュリティは最優先事項です

Facebookのシャットダウンは非常に迅速に発生しましたが、Facebookの内部ネットワーク通信も損なわれたこともあり、会社のすべてのサーバーがオンラインに戻るまでに7時間以上かかりました。 停止期間の延長は、Facebookとそのユーザーをハッカーやその他のサイバーセキュリティの脅威から保護するために実施された厳格なセキュリティ手順によるものでもありました。 これらのポリシーには、リモートアクセスのない厳格な官僚主義と、会社のネットワーク運用を再開するために必要なシステムに直接アクセスする権限を与えられた少数の個人のみが含まれます。

安全なネットワークとエンタープライズプラットフォームの構築と保守に20年以上の経験を持つToptal開発者であるAlexanderAvanesovによると、Facebookのシステムの再起動の遅れは、その日の会社にとって実際にうまくいったことの1つでした。

「残念ながら、迅速な対応と完全なセキュリティの両方を実現する方法はありません」と彼は言います。 Facebookは、Facebook自体またはその顧客を侵害にさらしておらず、1人のユーザーを失うことはない可能性が高いため、この意味で、Facebookはすべてを正しく行ったとAvanesov氏は言います。 「このような複雑なシステムをインストールしなかった場合、セキュリティ違反のリスクが高まります。」

迅速な対応とセキュリティの間のこの内部交渉は、ネットワークに依存してコア収益源と接続する企業にとって必要であると彼は言います。 競争の激しい市場にある中小企業や企業にとって、ダウンタイムは顧客との取引を妨げる可能性があります。 ただし、応答が速いということは、重要なシステムにアクセスするためのセキュリティバリアが低いことを意味する場合があります。

カスタムの回避策は、会社がより迅速に対応するのに役立ちます

ヒューマンエラーをリスクとして完全に排除することはできませんが、Facebookの場合と同じように、ミスがネットワーク全体を一掃する可能性を減らすために、小規模な操作を行う方法があります。 「このような状況で私が見た最善の解決策は、本質的にデッドマンスイッチであるものでデバイスを構成することです」と彼は言います。 「変更を有効にしますが、永続的に保存される前に、タイマーが設定されます。 構成が一定期間確認されない場合、構成は元に戻されます。」

このような状況でも、ダウンタイムのリスクがありますが、必要なレベルの内部レビューのすべてで壊滅的なエラーが発生したとしても、その停止は数時間ではなく数分続く可能性が高いと彼は言います。

ITチームの教育に時間とお金を投資します。 より適切なトレーニングを受けたスタッフを配置することは、ネットワークの停止に対する準備と対応を強化するための最も簡単で費用効果の高い方法です。

インフラストラクチャへの高レベルの外部アクセスを許可せずに、停止への応答時間を短縮できるセキュリティプロトコルを探している企業には、いくつかの追加オプションがあります。 データのリモートハッキングのリスクを回避するためにオンサイト担当者のワンタイムパスワードを生成できるシステムは、サーバーアクセスのレベルが高いITスタッフの到着を待つ必要をなくすことができるとAvanesov氏は言います。 これらのタイプの回避策をネットワークに組み込むことは手頃な価格であり、統合するのにそれほど負担がかからない、と彼は言います。 ただし、オンサイトの担当者は、重大な停止の原因となるエラーを解決するための専門知識を必要としています。

最高の結果を得るには、最悪の事態に備える

欧州委員会、レゴ、パブリシスワールドワイドの安全なネットワークを構築および管理してきたToptalの開発者であるAustin Dimmerは、ネットワークの問題やその他の潜在的な壊滅的なイベントの詳細なシミュレーションを実行することは、危機的状況で生き残るために不可欠です。 ネットワークの崩壊に対応する際の準備は、被害を制限し、再発する問題を回避するための鍵となる可能性があります。

クラッシュ後の回復手順に関するFacebookの声明は、危機に陥ったときの会社の準備の中で重要な強みを示していると、DimmerはToptalInsightsに語っています。 「彼らは自分たちが何をしているかを正確に知っていました」と彼は言います。 「データセンターの過負荷や火災の可能性があるため、すべてをオンラインに戻すことは非常に危険でしたが、さまざまな災害状況のシミュレーションを実践していたため、Facebookのチームはそのストレスに対処する準備が整っていました。状況に応じて、ネットワークを安全かつ正しい方法で復元できる自信があります。」

ディマーは、最近ランサムウェア攻撃を受けた彼のクライアントを指しています。 DimmerとITチームはほんの数週間前にそのシナリオを実行していたため、会社のバックアップデータが安全であることを知っていました。 彼は、クライアントがハッカーにお金を払わずに先に進むことを勧めました。 クライアントは、その運用に影響を与えることなく違反から回復し、サイバー泥棒の給料日はありませんでした。

どのようなセキュリティ許容度と災害対策計画が実施されていても、経営幹部は企業のITチームの教育に時間とお金を投資する必要があります。 Uptime Instituteは、より適切なトレーニングを受けたスタッフを配置することが、組織のネットワーク問題への準備と対応を促進するための最も簡単で費用効果の高い方法であることを発見しました。 ネットワーク停止の主な原因であるヒューマンエラーは、多くの場合、不適切なプロセスまたはすでに実施されているプロセスに従わなかったことが原因です。

ネットワークの停止は避けられません。 財務的および評判への影響を最小限に抑えるために、企業のリーダーはその事実を受け入れ、十分に前もって準備する必要があります。 セキュリティ、準備、対応について意図的な意思決定を行うことで、組織はフォールアウトを最小限に抑え、自信を持って危機から回復へと移行することができます。

ToptalのシニアライターであるMichaelMcDonaldがこのレポートに寄稿しました。