Facebook 從互聯網上消失的那一天,每位高管都需要知道什麼

已發表: 2022-03-11

除了 CTO,大多數高管都沒有足夠的時間深入參與技術網絡運營。 因此,對於領導者來說,在 1989 年的一次技術會議上得知他們公司的整個網絡功能,無論是內部還是外部,都運行在一個寫在兩張酒吧餐巾紙上的單一協議上,這可能會讓他們感到驚訝,也可能是一個擔憂。

它被稱為邊界網關協議或 BGP。 它決定了服務器上所有流量的路由,我們用於導航從社交媒體、電子郵件和雲驅動器到掃描辦公室安全門的入口卡等所有內容。 BGP 是每個網絡正常運行所依賴的——包括您公司的網絡。 這是在 2021 年 10 月 4 日星期一關閉所有 Facebook 內部和外部網絡的關鍵。

Facebook 中斷是如何發生的

Facebook 不僅僅是世界上最大的社交網絡。 它是一個技術龐然大物。 該網站的 30 億活躍用戶每天產生數百萬 GB 的數據,需要 17 個龐大的全球數據中心和復雜的架構來支撐其龐大的數字帝國。

這家科技巨頭在某些方面本身就是一個國家,長期以來一直是網絡工程和創新的領導者。 但這並不意味著它不會受到中斷的影響,正如 10 月 4 日所證明的那樣,全世界目睹了 Facebook 的整個網絡癱瘓了 7 個多小時。 在一個永遠在線的全球經濟中,這是永恆的——而且可能使公司損失了大約 1 億美元的收入。

Toptal 軟件產品開發經理、Rhino Security Labs 前首席技術官 Alexander Sereda 表示,事件發生後,公司領導者需要認真審視自己的流程。 “如果這可能發生在 Facebook 上,它也可能發生在你身上,”他說。

雖然所有細節尚未浮出水面,但 Toptal 專家已經確定了高級領導者可以從這一事件中吸取的幾個重要教訓,其中之一是即使是最前沿的工程也可能因人為錯誤而被撤銷。

Facebook 在中斷後幾天發布的事後分析指出,人為錯誤——工程師與其服務器協議的交互,特別是 BGP——是導致其網絡癱瘓的罪魁禍首。

根據公司聲明,“發布了一項命令,旨在評估全球骨幹網容量的可用性。” 該命令是什麼以及它包含什麼錯誤,我們不知道,Facebook 也沒有說。 但該公司確實補充說,其“系統旨在審核此類命令以防止此類錯誤,但該審核工具中的一個錯誤使其無法正確停止該命令。”

該錯誤產生了級聯後果,因為該公司顯然是指望使用自動審計工具來發現此類問題。

在例行更新期間發出的錯誤命令切斷了 Facebook 骨幹網(其數據中心之間的頂級光纖連接網絡)內的所有連接。 那時,公司的 BGP 系統(負責映射通過其網絡的所有可用路徑)無法再定位到公司全球數據中心的任何有效路由。 這有效地切斷了 Facebook 與互聯網和公司自己的內部網絡的聯繫,後者也依賴 BGP 來獲取路由信息。 沒有人可以瀏覽社交網絡,即使是在自己設施內的 Facebook 員工也不行。

在過去三年中,42% 的數據中心經理因人為錯誤而經歷過 IT 中斷。一些常見的錯誤是數據中心員工的執行,57%;程序不正確,44%;維護或設備調整不足,27%;安裝問題,26%;人員不足,22%;預防性維護,20%;數據中心設計或遺漏 13%;和其他與人為錯誤相關的故障,8%。
該數據來自 Uptime Institute 數據中心 2021 年彈性調查。

通常,當將更新信息添加到服務器配置時,BGP 會從存儲的文件中復制其所有以前的位置,並將任何新位置添加到將 Facebook 連接到 Internet 的映射中。 但在這種情況下,所有位置都丟失了,直到工程師可以物理恢復 BGP 備份。

“這是一個艱難的局面。 Toptal 雲架構師、開發人員和谷歌校友 James Nurmi 說,他總是很難阻止每一個可能導致失敗的命令,他在幫助公司提高網絡可靠性方面擁有超過 20 年的經驗。 “配置路由器或任何復雜設備的性質意味著,在一個上下文中的命令可能正是您想要的,但在不同的上下文中可能會導致災難。”

個人的錯誤是 Facebook 中斷的核心,這一事實不應被視為其組織獨有的問題。 人為錯誤是網絡中斷的常見原因。

Uptime Institute 發布了一項關於數據中斷的範圍和後果的年度研究,例如 Facebook 經歷的數據中斷。 2020 年是由於 COVID-19 大流行而導致雲計算大幅增長的一年,該報告發現,至少 42% 的數據中心由於與網絡交互的人的錯誤而丟失了服務器時間,而不是基礎設施或其他技術缺陷。

單個內部用戶的錯誤如何導致 Facebook 網絡的全面崩潰,這為了解該組織的高級工程水平提供了一個有趣的視角。 根據 Facebook 今年早些時候提供的學術研究論文,該公司的工程團隊致力於通過重新思考傳統方法和設計,使其網絡技術盡可能靈活和可擴展。 該論文詳細介紹了該公司如何將 BGP 的作用從典型的路由協議擴展到快速部署新服務器和軟件更新的工具。 幾乎可以預見,該論文還為一個錯誤的命令如何關閉全球網絡提供了一些路線圖。

Facebook 的停機成本是多少

去年成為頭條新聞的大多數中斷並未影響關鍵系統,主要是給消費者和遠程工作人員帶來不便,例如協作工具(例如 Microsoft Teams、Zoom)、在線投注網站和健身追踪器的中斷或減速。 然而,對於經歷這些中斷的公司來說,在收入、生產力和客戶信任方面的損失是巨大的。

儘管由於 Uptime 上述報告中包含的業務種類繁多,很難概括停機的成本,但研究人員估計,停機時間的成本可能從低端的每小時 140,000 美元到高端的每小時 540,000 美元不等。 根據《財富》雜誌的估計,根據 Facebook 第二季度的收益,該社交網絡可能由於 10 月 4 日的中斷而損失了 9975 萬美元的收入。

Facebook 的 2021 年 10 月停電,按數字計算。中斷從開始到結束持續了 7.5 小時,估計每分鐘損失 221,666 美元,總收入損失為 9975 萬美元。
這些估計是基於 Facebook 2021 年第二季度 91 天的收入 290.8 億美元。

Toptal 的首席經濟學家、風險投資公司 Firstrock Capital 的創始合夥人、數據科學家 Erik Stettler 指出,《財富》的估計有助於了解中斷對收入的潛在影響,但目前尚不清楚實際損失是多少。 “估計採用了非常線性的方法。 但並不是所有的時間單位都是同等可替代的,Facebook 的收入比說每一秒產生的收入與其他每一秒的收入相同要復雜得多,”他說。

更重要的是,如果中斷後流量激增,Facebook 可能已經彌補了部分損失,Stettler 說。 相反,如果流量保持低位,公司可能會損失更多。 很明顯,一次重大的 IT 中斷會對企業產生財務影響,提前為這些故障做好準備是關鍵。 “任何技術都會出錯。 風險管理不是要確保某事永遠不會發生,而是要在發生時做好準備,並使這種準備成為您業務計劃的基礎,”他說。 “這不是 999 天順利,這表明了你的領導能力——而是千分之一的日子不順利。”

Facebook 中斷的 3 個關鍵教訓

安全是最重要的,即使它給客戶帶來不便

雖然 Facebook 的關閉發生得非常快,但該公司的所有服務器需要 7 個多小時才能重新上線,部分原因是 Facebook 的內部網絡通信也受到了損害。 停機時間延長也是由於採取了嚴格的安全程序來保護 Facebook 及其用戶免受黑客和其他網絡安全威脅。 這些政策包括嚴密的官僚機構,沒有遠程訪問權限,只有少數人有權親自訪問重啟公司網絡運營所需的系統。

根據擁有 20 多年構建和維護安全網絡和企業平台經驗的 Toptal 開發人員 Alexander Avanesov 的說法,重新啟動 Facebook 系統的延遲是當天對公司來說真正正確的一件事。

“不幸的是,沒有辦法同時具備快速反應和完全的安全性,”他說。 阿瓦內索夫說,Facebook 沒有將自己或其客戶暴露在漏洞中,而且很可能不會失去一個用戶,因此從這個意義上說,該公司做的一切都是正確的。 “如果他們不安裝如此復雜的系統,他們就會面臨更大的安全漏洞風險。”

他說,對於任何依賴網絡連接其核心收入來源的公司來說,這種快速反應和安全性之間的內部協商都是必要的。 對於競爭更激烈的市場中的小型公司或企業來說,停機時間可能會破壞與客戶的交易。 然而,更快的響應有時意味著訪問關鍵系統的安全屏障更低。

自定義變通辦法可以幫助您的公司更快地響應

Nurmi 說,雖然人為錯誤永遠無法完全消除風險,但有一些方法可以讓小規模的操作減少錯誤可能像 Facebook 那樣席捲整個網絡的可能性。 “對於這種情況,我見過的最佳解決方案是讓設備配置有本質上是死人開關的東西,”他說。 “您激活您的更改,但在永久保存之前,會設置一個計時器。 如果在某個時間段內未確認配置,則將恢復配置。”

他說,即使在這種情況下,也存在停機風險,但停機可能會持續幾分鐘而不是幾小時——即使災難性錯誤通過了所有必要級別的內部審查。

投入時間和金錢來培訓您的 IT 團隊。 擁有訓練有素的員工是提高您對網絡中斷的準備和響應的最簡單、最具成本效益的方法。

對於尋求安全協議的公司來說,還有一些額外的選擇,這些協議允許更快地響應中斷,而不允許對其基礎設施進行高級別的外部訪問。 Avanesov 說,可以為現場人員生成一次性密碼以避免遠程數據被黑客入侵的風險的系統可以避免等待具有更高級別服務器訪問權限的 IT 人員到達的需要。 他說,將這些類型的變通方法構建到網絡中是負擔得起的,而且集成起來也不會太繁瑣。 但是,現場人員仍然需要專業知識來解決導致嚴重中斷的錯誤。

為了獲得最好的結果,為最壞的情況做準備

為歐盟委員會、樂高和陽獅全球建立和管理安全網絡的 Toptal 開發人員 Austin Dimmer 表示,對網絡問題和其他潛在的災難性事件進行詳細的模擬對於在危機情況下生存至關重要。 應對網絡崩潰時的準備可能是限制損害和避免再次出現問題的關鍵。

Dimmer 告訴 Toptal Insights,Facebook 就墜機後的恢復程序發表的聲明顯示了該公司為應對危機做好準備的重要力量。 “他們確切地知道自己在做什麼,”他說。 “由於數據中心可能超載甚至發生火災,將其全部恢復在線是非常冒險的,但由於他們已經模擬了不同的災難情況,Facebook 的團隊已經做好了應對這種壓力的充分準備並有信心以安全和正確的方式恢復網絡。”

Dimmer 指出他的一個客戶最近遭到勒索軟件攻擊。 由於 Dimmer 和 IT 團隊僅在幾週前經歷了這種情況,他知道公司的備份數據是安全的。 他建議客戶不要付錢給黑客並繼續前進; 客戶從違規中恢復過來,對其運營沒有影響,並且網絡竊賊沒有發薪日。

無論制定了何種安全容忍度和災難準備計劃,執行領導層都必須投入時間和金錢來教育公司 IT 團隊。 Uptime Institute 發現,擁有訓練有素的員工是提高組織對網絡問題的準備和響應的最簡單、最具成本效益的方法。 人為錯誤是網絡中斷的主要原因,通常是由於流程不足或未能遵循現有流程。

網絡中斷是不可避免的。 為了最大限度地減少財務和聲譽影響,公司領導者必須接受這一事實,並提前做好準備。 做出有關安全、準備和響應的有意識決策有助於組織最大限度地減少後果,並充滿信心地從危機轉向恢復。

Toptal 高級作家邁克爾麥克唐納為本報告做出了貢獻。