Facebook 从互联网上消失的那一天,每位高管都需要知道什么

已发表: 2022-03-11

除了 CTO,大多数高管都没有足够的时间深入参与技术网络运营。 因此,对于领导者来说,在 1989 年的一次技术会议上得知他们公司的整个网络功能,无论是内部还是外部,都运行在一个写在两张酒吧餐巾纸上的单一协议上,这可能会让他们感到惊讶,也可能是一个担忧。

它被称为边界网关协议或 BGP。 它决定了服务器上所有流量的路由,我们用于导航从社交媒体、电子邮件和云驱动器到扫描办公室安全门的入口卡等所有内容。 BGP 是每个网络正常运行所依赖的——包括您公司的网络。 这是在 2021 年 10 月 4 日星期一关闭所有 Facebook 内部和外部网络的关键。

Facebook 中断是如何发生的

Facebook 不仅仅是世界上最大的社交网络。 它是一个技术庞然大物。 该网站的 30 亿活跃用户每天产生数百万 GB 的数据,需要 17 个庞大的全球数据中心和复杂的架构来支撑其庞大的数字帝国。

这家科技巨头在某些方面本身就是一个国家,长期以来一直是网络工程和创新的领导者。 但这并不意味着它不会受到中断的影响,正如 10 月 4 日所证明的那样,全世界目睹了 Facebook 的整个网络瘫痪了 7 个多小时。 在一个永远在线的全球经济中,这是永恒的——而且可能使公司损失了大约 1 亿美元的收入。

Toptal 软件产品开发经理、Rhino Security Labs 前首席技术官 Alexander Sereda 表示,事件发生后,公司领导者需要认真审视自己的流程。 “如果这可能发生在 Facebook 上,它也可能发生在你身上,”他说。

虽然所有细节尚未浮出水面,但 Toptal 专家已经确定了高级领导者可以从这一事件中吸取的几个重要教训,其中之一是即使是最前沿的工程也可能因人为错误而被撤销。

Facebook 在中断后几天发布的事后分析指出,人为错误——工程师与其服务器协议,特别是 BGP 的交互——是导致其网络瘫痪的罪魁祸首。

根据公司声明,“发布了一项命令,旨在评估全球骨干网容量的可用性。” 该命令是什么以及它包含什么错误,我们不知道,Facebook 也没有说。 但该公司确实补充说,其“系统旨在审核此类命令以防止此类错误,但该审核工具中的一个错误使其无法正确停止该命令。”

该错误产生了级联后果,因为该公司显然是指望使用自动审计工具来发现此类问题。

在例行更新期间发出的错误命令切断了 Facebook 骨干网(其数据中心之间的顶级光纤连接网络)内的所有连接。 那时,公司的 BGP 系统(负责映射通过其网络的所有可用路径)无法再定位到公司全球数据中心的任何有效路由。 这有效地切断了 Facebook 与互联网和公司自己的内部网络的联系,后者也依赖 BGP 来获取路由信息。 没有人可以浏览社交网络,即使是在自己设施内的 Facebook 员工也不行。

在过去三年中,42% 的数据中心经理因人为错误而经历过 IT 中断。一些常见的错误是数据中心员工的执行,57%;程序不正确,44%;维护或设备调整不足,27%;安装问题,26%;人员不足,22%;预防性维护,20%;数据中心设计或遗漏 13%;和其他与人为错误相关的故障,8%。
该数据来自 Uptime Institute 数据中心 2021 年弹性调查。

通常,当将更新信息添加到服务器配置时,BGP 将从存储的文件中复制其所有以前的位置,并将任何新位置添加到将 Facebook 连接到互联网的映射中。 但在这种情况下,所有位置都丢失了,直到工程师可以物理恢复 BGP 备份。

“这是一个艰难的局面。 Toptal 云架构师、开发人员和谷歌校友 James Nurmi 说,他总是很难阻止每一个可能导致失败的命令,他在帮助公司提高网络可靠性方面拥有超过 20 年的经验。 “配置路由器或任何复杂设备的性质意味着,在一个上下文中的命令可能正是您想要的,但在不同的上下文中可能会导致灾难。”

个人的错误是 Facebook 中断的核心,这一事实不应被视为其组织独有的问题。 人为错误是网络中断的常见原因。

Uptime Institute 发布了一项关于数据中断的范围和后果的年度研究,例如 Facebook 经历的数据中断。 2020 年是由于 COVID-19 大流行而导致云计算大幅增长的一年,该报告发现,至少 42% 的数据中心由于与网络交互的人的错误而丢失了服务器时间,而不是基础设施或其他技术缺陷。

单个内部用户的错误如何导致 Facebook 网络的全面崩溃,这为了解该组织的高级工程水平提供了一个有趣的视角。 根据 Facebook 今年早些时候提供的学术研究论文,该公司的工程团队致力于通过重新思考传统方法和设计,使其网络技术尽可能灵活和可扩展。 该论文详细介绍了该公司如何将 BGP 的作用从典型的路由协议扩展到快速部署新服务器和软件更新的工具。 几乎可以预见,该论文还为一个错误的命令如何关闭全球网络提供了一些路线图。

Facebook 的停机成本是多少

去年成为头条新闻的大多数中断并未影响关键系统,主要是给消费者和远程工作人员带来不便,例如协作工具(例如 Microsoft Teams、Zoom)、在线投注网站和健身追踪器的中断或减速。 然而,对于经历这些中断的公司来说,在收入、生产力和客户信任方面的损失是巨大的。

尽管由于 Uptime 上述报告中包含的业务种类繁多,很难概括停机的成本,但研究人员估计,停机时间的成本可能从低端的每小时 140,000 美元到高端的每小时 540,000 美元不等。 根据《财富》杂志的估计,根据 Facebook 第二季度的收益,该社交网络可能由于 10 月 4 日的中断而损失了 9975 万美元的收入。

Facebook 的 2021 年 10 月停电,按数字计算。中断从开始到结束持续了 7.5 小时,估计每分钟损失 221,666 美元,总收入损失为 9975 万美元。
这些估计是基于 Facebook 2021 年第二季度 91 天的收入 290.8 亿美元。

Toptal 的首席经济学家、风险投资公司 Firstrock Capital 的创始合伙人、数据科学家 Erik Stettler 指出,《财富》的估计有助于了解中断对收入的潜在影响,但目前尚不清楚实际损失是多少。 “估计采用了非常线性的方法。 但并不是所有的时间单位都是同等可替代的,Facebook 的收入比说每一秒产生的收入与其他每一秒的收入相同要复杂得多,”他说。

更重要的是,如果中断后流量激增,Facebook 可能已经弥补了部分损失,Stettler 说。 相反,如果流量保持低位,公司可能会损失更多。 很明显,一次重大的 IT 中断会对企业产生财务影响,提前为这些故障做好准备是关键。 “任何技术都会出错。 风险管理不是要确保某事永远不会发生,而是要在发生时做好准备,并使这种准备成为您业务计划的基础,”他说。 “这不是 999 天顺利,这表明了你的领导能力——而是千分之一的日子不顺利。”

Facebook 中断的 3 个关键教训

安全是最重要的,即使它给客户带来不便

虽然 Facebook 的关闭发生得非常快,但该公司的所有服务器都需要 7 个多小时才能重新上线,部分原因是 Facebook 的内部网络通信也受到了损害。 停机时间延长也是由于采取了严格的安全程序来保护 Facebook 及其用户免受黑客和其他网络安全威胁。 这些政策包括严密的官僚机构,没有远程访问权限,只有少数人有权亲自访问重启公司网络运营所需的系统。

根据拥有 20 多年构建和维护安全网络和企业平台经验的 Toptal 开发人员 Alexander Avanesov 的说法,重新启动 Facebook 系统的延迟是当天对公司来说真正正确的一件事。

“不幸的是,没有办法同时具备快速反应和完全的安全性,”他说。 阿瓦内索夫说,Facebook 没有将自己或其客户暴露在漏洞中,而且很可能不会失去一个用户,因此从这个意义上说,该公司做的一切都是正确的。 “如果他们不安装如此复杂的系统,他们就会面临更大的安全漏洞风险。”

他说,对于任何依赖网络连接其核心收入来源的公司来说,这种快速反应和安全性之间的内部协商都是必要的。 对于竞争更激烈的市场中的小型公司或企业来说,停机时间可能会破坏与客户的交易。 然而,更快的响应有时意味着访问关键系统的安全屏障更低。

自定义变通办法可以帮助您的公司更快地响应

Nurmi 说,虽然人为错误永远无法完全消除风险,但有一些方法可以让小规模运营减少错误可能像 Facebook 那样席卷整个网络的可能性。 “对于这种情况,我见过的最佳解决方案是让设备配置有本质上是死人开关的东西,”他说。 “您激活您的更改,但在永久保存之前,会设置一个计时器。 如果在某个时间段内未确认配置,则将恢复配置。”

他说,即使在这种情况下,也存在停机风险,但停机可能会持续几分钟而不是几小时——即使一个灾难性错误通过了所有必要级别的内部审查。

投入时间和金钱来培训您的 IT 团队。 拥有训练有素的员工是提高您对网络中断的准备和响应的最简单、最具成本效益的方法。

对于寻求安全协议的公司来说,还有一些额外的选择,这些协议允许更快地响应中断,而不允许对其基础设施进行高级别的外部访问。 Avanesov 说,可以为现场人员生成一次性密码以避免远程数据被黑客入​​侵的风险的系统可以避免等待具有更高级别服务器访问权限的 IT 人员到达的需要。 他说,将这些类型的变通方法构建到网络中是负担得起的,而且集成起来也不会太繁琐。 但是,现场人员仍然需要专业知识来解决导致严重中断的错误。

为了获得最好的结果,为最坏的情况做准备

为欧盟委员会、乐高和阳狮全球建立和管理安全网络的 Toptal 开发人员 Austin Dimmer 表示,对网络问题和其他潜在的灾难性事件进行详细的模拟对于在危机情况下生存至关重要。 应对网络崩溃时的准备可能是限制损害和避免再次出现问题的关键。

Dimmer 告诉 Toptal Insights,Facebook 就坠机后的恢复程序发表的声明显示了该公司为应对危机做好准备的重要力量。 “他们确切地知道自己在做什么,”他说。 “由于数据中心可能超载甚至发生火灾,将其全部恢复在线是非常冒险的,但由于他们已经模拟了不同的灾难情况,Facebook 的团队已经做好了应对这种压力的充分准备并有信心以安全和正确的方式恢复网络。”

Dimmer 指出他的一个客户最近遭到勒索软件攻击。 由于 Dimmer 和 IT 团队仅在几周前经历了这种情况,他知道公司的备份数据是安全的。 他建议客户不要付钱给黑客并继续前进; 客户从违规中恢复过来,对其运营没有影响,并且网络窃贼没有发薪日。

无论制定了何种安全容忍度和灾难准备计划,执行领导层都必须投入时间和金钱来教育公司 IT 团队。 Uptime Institute 发现,拥有训练有素的员工是提高组织对网络问题的准备和响应的最简单、最具成本效益的方法。 人为错误是网络中断的主要原因,通常是由于流程不足或未能遵循现有流程。

网络中断是不可避免的。 为了最大限度地减少财务和声誉影响,公司领导者必须接受这一事实,并提前做好准备。 做出有关安全、准备和响应的有意识决策有助于组织最大限度地减少后果,并充满信心地从危机转向恢复。

Toptal 高级作家迈克尔麦克唐纳为本报告做出了贡献。