Lo que todo ejecutivo debe saber sobre el día en que Facebook desapareció de Internet

Publicado: 2022-03-11

Aparte del CTO, la mayoría de los ejecutivos no tienen el ancho de banda para participar profundamente en las operaciones técnicas de la red. Por lo tanto, puede ser una sorpresa, y tal vez una preocupación, que los líderes se enteren de que toda la funcionalidad de la red de sus empresas, tanto interna como externa, se ejecuta en un solo protocolo escrito en dos servilletas en una conferencia de tecnología en 1989.

Se llama protocolo de puerta de enlace fronteriza o BGP. Determina el enrutamiento de todo el tráfico en los servidores que usamos para navegar todo, desde redes sociales, correo electrónico y unidades en la nube hasta escanear tarjetas de entrada en las puertas de seguridad de la oficina. BGP es de lo que depende cada red para funcionar correctamente, incluidas las de su empresa. Esta fue la pieza clave que derribó todas las redes internas y externas de Facebook el lunes 4 de octubre de 2021.

Cómo ocurrió la interrupción de Facebook

Facebook es más que la red social más grande del mundo. Es un gigante tecnológico. Los 3 mil millones de usuarios activos del sitio generan millones de gigabytes de datos todos los días, lo que requiere 17 centros de datos globales masivos y una arquitectura sofisticada que sustenta su vasto imperio digital.

El gigante tecnológico es, de alguna manera, una nación en sí mismo y ha sido durante mucho tiempo un líder en ingeniería e innovación de redes. Pero eso no significa que no sea vulnerable a los cortes, como se demostró el 4 de octubre cuando el mundo vio cómo la red completa de Facebook caía durante más de siete horas. Eso es una eternidad en una economía global siempre activa, y una que puede haberle costado a la empresa unos ingresos estimados de 100 millones de dólares.

A raíz del incidente, los líderes de la empresa deben analizar detenidamente sus propios procesos, dice Alexander Sereda, gerente de desarrollo de productos de software de Toptal y ex director de tecnología de Rhino Security Labs. “Si esto le puede pasar a Facebook, te puede pasar a ti”, dice.

Si bien aún no se conocen todos los detalles, los expertos de Toptal han identificado varias lecciones importantes que los líderes sénior pueden aprender del episodio, una de las cuales es que incluso la ingeniería más avanzada aún puede ser deshecha por un error humano.

La autopsia publicada por Facebook en los días posteriores a su interrupción señaló un error humano (la interacción de un ingeniero con los protocolos de su servidor, específicamente BGP) como el culpable central de la caída de su red.

Según el comunicado de la compañía, “se emitió un comando con la intención de evaluar la disponibilidad de la capacidad de la red troncal global”. Cuál fue ese comando y qué error contenía, no lo sabemos, y Facebook no lo dice. Pero la compañía agregó que sus "sistemas están diseñados para auditar comandos como estos para evitar errores como este, pero un error en esa herramienta de auditoría impidió que detuviera correctamente el comando".

El error produjo ramificaciones en cascada porque la empresa aparentemente contaba con una herramienta de auditoría automatizada para detectar ese problema.

El comando erróneo, emitido durante una actualización de rutina, cortó todas las conexiones dentro de la columna vertebral de Facebook: la red de conexiones de fibra óptica de nivel superior entre sus centros de datos. En ese momento, el sistema BGP de la empresa, que es responsable de mapear todas las rutas disponibles a través de su red, ya no pudo ubicar ninguna ruta válida hacia los centros de datos globales de la empresa. Esto aisló efectivamente a Facebook de Internet y de la propia red interna de la empresa, que también depende de BGP para enrutar la información. Nadie podía navegar por la red social, ni siquiera los empleados de Facebook dentro de sus propias instalaciones.

El 42% de los administradores de centros de datos han experimentado una interrupción de TI debido a un error humano en los últimos tres años. Algunos errores comunes son la ejecución del personal del centro de datos, 57%; procedimientos incorrectos, 44%; mantenimiento inadecuado o ajustes de equipos, 27%; problemas de instalación, 26%; personal insuficiente, 22%; mantenimiento preventivo, 20%; diseño u omisiones del centro de datos 13%; y otras fallas relacionadas con errores humanos, 8%. — Estos datos provienen de la Encuesta de resiliencia 2021 del centro de datos de Uptime Institute.

Por lo general, cuando se agrega información de actualización a la configuración de un servidor, BGP duplicará todas sus ubicaciones anteriores de los archivos almacenados y agregará las nuevas al mapeo que conecta a Facebook con Internet. Pero en este caso, todas las ubicaciones se perdieron hasta que los ingenieros pudieron restaurar físicamente las copias de seguridad de BGP.

“Es una situación difícil. Siempre va a ser difícil evitar cada comando que podría conducir a una falla”, dice James Nurmi, un arquitecto de nube de Toptal, desarrollador y ex alumno de Google que tiene más de dos décadas de experiencia ayudando a las empresas a aumentar la confiabilidad de la red. “La naturaleza de configurar un enrutador, o cualquier dispositivo complejo, significa que un comando en un contexto puede ser exactamente lo que desea, pero en otro diferente podría provocar un desastre”.

El hecho de que el error de una persona individual estuviera en el corazón de la interrupción de Facebook no debe descartarse como un problema exclusivo de su organización. El error humano es una razón común para las interrupciones de la red.

El Uptime Institute publica un estudio anual sobre el alcance y las consecuencias de las interrupciones de datos como la que experimentó Facebook. En 2020, un año que vio un gran aumento en la computación en la nube debido a la pandemia de COVID-19, el informe encontró que al menos el 42% de los centros de datos perdieron tiempo del servidor debido a un error cometido por una persona que interactuaba con la red, no un infraestructura u otras deficiencias técnicas.

Cómo el error de un solo usuario interno podría causar un colapso total de las redes de Facebook ofrece una visión interesante del nivel avanzado de ingeniería en la organización. El equipo de ingeniería de la compañía se enfoca en hacer que su tecnología de red sea lo más flexible y escalable posible mediante el replanteamiento de los enfoques y diseños tradicionales, según un artículo de investigación académica al que Facebook contribuyó a principios de este año. El documento detalla cómo la empresa ha ampliado el papel de BGP más allá de un protocolo de enrutamiento típico a una herramienta para implementar rápidamente nuevos servidores y actualizaciones de software. Casi proféticamente, el documento también proporciona una especie de hoja de ruta sobre cómo un comando errante podría cerrar una red global.

¿Cuánto cuesta la interrupción de Facebook?

La mayoría de las interrupciones que aparecieron en los titulares el año pasado no afectaron los sistemas críticos y en su mayoría incomodaron a los consumidores y trabajadores remotos, como interrupciones o ralentizaciones de las herramientas de colaboración (por ejemplo, Microsoft Teams, Zoom), sitios de apuestas en línea y rastreadores de actividad física. Sin embargo, para las empresas que experimentaron estos cortes, el precio en términos de pérdida de ingresos, productividad y confianza del cliente fue significativo.

Aunque generalizar el costo de una interrupción es difícil debido a la variedad de negocios incluidos en el informe de Uptime antes mencionado, los investigadores estiman que el tiempo de inactividad puede costar desde $140 000 por hora en el extremo inferior hasta $540 000 por hora en el extremo superior. Según las ganancias del segundo trimestre de Facebook, la red social puede haber perdido $99,75 millones en ingresos debido a su interrupción el 4 de octubre, según estimaciones de Fortune.

La interrupción de Facebook en octubre de 2021, según los números. La interrupción duró 7,5 horas de principio a fin y tuvo un costo estimado de $221 666 por minuto, lo que suma un total de $99,75 millones en ingresos perdidos. — Estas estimaciones se basan en las ganancias del segundo trimestre de 2021 de Facebook de $ 29,08 mil millones durante un período de 91 días.

Las estimaciones de Fortune son útiles para comprender el efecto potencial de la interrupción en los ingresos, pero no está claro cuáles son las pérdidas reales, señala el científico de datos Erik Stettler, economista jefe de Toptal y socio fundador de la empresa de riesgo Firstrock Capital. “Las estimaciones tomaron un enfoque muy lineal. Pero no todas las unidades de tiempo son igualmente intercambiables, y los ingresos de Facebook son mucho más complejos que decir que cada segundo genera los mismos ingresos que cualquier otro segundo”, dice.

Es más, si el tráfico se disparó después de la interrupción, es posible que Facebook haya recuperado parte de las pérdidas, dice Stettler. Por el contrario, si el tráfico se mantuviera bajo, la empresa podría haber perdido más. Lo que está claro es que una interrupción importante de TI tiene repercusiones fiscales para las empresas, y es fundamental prepararse para estas fallas con anticipación. “Cualquier tecnología es falible. Con la gestión de riesgos no se trata de asegurarse de que algo nunca suceda, sino de estar preparado cuando suceda y hacer que esa preparación sea fundamental para su plan de negocios”, dice. “No son los 999 días que salen bien los que muestran tu liderazgo, es el día entre mil que no salió bien”.

3 lecciones clave de la interrupción de Facebook

La seguridad es primordial, incluso cuando incomoda a los clientes

Si bien el cierre de Facebook se produjo muy rápidamente, todos los servidores de la empresa tardaron más de siete horas en volver a estar en línea, en parte porque las comunicaciones de la red interna de Facebook también se vieron afectadas. El período prolongado de la interrupción también se debió a los estrictos procedimientos de seguridad implementados para proteger a Facebook y a sus usuarios de los piratas informáticos y otras amenazas de seguridad cibernética. Estas políticas incluyen una burocracia estricta sin acceso remoto y solo unas pocas personas autorizadas para acceder a los sistemas necesarios para reiniciar las operaciones de red de la empresa, en persona.

Según Alexander Avanesov, un desarrollador de Toptal con más de veinte años de experiencia en la creación y el mantenimiento de redes y plataformas empresariales seguras, la demora en reiniciar los sistemas de Facebook fue algo que realmente salió bien para la empresa ese día.

“Desafortunadamente, no hay forma de tener una reacción rápida y una seguridad completa”, dice. Facebook no se ha expuesto a sí mismo ni a sus clientes a una violación y probablemente no perderá a un solo usuario, por lo que en este sentido la empresa hizo todo bien, dice Avanesov. “Tienen más riesgo en una brecha de seguridad si no instalaron un sistema tan complejo”.

Esta negociación interna entre la reacción rápida y la seguridad es necesaria para cualquier empresa que dependa de las redes para conectarse con sus principales generadores de ingresos, dice. Para empresas más pequeñas o empresas en mercados más competitivos, el tiempo de inactividad puede ser un factor decisivo para los clientes. Sin embargo, una respuesta más rápida a veces significa una barrera de seguridad más baja para acceder a sistemas críticos.

Las soluciones alternativas personalizadas pueden ayudar a su empresa a responder más rápidamente

Aunque el error humano nunca puede eliminarse por completo como riesgo, hay formas de que una operación a menor escala reduzca la posibilidad de que un error pueda acabar con toda una red como sucedió con Facebook, dice Nurmi. “La mejor solución que he visto para situaciones como esta es tener dispositivos configurados con lo que es esencialmente un interruptor de hombre muerto”, dice. “Activas tus cambios, pero antes de que se guarden permanentemente, se configura un temporizador. Si la configuración no se confirma en algún período de tiempo, la configuración se revierte”.

Incluso en esta circunstancia existe el riesgo de tiempo de inactividad, pero es probable que esa interrupción dure minutos en lugar de horas, incluso si un error catastrófico superó todos los niveles necesarios de revisión interna, dice.

Invierta tiempo y dinero en educar a su equipo de TI. Contar con un personal mejor capacitado es la forma más sencilla y rentable de aumentar su preparación y respuesta a las interrupciones de la red.

Existen algunas opciones adicionales para las empresas que buscan protocolos de seguridad que permitan tiempos de respuesta más rápidos ante una interrupción sin permitir el acceso externo de alto nivel a su infraestructura. Los sistemas que pueden generar contraseñas de un solo uso para el personal en el sitio para evitar el riesgo de un pirateo remoto de datos podrían evitar la necesidad de esperar la llegada del personal de TI con niveles más altos de acceso al servidor, dice Avanesov. Construir este tipo de soluciones alternativas en una red es asequible y no es demasiado complicado de integrar, dice. Sin embargo, el personal en el sitio aún necesita la experiencia para resolver un error que causa una interrupción significativa.

Para obtener el mejor resultado, prepárese para lo peor

Ejecutar simulaciones detalladas de problemas de red y otros posibles eventos catastróficos es esencial para sobrevivir en situaciones de crisis, dice Austin Dimmer, un desarrollador de Toptal que ha construido y administrado redes seguras para la Comisión Europea, Lego y Publicis Worldwide. La preparación al responder a un colapso de la red puede ser la clave para limitar los daños y evitar problemas recurrentes.

La declaración hecha por Facebook sobre sus procedimientos de recuperación después del accidente muestra una fortaleza importante dentro de la preparación de la empresa para operar en una crisis, dice Dimmer a Toptal Insights. “Sabían exactamente lo que estaban haciendo”, dice. “Recuperar todo en línea fue muy arriesgado debido al potencial de sobrecarga en los centros de datos e incluso al potencial de incendios, pero debido a que habían practicado las simulaciones de diferentes situaciones de desastre, los equipos de Facebook estaban bastante bien preparados para hacer frente a esa situación estresante. situación y tener la confianza para restaurar las redes de manera segura y correcta”.

Dimmer señala a un cliente suyo que recientemente fue objeto de un ataque de ransomware. Debido a que Dimmer y el equipo de TI habían pasado por ese escenario solo unas semanas antes, sabía que los datos de respaldo de la empresa estaban seguros. Recomendó que el cliente no pague a los piratas informáticos y siga adelante; el cliente se recuperó de la brecha sin impacto en sus operaciones y no hubo día de pago para los ciberladrones.

Independientemente de las tolerancias de seguridad y los planes de preparación para desastres existentes, el liderazgo ejecutivo debe invertir tiempo y dinero en educar a los equipos de TI de la empresa. Tener un personal mejor capacitado es la forma más sencilla y rentable de aumentar la preparación y la respuesta de una organización a los problemas de la red, descubrió Uptime Institute. El error humano, una de las principales causas de las interrupciones de la red, a menudo se debe a procesos inadecuados o al incumplimiento de los que ya están implementados.

Los cortes de red son inevitables. Para minimizar las repercusiones financieras y reputacionales, los líderes de la empresa deben aceptar ese hecho y prepararse con mucha anticipación. Tomar decisiones intencionales sobre seguridad, preparación y respuesta ayuda a las organizaciones a minimizar las consecuencias y pasar de la crisis a la recuperación con confianza.

El escritor principal de Toptal, Michael McDonald, contribuyó a este informe.