O que todo executivo precisa saber sobre o dia em que o Facebook desapareceu da Internet

Publicados: 2022-03-11

Além do CTO, a maioria dos executivos não tem largura de banda para se envolver profundamente com operações técnicas de rede. Portanto, pode ser uma surpresa – e talvez uma preocupação – para os líderes saberem que toda a funcionalidade de rede de suas empresas, tanto interna quanto externa, funciona em um único protocolo escrito em dois guardanapos de barra em uma conferência de tecnologia em 1989.

É chamado de protocolo de gateway de fronteira ou BGP. Ele determina o roteamento de todo o tráfego nos servidores que usamos para navegar em tudo, desde mídias sociais, e-mail e unidades de nuvem até a digitalização de cartões de entrada nos portões de segurança do escritório. O BGP é o que toda rede depende para funcionar corretamente, incluindo as da sua empresa. Este foi o pivô que derrubou todas as redes internas e externas do Facebook na segunda-feira, 4 de outubro de 2021.

Como aconteceu a interrupção do Facebook

O Facebook é mais do que apenas a maior rede social do mundo. É um gigante tecnológico. Os 3 bilhões de usuários ativos do site geram milhões de gigabytes de dados todos os dias, exigindo 17 grandes data centers globais e uma arquitetura sofisticada que sustenta seu vasto império digital.

A gigante da tecnologia é, de certa forma, uma nação em si mesma e há muito tempo é líder em engenharia e inovação de rede. Mas isso não significa que não seja vulnerável a interrupções, como foi comprovado em 4 de outubro, quando o mundo assistiu toda a rede do Facebook cair por mais de sete horas. Isso é uma eternidade em uma economia global sempre ativa – e que pode ter custado à empresa uma receita estimada em US$ 100 milhões.

Na esteira do incidente, os líderes da empresa precisam dar uma olhada em seus próprios processos, diz Alexander Sereda, gerente de desenvolvimento de produtos de software da Toptal e ex-CTO da Rhino Security Labs. “Se isso pode acontecer com o Facebook, pode acontecer com você”, diz ele.

Embora todos os detalhes ainda não tenham surgido, os especialistas da Toptal identificaram várias lições importantes que os líderes seniores podem aprender com o episódio, uma das quais é que mesmo a engenharia mais avançada ainda pode ser desfeita por erro humano.

A autópsia divulgada pelo Facebook nos dias seguintes à interrupção apontou o erro humano – a interação de um engenheiro com seus protocolos de servidor, especificamente o BGP – como o principal culpado por derrubar sua rede.

De acordo com o comunicado da empresa, “foi emitido um comando com a intenção de avaliar a disponibilidade da capacidade global do backbone”. Qual era esse comando e que erro continha, não sabemos, e o Facebook não está dizendo. Mas a empresa acrescentou que seus “sistemas são projetados para auditar comandos como esses para evitar erros como esse, mas um bug nessa ferramenta de auditoria impediu que interrompesse o comando adequadamente”.

O erro produziu ramificações em cascata porque a empresa aparentemente estava contando com uma ferramenta de auditoria automatizada para detectar tal problema.

O comando errôneo, emitido durante uma atualização de rotina, cortou todas as conexões no backbone do Facebook – a rede de alto nível de conexões de fibra óptica entre seus data centers. Nesse ponto, o sistema BGP da empresa, responsável por mapear todos os caminhos disponíveis em sua rede, não conseguiu mais localizar nenhuma rota válida para os data centers globais da empresa. Isso efetivamente cortou o Facebook da internet e da própria rede interna da empresa, que também depende do BGP para roteamento de informações. Ninguém podia navegar na rede social, nem mesmo funcionários do Facebook dentro de suas próprias instalações.

42% dos gerentes de data centers sofreram uma interrupção de TI devido a erro humano nos últimos três anos. Alguns erros comuns são a execução da equipe do data center, 57%; procedimentos incorretos, 44%; manutenção inadequada ou ajustes de equipamentos, 27%; problemas de instalação, 26%; pessoal insuficiente, 22%; manutenção preventiva, 20%; projeto de data center ou omissões 13%; e outras falhas relacionadas a erros humanos, 8%.
Esses dados são da Pesquisa de Resiliência do Uptime Institute Data Center 2021.

Normalmente, quando as informações de atualização são adicionadas a uma configuração de servidor, o BGP duplicará todos os seus locais anteriores de arquivos armazenados e adicionará novos ao mapeamento que conecta o Facebook à Internet. Mas, neste caso, todos os locais foram perdidos até que os engenheiros pudessem restaurar fisicamente os backups do BGP.

“É uma situação difícil. Sempre será difícil evitar todos os comandos que possam levar a uma falha”, diz James Nurmi, arquiteto de nuvem da Toptal, desenvolvedor e ex-aluno do Google, que tem mais de duas décadas de experiência ajudando empresas a aumentar a confiabilidade da rede. “A natureza de configurar um roteador, ou qualquer dispositivo complexo, significa que um comando em um contexto pode ser exatamente o que você deseja, mas em outro pode levar ao desastre.”

O fato de o erro de um indivíduo estar no centro da interrupção do Facebook não deve ser descartado como um problema exclusivo de sua organização. O erro humano é um motivo comum para interrupções de rede.

O Uptime Institute publica um estudo anual sobre o escopo e as consequências de interrupções de dados como a que o Facebook experimentou. Em 2020, um ano que viu um grande aumento na computação em nuvem devido à pandemia do COVID-19, o relatório descobriu que pelo menos 42% dos data centers perderam tempo de servidor devido a um erro cometido por uma pessoa que interage com a rede, não por um infra-estrutura ou outra deficiência técnica.

Como o erro de um único usuário interno pode causar um colapso total das redes do Facebook oferece uma visão interessante do nível avançado de engenharia da organização. A equipe de engenharia da empresa se concentra em tornar sua tecnologia de rede o mais flexível e escalável possível, repensando abordagens e designs tradicionais, de acordo com um artigo de pesquisa acadêmica para o qual o Facebook contribuiu no início deste ano. O documento detalha como a empresa expandiu o papel do BGP além de apenas um protocolo de roteamento típico em uma ferramenta para implantar rapidamente novos servidores e atualizações de software. Quase profeticamente, o artigo também fornece uma espécie de roteiro de como um comando errante poderia desligar uma rede global.

Quanto custa a interrupção Facebook

A maioria das interrupções que foram manchetes no ano passado não afetou sistemas críticos e incomodou principalmente consumidores e trabalhadores remotos, como interrupções ou lentidão de ferramentas de colaboração (por exemplo, Microsoft Teams, Zoom), sites de apostas online e rastreadores de fitness. No entanto, para as empresas que sofreram essas interrupções, o preço em termos de perda de receita, produtividade e confiança do cliente foi significativo.

Embora a generalização do custo de uma interrupção seja difícil devido à variedade de negócios incluídos no relatório acima mencionado da Uptime, os pesquisadores estimam que o tempo de inatividade pode custar de US $ 140.000 por hora na extremidade inferior a até US $ 540.000 por hora na extremidade superior. Com base nos lucros do segundo trimestre do Facebook, a rede social pode ter perdido US$ 99,75 milhões em receita devido à sua interrupção em 4 de outubro, segundo estimativas da Fortune.

Interrupção do Facebook em outubro de 2021, pelos números. A interrupção durou 7,5 horas do início ao fim e custou cerca de US$ 221.666 por minuto, totalizando US$ 99,75 milhões em receita perdida.
Essas estimativas são baseadas nos ganhos do segundo trimestre de 2021 do Facebook de US$ 29,08 bilhões em um período de 91 dias.

As estimativas da Fortune são úteis para entender o efeito potencial da interrupção na receita, mas não está claro quais são as perdas reais, observa o cientista de dados Erik Stettler, economista-chefe da Toptal e sócio fundador da empresa de risco Firstrock Capital. “As estimativas tiveram uma abordagem muito linear. Mas nem todas as unidades de tempo são igualmente fungíveis, e a receita do Facebook é muito mais complexa do que dizer que cada segundo gera a mesma receita que cada segundo”, diz ele.

Além disso, se o tráfego aumentou após a interrupção, o Facebook pode ter recuperado algumas das perdas, diz Stettler. Por outro lado, se o tráfego permanecesse baixo, a empresa poderia ter perdido mais. O que está claro é que uma grande interrupção de TI tem repercussões fiscais para as empresas, e a preparação antecipada para essas falhas é fundamental. “Qualquer tecnologia é falível. Com o gerenciamento de risco, não se trata de garantir que algo nunca aconteça, mas de estar pronto quando isso acontecer e tornar essa preparação fundamental para o seu plano de negócios”, diz ele. “Não são os 999 dias que dão certo que mostram sua liderança – é o dia em mil que não deu certo.”

3 principais lições da interrupção do Facebook

A segurança é primordial, mesmo quando incomoda os clientes

Embora o desligamento do Facebook tenha acontecido muito rapidamente, levou mais de sete horas para que todos os servidores da empresa voltassem a ficar online, em parte porque as comunicações de rede interna do Facebook também foram prejudicadas. O período prolongado da interrupção também se deveu a rigorosos procedimentos de segurança implementados para proteger o Facebook e seus usuários de hackers e outras ameaças à segurança cibernética. Essas políticas incluem uma burocracia apertada sem acesso remoto e apenas alguns indivíduos com poderes para acessar os sistemas necessários para reiniciar as operações de rede da empresa — pessoalmente.

De acordo com Alexander Avanesov, desenvolvedor da Toptal com mais de vinte anos de experiência na construção e manutenção de redes seguras e plataformas corporativas, o atraso na reinicialização dos sistemas do Facebook foi algo que realmente deu certo para a empresa naquele dia.

“Infelizmente, não há como ter uma reação rápida e segurança total”, diz ele. O Facebook não expôs a si mesmo ou seus clientes a uma violação e provavelmente não perderá um único usuário, portanto, nesse sentido, a empresa fez tudo certo, diz Avanesov. “Eles correm mais riscos em uma violação de segurança se não instalarem um sistema tão complexo.”

Essa negociação interna entre reação rápida e segurança é necessária para qualquer empresa que dependa de redes para se conectar com seus principais geradores de receita, diz ele. Para empresas menores ou negócios em mercados mais altamente competitivos, o tempo de inatividade pode ser um fator decisivo para os clientes. No entanto, uma resposta mais rápida às vezes significa uma barreira de segurança menor para acessar sistemas críticos.

Soluções alternativas personalizadas podem ajudar sua empresa a responder mais rapidamente

Embora o erro humano nunca possa ser totalmente eliminado como um risco, existem maneiras de uma operação em menor escala reduzir a chance de um erro varrer uma rede inteira como aconteceu no Facebook, diz Nurmi. “A melhor solução que vi para situações como essa é ter dispositivos configurados com o que é essencialmente um interruptor de homem morto”, diz ele. “Você ativa suas alterações, mas antes que elas sejam salvas permanentemente, um cronômetro é definido. Se a configuração não for confirmada em algum período de tempo, a configuração é revertida.”

Mesmo nessa circunstância, há o risco de tempo de inatividade, mas essa interrupção provavelmente duraria minutos em vez de horas, mesmo que um erro catastrófico passasse por todos os níveis necessários de revisão interna, diz ele.

Invista tempo e dinheiro na educação de sua equipe de TI. Ter uma equipe mais bem treinada é a maneira mais simples e econômica de aumentar sua prontidão e resposta a interrupções de rede.

Existem algumas opções adicionais para empresas que procuram protocolos de segurança que permitem tempos de resposta mais rápidos a uma interrupção sem permitir acesso externo de alto nível à sua infraestrutura. Os sistemas que podem gerar senhas de uso único para o pessoal no local para evitar o risco de uma invasão remota de dados podem evitar a necessidade de esperar a chegada da equipe de TI com níveis mais altos de acesso ao servidor, diz Avanesov. Construir esses tipos de soluções alternativas em uma rede é acessível e não muito pesado para integrar, diz ele. No entanto, o pessoal no local ainda precisa de experiência para resolver um erro que causa uma interrupção significativa.

Para obter o melhor resultado, prepare-se para o pior

Executar simulações detalhadas para problemas de rede e outros eventos catastróficos em potencial é essencial para sobreviver em situações de crise, diz Austin Dimmer, desenvolvedor da Toptal que construiu e gerenciou redes seguras para a Comissão Europeia, Lego e Publicis Worldwide. A preparação ao responder a um colapso de rede pode ser a chave para limitar os danos e evitar problemas recorrentes.

A declaração feita pelo Facebook sobre seus procedimentos de recuperação após o acidente mostra uma força importante na prontidão da empresa para operar em uma crise, diz Dimmer à Toptal Insights. “Eles sabiam exatamente o que estavam fazendo”, diz ele. “Trazer tudo online de volta era muito arriscado por causa do potencial de sobrecarga nos data centers e até mesmo do potencial de incêndios, mas como eles praticaram as simulações de diferentes situações de desastres, as equipes do Facebook estavam muito bem preparadas para lidar com esse estresse estressante. situação e ter a confiança para restaurar as redes com segurança e da maneira certa.”

Dimmer aponta para um cliente dele que foi recentemente submetido a um ataque de ransomware. Como Dimmer e a equipe de TI haviam passado por esse cenário apenas algumas semanas antes, ele sabia que os dados de backup da empresa estavam seguros. Ele recomendou que o cliente não pagasse aos hackers e seguisse em frente; o cliente se recuperou da violação sem impacto em suas operações e não houve pagamento para os ladrões cibernéticos.

Não importa quais sejam as tolerâncias de segurança e os planos de preparação para desastres, a liderança executiva deve investir tempo e dinheiro na educação das equipes de TI da empresa. Ter uma equipe mais bem treinada é a maneira mais simples e econômica de aumentar a prontidão e a resposta de uma organização a problemas de rede, descobriu o Uptime Institute. O erro humano, uma das principais causas de interrupções de rede, geralmente ocorre devido a processos inadequados ou falha em seguir os que já estão em vigor.

As interrupções de rede são inevitáveis. Para minimizar as repercussões financeiras e de reputação, os líderes da empresa devem aceitar esse fato – e se preparar para isso com bastante antecedência. Tomar decisões intencionais sobre segurança, prontidão e resposta ajuda as organizações a minimizar as consequências e passar da crise para a recuperação com confiança.

O escritor sênior da Toptal, Michael McDonald, contribuiu para este relatório.