Quello che ogni dirigente deve sapere sul giorno in cui Facebook è scomparso da Internet

Pubblicato: 2022-03-11

A parte il CTO, la maggior parte dei dirigenti non ha la larghezza di banda per impegnarsi a fondo con le operazioni tecniche di rete. Quindi potrebbe essere una sorpresa, e forse una preoccupazione, per i leader apprendere che l'intera funzionalità di rete delle loro aziende, sia interna che esterna, funziona su un unico protocollo scritto su due tovaglioli da bar in una conferenza tecnologica nel 1989.

Si chiama protocollo del gateway di confine o BGP. Determina l'instradamento di tutto il traffico sui server che utilizziamo per navigare di tutto, dai social media, e-mail e unità cloud alla scansione delle carte d'ingresso ai cancelli di sicurezza dell'ufficio. BGP è ciò da cui ogni rete dipende per funzionare correttamente, comprese quelle della tua azienda. Questo è stato il fulcro che ha abbattuto tutte le reti interne ed esterne di Facebook lunedì 4 ottobre 2021.

Come è avvenuta l'interruzione di Facebook

Facebook non è solo il più grande social network del mondo. È un colosso tecnologico. I 3 miliardi di utenti attivi del sito generano milioni di gigabyte di dati ogni giorno, richiedendo 17 enormi data center globali e un'architettura sofisticata alla base del suo vasto impero digitale.

Il gigante della tecnologia è in qualche modo una nazione a sé stante ed è stato a lungo un leader nell'ingegneria e nell'innovazione delle reti. Ma ciò non significa che non sia vulnerabile alle interruzioni, come è stato dimostrato il 4 ottobre quando il mondo ha visto l'intera rete di Facebook andare giù per più di sette ore. È un'eternità in un'economia globale sempre attiva e che potrebbe essere costata all'azienda circa 100 milioni di dollari di entrate.

Sulla scia dell'incidente, i leader dell'azienda devono esaminare attentamente i propri processi, afferma Alexander Sereda, responsabile dello sviluppo di prodotti software di Toptal ed ex CTO di Rhino Security Labs. "Se questo può succedere a Facebook, può succedere a te", dice.

Mentre tutti i dettagli devono ancora emergere, gli esperti di Toptal hanno identificato diverse importanti lezioni che i leader senior possono imparare dall'episodio, una delle quali è che anche l'ingegneria più all'avanguardia può ancora essere annullata da un errore umano.

L'autopsia rilasciata da Facebook nei giorni successivi alla sua interruzione indicava l'errore umano, l'interazione di un ingegnere con i suoi protocolli server, in particolare BGP, come il principale colpevole dell'interruzione della sua rete.

Secondo la dichiarazione della società, "è stato emesso un comando con l'intenzione di valutare la disponibilità della capacità della dorsale globale". Cosa fosse quel comando e quale errore contenesse, non lo sappiamo e Facebook non lo sta dicendo. Ma la società ha aggiunto che i suoi "sistemi sono progettati per controllare comandi come questi per prevenire errori come questo, ma un bug in quello strumento di controllo gli ha impedito di interrompere correttamente il comando".

L'errore ha prodotto conseguenze a cascata perché la società apparentemente contava su uno strumento di auditing automatizzato per rilevare un problema del genere.

Il comando errato, emesso durante un aggiornamento di routine, ha interrotto tutte le connessioni all'interno della dorsale di Facebook, la rete di primo livello di connessioni in fibra ottica tra i suoi data center. A quel punto, il sistema BGP dell'azienda, che è responsabile della mappatura di tutti i percorsi disponibili attraverso la sua rete, non è più stato in grado di individuare percorsi validi nei data center globali dell'azienda. Ciò ha effettivamente tagliato Facebook fuori da Internet e dalla rete interna dell'azienda, che si basa anche su BGP per l'instradamento delle informazioni. Nessuno poteva navigare nel social network, nemmeno i dipendenti di Facebook all'interno delle proprie strutture.

Il 42% dei gestori di data center ha subito un'interruzione dell'IT a causa di un errore umano negli ultimi tre anni. Alcuni errori comuni sono l'esecuzione del personale del data center, 57%; procedure errate, 44%; manutenzione inadeguata o adeguamenti delle apparecchiature, 27%; problemi di installazione, 26%; personale insufficiente, 22%; manutenzione preventiva, 20%; progettazione o omissioni di data center 13%; e altri errori legati all'errore umano, 8%. — Questi dati provengono dal sondaggio sulla resilienza 2021 di Uptime Institute Data Center.

Di solito, quando le informazioni di aggiornamento vengono aggiunte a una configurazione del server, BGP duplica tutte le posizioni precedenti dai file archiviati e ne aggiunge di nuove alla mappatura che collega Facebook a Internet. Ma in questo caso, tutte le posizioni sono andate perse fino a quando gli ingegneri non hanno potuto ripristinare fisicamente i backup BGP.

“E' una situazione difficile. Sarà sempre difficile prevenire ogni comando che potrebbe portare a un errore", afferma James Nurmi, un architetto cloud, sviluppatore e allume di Google Toptal che ha più di due decenni di esperienza nell'aiutare le aziende ad aumentare l'affidabilità della rete. "La natura della configurazione di un router, o di qualsiasi dispositivo complesso, significa che un comando in un contesto potrebbe essere esattamente quello che desideri, ma in un altro potrebbe portare a un disastro".

Il fatto che l'errore di una singola persona sia stato al centro dell'interruzione di Facebook non dovrebbe essere liquidato come un problema esclusivo della sua organizzazione. L'errore umano è un motivo comune per le interruzioni di rete.

L'Uptime Institute pubblica uno studio annuale sulla portata e le conseguenze delle interruzioni dei dati come quella vissuta da Facebook. Nel 2020, anno che ha visto un enorme aumento del cloud computing a causa della pandemia di COVID-19, il rapporto ha rilevato che almeno il 42% dei data center ha perso tempo sul server a causa di un errore commesso da una persona che interagisce con la rete, non un infrastrutture o altre carenze tecniche.

Il modo in cui l'errore di un singolo utente interno potrebbe causare un completo collasso delle reti di Facebook offre una visione interessante del livello avanzato di ingegneria dell'organizzazione. Il team di ingegneri dell'azienda si concentra sul rendere la sua tecnologia di rete il più flessibile e scalabile possibile ripensando gli approcci e i design tradizionali, secondo un documento di ricerca accademico a cui Facebook ha contribuito all'inizio di quest'anno. Il documento descrive in dettaglio come l'azienda ha ampliato il ruolo di BGP oltre a un tipico protocollo di routing in uno strumento per la rapida implementazione di nuovi server e aggiornamenti software. Quasi profeticamente, il documento fornisce anche una sorta di tabella di marcia su come un comando errante potrebbe chiudere una rete globale.

Quanto costa l'interruzione Facebook

La maggior parte delle interruzioni che hanno fatto notizia l'anno scorso non ha interessato i sistemi critici e per lo più ha infastidito consumatori e lavoratori remoti, come interruzioni o rallentamenti degli strumenti di collaborazione (ad es. Microsoft Teams, Zoom), siti di scommesse online e fitness tracker. Tuttavia, per le aziende che hanno subito queste interruzioni, il prezzo in termini di mancato guadagno, produttività e fiducia dei clienti era significativo.

Sebbene generalizzare il costo di un'interruzione sia difficile a causa della varietà di attività incluse nel suddetto rapporto di Uptime, i ricercatori stimano che i tempi di inattività possono costare da $ 140.000 all'ora nella fascia bassa fino a $ 540.000 all'ora nella fascia più alta. Sulla base dei guadagni del secondo trimestre di Facebook, il social network potrebbe aver perso $ 99,75 milioni di entrate a causa della sua interruzione il 4 ottobre, secondo le stime di Fortune.

L'interruzione dell'ottobre 2021 di Facebook, dai numeri. L'interruzione è durata 7,5 ore dall'inizio alla fine ed è costata circa $ 221.666 al minuto, per un totale di $ 99,75 milioni di mancate entrate. — Queste stime si basano sugli utili del secondo trimestre 2021 di Facebook di $ 29,08 miliardi in un periodo di 91 giorni.

Le stime di Fortune sono utili per comprendere il potenziale effetto dell'interruzione sulle entrate, ma non è chiaro quali siano le perdite effettive, osserva il data scientist Erik Stettler, capo economista di Toptal e partner fondatore della società di venture capital Firstrock Capital. “Le stime hanno adottato un approccio molto lineare. Ma non tutte le unità di tempo sono ugualmente fungibili e le entrate di Facebook sono molto più complesse che dire che ogni secondo genera le stesse entrate di ogni altro secondo", afferma.

Inoltre, se il traffico è aumentato dopo l'interruzione, Facebook potrebbe aver recuperato alcune delle perdite, afferma Stettler. Al contrario, se il traffico è rimasto basso, l'azienda potrebbe aver perso di più. Ciò che è chiaro è che una grave interruzione dell'IT ha ripercussioni fiscali per le aziende e prepararsi in anticipo a questi guasti è fondamentale. “Qualsiasi tecnologia è fallibile. Con la gestione del rischio non si tratta di assicurarsi che qualcosa non accada mai, ma di essere pronti quando accade e di rendere tale preparazione fondamentale per il proprio piano aziendale”, afferma. "Non sono i 999 giorni che vanno bene a mostrare la tua leadership: è un giorno su mille che non è andato bene".

3 lezioni chiave dall'interruzione di Facebook

La sicurezza è fondamentale, anche quando disturba i clienti

Sebbene la chiusura di Facebook sia avvenuta molto rapidamente, ci sono volute più di sette ore prima che tutti i server dell'azienda tornassero online, in parte perché anche le comunicazioni di rete interne di Facebook erano compromesse. Il lungo periodo di interruzione è dovuto anche alle rigorose procedure di sicurezza messe in atto per proteggere Facebook e i suoi utenti dagli hacker e da altre minacce alla sicurezza informatica. Queste politiche includono una rigida burocrazia senza accesso remoto e solo poche persone che sono autorizzate ad accedere ai sistemi necessari per riavviare le operazioni di rete dell'azienda, di persona.

Secondo Alexander Avanesov, uno sviluppatore di Toptal con più di vent'anni di esperienza nella creazione e manutenzione di reti e piattaforme aziendali sicure, il ritardo nel riavvio dei sistemi di Facebook è stata una cosa che in realtà è andata bene per l'azienda quel giorno.

"Purtroppo, non c'è modo di avere sia una reazione rapida che una sicurezza completa", dice. Facebook non ha esposto se stesso o i suoi clienti a una violazione e probabilmente non perderà un solo utente, quindi in questo senso l'azienda ha fatto tutto bene, afferma Avanesov. "Hanno più rischi in una violazione della sicurezza se non hanno installato un sistema così complesso".

Questa negoziazione interna tra reazione rapida e sicurezza è necessaria per qualsiasi azienda che dipenda dalle reti per connettersi con i suoi principali generatori di entrate, afferma. Per le aziende più piccole o le imprese in mercati più altamente competitivi, i tempi di inattività possono essere un problema con i clienti. Tuttavia, una risposta più rapida a volte significa una barriera di sicurezza inferiore per l'accesso ai sistemi critici.

Soluzioni alternative personalizzate possono aiutare la tua azienda a rispondere più rapidamente

Sebbene l'errore umano non possa mai essere completamente eliminato come rischio, ci sono modi per un'operazione su scala ridotta per ridurre la possibilità che un errore possa spazzare via un'intera rete come ha fatto su Facebook, afferma Nurmi. "La migliore soluzione che ho visto per situazioni come questa è di avere i dispositivi configurati con quello che è essenzialmente un interruttore dell'uomo morto", dice. “Attivi le modifiche, ma prima che vengano salvate in modo permanente, viene impostato un timer. Se la configurazione non viene confermata entro un certo periodo di tempo, la configurazione viene ripristinata".

Anche in questa circostanza c'è il rischio di tempi di inattività, ma è probabile che l'interruzione duri minuti anziché ore, anche se un errore catastrofico supera tutti i livelli necessari di revisione interna, dice.

Investi tempo e denaro nella formazione del tuo team IT. Avere uno staff meglio formato è il modo più semplice ed economico per aumentare la prontezza e la risposta alle interruzioni della rete.

Esistono alcune opzioni aggiuntive per le aziende che cercano protocolli di sicurezza che consentano tempi di risposta più rapidi a un'interruzione senza consentire l'accesso esterno di alto livello alla propria infrastruttura. I sistemi in grado di generare password monouso per il personale in loco per evitare il rischio di un hack remoto dei dati potrebbero impedire la necessità di attendere l'arrivo del personale IT con livelli più elevati di accesso al server, afferma Avanesov. Costruire questi tipi di soluzioni alternative in una rete è conveniente e non troppo oneroso da integrare, afferma. Tuttavia, il personale in loco ha ancora bisogno dell'esperienza necessaria per risolvere un errore che causa un'interruzione significativa.

Per ottenere il miglior risultato, preparati al peggio

L'esecuzione di simulazioni dettagliate per problemi di rete e altri potenziali eventi catastrofici è essenziale per sopravvivere in situazioni di crisi, afferma Austin Dimmer, uno sviluppatore di Toptal che ha costruito e gestito reti sicure per la Commissione europea, Lego e Publicis Worldwide. La preparazione nel rispondere a un collasso della rete potrebbe essere la chiave per limitare i danni ed evitare problemi ricorrenti.

La dichiarazione rilasciata da Facebook sulle sue procedure di recupero dopo l'incidente mostra un importante punto di forza nella disponibilità dell'azienda ad operare in una crisi, dice Dimmer a Toptal Insights. "Sapevano esattamente cosa stavano facendo", dice. "Riportare tutto online è stato molto rischioso a causa del potenziale sovraccarico nei data center e persino del potenziale incendio, ma poiché si erano esercitati con le simulazioni di diverse situazioni di disastro, i team di Facebook erano abbastanza ben preparati ad affrontare quello stressante situazione e avere la fiducia necessaria per ripristinare le reti in sicurezza e nel modo giusto”.

Dimmer indica un suo cliente che è stato recentemente oggetto di un attacco ransomware. Poiché Dimmer e il team IT avevano affrontato quello scenario solo poche settimane prima, sapeva che i dati di backup dell'azienda erano al sicuro. Ha raccomandato al cliente di non pagare gli hacker e di andare avanti; il cliente si è ripreso dalla violazione senza alcun impatto sulle sue operazioni e non c'era giorno di paga per i ladri informatici.

Indipendentemente dalle tolleranze di sicurezza e dai piani di preparazione alle catastrofi, la leadership esecutiva deve investire tempo e denaro nella formazione dei team IT aziendali. Avere uno staff meglio formato è il modo più semplice ed economico per aumentare la prontezza e la risposta di un'organizzazione ai problemi di rete, ha scoperto l'Uptime Institute. L'errore umano, una delle principali cause delle interruzioni di rete, è spesso dovuto a processi inadeguati o al mancato rispetto di quelli già in atto.

Le interruzioni di rete sono inevitabili. Per ridurre al minimo le ripercussioni finanziarie e reputazionali, i leader aziendali devono accettare questo fatto e prepararsi con largo anticipo. Prendere decisioni intenzionali su sicurezza, prontezza e risposta aiuta le organizzazioni a ridurre al minimo le ricadute e passare dalla crisi alla ripresa con sicurezza.

Lo scrittore senior di Toptal Michael McDonald ha contribuito a questo rapporto.