Facebook'un İnternetten Kaybolduğu Gün Hakkında Her Yöneticinin Bilmesi Gerekenler
Yayınlanan: 2022-03-11CTO dışında, çoğu yöneticinin teknik ağ operasyonlarıyla derinlemesine ilgilenmek için bant genişliği yoktur. Bu nedenle, 1989'da bir teknoloji konferansında şirketlerinin hem dahili hem de harici tüm ağ işlevselliğinin iki çubuk peçeteye yazılan tek bir protokol üzerinde çalıştığını öğrenmeleri, liderler için bir sürpriz ve belki de bir endişe kaynağı olabilir.
Buna sınır ağ geçidi protokolü veya BGP denir. Sosyal medya, e-posta ve bulut sürücülerinden ofis güvenlik kapılarındaki giriş kartlarını taramaya kadar her şeyde gezinmek için kullandığımız sunuculardaki tüm trafiğin yönlendirilmesini belirler. BGP, şirketinizdekiler de dahil olmak üzere her ağın doğru şekilde çalışmasına bağlı olan şeydir. 4 Ekim 2021 Pazartesi günü Facebook'un tüm dahili ve harici ağlarını çökerten kilit nokta buydu.
Facebook Kesintisi Nasıl Oldu?
Facebook, dünyanın en büyük sosyal ağından daha fazlasıdır. Teknolojik bir canavardır. Sitenin 3 milyar aktif kullanıcısı, her gün milyonlarca gigabayt veri üretiyor ve bu, 17 büyük küresel veri merkezi ve geniş dijital imparatorluğunu destekleyen sofistike bir mimari gerektiriyor.
Teknoloji devi, bazı yönlerden başlı başına bir ulustur ve ağ mühendisliği ve inovasyonda uzun süredir liderdir. Ancak bu, 4 Ekim'de dünyanın Facebook'un tüm ağının yedi saatten fazla bir süre boyunca çöküşünü izlediğinde kanıtlandığı gibi, kesintilere karşı savunmasız olmadığı anlamına gelmez. Bu, her zaman açık olan bir küresel ekonomide bir sonsuzluktur ve bu, şirkete tahmini 100 milyon dolarlık bir gelire mal olmuş olabilir.
Toptal yazılım ürün geliştirme müdürü ve Rhino Security Labs'ın eski CTO'su Alexander Sereda, olayın ardından şirket liderlerinin kendi süreçlerine yakından bakmaları gerektiğini söylüyor. “Facebook'a bu olabildiyse, size de olabilir” diyor.
Tüm ayrıntılar henüz ortaya çıkmamış olsa da, Toptal uzmanları üst düzey liderlerin bu bölümden öğrenebilecekleri birkaç önemli ders belirlediler.
Kesintiyi takip eden günlerde Facebook tarafından yayınlanan otopsi, ağını çökertmenin ana suçlusu olarak insan hatasına (bir mühendisin sunucu protokolleri, özellikle BGP ile etkileşimi) işaret etti.
Şirketten yapılan açıklamaya göre, "küresel omurga kapasitesinin kullanılabilirliğini değerlendirmek amacıyla bir komut verildi." Bu komutun ne olduğunu ve hangi hatayı içerdiğini bilmiyoruz ve Facebook söylemiyor. Ancak şirket, "sistemlerinin, bunun gibi hataları önlemek için bu tür komutları denetlemek üzere tasarlandığını, ancak bu denetim aracındaki bir hatanın, komutu düzgün bir şekilde durdurmasını engellediğini" ekledi.
Şirket, görünüşe göre böyle bir sorunu yakalamak için otomatik bir denetim aracına güveniyordu çünkü hata, kademeli sonuçlara neden oldu.
Rutin bir güncelleme sırasında verilen hatalı komut, Facebook'un omurgasındaki (veri merkezleri arasındaki en üst düzey fiber optik bağlantı ağı) tüm bağlantıları kopardı. Bu noktada, kendi ağı üzerinden mevcut tüm yolları haritalamaktan sorumlu olan şirketin BGP sistemi, şirketin küresel veri merkezlerine giden herhangi bir geçerli rotayı artık bulamıyordu. Bu, Facebook'u internetten ve aynı zamanda yönlendirme bilgileri için BGP'ye dayanan şirketin kendi iç ağından etkili bir şekilde kesti. Facebook çalışanları bile kendi tesislerinde sosyal ağda gezinemezdi.
Genellikle, bir sunucu yapılandırmasına güncelleme bilgisi eklendiğinde, BGP önceki tüm konumlarını depolanan dosyalardan çoğaltır ve Facebook'u internete bağlayan haritaya yenilerini ekler. Ancak bu durumda, mühendisler BGP yedeklerini fiziksel olarak geri yükleyene kadar tüm konumlar kaybedildi.
"Zor bir durum. Bir başarısızlığa yol açabilecek her komutu önlemek her zaman zor olacak," diyor Toptal bulut mimarı, geliştiricisi ve şirketlerin ağ güvenilirliğini artırmalarına yardımcı olma konusunda yirmi yıldan fazla deneyime sahip Google mezunu James Nurmi. "Bir yönlendiriciyi veya herhangi bir karmaşık aygıtı yapılandırmanın doğası, bir bağlamdaki bir komutun tam olarak istediğiniz gibi olabileceği, ancak farklı bir bağlamda felakete yol açabileceği anlamına gelir."
Facebook kesintisinin temelinde bir kişinin hatasının yattığı gerçeği, o kişinin organizasyonuna özgü bir sorun olarak göz ardı edilmemelidir. İnsan hatası, ağ kesintilerinin yaygın bir nedenidir.
Uptime Institute, Facebook'un yaşadığı gibi veri kesintilerinin kapsamı ve sonuçları hakkında yıllık bir çalışma yayınlıyor. COVID-19 pandemisi nedeniyle bulut bilişimde büyük bir artış görülen 2020'de rapor, veri merkezlerinin en az %42'sinin ağ ile etkileşime giren bir kişi tarafından yapılan bir hata nedeniyle sunucu zamanını kaybettiğini tespit etti. altyapı veya diğer teknik eksiklikler.
Tek bir dahili kullanıcının hatasının Facebook ağlarının toptan çökmesine nasıl neden olabileceği, kuruluştaki ileri mühendislik düzeyine ilginç bir bakış sunuyor. Facebook'un bu yılın başlarında katkıda bulunduğu bir akademik araştırma makalesine göre, şirketin mühendislik ekibi, geleneksel yaklaşımları ve tasarımları yeniden düşünerek ağ teknolojisini olabildiğince esnek ve ölçeklenebilir hale getirmeye odaklanıyor. Belge, şirketin BGP'nin rolünü yalnızca tipik bir yönlendirme protokolünün ötesine, yeni sunucuları ve yazılım güncellemelerini hızla dağıtmak için bir araca nasıl genişlettiğini ayrıntılarıyla anlatıyor. Neredeyse kehanet gibi, kağıt aynı zamanda hatalı bir komutun küresel bir ağı nasıl kapatabileceğine dair bir yol haritası sunuyor.
Kesinti Maliyeti Facebook
Geçen yıl manşetlere konu olan kesintilerin çoğu kritik sistemleri etkilemedi ve işbirliği araçlarının (örneğin Microsoft Teams, Zoom), çevrimiçi bahis sitelerinin ve fitness takipçilerinin kesintiye uğraması veya yavaşlaması gibi çoğunlukla tüketicileri ve uzaktan çalışanları rahatsız etti. Ancak bu kesintileri yaşayan şirketler için gelir kaybı, üretkenlik ve müşteri güveni açısından fiyat etiketi önemliydi.
Uptime'ın bahsi geçen raporunda yer alan işletmelerin çeşitliliği nedeniyle bir kesinti maliyetini genellemek zor olsa da, araştırmacılar kesinti süresinin alt uçta saatte 140.000 ABD Doları, üst uçta saatte 540.000 ABD Doları'na kadar çıkabileceğini tahmin ediyor. Fortune'un tahminlerine göre, Facebook'un ikinci çeyrek kazançlarına dayanarak, sosyal ağ 4 Ekim'deki kesintisi nedeniyle 99.75 milyon dolar gelir kaybetmiş olabilir.

Toptal'ın Baş Ekonomisti ve girişim şirketi Firstrock Capital'in kurucu ortağı olan veri bilimcisi Erik Stettler, Fortune'un tahminlerinin kesintinin gelir üzerindeki potansiyel etkisini anlamada yardımcı oluyor, ancak gerçek kayıpların ne olduğu belirsiz, diyor. “Tahminler çok doğrusal bir yaklaşım aldı. Ancak tüm zaman birimleri eşit olarak değiştirilebilir değildir ve Facebook'un geliri, her saniyenin diğer saniyelerle aynı geliri oluşturduğunu söylemekten çok daha karmaşıktır” diyor.
Dahası, Stettler, kesintiden sonra trafik aniden yükselirse, Facebook kayıpların bir kısmını telafi etmiş olabilir, diyor. Tersine, trafik düşük kalırsa şirket daha fazlasını kaybetmiş olabilir. Açık olan şey, büyük bir BT kesintisinin işletmeler için mali yansımaları olduğu ve bu arızalara önceden hazırlanmanın çok önemli olduğudur. “Herhangi bir teknoloji yanılabilir. Risk yönetimi, bir şeyin asla olmayacağından emin olmakla değil, olduğu zaman hazır olmakla ve bu hazırlığı iş planınızın temeli haline getirmekle ilgilidir” diyor. "Liderliğinizi gösteren, doğru giden 999 gün değil, iyi gitmeyen binde bir gündür."
Facebook Kesintisinden 3 Temel Ders
Müşterileri Rahatsız Etse Bile Güvenlik Çok Önemlidir
Facebook'un kapanması çok hızlı gerçekleşirken, kısmen Facebook'un dahili ağ iletişiminin de bozulması nedeniyle şirketin tüm sunucularının tekrar çevrimiçi olması yedi saatten fazla sürdü. Kesinti süresinin uzaması, Facebook'u ve kullanıcılarını bilgisayar korsanlarından ve diğer siber güvenlik tehditlerinden korumak için uygulanan katı güvenlik prosedürlerinden de kaynaklandı. Bu politikalar, uzaktan erişimi olmayan sıkı bir bürokrasiyi ve şirketin ağ oluşturma operasyonlarını yeniden başlatmak için gereken sistemlere şahsen erişme yetkisi olan yalnızca birkaç kişiyi içerir.
Güvenli ağlar ve kurumsal platformlar oluşturma ve sürdürme konusunda yirmi yıldan fazla deneyime sahip bir Toptal geliştiricisi olan Alexander Avanesov'a göre, Facebook sistemlerinin yeniden başlatılmasındaki gecikme, o gün şirket için gerçekten doğru olan bir şeydi.
"Maalesef hem hızlı tepki vermenin hem de tam güvenlik sağlamanın bir yolu yok" diyor. Avanesov, Facebook'un kendisini veya müşterilerini herhangi bir ihlale maruz bırakmadığını ve muhtemelen tek bir kullanıcıyı kaybetmeyeceğini, dolayısıyla bu anlamda şirketin her şeyi doğru yaptığını söylüyor. "Böyle karmaşık bir sistem kurmazlarsa, güvenlik ihlali konusunda daha fazla riskleri var."
Hızlı tepki ve güvenlik arasındaki bu iç müzakere, temel gelir üreticileriyle bağlantı kurmak için ağlara bağlı olan herhangi bir şirket için gerekli olduğunu söylüyor. Daha küçük şirketler veya daha rekabetçi pazarlardaki işletmeler için kesinti süresi, müşterilerle anlaşmayı bozabilir. Ancak, daha hızlı yanıt bazen kritik sistemlere erişim için daha düşük bir güvenlik bariyeri anlamına gelir.
Özel Geçici Çözümler, Şirketinizin Daha Hızlı Yanıt Vermesine Yardımcı Olabilir
Nurmi, insan hatası hiçbir zaman bir risk olarak tamamen ortadan kaldırılamasa da, daha küçük ölçekli bir operasyonun, bir hatanın Facebook'ta olduğu gibi tüm bir ağı yok etme olasılığını azaltmanın yolları olduğunu söylüyor. "Bunun gibi durumlar için gördüğüm en iyi çözüm, esasen ölü adam anahtarı olan cihazlarla yapılandırılmış cihazlara sahip olmak" diyor. "Değişikliklerinizi etkinleştirirsiniz, ancak kalıcı olarak kaydedilmeden önce bir zamanlayıcı ayarlanır. Yapılandırma belirli bir süre içinde onaylanmazsa, yapılandırma geri alınır."
Bu durumda bile bir kesinti riski var, ancak bu kesinti muhtemelen saatler yerine dakikalar sürecek - gerekli tüm dahili inceleme düzeylerinden feci bir hata geçse bile, diyor.
BT ekibinizi eğitmek için zaman ve para yatırın. Daha iyi eğitimli bir personele sahip olmak, hazırlığınızı ve ağ kesintilerine yanıtınızı artırmanın en basit ve en uygun maliyetli yoludur.
Altyapılarına üst düzey harici erişime izin vermeden bir kesintiye daha hızlı yanıt süreleri sağlayan güvenlik protokolleri arayan şirketler için bazı ek seçenekler vardır. Avanesov, verilerin uzaktan hacklenmesi riskini önlemek için yerinde personel için tek seferlik parolalar oluşturabilen sistemlerin, daha yüksek düzeyde sunucu erişimi olan BT personelinin gelmesini bekleme ihtiyacını önleyebileceğini söylüyor. Bu tür geçici çözümleri bir ağa dönüştürmek uygun maliyetlidir ve entegre edilmesi çok zahmetli değildir, diyor. Ancak, tesis personelinin önemli bir kesintiye neden olan bir hatayı çözmek için yine de uzmanlığa ihtiyacı vardır.
En İyi Sonucu Almak İçin En Kötüsüne Hazırlanın
Avrupa Komisyonu, Lego ve Publicis Worldwide için güvenli ağlar kuran ve yöneten bir Toptal geliştiricisi olan Austin Dimmer, ağ sorunları ve diğer olası felaket olayları için ayrıntılı simülasyonlar yürütmek, kriz durumlarında hayatta kalmak için çok önemlidir diyor. Bir ağ çökmesine müdahale ederken hazırlıklı olmak, hasarı sınırlamanın ve tekrar eden sorunlardan kaçınmanın anahtarı olabilir.
Dimmer, Toptal Insights'a verdiği demeçte, Facebook'un kazadan sonra kurtarma prosedürleri hakkında yaptığı açıklama, şirketin bir krizde çalışmaya hazır olmasında önemli bir güç olduğunu gösteriyor. “Ne yaptıklarını tam olarak biliyorlardı” diyor. “Veri merkezlerinde aşırı yük potansiyeli ve hatta yangın potansiyeli nedeniyle hepsini çevrimiçi duruma getirmek çok riskliydi, ancak farklı felaket durumlarının simülasyonlarını uyguladıkları için Facebook'taki ekipler bu stresli durumla başa çıkmak için oldukça iyi hazırlanmıştı. durumu ve ağları güvenli ve doğru bir şekilde geri yükleme güvenine sahip olmak.”
Dimmer, yakın zamanda bir fidye yazılımı saldırısına maruz kalan bir müşterisine işaret ediyor. Dimmer ve BT ekibi bu senaryoyu yalnızca birkaç hafta önce denediği için şirketin yedek verilerinin güvende olduğunu biliyordu. Müşteriye bilgisayar korsanlarına ödeme yapmamasını ve yoluna devam etmesini tavsiye etti; müşteri, operasyonlarını etkilemeden ihlalden kurtuldu ve siber hırsızlar için herhangi bir ödeme günü olmadı.
Hangi güvenlik toleransları ve afete hazırlık planları mevcut olursa olsun, üst düzey liderlik, şirketin BT ekiplerini eğitmek için zaman ve para harcamalıdır. Uptime Institute, daha iyi eğitimli bir personele sahip olmanın, bir kuruluşun hazır olma durumunu ve ağ sorunlarına yanıt vermesini artırmanın en basit ve en uygun maliyetli yolu olduğunu buldu. Ağ kesintilerinin önemli bir nedeni olan insan hatası, genellikle yetersiz süreçlerden veya halihazırda mevcut olanları takip etmemekten kaynaklanır.
Ağ kesintileri kaçınılmazdır. Mali ve itibari yansımaları en aza indirmek için şirket liderleri bu gerçeği kabul etmeli ve buna önceden hazırlanmalı. Güvenlik, hazırlık ve müdahale konusunda kasıtlı kararlar vermek, kuruluşların serpintiyi en aza indirmesine ve krizden kurtarmaya güvenle dönmesine yardımcı olur.
Toptal Kıdemli Yazar Michael McDonald bu rapora katkıda bulundu.
