İnternet, yüzeyde merkezi olmayan, ağlarla örülü sonsuz bir yapı gibi görünse de, gerçekte işleyişi sağlayan perde arkasındaki birkaç dev oyuncunun omuzlarında yükseliyor. Web sitelerinin ve uygulamaların işlevselliğini garanti altına alan bu küresel oyuncuların en büyüklerinden biri olan Cloudflare, 18 Kasım Salı günü saatlerce devre dışı kaldı. İlk başta büyük çaplı bir siber saldırı gibi görünen ve dünya genelinde paniğe yol açan bu durumun, aslında insan kaynaklı basit bir hatadan kaynaklandığı ortaya çıktı.
Salı günü web’de sörf yapan milyonlarca kullanıcı, o artık meşhur olan “Cloudflare Error 500” hatasıyla karşılaştı. Küresel saatle (UTC) 11:30 ile 14:30 arasında, Ikea, PayPal, ChatGPT, X (eski adıyla Twitter) gibi sayısız dev platforma ve hizmete erişim tamamen kesildi. Peki, internetin omurgası sayılan bir sistem nasıl oldu da tek bir hatayla felç oldu?

İnternetin Görünmez Kahramanı: Cloudflare Ne İş Yapar?
İnternetin en büyük oyuncularından bahsedildiğinde akla genellikle Amazon (AWS), Google, Microsoft ve Meta (Facebook) gelir. Bu devlerde bir sorun yaşandığında internetin büyük bir kısmının durma noktasına geldiğini biliriz. Ancak, web sitelerini saldırılardan korumak ve hızlandırmak için kritik bir rol üstlenen Cloudflare, genellikle gözden kaçan ama hayati öneme sahip bir “görünmez kahraman”dır.
Bugün kullandığımız birçok web sitesi ve çevrimiçi hizmet, yükleme sürelerini kısaltmak ve sunucularını kötü niyetli trafikten korumak için Cloudflare’in altyapısına güveniyor. Cloudflare, web sitelerinden ve hizmetlerden gelen verileri önbelleğe (cache) alarak ve bir proxy (vekil sunucu) görevi görerek, istemciler (kullanıcılar) ile sunucular arasındaki bağlantının çok daha akıcı olmasını sağlar.
Bununla da kalmaz; Cloudflare, kötü niyetli istekleri filtreler ve ani trafik yükü artışlarının (spike) sunucuyu çökertmesini engelleyerek bu yükü kendi üzerinde karşılar. Belki de en çok bilinen özelliği, web sitelerini hizmet reddi saldırılarına (DDoS) karşı korumasıdır. Web sitesi operatörleri için sayfaların dünya çapındaki çeşitli sunucularda önbelleğe alınarak yükleme sürelerinin optimize edilmesi genellikle en önemli husustur. Sayısız web sitesi, kendi sunucularındaki yükü hafifletmek ve aynı zamanda ziyaretçi gecikmesini (latency) azaltmak için Cloudflare’in hizmetlerine bağımlıdır.

18 Kasım: Cloudflare Ağında Geniş Çaplı Kesinti
Salı günü, Cloudflare ağını vuran ciddi bir hata, müşterilerinin web sitelerini ve hizmetlerini erişilemez hale getirdi. Olayın ardından bir blog yazısı yayınlayan Cloudflare CEO’su Matthew Prince, şirketin ağında 2019’dan bu yana yaşanan en büyük kesintiye yol açan olaylar zincirini tüm şeffaflığıyla detaylandırdı.
Olaylar zinciri şöyle gelişti: Saat 11:30 UTC civarında, bir yapılandırma hatası nedeniyle Cloudflare sistemlerinde aşırı yüksek sayıda 5xx hata kodları (sunucu hataları) görülmeye başlandı. Ancak, hata sayısı 13:00 UTC‘ye kadar önemli ölçüde dalgalanma gösterdi. Bu dalgalı ve agresif hata grafiği, Cloudflare ekiplerinin başlangıçta harici bir saldırı ile karşı karşıya olduklarını düşünmelerine neden oldu. Cloudflare’in kendi durum (status) sayfasının da bu sırada erişilemez hale gelmesi, saldırı şüphesini güçlendirdi. Şirket içi sohbetlerde yapılan ilk tartışmalarda, kesintiden bir botnet‘in sorumlu olabileceği spekülasyonları yapıldı.
Ancak bir süre sonra hata oranı, ağ içinde beklenen düşük seviyelere geri döndü ve gerçek sorun, saldırı değil, içeriden gelen bir hataydı.
Sorunun Kaynağı: Şişirilmiş Bir Dosya ve Bellek Çökmesi
Asıl sorun Cloudflare’in kendi ağı içinde doğmuştu. Bir veritabanı sistemindeki izinlerde (permissions) yapılan bir değişiklik, çeşitli hataları tetikledi. Bu değişiklik aslında kesintiden önce, 11:05 UTC civarında uygulanmıştı.
Bu değişikliğin beklenmedik bir sonucu olarak, bot yönetim sistemine ait bir özellik dosyasının boyutu yapay olarak şişti ve orijinal boyutunun neredeyse iki katına çıktı. Buradaki kritik nokta şuydu: Cloudflare programları, bu dosya için bellekte (RAM) sabit bir boyut ayırmıştı (rezerve etmişti).
Boyutu aniden büyüyen bu dosyalar, kendileri için ayrılmış bellek alanını taşırdı ve bu da sistemin çökmesine (crash) neden oldu. Peki, hatalar neden sürekli değil de dalgalı bir seyir izledi?
- Özellik dosyası her beş dakikada bir güncelleniyordu.
- Cloudflare’in tüm kümeleri (cluster) aynı anda yeni yapılandırma üzerinde çalışmıyordu.
Bu durum, herhangi bir zamanda ağın tamamında ya tamamen işlevsel olan eski dosyanın ya da sistemi çökerten yeni (bozuk) dosyanın dağıtılıyor olabileceği anlamına geliyordu. Hata sıklığındaki dalgalanmaların nedeni tam olarak buydu.
Saat 13:37 civarında, Cloudflare’in olay müdahale ekibi, kesintiye neden olan şeyin bot yönetim sisteminde yapılan ayarlamalar olduğunu kesin olarak tespit etti. Yaklaşık bir saat sonra, sorunu tamamen çözmeyi başardılar ve internet trafiği normale döndü.

İnternetin Kırılganlığı Üzerine Düşündürücü Bir Tablo
Bu Cloudflare kesintisinin etkileri, internetin az sayıda oyuncuya olan sorgulanabilir bağımlılığını bir kez daha net bir şekilde ortaya koydu. Merkezi bir kilit noktadaki tek bir yapılandırma hatası, sayısız web sitesinin ve hizmetin saatlerce ulaşılamaz hale gelmesi için yeterli oldu. Bu olay, “bildiğimiz anlamda internetin aslında ne kadar savunmasız olduğu” sorusunu ve merkezi yapıların risklerini yeniden gündeme getiriyor.
