Kaj je bil razlog za izpad Cloudflarea?
Cloudflare, podjetje, ki poganja približno petino vsega spletnega prometa (vključno s platformami, kot so ChatGPT, X …), je v torek zvečer doživelo najresnejši izpad v zadnjih šestih letih. Po besedah soustanovitelja in izvršnega direktorja Matthewa Princa je bila za incident kriva napaka v sistemu za upravljanje botov (angl. Bot Management), ki skrbi za nadzor nad samodejnimi obiskovalci spletnih strani, kot so spletni pajki in drugi programirani roboti.
Bot Management sistem ima ključno vlogo pri preprečevanju zlorab, kot je na primer zbiranje podatkov za treniranje generativnih UI modelov, ali zaščita pred pretiranimi zahtevki, ki lahko ohromijo spletna mesta. Cloudflare je pred kratkim celo predstavil novo rešitev imenovano AI Labyrinth, ki generira vsebine za zavajanje neželenih botov. Vendar, kot poudarjajo v podjetju, tokratni krivec za izpad ni kriva njihova najnovejša UI tehnologija.
Napaka je nastala zaradi nepredvidene spremembe dovoljenj v bazi podatkov ClickHouse, kar je privedlo do podvajanja t. i. »feature vrstic« v konfiguracijski datoteki, ki jo uporablja model strojnega učenja za ocenjevanje, kateri promet izvira od botov. Datoteka je postala prevelika in presegla pomnilniške omejitve, zaradi česar se je zrušil osrednji posredovalni sistem (angl. proxy), prek katerega Cloudflare obdeluje promet svojih strank.
Rezultat? Spletne strani, ki so uporabljale ocene botov za filtriranje prometa, so začele napačno blokirati zakonite uporabnike, medtem ko so druge, ki tega sistema niso uporabljale, ostale delujoče. Izpad je prizadel številne storitve, med njimi ChatGPT, X (nekdanji Twitter), Downdetector in tudi našo spletno stran.
Cloudflare zdaj načrtuje štiri ključne izboljšave, s katerimi želi zmanjšati verjetnost podobnih incidentov v prihodnosti: bolj robustno obravnavo lastnih konfiguracijskih datotek, uvedbo dodatnih »kill switch« stikal za hitro deaktivacijo funkcij, omejevanje vpliva poročil o napakah ter sistematičen pregled vseh možnih točk odpovedi v osrednjem posredovalnem sistemu.
Dogodek znova opozarja, kako centraliziranost interneta pomeni, da lahko ena sama napaka v infrastrukturi prizadene milijone uporabnikov po vsem svetu.
Prijavi napako v članku





























