Cloudflare suosnivač i glavni izvršni direktor Matthew Prince opisao je štucanje u utorak 18. studenoga koje je satima prekinulo globalni internetski promet kao problem organizacije najgori prekid rada od 2019rekavši da se div za upravljanje prometom nije susreo s problemom koji je uzrokovao prestanak protoka većine osnovnog prometa kroz njegovu mrežu u više od šest godina.
“Ispad poput današnjeg je neprihvatljiv. Naše smo sustave projektirali tako da budu vrlo otporni na kvarove kako bismo osigurali da će promet uvijek teći. Kad smo u prošlosti imali ispade, to nas je uvijek dovodilo do izgradnje novih, otpornijih sustava”, rekao je Prince. “U ime cijelog tima u Cloudflareu, želio bih se ispričati za bol koju smo danas prouzročili internetu.”
Prekid rada Cloudflarea započeo je u utorak u 11.20 UTC (6.20 EST) kada je njegova mreža počela doživljavati značajne kvarove u isporuci osnovnog prometa, što se običnim web korisnicima manifestiralo kao stranica s pogreškom koja ukazuje na grešku Cloudflare mreže kada su pokušali pristupiti korisničkom mjestu. Problem nije pokrenut cyber napadom ili zlonamjernom aktivnošću, već manjom promjenom koja je utjecala na datoteku koju koristi Cloudflare Upravljanje botom sigurnosni sustav.
Cloudflare Bot Management uključuje model strojnog učenja koji generira “rezultate” botova za bilo koji zahtjev koji prelazi preko mreže – te rezultate koriste korisnici kako bi botovima dopustili ili zabranili pristup njihovim stranicama. Oslanja se na konfiguracijsku datoteku značajke koju model koristi za predviđanje je li zahtjev automatiziran ili ne, a budući da je krajolik robota tako dinamičan, osvježava se i pušta uživo svakih nekoliko minuta, posebno kako bi Cloudflare mogao reagirati na nove robote i napade.
Ispad je nastao zbog promjene dopuštenja sustava baze podataka zbog koje je navedena baza podataka ispisala višestruke unose u konfiguracijsku datoteku značajke. Datoteka se brzo povećala u veličini i nažalost proslijeđena je svim strojevima koji čine Cloudflareovu mrežu. Ovi strojevi – koji usmjeravaju promet preko mreže – trebali su pročitati datoteku kako bi ažurirali sustav upravljanja botovima, ali budući da njihov softver ima ograničenje veličine datoteke značajki, nije uspjelo kada se pojavila datoteka značajke veća od očekivane, što je uzrokovalo pad strojeva.
Sadržaj objave
DDoS zabuna
Prince je rekao da su Cloudflareovi tehnički timovi isprva sumnjali da su suočeni s napadom distribuiranog uskraćivanja usluge (DDoS) zbog dva faktora. Prvo, Cloudflareova vlastita stranica statusa, koja se nalazi izvan njegove infrastrukture bez ovisnosti, slučajno je pala. Drugo, na početku razdoblja prekida rada Cloudflare je vidio kratka razdoblja prividnog oporavka sustava.
Međutim, to nije bio rezultat aktivnosti aktera prijetnje – radije, to se događalo jer se datoteka sa značajkama generirala svakih pet minuta upitom pokrenutim na klasteru baze podataka ClickHouse, koji je i sam bio u procesu ažuriranja kako bi se poboljšalo upravljanje dopuštenjima.
Dodgy datoteka je stoga generirana samo ako je upit pokrenut na ažuriranom dijelu klastera, tako da je svakih pet minuta postojala šansa da se generiraju i šire datoteke s normalnim ili nenormalnim značajkama.
“Ova fluktuacija učinila je nejasnim što se događa jer bi se cijeli sustav oporavio, a zatim ponovno otpao jer su ponekad dobre, ponekad loše konfiguracijske datoteke bile distribuirane našoj mreži”, rekao je Prince. “U početku nas je to navelo da vjerujemo da bi to mogao biti uzrokovan napadom. Na kraju je svaki ClickHouse čvor generirao lošu konfiguracijsku datoteku i fluktuacija se stabilizirala u stanju kvara.”
Te su se pogreške nastavile sve dok tehnički tim nije uspio identificirati problem i riješiti ga zaustavljanjem generiranja i širenja datoteke s lošom značajkom, ručnim umetanjem “poznato dobre” datoteke u red čekanja za distribuciju, a zatim isključivanjem i ponovnim uključivanjem glavnog proxyja. Kad je to učinjeno, stvari su se počele vraćati u normalu od 14:30 nadalje, a broj osnovnih pogrešaka na Cloudflareovoj mreži vratio se u normalu otprilike dva i pol sata kasnije.
Rizik i otpornost
Iako sam Cloudflare nije napadnut od strane prijetnje, prekid je i dalje ozbiljan problem kibernetičkog rizika s lekcijama koje treba naučiti ne samo u Cloudflareu, već i među svim organizacijama, bez obzira jesu li klijenti ili ne. Izložio je dublji, sistemski rizik u tome što previše internetske infrastrukture počiva na samo nekoliko ramena.
Ryan Polk, direktor politike u američkoj neprofitnoj organizaciji the Internet društvorekao je da se tržišna koncentracija među mrežama za isporuku sadržaja (CDN-ovima) stalno povećavala od 2020.: “CDN-ovi nude jasne prednosti – poboljšavaju pouzdanost, smanjuju latenciju i smanjuju tranzitnu potražnju. Međutim, kada je previše internetskog prometa koncentrirano unutar nekoliko pružatelja usluga, te mreže mogu postati pojedinačne točke kvara koje ometaju pristup velikim dijelovima interneta.
“Organizacije bi trebale procijeniti otpornost usluga na koje se oslanjaju i ispitati svoje opskrbne lance. Koji su sustavi i pružatelji ključni za njihovo poslovanje? Gdje postoje pojedinačne točke kvara? Kompanije bi trebale istražiti načine diverzifikacije, kao što je korištenje više oblaka, CDN-a ili pružatelja usluga autentifikacije kako bi se smanjio rizik i poboljšala ukupna otpornost.”
Martin Greenfield, izvršni direktor u Quod Orbisplatforma za kontinuirani nadzor, dodala je: „Kada jedna automatski generirana konfiguracijska datoteka može isključiti glavne dijelove weba, to nije samo problem Cloudflarea, već problem krhkosti koji je postao utkan u način na koji organizacije grade svoje sigurnosne pakete.
“Automatizacija čini sigurnost skalabilnom, ali kada se automatizirana konfiguracija trenutačno proširi globalnom mrežom, ona također povećava neuspjeh. Ono što nedostaje u većini organizacija, a očito je nedostajalo i ovdje, jest automatizirano jamstvo koje provjerava te konfiguracije prije nego što počnu raditi. Automatizacija bez jamstva je krhkost u razmjeru i oslanjanje na jednog dobavljača ne može podnijeti učinkovitu strategiju otpornosti.”
Sa svoje strane, Prince je rekao da će Cloudflare poduzeti korake kako bi smanjio šanse da se takav problem ponovno pojavi u budućnosti. To uključuje pojačavanje gutanja konfiguracijskih datoteka koje je generirao Cloudflare na isti način na koji bi to učinio za unose koje generira korisnik, omogućavanje globalnih prekidača za isključivanje značajki, rad na uklanjanju mogućnosti da dumpovi jezgre ili izvješća o pogrešci preopterećuju sistemske resurse i pregled načina kvarova za uvjete grešaka u svim njegovim osnovnim proxy modulima.



