Cloudflare skrušen nakon najgoreg prekida rada od 2019

Cloudflare suosnivač i glavni izvršni direktor Matthew Prince opisao je štucanje u utorak 18. studenoga koje je satima prekinulo globalni internetski promet kao problem organizacije najgori prekid rada od 2019rekavši da se div za upravljanje prometom nije susreo s problemom koji je uzrokovao prestanak protoka većine osnovnog prometa kroz njegovu mrežu u više od šest godina.

“Ispad poput današnjeg je neprihvatljiv. Naše smo sustave projektirali tako da budu vrlo otporni na kvarove kako bismo osigurali da će promet uvijek teći. Kad smo u prošlosti imali ispade, to nas je uvijek dovodilo do izgradnje novih, otpornijih sustava”, rekao je Prince. “U ime cijelog tima u Cloudflareu, želio bih se ispričati za bol koju smo danas prouzročili internetu.”

Prekid rada Cloudflarea započeo je u utorak u 11.20 UTC (6.20 EST) kada je njegova mreža počela doživljavati značajne kvarove u isporuci osnovnog prometa, što se običnim web korisnicima manifestiralo kao stranica s pogreškom koja ukazuje na grešku Cloudflare mreže kada su pokušali pristupiti korisničkom mjestu. Problem nije pokrenut cyber napadom ili zlonamjernom aktivnošću, već manjom promjenom koja je utjecala na datoteku koju koristi Cloudflare Upravljanje botom sigurnosni sustav.

Cloudflare Bot Management uključuje model strojnog učenja koji generira “rezultate” botova za bilo koji zahtjev koji prelazi preko mreže – te rezultate koriste korisnici kako bi botovima dopustili ili zabranili pristup njihovim stranicama. Oslanja se na konfiguracijsku datoteku značajke koju model koristi za predviđanje je li zahtjev automatiziran ili ne, a budući da je krajolik robota tako dinamičan, osvježava se i pušta uživo svakih nekoliko minuta, posebno kako bi Cloudflare mogao reagirati na nove robote i napade.

Ispad je nastao zbog promjene dopuštenja sustava baze podataka zbog koje je navedena baza podataka ispisala višestruke unose u konfiguracijsku datoteku značajke. Datoteka se brzo povećala u veličini i nažalost proslijeđena je svim strojevima koji čine Cloudflareovu mrežu. Ovi strojevi – koji usmjeravaju promet preko mreže – trebali su pročitati datoteku kako bi ažurirali sustav upravljanja botovima, ali budući da njihov softver ima ograničenje veličine datoteke značajki, nije uspjelo kada se pojavila datoteka značajke veća od očekivane, što je uzrokovalo pad strojeva.

Sadržaj objave