Agenti umjetne inteligencije tiho stvaraju kaos tehničke greške koje poduzeća još ne prate

Postoji kategorija proizvodnog incidenta koju inženjerski timovi još ne prate — jer ne odgovara nijednom postojećem postmortem predlošku.

Agent je pokrenuo akciju. Radnja je bila tehnički ispravna s obzirom na kontekst agenta. Kontekst je bio nepotpun. Infrastruktura je kaskadna. I, do trenutka kada se dogodio pregled incidenta, tri tima su se svađala oko toga je li riječ o propustu agenta ili o propustu infrastrukture, jer okviri za razmišljanje o te dvije stvari nikada nisu bili povezani.

Razmjeri ove izloženosti više nisu teoretski. Sedamdeset devet posto organizacija sada ima neki oblik AI agenta u proizvodnji, a 96% planira proširenje. Gartner predviđa da će 33% poslovnog softvera uključivati agentsku umjetnu inteligenciju do 2028., ali zasebno upozorava da 40% tih projekata bit će otkazani zbog slabe kontrole rizika.

Ono što nijedna statistika ne bilježi je način kvara koji se događa između ta dva broja: agenti koji su pokrenuti, koji nisu otkazani i koji tiho generiraju infrastrukturne događaje koje nitko nije kategorizirao kao rizik.

Proveo sam šest godina gradeći sustave automatizacije infrastrukture na razini poduzeća, prvo u Ciscu (vodeće platforme životnog ciklusa vođene umjetnom inteligencijom raspoređene u više od 20 globalnih poslovnih korisnika), zatim u Splunk-u (dizajniranje analize temeljnih uzroka uz pomoć umjetne inteligencije i tijekova rada zapažanja u tisućama poslovnih okruženja).

Tijekom tog vremena također sam podnio patent za metodologiju inženjeringa kaosa koja se temelji na namjeri. I kroz sve to, nastavio sam promatrati organizacije koje rade istu strukturnu pogrešku: tretiranje autonomnih agenata i inženjeringa kaosa kao zasebnih disciplina. Oni nisu. Oni su ista disciplina, a jaz između njih tiho stvara sljedeći val velikih proizvodnih incidenata.

Sadržaj objave

1 Presuda koju agenti preskaču
2 Kapacitet apsorbiranja je resurs; većina sustava to ne tretira na taj način
3 Gdje jezični modeli pomažu, a točno gdje ne uspijevaju
4 Što to znači za način na koji poduzeća upravljaju agentima u proizvodnji

Presuda koju agenti preskaču

Da biste razumjeli zašto je to važno, morate razumjeti što je zapravo pokvareno u tome kako poduzeća danas upravljaju kaosom, prije nego što dodate agente na sliku.

Većina zrelih inženjerskih organizacija uložila je u programe inženjeringa kaosa. Dani igre, kontrole radijusa eksplozije, eksperimenti s ograničenim pristupom. Kada ljudski inženjer započne eksperiment kaosa, sekvenca ima kritično svojstvo: čovjek donosi prosudbu o tome ima li sustav trenutno kapacitet za apsorbiranje poremećaja. Provjeravaju nadzorne ploče. Oni promatraju stopu sagorijevanja proračuna pogreške. Oni procjenjuju jesu li ovisnosti stabilne. Nesavršen je i često intuitivan, ali barem postoji osoba koja postavlja pravo pitanje prije nego što se išta pokrene.

Kada uvedete autonomnog agenta za sanaciju, onog koji može ponovno pokrenuti usluge, preusmjeriti promet, skalirati resurse ili modificirati konfiguracije kao odgovor na otkrivene anomalije, to pitanje nestaje. Agent vidi anomaliju. Agent poduzima radnju. Radnja je događaj kaosa. Nema SLO provjere brzine sagorijevanja. Nema izračuna radijusa eksplozije. Nema ljudske prosudbe o tome je li upravo sada pravi trenutak za uvođenje dodatnog stresa u sustav koji je možda već pod pritiskom iz tri druga smjera.

Evo specifičnog načina neuspjeha koji sam gledao. Agent za popravak otkriva povećanu latenciju na mikroservisu i reagira ponovnim pokretanjem klastera usluga; razumnu radnju s obzirom na podatke o obuci i uski pogled na incident. Ono što agent ne zna: tri druge usluge su usred vršnog prometa. Skup zajedničkih veza već je iskorišten na 87%. Zavisna baza podataka izvodi ponovnu izgradnju pozadinskog indeksa. Ponovno pokretanje pokreće gromoglasno stado protiv usluge oporavka.

Ono što je započelo kao skok latencije za koji je agent trebao popraviti postaje kaskada koju agent nikada nije trebao modelirati. Radijus eksplozije te akcije agenta nije bio ponovno pokretanje usluge. Bilo je to sve nizvodno od ponovnog pokretanja, u stanju sustava o kojem agent nije imao potpunu sliku.

Ničiji program inženjeringa kaosa nije testirao tu specifičnu kombinaciju. Ničiji izračun radijusa eksplozije nije uključio agenta kao glumca. Jer agente ne smatramo ubrizgavačima kaosa. Trebali bismo.

Prema Baza podataka o incidentima umjetne inteligencijeprijavljeni incidenti povezani s umjetnom inteligencijom porasli su za 21% od 2024. do 2025. Taj broj gotovo sigurno podcjenjuje stvarnu izloženost, jer većina organizacija nema klasifikaciju incidenata koja obuhvaća akciju autonomnog agenta kao početni uzrok kaskade. Incident se bilježi kao ponovno pokretanje usluge, zasićenje skupa veza ili događaj kašnjenja. Uzročnik je nevidljiv u obdukciji.

Kapacitet apsorbiranja je resurs; većina sustava to ne tretira na taj način

Temeljni problem je u tome što sustavi poduzeća nemaju zajednički jezik za apsorpcijski kapacitet — procjenu u stvarnom vremenu koliko dodatnog stresa sustav može podnijeti prije nego što prekrši svoje SLO obveze. Inženjerski programi kaosa njime upravljaju implicitno, putem ljudske prosudbe i statičkih pragova koji se aktiviraju nakon što je granica već prijeđena. Agenti uopće ne upravljaju time.

Kroz strukturirano primarno istraživanje s inženjeringom pouzdanosti mjesta (SRE) i praktičarima inženjeringa platformi u organizacijama uključujući Intuit i GPTZero, razvijao sam proračunski model otpornosti. Temeljna ideja je tretirati apsorpcijski kapacitet kao kontinuirano iznova izračunat, potrošni resurs, a ne kao statički prag koji pokušavate ne probiti.

Proračun otpornosti temelji se na četiri klase signala uživo.

Stopa sagorijevanja SLO primarni je unos, jer izravno kodira udaljenost između trenutnog ponašanja sustava i predanosti koja je zapravo važna. Ako sustav troši svoj mjesečni proračun za pogreške pet puta većom stopom od očekivane, proračun za otpornost je blizu nule bez obzira na to kako izgleda iskorištenje CPU-a.
Trend latencije P99 važniji je od apsolutne latencije, jer vam usluga koja raste tijekom četrdeset minuta govori nešto drugačije od usluge koja je bila stabilna na istoj apsolutnoj vrijednosti.
Stanje zasićenja ovisnosti je signal koji se najčešće propušta; eksperiment kaosa ili radnja agenta koja pretpostavlja da je dijeljeni skup veza slobodno dostupan kada se nalazi na 87% proizvest će načine neuspjeha koje nitko nije dizajnirao.
Signali ponašanja aplikacije, stope dovršetka sesije, pomaci obrasca poziva API-ja, degradacija konverzije i stres površinskog sustava ranije nego metrika infrastrukture, jer korisnici osjete degradaciju prije nego što je Prometheus prijavi.

Ono što ovo čini proračunom, a ne pragom je to što je potrošni materijal. Svaki eksperiment kaosa crpi iz raspoloživog kapaciteta. Svako djelovanje agenta proizlazi iz toga. U organizacijama s više timova gdje više eksperimenata i više agenata može djelovati istovremeno, proračun se dijeli.

Bez zajedničke knjige potrošnje, dva tima koja pokreću eksperimente protiv preklapajućih ovisnosti proizvode kombinirani radijus eksplozije koji niti jedan tim nije planirao. Dodajte autonomne agente koji djeluju potpuno izvan glavne knjige i računovodstvo će se urušiti.

Gdje jezični modeli pomažu, a točno gdje ne uspijevaju

Nekoliko inženjerskih organizacija sada provodi eksperimente koristeći velike jezične modele (LLM) za generiranje hipoteza kaosa iz grafova ovisnosti i incidenata postmortem korpusa. Rezultati su usmjereni korisni. Jezični modeli otkrivaju vjerojatne načine neuspjeha koje iskusni SRE prepoznaju kao vrijedne testiranja i generiraju hipoteze brže od ručnih procesa, osobito kada rade na temelju bogate posmrtne povijesti.

Ograničenje je zastarjelost grafikona ovisnosti, a to je teško ograničenje. Hipoteza generirana iz grafikona koji ne odražava prošlomjesečno izdvajanje usluge ili novu ovisnost dijeljene biblioteke dodanu prije dva sprinta, predložit će eksperiment s netočnim pretpostavkama radijusa eksplozije. Problem nije u tome što model griješi, već u tome što model ne zna da je čini. Pouzdano će biti netočno u vezi s granicom sustava koja više ne postoji, au inženjerstvu kaosa, uvjerena netočnost u proizvodnji znači neplanirani ispad.

Stanfordov Pouzdan laboratorij za istraživanje umjetne inteligencije utvrdio da samo zaštitne ograde na razini modela nisu dovoljne: napadi finog podešavanja zaobišli su vodeće modele u većini testiranih slučajeva. Implikacija za stvaranje hipoteze kaosa je izravna, modelu koji ne može pouzdano držati vlastite sigurnosne granice ne može se vjerovati da će točno modelirati radijus eksplozije akcije koju nikada nije vidio u grafu ovisnosti koji nije provjerio.

Kada se generiranje hipoteza umjesto toga oslanja na postmortalne korpuse, problem zastarjelosti znatno se smanjuje. Postmortemi opisuju kvarove koji su se stvarno dogodili u sustavu u određenom trenutku. Signal je inherentno potvrđen proizvodnom stvarnošću. Ovo je prikladna kratkoročna AI aplikacija u ovom prostoru i istinski je korisna za organizacije sa zrelom praksom dokumentiranja incidenata.

Ono što umjetna inteligencija ne može učiniti, i ne bi se od nje trebalo tražiti, jest donijeti odluku o izvršenju kada su signali dvosmisleni. Ta prosudba zahtijeva svijest o stvarima koje su u potpunosti izvan bilo kojeg sustava nadzora: implementacije na čekanju koje su promijenile krajolik ovisnosti prije sat vremena, razine dežurnog osoblja tijekom blagdanskog vikenda, predanost klijentu zbog koje je svaki dodatni rizik neprihvatljiv do ponedjeljka.

Model bez pristupa tom kontekstu ne bi trebao upućivati taj poziv. Ovo nije privremeno ograničenje u iščekivanju sposobnijeg modela. To je strukturalno ograničenje onoga što može predstavljati strojna promatranost, a izgradnja agentske arhitekture koja to zanemaruje je izgradnja one koja će na kraju donijeti posljedičnu odluku s nepotpunim informacijama – i bez čovjeka u petlji da to uhvati.

Što to znači za način na koji poduzeća upravljaju agentima u proizvodnji

Implikaciju upravljanja jednostavno je opisati i teže implementirati nego što zvuči. Svaka radnja autonomnog agenta koja dodiruje infrastrukturu mora se registrirati na istom sloju signala uživo koji upravlja eksperimentima kaosa. Iste SLO stope sagorijevanja, trendovi latencije, stanja zasićenosti ovisnosti koje bi ljudski inženjer provjerio prije pokretanja eksperimenta trebali bi otkriti što je agentu dopušteno raditi i kada. Ako je proračun otpornosti ispod definiranog praga, agent čeka ili eskalira. Ne djeluje.

Radnje agenata također se moraju modelirati kao eksperimenti, a ne samo bilježiti kao događaji. Kada agent ponovno pokrene uslugu, pitanje nije samo je li ponovno pokretanje uspješno dovršeno. Radijus o tome je li radijus eksplozije tog djelovanja bio proporcionalan raspoloživom kapacitetu apsorpcije i kakve je kaskadne učinke proizveo među ovisnostima. To su podaci inženjeringa kaosa. Pripada modelu proračuna, hrani sljedeću odluku koju agent ili tim treba donijeti.

A kada su signali istinski dvosmisleni, kada je rezultat proračuna nejasan, kada je nedavna implementacija promijenila topologiju na načine koje kontekstni prozor agenta ne može uhvatiti, kada se stanja ovisnosti mijenjaju, odluku o izvršenju treba donijeti čovjek. Ne kao trajno ograničenje autonomije agenta, već kao strog inženjerski zahtjev za trenutno stanje tehnologije.

Prekidač strujnog kruga koji dvosmislene slučajeve predaje čovjeku nije slabost u arhitekturi agenta. To je ono što čini arhitekturu dovoljno pouzdanom da se stvarno pokrene u proizvodnji. Provjera temeljena na namjeri formalizira upravo ovo: definiranje kako izgleda ispravno ponašanje agenta prije implementacije, a zatim kontinuirano ispitivanje drže li se te granice pod živim uvjetima sustava.

Organizacije koje pouzdano upravljaju autonomnim agentima na velikom broju nisu one s najsofisticiranijim modelima. Oni su ti koji su razumjeli, prije nego što je nešto krenulo loše, da je svaka akcija agenta događaj kaosa i izgradili su svoj sloj upravljanja u skladu s tim.

Praktični prvi korak nije glamurozan: revizija svakog autonomnog agenta koji trenutno dodiruje infrastrukturu, mapiranje njegove površine djelovanja u odnosu na vaše žive SLO signale brzine sagorijevanja i definiranje eksplicitnih donjih uvjeta ispod kojih agent mora čekati ili eskalirati. Ta će revizija otkriti agente koji djeluju potpuno izvan vašeg računovodstva otpornosti.

Većina organizacija koje danas pokreću velike agente imaju nekoliko njih. Pronađite ih prije proizvodnje.

Sayali Patil provela je više od 6 godina u tvrtkama Cisco Systems i Splunk gradeći sustave pouzdanosti i automatizacije koji održavaju infrastrukturu umjetne inteligencije u poduzeću koja radi u velikim razmjerima.

Web izvor

Agenti umjetne inteligencije tiho stvaraju kaos tehničke greške koje poduzeća još ne prate

ByTomšić Damjan

Presuda koju agenti preskaču

Kapacitet apsorbiranja je resurs; većina sustava to ne tretira na taj način

Gdje jezični modeli pomažu, a točno gdje ne uspijevaju

Što to znači za način na koji poduzeća upravljaju agentima u proizvodnji

By Tomšić Damjan

Vjerodajnica koja omogućuje agentima OpenAI-ja u Hugging Face trenutno postoji u većini poduzeća

Zašto se ljudi uvijek razbole od zelene salate

Novi ste u Linuxu? Ovaj 10-dnevni kontrolni popis pomoći će vam da se smjestite lijepo i lako

You missed

Vjerodajnica koja omogućuje agentima OpenAI-ja u Hugging Face trenutno postoji u većini poduzeća

Zašto se ljudi uvijek razbole od zelene salate

Novi ste u Linuxu? Ovaj 10-dnevni kontrolni popis pomoći će vam da se smjestite lijepo i lako

Nakon otpuštanja i mutnih promjena strategije, Xbox najavljuje povratnu kompatibilnost na PC programu, s Blinxom i Conkerom koji predvode prvi val

Agenti umjetne inteligencije tiho stvaraju kaos tehničke greške koje poduzeća još ne prate

ByTomšić Damjan

Presuda koju agenti preskaču

Kapacitet apsorbiranja je resurs; većina sustava to ne tretira na taj način

Gdje jezični modeli pomažu, a točno gdje ne uspijevaju

Što to znači za način na koji poduzeća upravljaju agentima u proizvodnji

By Tomšić Damjan

Related Post

Vjerodajnica koja omogućuje agentima OpenAI-ja u Hugging Face trenutno postoji u većini poduzeća

Zašto se ljudi uvijek razbole od zelene salate

Novi ste u Linuxu? Ovaj 10-dnevni kontrolni popis pomoći će vam da se smjestite lijepo i lako

You missed

Vjerodajnica koja omogućuje agentima OpenAI-ja u Hugging Face trenutno postoji u većini poduzeća

Zašto se ljudi uvijek razbole od zelene salate

Novi ste u Linuxu? Ovaj 10-dnevni kontrolni popis pomoći će vam da se smjestite lijepo i lako

Nakon otpuštanja i mutnih promjena strategije, Xbox najavljuje povratnu kompatibilnost na PC programu, s Blinxom i Conkerom koji predvode prvi val