Konsenzus industrije je da će 2026. biti godina "agentska umjetna inteligencija." Ubrzano prelazimo chatbotove koji jednostavno sažimaju tekst. Ulazimo u eru autonomnih agenata koji izvršavaju zadatke. Od njih očekujemo da rezerviraju letove, dijagnosticiraju prekide sustava, upravljaju infrastrukturom oblaka i personaliziraju medijske tokove u stvarnom vremenu.
Kao tehnološki izvršni direktor koji nadzire platforme koje opslužuju 30 milijuna istodobnih korisnika tijekom velikih globalnih događaja poput Olimpijskih igara i Super Bowla, vidio sam nezgodnu stvarnost iza pompe: agenti su nevjerojatno krhki.
Rukovoditelji i VC-ovi opsjednuti su referentnim vrijednostima modela. Oni raspravljaju Llama 3 protiv GPT-4. Usredotočuju se na maksimiziranje veličina prozora konteksta. Ipak, oni ignoriraju stvarnu točku neuspjeha. Primarni razlog zašto autonomni agenti ne uspijevaju u proizvodnji često su problemi s higijenom podataka.
U prethodnoj eri od "čovjek-u-petlji" analitike, kvaliteta podataka bila je smetnja koja se mogla riješiti. Ako ETL cjevovod naiđe na problem, nadzorna ploča može prikazati netočan broj prihoda. Ljudski analitičar bi uočio anomaliju, označio je i popravio. Radijus eksplozije je ograničen.
U novom svijetu autonomnih agenata te sigurnosne mreže više nema.
Ako se podatkovni cjevovod danas pomakne, agent ne prijavljuje samo krivi broj. Potrebno je krivo akcijski. Određuje pogrešnu vrstu poslužitelja. Korisniku koji gleda crtiće preporučuje horor film. Halucinira odgovor službe za korisnike koji se temelji na pokvarenim umetanjima vektora.
Za pokretanje AI na razini NFL-a ili Olimpijskih igara, shvatio sam da standardno čišćenje podataka nije dovoljno. Ne možemo samo "monitor" podaci. Moramo to zakonski urediti.
Rješenje ovog specifičnog problema moglo bi biti u obliku okvira ‘kvaliteta podataka – uvjerenje’. Funkcionira kao “konstitucija podataka”. Provodi tisuće automatiziranih pravila prije nego što se jednom bajtu podataka dopusti dodir s AI modelom. Iako sam ovo posebno primijenio na arhitekturu strujanja na NBCUniversalu, metodologija je univerzalna za svako poduzeće koje želi operacionalizirati AI agente.
Evo zašto "obrambeni podatkovni inženjering" i Creed filozofija su jedini načini da se preživi Agentic era.
Sadržaj objave
Zamka vektorske baze podataka
Osnovni problem s AI agentima je taj što oni implicitno vjeruju kontekstu koji im date. Ako koristite RAG, vaša vektorska baza podataka je dugoročna memorija agenta.
Problemi s kvalitetom standardnih podataka katastrofalni su za vektorske baze podataka. U tradicionalnim SQL bazama podataka, null vrijednost je samo null vrijednost. U vektorskoj bazi podataka, nulta vrijednost ili neusklađenost sheme mogu iskriviti semantičko značenje cijelog ugrađivanja.
Razmotrite scenarij u kojem se metapodaci mijenjaju. Pretpostavimo da vaš cjevovod unosi video metapodatke, ali stanje utrke uzrokuje "žanr" oznaka skliznuti. Vaši metapodaci mogu označiti videozapis kao "sport uživo," ali ugradnja je generirana iz a "isječak vijesti." Kada agent postavi upit bazi podataka za "vrhunci dodira," dohvaća isječak vijesti jer pretraga sličnosti vektora radi na oštećenom signalu. Agent zatim poslužuje taj isječak milijunima korisnika.
U razmjeru, ne možete se osloniti na nizvodno praćenje da biste to uhvatili. Dok se alarm za anomaliju oglasi, agent je već donio tisuće loših odluka. Kontrole kvalitete moraju se pomaknuti do apsoluta "lijevo" cjevovoda.
The "Creed" okvir: 3 načela za opstanak
The Creed očekuje se da okvir djeluje kao vratar. To je kvalitetna arhitektura s više korisnika koja se nalazi između izvora unosa i AI modela.
Za tehnološke lidere koji žele izgraditi vlastitu "ustav," evo tri načela o kojima se ne može pregovarati koja preporučujem.
1. The "karantena" uzorak je obavezan: U mnogim modernim podatkovnim organizacijama inženjeri preferiraju "ELT" pristup. Bacaju sirove podatke u jezero i kasnije ih čiste. Za AI agente to je neprihvatljivo. Ne možete dopustiti agentu da pije iz zagađenog jezera.
The Creed metodologija provodi strogu "mrtvo pismo u redu." Ako paket podataka krši ugovor, odmah se stavlja u karantenu. Nikada ne stiže do vektorske baze podataka. Daleko je bolje da agent kaže "ne znam" zbog podataka koji nedostaju nego samouvjereno lagati zbog loših podataka. Ovaj "strujni prekidač" obrazac je bitan za sprječavanje halucinacija visokog profila.
2. Shema je zakon: Godinama se industrija kretala prema "bez sheme" fleksibilnost za brzo kretanje. Moramo preokrenuti taj trend za osnovne AI cjevovode. Moramo provoditi striktno tipkanje i referencijalni integritet.
Po mom iskustvu, robustan sustav zahtijeva razmjer. Trenutno se provodi implementacija koju nadgledam više od 1000 aktivnih pravila trčanje preko tokova u stvarnom vremenu. Ovo nije samo provjera nula. Provjeravaju dosljednost poslovne logike.
-
Primjer: Da li "korisnički_segment" u streamu događaja odgovarati aktivnoj taksonomiji u trgovini značajki? Ako nije, blokirajte ga.
-
Primjer: Je li vremenska oznaka unutar prihvatljivog prozora kašnjenja za zaključivanje u stvarnom vremenu? Ako ne, odbacite to.
3. Provjere konzistentnosti vektora Ovo je nova granica za SRE. Moramo implementirati automatizirane provjere kako bismo osigurali da dijelovi teksta pohranjeni u vektorskoj bazi podataka stvarno odgovaraju vektorima za ugrađivanje koji su s njima povezani. "Tiho" kvarovi u API-ju modela ugradnje često vas ostavljaju s vektorima koji ne pokazuju ni na što. To uzrokuje da agenti dohvate čisti šum.
Kulturni rat: inženjeri protiv uprave
Implementacija okvira poput Creed nije samo tehnički izazov. To je kulturni.
Inženjeri općenito mrze zaštitne ograde. Na stroge sheme i ugovore o podacima gledaju kao na birokratske prepreke koje usporavaju brzinu implementacije. Prilikom uvođenja podatkovne konstitucije, čelnici se često suočavaju s odbijanjem. Timovi osjećaju da se vraćaju u "slap" doba krute administracije baza podataka.
Da biste uspjeli, morate promijeniti strukturu poticaja. To smo pokazali Creed zapravo bio akcelerator. Jamčeći čistoću ulaznih podataka, eliminirali smo tjedne koje su znanstvenici trošili na otklanjanje pogrešaka modela halucinacija. Pretvorili smo upravljanje podacima iz zadatka usklađenosti u "kvaliteta usluge" jamčiti.
Lekcija za donositelje odluka o podacima
Ako gradite AI strategiju za 2026., prestanite kupovati više GPU-a. Prestanite se brinuti o tome koji je temeljni model malo viši na ljestvici ovog tjedna.
Započnite reviziju svojih ugovora o podacima.
AI Agent je autonoman onoliko koliko su njegovi podaci pouzdani. Bez stroge, automatizirane strukture podataka poput Creed okvira, vaši agenti će na kraju postati skitnica. U svijetu SRE-a, lažni agent daleko je gori od pokvarene nadzorne ploče. To je tihi ubojica povjerenja, prihoda i korisničkog iskustva.
Manoj Yerrasani viši je tehnološki direktor.




