Posljednje dvije godine temeljna jedinica generativnog razvoja umjetne inteligencije bila je "završetak."
Šaljete tekstualni upit modelu, on šalje tekst natrag i transakcija završava. Ako želite nastaviti razgovor, morate ponovno poslati cijelu povijest nazad modelu. Ovaj "bez državljanstva" arhitektura—utjelovljena Googleovim nasljeđem generateContent endpoint—bio je savršen za jednostavne chatbotove. Ali kako se programeri kreću prema autonomnim agentima koji koriste alate, održavaju složena stanja i "misliti" na dugim horizontima, taj model bez državljanstva postao je izrazito usko grlo.
Prošli tjedan Google DeepMind konačno je riješio ovaj infrastrukturni jaz s javno beta pokretanje API-ja za interakcije (/interactions).
Dok je OpenAI započeo ovu promjenu još u ožujku 2025. sa svojim Responses API-jem, Googleov ulazak signalizira njegove vlastite napore da unaprijedi najsuvremeniju tehnologiju. Interactions API nije samo alat za upravljanje stanjem; to je objedinjeno sučelje dizajnirano da LLM-ove tretira manje kao generatore teksta, a više kao udaljene operativne sustave.
Sadržaj objave
Model ‘Remote Compute’
Temeljna inovacija Interactions API-ja je uvođenje stanja na strani poslužitelja kao zadanog ponašanja.
Prethodno je programer koji je izradio složenog agenta morao ručno upravljati rastućim JSON popisom svakog "korisnik" i "model" turn, šaljući megabajte povijesti naprijed i natrag sa svakim zahtjevom. S novim API-jem programeri jednostavno prosljeđuju a previous_interaction_id. Googleova infrastruktura čuva povijest razgovora, rezultate alata i "misao" procesa na svom kraju.
"Modeli postaju sustavi, a s vremenom bi čak i sami mogli postati agenti," napisali su Ali Çevik i Philipp Schmid iz DeepMinda, u službenoj tvrtki post na blogu na novoj paradigmi. "Pokušavajući nametnuti ove sposobnosti generateContent rezultiralo bi previše složenim i krhkim API-jem."
Ovaj pomak omogućuje pozadinsko izvršavanje, ključnu značajku za agencijsko doba. Složeni tijekovi rada – poput jednosatnog pregledavanja weba da bi se sintetiziralo izvješće – često pokreću HTTP timeouts u standardnim API-jima. Interactions API omogućuje razvojnim programerima pokretanje agenta s background=true, odspojite se i ispitajte rezultat kasnije. Učinkovito pretvara API u red čekanja poslova za inteligenciju.
Zavičajni "Duboko istraživanje" i MCP podrška
Google koristi ovu novu infrastrukturu za isporuku svog prvog ugrađenog agenta: Gemini Deep Research.
Dostupno preko iste /interactions krajnju točku, ovaj agent može izvršiti "istraživački zadaci dugog horizonta." Za razliku od standardnog modela koji predviđa sljedeći token na temelju vašeg upita, agent Deep Research izvršava petlju pretraživanja, čitanja i sinteze.
Ono što je ključno, Google također prihvaća otvoreni ekosustav dodavanjem izvorne podrške za Model Context Protocol (MCP). Ovo modelima Gemini omogućuje izravno pozivanje vanjskih alata koji se nalaze na udaljenim poslužiteljima—kao što je meteorološka služba ili baza podataka—a da programer ne mora pisati prilagođeni glue kod za analizu poziva alata.
Pejzaž: Google se pridružuje OpenAI-ju u ‘državnoj’ eri
Google nedvojbeno igra nadoknadu, ali s jasnim filozofskim obratom. OpenAI se udaljio od apatridije prije devet mjeseci pokretanjem Responses API-ja u ožujku 2025.
Iako oba diva rješavaju problem prenapuhanosti konteksta, njihova se rješenja razlikuju po pitanju transparentnosti:
OpenAI (pristup kompresije): OpenAI’s Responses API uveo je Compaction—značajku koja smanjuje povijest razgovora zamjenom izlaza alata i lanaca razmišljanja neprozirnim "šifrirane stavke sažimanja." To daje prednost učinkovitosti tokena, ali stvara a "crna kutija" gdje je prošlo razmišljanje modela skriveno od razvijača.
Google (Hostirani pristup): Googleov Interactions API čuva punu povijest dostupnom i sastavljajućom. Model podataka omogućuje programerima da "otklanjanje pogrešaka, manipuliranje, strujanje i razmišljanje o isprepletenim porukama." Daje prednost preglednosti nad kompresijom.
Podržani modeli i dostupnost
API za interakcije trenutno je u javnoj beta verziji (dokumentacija ovdje) i odmah je dostupan putem Google AI Studija. Podržava cijeli spektar Googleovih modela najnovije generacije, osiguravajući da razvojni programeri mogu uskladiti pravu veličinu modela sa svojim specifičnim agentskim zadatkom:
-
Gemini 3.0: Gemini 3 Pro Pregled.
-
Gemini 2.5: Flash, Flash-lite i Pro.
-
Agenti: Pregled dubokog istraživanja (
deep-research-pro-preview-12-2025).
Komercijalno, API se integrira u Googleovu postojeću strukturu cijena—plaćate standardne cijene za ulazne i izlazne tokene na temelju modela koji odaberete. Međutim, ponuda vrijednosti se mijenja s novim pravilima zadržavanja podataka. Budući da ovaj API ima status, Google mora pohraniti vašu povijest interakcije kako bi omogućio značajke poput implicitnog predmemoriranja i dohvaćanja konteksta.
Pristup ovoj pohrani određen je vašom razinom. Programeri na besplatnoj razini ograničeni su na politiku zadržavanja od 1 dana, što je prikladno za prolazna testiranja, ali nedovoljno za dugoročnu memoriju agenata.
Programeri na plaćenoj razini otključavaju politiku zadržavanja od 55 dana. Ovo produženo zadržavanje nije samo za reviziju; učinkovito snižava vaš ukupni trošak vlasništva maksimiziranjem učitavanja predmemorije. Čuvanjem povijesti "vruće" na poslužitelju gotovo dva mjeseca, izbjegavate plaćanje ponovne obrade masivnih kontekstnih prozora za korisnike koji se ponavljaju, čineći Paid Tier znatno učinkovitijim za agente proizvodne razine.
Napomena: Budući da je ovo Beta izdanje, Google je obavijestio da su značajke i sheme podložne kritičnim promjenama.
‘Vi ste u interakciji sa sustavom’
Sam Witteveen, Googleov stručnjak za razvojne programere za strojno učenje i izvršni direktor tvrtke Red Dragon AI, vidi ovo izdanje kao nužnu evoluciju niza razvojnih programera.
"Ako se vratimo u povijest… cijela je ideja bila jednostavno unos teksta, unos teksta," Witteveen je zabilježio u a tehnički pregled izdanja na YouTubeu. "Ali sada… vi ste u interakciji sa sustavom. Sustav koji može koristiti više modela, obavljati višestruke petlje poziva, koristiti alate i izvršavati kod na pozadini."
Witteveen je istaknuo neposrednu ekonomsku korist ove arhitekture: Implicitno predmemoriranje. Budući da se povijest razgovora nalazi na Googleovim poslužiteljima, programerima se ne naplaćuje opetovano ponovno učitavanje istog konteksta. "Ne morate platiti toliko za tokene koje zovete," objasnio je.
Međutim, oslobađanje nije bez trenja. Witteveen je kritizirao trenutnu implementaciju sustava citiranja agenta Deep Research. Iako agent pruža izvore, URL-ovi koji se vraćaju često su zamotani u interne Google/Vertex AI veze za preusmjeravanje, a ne u neobrađene, upotrebljive URL-ove.
"Moja najveća zamjerka je da… ovi URL-ovi, ako ih spremim i pokušam upotrijebiti u drugoj sesiji, neće raditi," upozorio je Witteveen. "Ako želim napraviti izvješće za nekoga s citatima, želim da mogu kliknuti na URL-ove iz PDF datoteke… Imati nešto poput medium.com kao citat [without the direct link] nije baš dobro."
Što to znači za vaš tim
Za vodeće inženjere umjetne inteligencije koji su usredotočeni na brzu implementaciju modela i fino podešavanje, ovo izdanje nudi izravno arhitektonsko rješenje za postojane "vremensko ograničenje" problem: Izvršenje u pozadini.
Umjesto izgradnje složenih asinkronih rukovatelja ili upravljanja odvojenim redovima čekanja za dugotrajne zadatke razmišljanja, sada ovu složenost možete prenijeti izravno na Google. Međutim, ova pogodnost uvodi strateški kompromis.
Iako novi agent Deep Research omogućuje brzu implementaciju sofisticiranih istraživačkih sposobnosti, on djeluje kao "crna kutija" u usporedbi s prilagođenim tokovima LangChain ili LangGraph. Inženjeri bi trebali napraviti prototip a "sporo razmišljanje" značajka pomoću background=true parametar za procjenu nadmašuje li brzina implementacije gubitak precizne kontrole nad istraživačkom petljom.
Viši inženjeri koji upravljaju orkestracijom umjetne inteligencije i proračunom otkrit će da je prijelaz na stanje poslužitelja putem previous_interaction_id otključava implicitno predmemoriranje, veliku pobjedu za metriku troškova i latencije.
Upućivanjem na povijest pohranjenu na Googleovim poslužiteljima, automatski izbjegavate troškove tokena povezane s ponovnim učitavanjem masivnih kontekstnih prozora, izravno se baveći proračunskim ograničenjima uz zadržavanje visokih performansi.
Izazov ovdje leži u opskrbnom lancu; uključivanje Remote MCP (Model Context Protocol) znači da se vaši agenti povezuju izravno na vanjske alate, što od vas zahtijeva rigoroznu provjeru jesu li te udaljene usluge sigurne i autentificirane. Vrijeme je za reviziju vaše trenutne potrošnje tokena na ponovno slanje povijesti razgovora—ako je visoka, davanje prioriteta migraciji na API za interakcije sa stanjem moglo bi ostvariti značajne uštede.
Za više inženjere podataka Interactions API nudi robusniji model podataka od neobrađenih tekstualnih zapisa. Strukturirana shema omogućuje otklanjanje pogrešaka i obrazloženje složenih povijesti, poboljšavajući ukupni integritet podataka u vašim cjevovodima. Međutim, morate ostati oprezni u vezi s kvalitetom podataka, posebno pitanjem koje je pokrenuo stručnjak Sam Witteveen u vezi s citatima.
Agent Deep Research trenutno se vraća "umotan" URL-ovi koji mogu isteći ili se pokvariti, umjesto neobrađenih izvornih veza. Ako se vaši cjevovodi oslanjaju na struganje ili arhiviranje tih izvora, možda ćete morati izgraditi korak čišćenja da biste izdvojili upotrebljive URL-ove. Također biste trebali testirati mogućnosti strukturiranog izlaza (response_format) da vidite mogu li zamijeniti fragile regex parsiranje u vašim trenutnim ETL cjevovodima.
Konačno, za direktore IT sigurnosti, premještanje države na Googleove centralizirane poslužitelje nudi paradoks. Može poboljšati sigurnost čuvanjem API ključeva i povijesti razgovora izvan klijentskih uređaja, ali uvodi novi rizik zadržavanja podataka. Kritična provjera ovdje su Googleova pravila zadržavanja podataka: dok besplatni sloj zadržava podatke samo jedan dan, plaćeni sloj zadržava povijest interakcija 55 dana.
Ovo je u suprotnosti s OpenAI-jem "Nulto zadržavanje podataka" (ZDR) opcije poduzeća. Morate osigurati da je pohranjivanje osjetljive povijesti razgovora za gotovo dva mjeseca u skladu s vašim internim upravljanjem. Ako ovo krši vaša pravila, morate konfigurirati pozive s store=falseiako će to onemogućiti značajke praćenja stanja—i isplativost—koje ovaj novi API čine vrijednim.



