S ekosustavom agentskih alata i okvira koji eksplodira u veličini, snalaženje u mnogim opcijama za izgradnju AI sustava postaje sve teže, ostavljajući programere zbunjenima i paraliziranima pri odabiru pravih alata i modela za svoje aplikacije.
u a nova studijaistraživači iz više institucija predstavljaju sveobuhvatan okvir za raspetljavanje ove složene mreže. Oni kategoriziraju agentske okvire na temelju svog područja fokusa i kompromisa, pružajući praktičan vodič programerima za odabir pravih alata i strategija za svoje aplikacije.
Za poslovne timove ovo preoblikuje agentsku umjetnu inteligenciju iz problema odabira modela u arhitektonsku odluku o tome gdje potrošiti proračun za obuku, koliko modularnosti sačuvati i koje kompromise su spremni napraviti između cijene, fleksibilnosti i rizika.
Sadržaj objave
Prilagodba agenta protiv alata
Istraživači dijele krajolik u dvije osnovne dimenzije: adaptacija agenta i prilagodba alata.
Prilagodba agenta uključuje modificiranje temeljnog modela koji je u osnovi agentskog sustava. To se postiže ažuriranjem internih parametara ili pravila agenta putem metoda kao što su fino podešavanje ili učenje pojačanja radi boljeg usklađivanja s određenim zadacima.
Prilagodba alata, s druge strane, prebacuje fokus na okolinu koja okružuje agenta. Umjesto ponovne obuke velikog, skupog temeljnog modela, programeri optimiziraju vanjske alate kao što su pretraživači, memorijski moduli ili pod-agenti. U ovoj strategiji glavni agent ostaje "smrznuti" (nepromijenjeno). Ovaj pristup omogućuje sustavu da se razvija bez golemih računalnih troškova ponovne obuke osnovnog modela.
Studija ih dalje rastavlja u četiri različite strategije:
A1: Signalizirano izvršenje alata: U ovoj strategiji agent uči radeći. Optimiziran je korištenjem provjerljivih povratnih informacija izravno iz izvršavanja alata, kao što je kompilator koda u interakciji sa skriptom ili bazom podataka koja vraća rezultate pretraživanja. Ovo uči agenta "mehanika" pravilnog korištenja alata.
Glavni primjer je DeepSeek-R1gdje je model obučen kroz učenje pojačanja s provjerljivim nagradama za generiranje koda koji se uspješno izvršava u sandboxu. Povratni signal je binarni i objektivan (je li se kod pokrenuo ili se srušio?). Ova metoda gradi snažnu kompetenciju niske razine u stabilnim, provjerljivim domenama poput kodiranja ili SQL-a.
A2: Izlaz agenta signaliziran: Ovdje se agent optimizira na temelju kvalitete svog konačnog odgovora, bez obzira na međukorake i broj poziva alata koje napravi. Ovo uči agenta kako orkestrirati različite alate da dođe do ispravnog zaključka.
Primjer je Traži-R1agent koji izvodi dohvaćanje u više koraka kako bi odgovorio na pitanja. Model dobiva nagradu samo ako je konačni odgovor točan, što ga implicitno tjera da nauči bolje strategije pretraživanja i razmišljanja kako bi maksimizirao tu nagradu. A2 je idealan za orkestraciju na razini sustava, omogućujući agentima da upravljaju složenim tijekovima rada.
T1: Nezavisno od agenta: U ovoj kategoriji alati se treniraju neovisno o širokim podacima, a zatim "uključen u struju" smrznutom agensu. Razmislite o klasičnim gustim retriverima koji se koriste u RAG sustavima. Standardni model retrivera trenira se na generičkim podacima pretraživanja. Snažan Frozen LLM može koristiti ovaj retriver za pronalaženje informacija, iako retriver nije dizajniran posebno za tog LLM-a.
T2: Pod nadzorom agenta: Ova strategija uključuje alate za obuku posebno za posluživanje smrznutog sredstva. Signal nadzora dolazi iz agentovog vlastitog izlaza, stvarajući simbiotski odnos u kojem alat uči pružiti točno ono što agentu treba.
Na primjer, s3 okvir trenira malu "tragač" model za preuzimanje dokumenata. Ovaj mali model nagrađuje se ovisno o tome je li smrznut "rezoner" (veliki LLM) može točno odgovoriti na pitanje pomoću tih dokumenata. Alat se učinkovito prilagođava kako bi popunio specifične praznine u znanju glavnog agenta.
Složeni AI sustavi mogu koristiti kombinaciju ovih paradigmi prilagodbe. Na primjer, sustav dubokog istraživanja može koristiti alate za dohvaćanje u stilu T1 (unaprijed obučeni gusti retriveri), agente adaptivnog pretraživanja u stilu T2 (obučene preko zamrznute povratne informacije LLM-a) i agente za rasuđivanje u stilu A1 (fino podešene povratnom informacijom o izvršenju) u širem orkestriranom sustavu.
Skriveni troškovi i kompromisi
Za one koji donose odluke u poduzećima, izbor između ovih strategija često se svodi na tri faktora: trošak, generalizaciju i modularnost.
Trošak nasuprot fleksibilnosti: Prilagodba agenta (A1/A2) nudi maksimalnu fleksibilnost jer ponovno usklađujete agentov mozak. Međutim, troškovi su veliki. Na primjer, Search-R1 (sustav A2) zahtijevao je obuku na 170.000 primjera za internalizaciju mogućnosti pretraživanja. To zahtijeva masivno računanje i specijalizirane skupove podataka. S druge strane, modeli mogu biti mnogo učinkovitiji u vremenu zaključivanja jer su puno manji od generalističkih modela.
Nasuprot tome, prilagodba alata (T1/T2) daleko je učinkovitija. Sustav s3 (T2) obučavao je laganog pretraživača koristeći samo 2400 primjera (otprilike 70 puta manje podataka od Search-R1) uz postizanje usporedivih performansi. Optimiziranjem ekosustava, a ne agenta, poduzeća mogu postići visoke performanse po nižoj cijeni. Međutim, to dolazi s vremenom zaključivanja općih troškova jer s3 zahtijeva koordinaciju s većim modelom.
Generalizacija: Rizik metoda A1 i A2 "pretjerano opremanje," gdje agent postaje toliko specijaliziran za jedan zadatak da gubi opće sposobnosti. Studija je otkrila da, iako je Search-R1 briljirao u svojim zadacima obuke, imao je problema sa specijaliziranim medicinskim osiguranjem kvalitete, postižući samo 71,8% točnosti. To nije problem ako je vaš agent dizajniran za obavljanje vrlo specifičnog skupa zadataka.
Nasuprot tome, sustav s3 (T2), koji je koristio zamrznuto sredstvo opće namjene potpomognuto obučenim alatom, bolje je generalizirao, postigavši 76,6% točnosti na istim medicinskim zadacima. Smrznuti agent zadržao je svoje široko znanje o svijetu, dok je alat upravljao specifičnom mehanikom vraćanja. Međutim, T1/T2 sustavi oslanjaju se na znanje zamrznutog agenta, a ako se temeljni model ne može nositi s određenim zadatkom, bit će beskorisni.
Modularnost: T1/T2 strategije omogućuju "vruća zamjena." Možete nadograditi memorijski modul ili tražilicu bez diranja osnovnog mehanizma za razmišljanje. Na primjer, Uspomena optimizira memorijski modul za dohvaćanje prošlih slučajeva; ako se zahtjevi promijene, ažurirate modul, a ne planer.
A1 i A2 sustavi su monolitni. Poučavanje agenta novoj vještini (poput kodiranja) putem finog podešavanja može uzrokovati "katastrofalni zaborav," gdje degradira na prethodno naučene vještine (poput matematike) jer su njegove unutarnje težine prebrisane.
Strateški okvir za prihvaćanje poduzeća
Na temelju studije, programeri bi ove strategije trebali promatrati kao progresivnu ljestvicu, krećući se od niskorizičnih, modularnih rješenja do prilagodbe s velikim resursima.
Započnite s T1 (alati za agnostiku agenata): Opremite smrznuti, moćni model (kao što su Gemini ili Claude) standardnim alatima kao što su dense retriever ili MCP konektor. Ovo ne zahtijeva nikakvu obuku i savršeno je za izradu prototipa i opće primjene. To je plod s niskom visinom koji vas može odvesti jako daleko za većinu zadataka.
Prelazak na T2 (alati koje nadzire agent): Ako se agent bori s korištenjem generičkih alata, nemojte ponovno obučavati glavni model. Umjesto toga, obučite malog, specijaliziranog pod-agenta (kao što je pretraživač ili upravitelj memorije) da filtrira i formatira podatke točno onako kako to glavni agent voli. Ovo je visoko podatkovno učinkovito i prikladno za vlasničke poslovne podatke i aplikacije koje su velike količine i troškovno osjetljive.
Koristite A1 (signalizirano izvršenje alata) za specijalizaciju: Ako agent iz temelja ne uspije u tehničkim zadacima (npr. pisanje nefunkcionalnog koda ili pogrešne API pozive), morate promijeniti njegovo razumijevanje alata "mehanika." A1 je najbolji za stvaranje stručnjaka u provjerljivim domenama kao što su SQL ili Python ili vaši vlasnički alati. Na primjer, možete optimizirati mali model za svoj određeni skup alata i zatim ga koristiti kao T1 dodatak za opći model.
Rezerva A2 (izlaz agenta signaliziran) kao "nuklearna opcija": Obučite monolitnog agenta od kraja do kraja samo ako vam je potreban za internalizaciju složene strategije i samoispravljanja. Ovo zahtijeva mnogo resursa i rijetko je potrebno za standardne poslovne aplikacije. U stvarnosti, rijetko se trebate uključiti u obuku vlastitog modela.
Kako AI krajolik sazrijeva, fokus se pomiče s izgradnje jednog divovskog, savršenog modela na izgradnju pametnog ekosustava specijaliziranih alata oko stabilne jezgre. Za većinu poduzeća najučinkovitiji put do agentske umjetne inteligencije nije izgradnja većeg mozga, već davanje boljih alata mozgu.




