Jedan od ključnih izazova izgradnje učinkovitih AI agenata je naučiti ih da biraju između korištenja vanjskih alata ili oslanjanja na svoje interno znanje. Ali veliki jezični modeli često su obučeni za slijepo pozivanje alata, što uzrokuje uska grla u kašnjenju, nepotrebne troškove API-ja i degradirano zaključivanje uzrokovano bukom iz okoliša.
Kako bi prevladali ovaj izazov, istraživači u Alibabi predstavili su Optimizacija hijerarhijske razdvojene politike (HDPO), okvir učenja za pojačanje koji obučava agente da uravnoteže učinkovitost izvršenja i točnost zadatka.
Metis, multimodalni model koji su uvježbali pomoću ovog okvira, smanjuje suvišna pozivanja alata s 98% na samo 2% uz uspostavljanje nove najsuvremenije točnosti zaključivanja u ključnim referentnim vrijednostima industrije. Ovaj okvir pomaže u stvaranju agenata umjetne inteligencije koji nisu skloni pokretanju i znaju kada se trebaju suzdržati od upotrebe alata, omogućujući razvoj responzivnih i troškovno učinkovitih agentskih sustava.
Sadržaj objave
Metakognitivni deficit
Trenutačni agentski modeli suočavaju se s onim što istraživači nazivaju “dubokim metakognitivnim deficitom”. Modelima je teško odlučiti kada upotrijebiti svoje unutarnje parametarsko znanje, a kada postaviti upit vanjskom uslužnom programu. Kao rezultat toga, oni naslijepo pozivaju alate i API-je, poput pretraživanja weba ili izvršavanja koda, čak i kada korisnikov upit već sadrži sve potrebne informacije za rješavanje zadatka.
Ovakvo ponašanje pri pozivanju alata s radošću na okidaču stvara ozbiljne operativne prepreke za aplikacije u stvarnom svijetu. Budući da su modeli obučeni da se gotovo u potpunosti usredotoče na izvršavanje zadatka, oni su ravnodušni prema kašnjenju. Ovi agenti često postižu pretjerane stope poziva alata. Svaki nepotreban vanjski API poziv uvodi usko grlo serijske obrade, pretvarajući tehnički sposobnu umjetnu inteligenciju u trom sustav koji frustrira korisnike i troši proračune alata.
U isto vrijeme, trošenje računalnih resursa prekomjernom upotrebom alata ne znači bolje rasuđivanje. Suvišne interakcije alata ubacuju šum u kontekst modela. Ova buka može omesti model, izbaciti iz tračnica inače zdrav lanac razmišljanja i aktivno degradirati konačni rezultat.
Kako bi se riješili problemi kašnjenja i troškova slijepog pozivanja alata, prethodne metode učenja za pojačanje pokušale su kazniti pretjeranu upotrebu alata kombiniranjem točnosti zadatka i učinkovitosti izvršenja u jedan signal nagrade. Međutim, ovaj zamršeni dizajn stvara nerješivu dilemu optimizacije. Ako je kazna učinkovitosti preagresivna, model postaje pretjerano konzervativan i potiskuje korištenje osnovnog alata, žrtvujući ispravnost na teškim zadacima. Obrnuto, ako je kazna blaga, signal optimizacije gubi svoju vrijednost i ne sprječava prekomjernu upotrebu alata na jednostavnijim zadacima.
Nadalje, ova zajednička nagrada stvara semantičku dvosmislenost, gdje bi netočna putanja s nultim pozivima alata mogla donijeti istu nagradu kao točna putanja s prekomjernom upotrebom alata. Budući da se signali obuke za točnost i učinkovitost isprepliću, model ne može naučiti kontrolirati korištenje alata bez degradacije svojih temeljnih sposobnosti razmišljanja.
Hijerarhijska optimizacija razdvojene politike
Kako bi riješili dilemu optimizacije povezanih nagrada, istraživači su uveli HDPO. HDPO odvaja točnost i učinkovitost u dva nezavisna kanala optimizacije. Kanal točnosti fokusiran je na maksimiziranje točnosti zadatka u svim uvođenjima modela. Kanal učinkovitosti optimizira za ekonomičnost izvršenja.
HDPO izračunava trening signale za ova dva kanala neovisno i kombinira ih tek u završnoj fazi proračuna gubitaka. Signal učinkovitosti uvjetovan je kanalom točnosti. To znači da netočan odgovor nikada nije nagrađen samo zato što je brz ili koristi manje alata. Ovo odvajanje izbjegava situacije u kojima se gradijenti točnosti i učinkovitosti međusobno poništavaju, pružajući umjetnoj inteligenciji čiste signale učenja za oba cilja.
Najsnažnije pojavno svojstvo ovog razdvojenog dizajna je da stvara implicitni kognitivni kurikulum. Na početku obuke, kada se model još uvijek bori sa zadatkom, optimizacijom dominira cilj točnosti, prisiljavajući model da prioritet da učenju ispravnog razmišljanja i znanja. Kako sposobnosti razmišljanja modela sazrijevaju i on dosljedno dolazi do pravih odgovora, signal učinkovitosti glatko raste. Ovaj mehanizam uzrokuje da model prvo ovlada rješavanjem zadatka, a tek onda poboljša svoju samopouzdanje izbjegavajući suvišne, skupe API pozive.
Kako bi nadopunili HDPO, istraživači su razvili rigorozan, višefazni režim obrade podataka koji se bavi ozbiljnim nedostacima pronađenim u postojećim skupovima podataka proširenih alatima. Njihov sustav obrade podataka pokriva faze nadziranog finog podešavanja (SFT) i učenja pojačanja (RL).
Za fazu SFT-a izvor podataka dobili su iz javno dostupnih multimodalnih putanja proširenih alatima i filtrirali ih kako bi uklonili primjere niske kvalitete koji sadrže greške u izvršenju ili nedosljednosti povratnih informacija. Također su agresivno filtrirali svaki uzorak obuke koji je osnovni model mogao riješiti izravno bez alata. Na kraju, koristeći Googleov Gemini 3.1 Pro kao automatizirani sudac, filtrirali su SFT korpus kako bi zadržali samo primjere koji pokazuju stratešku upotrebu alata.
Za RL fazu, priprema je bila usmjerena na osiguravanje stabilnog signala optimizacije. Filtrirali su upite s oštećenim vizualnim prikazom ili semantičkom dvosmislenošću. HDPO algoritam se oslanja na usporedbu točnih i netočnih odgovora. Ako je zadatak trivijalno lak tamo gdje model uvijek bude ispravan, ili pretjerano težak tamo gdje model uvijek ne uspije, nema smislene matematičke varijance iz koje bismo mogli učiti. Tim je strogo zadržao samo upite koji su pokazivali netrivijalnu kombinaciju uspjeha i neuspjeha kako bi se zajamčio djelotvoran signal gradijenta.
Metis agent: HDPO u akciji
Kako bi testirali HDPO na djelu, istraživači su upotrijebili okvir za razvoj Metisa, multimodalnog agenta za zaključivanje opremljenog alatima za kodiranje i pretraživanje. Metis je izgrađen na vrhu Qwen3-VL-8B-Instruct modela vizualnog jezika. Istraživači su ga trenirali u dvije različite faze. Prvo su primijenili SFT koristeći svoje odabrane podatke kako bi osigurali inicijalizaciju hladnog pokretanja. Zatim su primijenili RL pomoću okvira HDPO, izlažući model interakcijama s više okretanja gdje je mogao pozvati alate kao što su izvršavanje Python koda, pretraživanje teksta i pretraživanje slika.
Istraživači su Metis suprotstavili standardnim modelima vizije otvorenog koda kao što su LLaVA-OneVision, samo tekstualni rezoneri i najsuvremeniji agentski modeli uključujući DeepEyes V2 i Skywork-R1V4 s 30 milijardi parametara. Evaluacija je obuhvaćala dva glavna područja: vizualnu percepciju i skupove podataka za razumijevanje dokumenata kao što su HRBench i V*Bench te rigorozne zadatke matematičkog i logičkog zaključivanja kao što su WeMath i MathVista.
Na svim zadacima, Metis je postigao najsuvremeniju ili vrlo konkurentnu izvedbu, nadmašivši postojeće agentske modele — uključujući mnogo veći Skywork-R1V4 s 30 milijardi parametara — u zadacima vizualne percepcije i rasuđivanja.
Jednako je važno anegdotalno ponašanje koje je Metis pokazao u eksperimentima. Na primjer, kada im se predoči slika muzejskog znaka i upita što kaže središnji tekst, standardni agentski modeli gube vrijeme slijepo pišući Python skripte kako bi izrezali sliku samo da bi je pročitali. Metis, međutim, prepoznaje da je tekst jasno čitljiv na neobrađenoj slici. U potpunosti preskače alate i koristi jedan prolaz zaključivanja.
U drugom eksperimentu, model je dobio složeni grafikon i zatraženo je da identificira drugu najvišu liniju na određenoj podatkovnoj točki unutar sićušne podploče. Metis je prepoznao da fino zrnata vizualna analiza premašuje njegove izvorne mogućnosti razlučivosti i ne može točno razlikovati linije koje se preklapaju. Umjesto pogađanja iz cijele slike, pozvao je Python da izreže i zumira isključivo tu specifičnu regiju podplota, dopuštajući mu da ispravno identificira liniju. Tretira kod kao precizan instrument koji se koristi samo kada je vizualni dokaz istinski dvosmislen, a ne kao zadanu zamjenu.
Istraživači su objavili Melez zajedno s kod za HDPO pod dopuštenom licencom Apache 2.0.
“Naši rezultati pokazuju da strateška upotreba alata i snažna izvedba zaključivanja nisu kompromis; naprotiv, eliminacija bučnih, suvišnih poziva alata izravno doprinosi vrhunskoj točnosti”, zaključuju istraživači. “U širem smislu, naš rad sugerira promjenu paradigme u učenju proširenom alatima: od pukog podučavanja modela kako izvršiti alate, do njegovanja metakognitivne mudrosti kada se od njih suzdržati.”
