Istraživači u Googleu razvili su tehniku koja modelima umjetne inteligencije olakšava učenje složenih zadataka rasuđivanja koji obično uzrokuju halucinacije ili raspad LLM-a. Umjesto obuke LLM-a kroz predviđanje sljedećeg tokena, njihova tehnika, tzv unutarnje potkrepljujuće učenje (unutarnji RL), usmjerava unutarnje aktivacije modela prema razvoju korak po korak rješenja visoke razine za problem unosa.
U konačnici, ovo bi moglo pružiti skalabilni put za stvaranje autonomnih agenata koji mogu upravljati složenim razmišljanjem i robotikom u stvarnom svijetu bez potrebe za stalnim, ručnim vodstvom.
Sadržaj objave
Ograničenja predviđanja sljedećeg tokena
Učenje s potkrepljenjem igra ključnu ulogu u LLM-ovima nakon obuke, posebno za složene zadatke rasuđivanja koji zahtijevaju dugoročno planiranje. Međutim, problem leži u arhitekturi ovih modela. LLM-ovi su autoregresivni, što znači da generiraju nizove jedan po jedan token. Kada ovi modeli istražuju nove strategije tijekom treninga, oni to čine tako što unose male, nasumične promjene na sljedeći pojedinačni token ili radnju. Ovo razotkriva dublje ograničenje: predviđanje sljedećeg tokena prisiljava modele da traže rješenja na pogrešnoj razini apstrakcije, čineći razmišljanje dugog horizonta neučinkovitim čak i kada model “zna” što treba učiniti.
Ovaj pristup token po token dobro funkcionira za modeliranje osnovnog jezika, ali se kvari u dugotrajnim zadacima gdje su nagrade rijetke. Ako se model oslanja isključivo na nasumično uzorkovanje na razini tokena, vjerojatnost da ćete naići na ispravno rješenje u više koraka je beskrajno mala, "reda veličine jedan u milijun," prema istraživačima.
Problem nije samo u tome što se modeli zbunjuju; radi se o tome da se zbune na pogrešnoj razini. U komentarima danim za VentureBeat, Yanick Schimpf, koautor rada, primjećuje da se u zadatku od 20 koraka agent može izgubiti u sitnim detaljima jednog koraka ili može izgubiti pojam o općem cilju.
"Tvrdimo da kada se suočimo s problemom s nekom apstraktnom strukturom… [goal-oriented exploration] je ono što želiš," rekao je Schimpf. Prvo rješavanjem problema na apstraktnoj razini, agent se obvezuje na put, osiguravajući da se "izgubiti se u jednom od koraka rasuđivanja" i ne uspijevaju dovršiti širi tijek rada.
Kako bi se to riješilo, područje je dugo gledalo prema hijerarhijskom učenju s pojačanjem. HRL pokušava riješiti složene probleme razlažući ih u hijerarhiju vremenski apstraktnih radnji (potrutine visoke razine koje predstavljaju različite faze rješenja) umjesto da upravlja zadatkom kao nizom tokena.
Međutim, otkrivanje tih odgovarajućih potprograma ostaje dugogodišnji izazov. Trenutačne HRL metode često ne otkrivaju ispravne politike, često "konvergirajući u degenerirane opcije" koji ne predstavljaju smislena ponašanja. Čak i sofisticirane moderne metode kao što je GRPO (popularni RL algoritam koji se koristi za zadatke rijetkog nagrađivanja) ne uspijevaju u složenim okruženjima jer ne mogu učinkovito premostiti jaz između izvršenja na niskoj razini i planiranja na visokoj razini.
Upravljanje internim mislima LLM-a
Kako bi prevladao ta ograničenja, Googleov tim predložio je interni RL. Već napredni autoregresivni modeli "znati" kako interno obavljati složene zadatke u više koraka, čak i ako za to nisu izričito obučeni.
Budući da su ova složena ponašanja skrivena unutar rezidualnog toka modela (tj. brojčanih vrijednosti koje prenose informacije kroz slojeve mreže), istraživači su uveli "kontroler interne neuronske mreže," odnosno metakontroler. Umjesto praćenja i mijenjanja izlaznog tokena, metakontroler kontrolira ponašanje modela primjenom promjena na unutarnje aktivacije modela u srednjim slojevima.
Ovo pomicanje usmjerava model u određeno korisno stanje. Osnovni model zatim automatski generira slijed pojedinačnih koraka potrebnih za postizanje tog cilja jer je već vidio te obrasce tijekom svoje početne predvježbe.
Metakontroler radi kroz učenje bez nadzora i ne zahtijeva primjere obuke označene od strane ljudi. Umjesto toga, istraživači koriste samonadzirani okvir gdje model analizira cijeli slijed ponašanja i radi unatrag kako bi zaključio skrivenu namjeru visoke razine koja najbolje objašnjava radnje.
Tijekom interne RL faze, ažuriranja se primjenjuju na metakontroler, što prebacuje obuku s predviđanja sljedećeg tokena na učenje radnji visoke razine koje mogu dovesti do rješenja.
Da biste razumjeli praktičnu vrijednost toga, razmislite o poslovnom agentu zaduženom za generiranje koda. Danas postoji težak kompromis: trebate "niske temperature" (predvidljivost) da dobijete pravu sintaksu, ali "visoka temperatura" (kreativnost) za rješavanje logičke zagonetke.
"Unutarnji RL bi to mogao olakšati dopuštajući modelu da istražuje prostor apstraktnih radnji, tj. strukturiranje logike i poziva metoda, dok delegira realizaciju tih radnji na razini tokena robusnoj distribuciji niže temperature osnovnog modela," rekao je Schimpf. Agent istražuje rješenje bez narušavanja sintakse.
Istraživači su istražili dvije metode za primjenu ovog regulatora. U prvom, osnovni autoregresivni model je prethodno obučen na skupu podataka o ponašanju i zatim zamrznut, dok je metakontroler osposobljen da upravlja preostalim tokom zamrznutog modela. U drugom se metakontroler i osnovni model zajednički optimiziraju, s parametrima obje mreže koji se ažuriraju istovremeno.
Interni RL u akciji
Kako bi procijenili učinkovitost internog RL-a, istraživači su proveli eksperimente u hijerarhijskim okruženjima dizajniranim da zbune tradicionalne učenike. To je uključivalo diskretni mrežni svijet i kontinuirani kontrolni zadatak gdje je četveronožac "mrav" robot mora koordinirati pokrete zglobova. Oba okruženja koristila su rijetke nagrade s vrlo dugim akcijskim sekvencama.
Dok osnovne linije kao što su GRPO i CompILE nisu uspjele naučiti zadatke unutar milijun epizoda zbog poteškoća u dodjeljivanju kredita kroz duge horizonte, interni RL postigao je visoke stope uspjeha s malim brojem epizoda obuke. Odabirom ciljeva visoke razine umjesto sitnih koraka, metakontroler je drastično smanjio prostor pretraživanja. To je omogućilo modelu da identificira koje su odluke na visokoj razini dovele do uspjeha, čineći dodjelu kredita dovoljno učinkovitom da riješi problem rijetke nagrade.
Naime, istraživači su otkrili da "smrznuti" pristup je bio superioran. Kada su osnovni model i metakontroler zajedno trenirani od nule, sustav nije uspio razviti značajne apstrakcije. Međutim, primijenjen na zamrznuti model, metakontroler je uspješno otkrio ključne kontrolne točke bez ikakvih ljudskih oznaka, savršeno usklađujući svoj unutarnji mehanizam prebacivanja s trenutcima temeljne istine kada je agent završio jedan podcilj i započeo sljedeći.
Budući da se industrija trenutno fiksira na modele rezoniranja koji izlaze opširno "lanci misli" za rješavanje problema, Googleovo istraživanje ukazuje na drugačiju, možda učinkovitiju budućnost.
"Naša se studija pridružuje sve većem broju radova koji sugeriraju da je ‘unutarnje razmišljanje’ ne samo izvedivo, već i potencijalno učinkovitije od pristupa temeljenih na tokenima," rekao je Schimpf. "Štoviše, ove tihe ‘misli’ mogu se odvojiti od specifičnih modaliteta unosa — svojstvo koje bi moglo biti osobito relevantno za budućnost multimodalne umjetne inteligencije."
Ako se unutarnje razmišljanje može voditi bez eksternalizacije, budućnost agenata umjetne inteligencije mogla bi manje ovisiti o strategijama podsticanja, a više o tome koliko dobro možemo pristupiti i upravljati onim što modeli već interno predstavljaju. Za poduzeća koja se klade na autonomne sustave koji moraju planirati, prilagođavati se i djelovati kroz duge horizonte, taj bi pomak mogao biti važniji od bilo kojeg novog mjerila za razmišljanje.


