Istraživači na Google Cloud i UCLA predložili su novi okvir za učenje s potkrepljenjem koji značajno poboljšava sposobnost jezičnih modela za učenje vrlo izazovnih zadataka zaključivanja u više koraka. Nadzirano učenje s pojačanjem (SRL) preformulira rješavanje problema kao slijed logičnih “akcija”, pružajući bogate signale učenja tijekom procesa obuke.
Ovaj pristup omogućuje manjim modelima učenje složenih problema koji su prije bili nedostupni drugim uobičajenim tehnikama obuke. Eksperimenti pokazuju da SRL ne samo da se ističe u mjerilima matematičkog zaključivanja, već također učinkovito generalizira na zadatke agentskog softverskog inženjeringa.
SRL je svestran okvir za obuku koji može podići manje i jeftinije modele do viših sposobnosti razmišljanja.
Sadržaj objave
Ograničenja trenutne obuke LLM zaključivanja
Nedavni napredak u obučavanju velikih jezičnih modela (LLM) za zaključivanje uglavnom je potaknut učenjem s potkrepljenjem s provjerljivim nagradama (RLVR), metodom u kojoj se model nagrađuje na temelju točnosti svog konačnog odgovora. Uporno pokušavajući riješiti probleme i dobivajući povratne informacije o konačnom ishodu, model postupno uči učinkovite strategije rješavanja problema.
Međutim, uspjeh ovog pristupa temeljenog na ishodu ovisi o sposobnosti modela da otkrije ispravno rješenje unutar ograničenog broja pokušaja, ili "rollouts." Budući da je svako predstavljanje računalno skupo, modeli ne mogu isprobavati unedogled. Ova metoda nailazi na zid kada su problemi toliko teški da model rijetko, ako uopće, pronađe pravi odgovor unutar svog proračuna.
To stvara kritično usko grlo u učenju. U mnogim problemima zaključivanja u više koraka, model može ispravno riješiti nekoliko koraka, ali biti izbačen iz tračnica zbog jedne pogreške, što dovodi do netočnog odgovora. S RLVR-om cijeli ovaj trud dobiva negativnu nagradu, a model ne uči ništa iz svog djelomično ispravnog rada. To je pristup sve ili ništa koji ne pruža precizne povratne informacije i daje oskudne nagrade.
Alternativna metoda je nadzirano fino ugađanje (SFT), gdje model uči iz primjera koji sadrže potpuni proces razmišljanja koji su izložili stručnjaci. Iako SFT može usaditi sposobnosti rasuđivanja, često dovodi do pretjeranog prilagođavanja (model jednostavno nauči oponašati putanje u podacima o obuci umjesto da nauči generalizirati na probleme izvan primjera koje je vidio). Ovaj problem pogoršava činjenica da su visokokvalitetni podaci o obuci koje su stvorili ljudi rijetki i skupi za proizvodnju.
Kao što je navedeno u radu, ta ograničenja ne postoje "kritična praznina za obuku malih modela otvorenog koda za učinkovito učenje teških problema."
Kako funkcionira nadzirano učenje s potkrepljenjem
SRL uvodi okvir koji preformulira rješavanje problema kao "sekvencijalni proces donošenja odluka," uspostavljanje ravnoteže između čistog RL-a temeljenog na ishodu i čistog imitacijskog učenja. Umjesto optimizacije samo za konačni odgovor ili prisiljavanja modela da oponaša cijeli misaoni proces stručnjaka, SRL uči model da reproducira niz ključnih radnji koje čine okosnicu obrazloženja stručnjaka. To omogućuje modelu da nauči poduzimati radnje slične ekspertu dok razvija vlastiti interni stil razmišljanja.
U okviru SRL-a, stručne demonstracije raščlanjene su na niz posrednih, konkretnih radnji, od kojih svaka predstavlja značajan korak. Za matematički problem radnja može biti algebarska manipulacija. Za agenta softverskog inženjeringa to može biti naredba izvršena u repozitoriju koda. Za generiranje podataka o obuci, SRL koristi moćan model nastavnika za stvaranje putanja rješenja, koje se zatim koriste za obuku manjeg modela.
Prema I-Hung Hsuu, istraživaču u Googleu i koautoru rada, ovaj srednji pristup ključan je za njegovu učinkovitost u scenarijima stvarnog svijeta. "SRL se nalazi u sredini: bilježi strukturiranu fleksibilnost rješavanja problema u stvarnom svijetu, gdje postoji više valjanih strategija, ali i jasne predodžbe o tome kako ‘dobro razmišljanje’ izgleda u svakom koraku," Hsu je rekao za VentureBeat. "To čini SRL prikladnim za domene kao što je automatizacija znanosti o podacima ili vjerojatno optimizacija opskrbnog lanca — zadaci koji nagrađuju zdravo srednje razmišljanje, a ne puke konačne odgovore."
Tijekom treninga, model prvo generira "unutarnji monolog" (njegov interni proces razmišljanja, zatvoren u
SRL u akciji
Eksperimenti istraživača pokazuju da SRL značajno nadmašuje snažne osnovne vrijednosti iu izazovnom matematičkom zaključivanju iu mjerilima agentskog softverskog inženjeringa. Također su primijetili da SRL potiče fleksibilnije i sofisticiranije obrasce razmišljanja u modelima, kao što su isprepleteno planiranje i samoprovjera, koji poboljšavaju kvalitetu rješenja, a da samo ne produljuju rezultate.
Za vođe poduzeća, dobici u izvedbi su vrijedni samo ako ne dolaze s nevjerojatnim troškovima. Hsu pojašnjava da su modeli obučeni SRL-om učinkovitiji u svom razmišljanju. "Dobici proizlaze iz bolje kvalitete i strukture obrazloženja, a ne iz opširnosti," rekao je. "Što se tiče učinkovitosti, modeli obučeni SRL-om otprilike su jednaki osnovnom modelu u korištenju tokena… dok SRL nije dizajniran za smanjenje troškova zaključivanja, on postiže jaču izvedbu zaključivanja bez povećanja."
Za testove iz matematike, tim se dotjerao Qwen2.5-7B-Upute na skupu podataka od 1000 teških matematičkih pitanja. Usporedili su njegovu izvedbu s modelima obučenim sa SFT i RLVR (koristeći GRPO algoritam koji je uobičajen u modelima poput DeepSeek-R1) na četiri matematička mjerila na razini natjecanja. Model obučen SRL-om postigao je značajno povećanje performansi od 3,0% u prosjeku u odnosu na druge metode.
Tim je proširio SRL na agentski softverski inženjering, domenu ključnu za automatizaciju poduzeća. Istrenirali su model specijaliziran za kodiranje, Qwen2.5-Coder-7B-Instructna 5000 stručnih putanja agenata u interakciji s okolinom kodiranja. Model obučen SRL-om uspoređivan je s izvornim osnovnim modelom i SWE-Gym-7B, snažnom osnovnom linijom fino podešenom SFT-om. SRL je postigao stopu rješavanja zadataka od 14,8%, što predstavlja relativno poboljšanje od 74% u odnosu na model temeljen na SFT-u. Ovo pokazuje sposobnost SRL-a da obučava kompetentnije AI agente za složene zadatke programiranja u stvarnom svijetu.
Novi standard za visoko uloženu umjetnu inteligenciju?
Najsnažniji rezultati rada došli su iz kombiniranja metoda: Prvo, korištenje SRL-a za podučavanje temeljnog razmišljanja, zatim korištenje RLVR-a za usavršavanje te vještine. U svojim eksperimentima, kada su istraživači koristili SRL kao prethodnu obuku i primijenili RLVR nakon obuke, primijetili su prosječno povećanje od 3,7%, pokazujući moćnu strategiju učenja prema kurikulumu.
Ovo postavlja pitanje može li ovo postati novi nacrt za izgradnju specijalizirane umjetne inteligencije.
"SRL vidimo kao snažan temelj," rekao je Hsu. "U određenom smislu, SRL pruža nastavni plan i program — poučavajući modele razmišljanja i djelovanja korak po korak — prije nego što pročistimo ta ponašanja učenjem s potkrepljenjem temeljenim na ishodu. Ovaj SRL-prvi pristup ne samo da stabilizira kasniju RL fazu, već također čini razmišljanje razumljivijim i generalizirajućim, što je kritično za aplikacije s visokim ulozima."
Gledajući unaprijed, Hsu priznaje da se skaliranje ovog cjevovoda još uvijek suočava s izazovima, posebice visokim troškovima i složenošću end-to-end RLVR-a za agentske zadatke. Ipak, optimističan je glede daljnjeg puta. "Iako visokokvalitetne stručne putanje ostaju važne," zaključio je, "mislimo da će sljedeći veliki skok doći od automatizacije njihovog generiranja i filtriranja — iskorištavanjem jakih modela nastavnika ili čak modela učenika koji se sami poboljšavaju za pokretanje novih podataka."



