Oblak Znanja

  • Home
  • Novosti
  • Učionica
    • Informatika 5
    • Informatika 6
    • Informatika 7
    • Informatika 8
    • Logo jezik
    • WordPress
    • Microsoft Office
  • Vodiči
    • Online vodiči
    • Kratki savjeti
    • Korisne aplikacije
    • Društvene mreže
    • Multimedija
    • Zanimljivosti
✕

Googleova nova metoda obuke AI pomaže malim modelima u rješavanju složenog razmišljanja

Novosti

Googleova nova metoda obuke AI pomaže malim modelima u rješavanju složenog razmišljanja

Tomšić Damjan 15. studenoga 2025

Istraživači na Google Cloud i UCLA predložili su novi okvir za učenje s potkrepljenjem koji značajno poboljšava sposobnost jezičnih modela za učenje vrlo izazovnih zadataka zaključivanja u više koraka. Nadzirano učenje s pojačanjem (SRL) preformulira rješavanje problema kao slijed logičnih “akcija”, pružajući bogate signale učenja tijekom procesa obuke.

Ovaj pristup omogućuje manjim modelima učenje složenih problema koji su prije bili nedostupni drugim uobičajenim tehnikama obuke. Eksperimenti pokazuju da SRL ne samo da se ističe u mjerilima matematičkog zaključivanja, već također učinkovito generalizira na zadatke agentskog softverskog inženjeringa.

SRL je svestran okvir za obuku koji može podići manje i jeftinije modele do viših sposobnosti razmišljanja.

Sadržaj objave

  • 1 Ograničenja trenutne obuke LLM zaključivanja
  • 2 Kako funkcionira nadzirano učenje s potkrepljenjem
  • 3 SRL u akciji
  • 4 Novi standard za visoko uloženu umjetnu inteligenciju?
    • 4.1 Povezani sadržaji

Ograničenja trenutne obuke LLM zaključivanja

Nedavni napredak u obučavanju velikih jezičnih modela (LLM) za zaključivanje uglavnom je potaknut učenjem s potkrepljenjem s provjerljivim nagradama (RLVR), metodom u kojoj se model nagrađuje na temelju točnosti svog konačnog odgovora. Uporno pokušavajući riješiti probleme i dobivajući povratne informacije o konačnom ishodu, model postupno uči učinkovite strategije rješavanja problema.

Međutim, uspjeh ovog pristupa temeljenog na ishodu ovisi o sposobnosti modela da otkrije ispravno rješenje unutar ograničenog broja pokušaja, ili "rollouts." Budući da je svako predstavljanje računalno skupo, modeli ne mogu isprobavati unedogled. Ova metoda nailazi na zid kada su problemi toliko teški da model rijetko, ako uopće, pronađe pravi odgovor unutar svog proračuna.

To stvara kritično usko grlo u učenju. U mnogim problemima zaključivanja u više koraka, model može ispravno riješiti nekoliko koraka, ali biti izbačen iz tračnica zbog jedne pogreške, što dovodi do netočnog odgovora. S RLVR-om cijeli ovaj trud dobiva negativnu nagradu, a model ne uči ništa iz svog djelomično ispravnog rada. To je pristup sve ili ništa koji ne pruža precizne povratne informacije i daje oskudne nagrade.

Alternativna metoda je nadzirano fino ugađanje (SFT), gdje model uči iz primjera koji sadrže potpuni proces razmišljanja koji su izložili stručnjaci. Iako SFT može usaditi sposobnosti rasuđivanja, često dovodi do pretjeranog prilagođavanja (model jednostavno nauči oponašati putanje u podacima o obuci umjesto da nauči generalizirati na probleme izvan primjera koje je vidio). Ovaj problem pogoršava činjenica da su visokokvalitetni podaci o obuci koje su stvorili ljudi rijetki i skupi za proizvodnju.

Kao što je navedeno u radu, ta ograničenja ne postoje "kritična praznina za obuku malih modela otvorenog koda za učinkovito učenje teških problema."

Kako funkcionira nadzirano učenje s potkrepljenjem

SRL uvodi okvir koji preformulira rješavanje problema kao "sekvencijalni proces donošenja odluka," uspostavljanje ravnoteže između čistog RL-a temeljenog na ishodu i čistog imitacijskog učenja. Umjesto optimizacije samo za konačni odgovor ili prisiljavanja modela da oponaša cijeli misaoni proces stručnjaka, SRL uči model da reproducira niz ključnih radnji koje čine okosnicu obrazloženja stručnjaka. To omogućuje modelu da nauči poduzimati radnje slične ekspertu dok razvija vlastiti interni stil razmišljanja.

U okviru SRL-a, stručne demonstracije raščlanjene su na niz posrednih, konkretnih radnji, od kojih svaka predstavlja značajan korak. Za matematički problem radnja može biti algebarska manipulacija. Za agenta softverskog inženjeringa to može biti naredba izvršena u repozitoriju koda. Za generiranje podataka o obuci, SRL koristi moćan model nastavnika za stvaranje putanja rješenja, koje se zatim koriste za obuku manjeg modela.

Prema I-Hung Hsuu, istraživaču u Googleu i koautoru rada, ovaj srednji pristup ključan je za njegovu učinkovitost u scenarijima stvarnog svijeta. "SRL se nalazi u sredini: bilježi strukturiranu fleksibilnost rješavanja problema u stvarnom svijetu, gdje postoji više valjanih strategija, ali i jasne predodžbe o tome kako ‘dobro razmišljanje’ izgleda u svakom koraku," Hsu je rekao za VentureBeat. "To čini SRL prikladnim za domene kao što je automatizacija znanosti o podacima ili vjerojatno optimizacija opskrbnog lanca — zadaci koji nagrađuju zdravo srednje razmišljanje, a ne puke konačne odgovore."

Tijekom treninga, model prvo generira "unutarnji monolog" (njegov interni proces razmišljanja, zatvoren u oznakama) prije nego što se obveže na radnju. U svakom koraku SRL daje nagradu na temelju sličnosti između predviđene akcije modela i radnje stručnjaka. Ovaj postupni sustav nagrađivanja pruža guste, precizne povratne informacije, omogućujući modelu da uči i poboljšava se čak i ako njegovo cjelokupno rješenje nije savršeno. Ovo rješava problem rijetke nagrade s kojim se RLVR suočava.

SRL u akciji

Eksperimenti istraživača pokazuju da SRL značajno nadmašuje snažne osnovne vrijednosti iu izazovnom matematičkom zaključivanju iu mjerilima agentskog softverskog inženjeringa. Također su primijetili da SRL potiče fleksibilnije i sofisticiranije obrasce razmišljanja u modelima, kao što su isprepleteno planiranje i samoprovjera, koji poboljšavaju kvalitetu rješenja, a da samo ne produljuju rezultate.

Za vođe poduzeća, dobici u izvedbi su vrijedni samo ako ne dolaze s nevjerojatnim troškovima. Hsu pojašnjava da su modeli obučeni SRL-om učinkovitiji u svom razmišljanju. "Dobici proizlaze iz bolje kvalitete i strukture obrazloženja, a ne iz opširnosti," rekao je. "Što se tiče učinkovitosti, modeli obučeni SRL-om otprilike su jednaki osnovnom modelu u korištenju tokena… dok SRL nije dizajniran za smanjenje troškova zaključivanja, on postiže jaču izvedbu zaključivanja bez povećanja."

Za testove iz matematike, tim se dotjerao Qwen2.5-7B-Upute na skupu podataka od 1000 teških matematičkih pitanja. Usporedili su njegovu izvedbu s modelima obučenim sa SFT i RLVR (koristeći GRPO algoritam koji je uobičajen u modelima poput DeepSeek-R1) na četiri matematička mjerila na razini natjecanja. Model obučen SRL-om postigao je značajno povećanje performansi od 3,0% u prosjeku u odnosu na druge metode.

Tim je proširio SRL na agentski softverski inženjering, domenu ključnu za automatizaciju poduzeća. Istrenirali su model specijaliziran za kodiranje, Qwen2.5-Coder-7B-Instructna 5000 stručnih putanja agenata u interakciji s okolinom kodiranja. Model obučen SRL-om uspoređivan je s izvornim osnovnim modelom i SWE-Gym-7B, snažnom osnovnom linijom fino podešenom SFT-om. SRL je postigao stopu rješavanja zadataka od 14,8%, što predstavlja relativno poboljšanje od 74% u odnosu na model temeljen na SFT-u. Ovo pokazuje sposobnost SRL-a da obučava kompetentnije AI agente za složene zadatke programiranja u stvarnom svijetu.

Novi standard za visoko uloženu umjetnu inteligenciju?

Najsnažniji rezultati rada došli su iz kombiniranja metoda: Prvo, korištenje SRL-a za podučavanje temeljnog razmišljanja, zatim korištenje RLVR-a za usavršavanje te vještine. U svojim eksperimentima, kada su istraživači koristili SRL kao prethodnu obuku i primijenili RLVR nakon obuke, primijetili su prosječno povećanje od 3,7%, pokazujući moćnu strategiju učenja prema kurikulumu.

Ovo postavlja pitanje može li ovo postati novi nacrt za izgradnju specijalizirane umjetne inteligencije.

"SRL vidimo kao snažan temelj," rekao je Hsu. "U određenom smislu, SRL pruža nastavni plan i program — poučavajući modele razmišljanja i djelovanja korak po korak — prije nego što pročistimo ta ponašanja učenjem s potkrepljenjem temeljenim na ishodu. Ovaj SRL-prvi pristup ne samo da stabilizira kasniju RL fazu, već također čini razmišljanje razumljivijim i generalizirajućim, što je kritično za aplikacije s visokim ulozima."

Gledajući unaprijed, Hsu priznaje da se skaliranje ovog cjevovoda još uvijek suočava s izazovima, posebice visokim troškovima i složenošću end-to-end RLVR-a za agentske zadatke. Ipak, optimističan je glede daljnjeg puta. "Iako visokokvalitetne stručne putanje ostaju važne," zaključio je, "mislimo da će sljedeći veliki skok doći od automatizacije njihovog generiranja i filtriranja — iskorištavanjem jakih modela nastavnika ili čak modela učenika koji se sami poboljšavaju za pokretanje novih podataka."

Web izvor

Povezani sadržaji

  • Kupujete darove? Ove vrhunske OnePlus slušalice zvuče sjajno i sada su snižene do 40%.Kupujete darove? Ove vrhunske OnePlus slušalice zvuče sjajno i sada su snižene do 40%.
  • ‘Značajne’ praznine u vlaknima prijete širenju podatkovnog centra‘Značajne’ praznine u vlaknima prijete širenju podatkovnog centra
  • Uštedite do 400 USD na Razerovom najnovijem igračkom prijenosnom računalu-ovaj ugovor o ugovoru o školi neće dugo trajatiUštedite do 400 USD na Razerovom najnovijem igračkom prijenosnom računalu-ovaj ugovor o ugovoru o školi neće dugo trajati
  • Je li serija Galaxy S25 nadogradnja ili ne?Je li serija Galaxy S25 nadogradnja ili ne?
  • Oporavak Office dokumentaVratite nespremljene datoteke u Officeu 2010 [SAVJET]
  • Kupio sam Samsungov Galaxy Watch Ultra 2025 – Evo zašto imam kajanje kupcaKupio sam Samsungov Galaxy Watch Ultra 2025 – Evo zašto imam kajanje kupca

Previous Article

Otpor podatkovnog centra je stigao

Next Article

Zayo gradi okosnicu za rast AI u zapadnom SAD-u

Posljednje objave

GNOME 50 je briljantno izdanje – ali morao sam dva puta pogledati zašto

Samsung Galaxy S26 Ultra naspram S24 Ultra: Kako odlučiti isplati li se dvogodišnja nadogradnja

Arc Pulse donosi svoju Crazy Case na Galaxy S26 Ultra

Arc Pulse donosi svoju Crazy Case na Galaxy S26 Ultra

Sadržaj

  • 1 Ograničenja trenutne obuke LLM zaključivanja
  • 2 Kako funkcionira nadzirano učenje s potkrepljenjem
  • 3 SRL u akciji
  • 4 Novi standard za visoko uloženu umjetnu inteligenciju?

Novosti

  • GNOME 50 je briljantno izdanje – ali morao sam dva puta pogledati zašto 26. veljače 2026
  • Samsung Galaxy S26 Ultra naspram S24 Ultra: Kako odlučiti isplati li se dvogodišnja nadogradnja 26. veljače 2026
  • Arc Pulse donosi svoju Crazy Case na Galaxy S26 Ultra 25. veljače 2026
  • Politika privatnosti Genshin Impacta naznačila je da se glasovni podaci igrača mogu koristiti za treniranje AI modela 25. veljače 2026
  • Aeris, Verizon Business imaju za cilj pojednostaviti globalno širenje IoT-a 25. veljače 2026
  • Anthropic je upravo objavio mobilnu verziju Claude Codea pod nazivom Remote Control 25. veljače 2026
  • Posljednja misterija antarktičkih ‘krvavih slapova’ konačno je riješena 25. veljače 2026
  • Ažuriranja uživo za Samsung Unpacked 2026: Galaxy S26 Ultra specifikacije, Buds 4 Pro, Bixby, više 24. veljače 2026
  • Izvorni kreator Dark Skya napravio je još jednu aplikaciju za vremensku prognozu 24. veljače 2026
  • “Tvornica glasina radi prekovremeno” – račun na društvenim mrežama Call of Duty prekida priče o samostalnoj Zombies igrici 24. veljače 2026

O nama

Oblak Znanja je blog edukativnog karaktera i namijenjen je svima koji žele unaprijediti svoje znanje iz područja računala i interneta.

Naš cilj je edukacija i pisanje zanimljivih objava kojima ćemo zajedno učiti i informirati se o svijetu informatike.

Na ovom blogu zabranjeno je svako kopiranje sadržaja bez dozvole autora.

Oblak Znanja

Oznake

besplatni powerpoint predlošci društvene mreže excel facebook firefox gmail google+ Google Chrome halloween halloween walpapers internet kartice linkedin profil linux microsoft Mozilla Firefox ms powerpoint oblak znanja office 2007 office savjeti online kupovina pick powerpoint powerpoint predložak powerpoint savjeti rastući niz savjet slike za radnu površinu spremanje datoteka strani jezik tipkovnicke kratice twitter twitter alati uređivanje slika wallpaper clock web preglednik windows windows 7 windows aplikacije windows vista word word 2007 word savjeti youtube savjeti youtube tipkovničke kratice