Oblak Znanja

  • Home
  • Novosti
  • Učionica
    • Informatika 5
    • Informatika 6
    • Informatika 7
    • Informatika 8
    • Logo jezik
    • WordPress
    • Microsoft Office
  • Vodiči
    • Online vodiči
    • Kratki savjeti
    • Korisne aplikacije
    • Društvene mreže
    • Multimedija
    • Zanimljivosti
✕

Googleova nova metoda obuke AI pomaže malim modelima u rješavanju složenog razmišljanja

Novosti

Googleova nova metoda obuke AI pomaže malim modelima u rješavanju složenog razmišljanja

Tomšić Damjan 15. studenoga 2025

Istraživači na Google Cloud i UCLA predložili su novi okvir za učenje s potkrepljenjem koji značajno poboljšava sposobnost jezičnih modela za učenje vrlo izazovnih zadataka zaključivanja u više koraka. Nadzirano učenje s pojačanjem (SRL) preformulira rješavanje problema kao slijed logičnih “akcija”, pružajući bogate signale učenja tijekom procesa obuke.

Ovaj pristup omogućuje manjim modelima učenje složenih problema koji su prije bili nedostupni drugim uobičajenim tehnikama obuke. Eksperimenti pokazuju da SRL ne samo da se ističe u mjerilima matematičkog zaključivanja, već također učinkovito generalizira na zadatke agentskog softverskog inženjeringa.

SRL je svestran okvir za obuku koji može podići manje i jeftinije modele do viših sposobnosti razmišljanja.

Sadržaj objave

  • 1 Ograničenja trenutne obuke LLM zaključivanja
  • 2 Kako funkcionira nadzirano učenje s potkrepljenjem
  • 3 SRL u akciji
  • 4 Novi standard za visoko uloženu umjetnu inteligenciju?
    • 4.1 Povezani sadržaji

Ograničenja trenutne obuke LLM zaključivanja

Nedavni napredak u obučavanju velikih jezičnih modela (LLM) za zaključivanje uglavnom je potaknut učenjem s potkrepljenjem s provjerljivim nagradama (RLVR), metodom u kojoj se model nagrađuje na temelju točnosti svog konačnog odgovora. Uporno pokušavajući riješiti probleme i dobivajući povratne informacije o konačnom ishodu, model postupno uči učinkovite strategije rješavanja problema.

Međutim, uspjeh ovog pristupa temeljenog na ishodu ovisi o sposobnosti modela da otkrije ispravno rješenje unutar ograničenog broja pokušaja, ili "rollouts." Budući da je svako predstavljanje računalno skupo, modeli ne mogu isprobavati unedogled. Ova metoda nailazi na zid kada su problemi toliko teški da model rijetko, ako uopće, pronađe pravi odgovor unutar svog proračuna.

To stvara kritično usko grlo u učenju. U mnogim problemima zaključivanja u više koraka, model može ispravno riješiti nekoliko koraka, ali biti izbačen iz tračnica zbog jedne pogreške, što dovodi do netočnog odgovora. S RLVR-om cijeli ovaj trud dobiva negativnu nagradu, a model ne uči ništa iz svog djelomično ispravnog rada. To je pristup sve ili ništa koji ne pruža precizne povratne informacije i daje oskudne nagrade.

Alternativna metoda je nadzirano fino ugađanje (SFT), gdje model uči iz primjera koji sadrže potpuni proces razmišljanja koji su izložili stručnjaci. Iako SFT može usaditi sposobnosti rasuđivanja, često dovodi do pretjeranog prilagođavanja (model jednostavno nauči oponašati putanje u podacima o obuci umjesto da nauči generalizirati na probleme izvan primjera koje je vidio). Ovaj problem pogoršava činjenica da su visokokvalitetni podaci o obuci koje su stvorili ljudi rijetki i skupi za proizvodnju.

Kao što je navedeno u radu, ta ograničenja ne postoje "kritična praznina za obuku malih modela otvorenog koda za učinkovito učenje teških problema."

Kako funkcionira nadzirano učenje s potkrepljenjem

SRL uvodi okvir koji preformulira rješavanje problema kao "sekvencijalni proces donošenja odluka," uspostavljanje ravnoteže između čistog RL-a temeljenog na ishodu i čistog imitacijskog učenja. Umjesto optimizacije samo za konačni odgovor ili prisiljavanja modela da oponaša cijeli misaoni proces stručnjaka, SRL uči model da reproducira niz ključnih radnji koje čine okosnicu obrazloženja stručnjaka. To omogućuje modelu da nauči poduzimati radnje slične ekspertu dok razvija vlastiti interni stil razmišljanja.

U okviru SRL-a, stručne demonstracije raščlanjene su na niz posrednih, konkretnih radnji, od kojih svaka predstavlja značajan korak. Za matematički problem radnja može biti algebarska manipulacija. Za agenta softverskog inženjeringa to može biti naredba izvršena u repozitoriju koda. Za generiranje podataka o obuci, SRL koristi moćan model nastavnika za stvaranje putanja rješenja, koje se zatim koriste za obuku manjeg modela.

Prema I-Hung Hsuu, istraživaču u Googleu i koautoru rada, ovaj srednji pristup ključan je za njegovu učinkovitost u scenarijima stvarnog svijeta. "SRL se nalazi u sredini: bilježi strukturiranu fleksibilnost rješavanja problema u stvarnom svijetu, gdje postoji više valjanih strategija, ali i jasne predodžbe o tome kako ‘dobro razmišljanje’ izgleda u svakom koraku," Hsu je rekao za VentureBeat. "To čini SRL prikladnim za domene kao što je automatizacija znanosti o podacima ili vjerojatno optimizacija opskrbnog lanca — zadaci koji nagrađuju zdravo srednje razmišljanje, a ne puke konačne odgovore."

Tijekom treninga, model prvo generira "unutarnji monolog" (njegov interni proces razmišljanja, zatvoren u oznakama) prije nego što se obveže na radnju. U svakom koraku SRL daje nagradu na temelju sličnosti između predviđene akcije modela i radnje stručnjaka. Ovaj postupni sustav nagrađivanja pruža guste, precizne povratne informacije, omogućujući modelu da uči i poboljšava se čak i ako njegovo cjelokupno rješenje nije savršeno. Ovo rješava problem rijetke nagrade s kojim se RLVR suočava.

SRL u akciji

Eksperimenti istraživača pokazuju da SRL značajno nadmašuje snažne osnovne vrijednosti iu izazovnom matematičkom zaključivanju iu mjerilima agentskog softverskog inženjeringa. Također su primijetili da SRL potiče fleksibilnije i sofisticiranije obrasce razmišljanja u modelima, kao što su isprepleteno planiranje i samoprovjera, koji poboljšavaju kvalitetu rješenja, a da samo ne produljuju rezultate.

Za vođe poduzeća, dobici u izvedbi su vrijedni samo ako ne dolaze s nevjerojatnim troškovima. Hsu pojašnjava da su modeli obučeni SRL-om učinkovitiji u svom razmišljanju. "Dobici proizlaze iz bolje kvalitete i strukture obrazloženja, a ne iz opširnosti," rekao je. "Što se tiče učinkovitosti, modeli obučeni SRL-om otprilike su jednaki osnovnom modelu u korištenju tokena… dok SRL nije dizajniran za smanjenje troškova zaključivanja, on postiže jaču izvedbu zaključivanja bez povećanja."

Za testove iz matematike, tim se dotjerao Qwen2.5-7B-Upute na skupu podataka od 1000 teških matematičkih pitanja. Usporedili su njegovu izvedbu s modelima obučenim sa SFT i RLVR (koristeći GRPO algoritam koji je uobičajen u modelima poput DeepSeek-R1) na četiri matematička mjerila na razini natjecanja. Model obučen SRL-om postigao je značajno povećanje performansi od 3,0% u prosjeku u odnosu na druge metode.

Tim je proširio SRL na agentski softverski inženjering, domenu ključnu za automatizaciju poduzeća. Istrenirali su model specijaliziran za kodiranje, Qwen2.5-Coder-7B-Instructna 5000 stručnih putanja agenata u interakciji s okolinom kodiranja. Model obučen SRL-om uspoređivan je s izvornim osnovnim modelom i SWE-Gym-7B, snažnom osnovnom linijom fino podešenom SFT-om. SRL je postigao stopu rješavanja zadataka od 14,8%, što predstavlja relativno poboljšanje od 74% u odnosu na model temeljen na SFT-u. Ovo pokazuje sposobnost SRL-a da obučava kompetentnije AI agente za složene zadatke programiranja u stvarnom svijetu.

Novi standard za visoko uloženu umjetnu inteligenciju?

Najsnažniji rezultati rada došli su iz kombiniranja metoda: Prvo, korištenje SRL-a za podučavanje temeljnog razmišljanja, zatim korištenje RLVR-a za usavršavanje te vještine. U svojim eksperimentima, kada su istraživači koristili SRL kao prethodnu obuku i primijenili RLVR nakon obuke, primijetili su prosječno povećanje od 3,7%, pokazujući moćnu strategiju učenja prema kurikulumu.

Ovo postavlja pitanje može li ovo postati novi nacrt za izgradnju specijalizirane umjetne inteligencije.

"SRL vidimo kao snažan temelj," rekao je Hsu. "U određenom smislu, SRL pruža nastavni plan i program — poučavajući modele razmišljanja i djelovanja korak po korak — prije nego što pročistimo ta ponašanja učenjem s potkrepljenjem temeljenim na ishodu. Ovaj SRL-prvi pristup ne samo da stabilizira kasniju RL fazu, već također čini razmišljanje razumljivijim i generalizirajućim, što je kritično za aplikacije s visokim ulozima."

Gledajući unaprijed, Hsu priznaje da se skaliranje ovog cjevovoda još uvijek suočava s izazovima, posebice visokim troškovima i složenošću end-to-end RLVR-a za agentske zadatke. Ipak, optimističan je glede daljnjeg puta. "Iako visokokvalitetne stručne putanje ostaju važne," zaključio je, "mislimo da će sljedeći veliki skok doći od automatizacije njihovog generiranja i filtriranja — iskorištavanjem jakih modela nastavnika ili čak modela učenika koji se sami poboljšavaju za pokretanje novih podataka."

Web izvor

Povezani sadržaji

  • ‘Glavna anomalija’ iza najnovije eksplozije Spacex Starship‘Glavna anomalija’ iza najnovije eksplozije Spacex Starship
  • linkedin logoOptimizirajte svoj LinkedIn profil
  • Kanabis u svemiru: Biljke pod zračenjem i put prema MarsuKanabis u svemiru: Biljke pod zračenjem i put prema Marsu
  • Potpuno otkrivanje EA Sports FC 26 dolazi ovog tjedna kako je otkrila najnovija zvijezda Ultimate Edition naslovnicePotpuno otkrivanje EA Sports FC 26 dolazi ovog tjedna kako je otkrila najnovija zvijezda Ultimate Edition naslovnice
  • Vodič korak po korak – Nate Chamberlain, Microsoft MCTVodič korak po korak – Nate Chamberlain, Microsoft MCT
  • Beba je u rekordnom vremenu dobila prilagođeni CRISPR tretmanBeba je u rekordnom vremenu dobila prilagođeni CRISPR tretman

Previous Article

Otpor podatkovnog centra je stigao

Next Article

Zayo gradi okosnicu za rast AI u zapadnom SAD-u

Posljednje objave

Vaping je ‘posvuda’ u školama—pokreće bum nadzora kupaonica

Vaping je ‘posvuda’ u školama—pokreće bum nadzora kupaonica

Nextcloud Office u odnosu na OnlyOffice: testirao sam oba kako bih pronašao najbolju Microsoft 365 alternativu

Najbolje Dell ponude za crni petak 2025.: 15 prijenosnih računala rasprodano je sada

Sadržaj

  • 1 Ograničenja trenutne obuke LLM zaključivanja
  • 2 Kako funkcionira nadzirano učenje s potkrepljenjem
  • 3 SRL u akciji
  • 4 Novi standard za visoko uloženu umjetnu inteligenciju?

Novosti

  • Vaping je ‘posvuda’ u školama—pokreće bum nadzora kupaonica 26. studenoga 2025
  • Nextcloud Office u odnosu na OnlyOffice: testirao sam oba kako bih pronašao najbolju Microsoft 365 alternativu 25. studenoga 2025
  • Najbolje Dell ponude za crni petak 2025.: 15 prijenosnih računala rasprodano je sada 25. studenoga 2025
  • Samsung daje 60% popusta na Galaxy Watch 8 Classic 25. studenoga 2025
  • Ne mogu vjerovati da trenutačno možete kupiti PS5 za samo £20 više od Xbox Series S – i dobivate više prostora za pohranu 25. studenoga 2025
  • IBM i Cisco otvaraju kvantnu mrežnu suradnju 25. studenoga 2025
  • Anthropicov Claude Opus 4.5 je ovdje: Jeftiniji AI, beskonačni chatovi i vještine kodiranja koje pobjeđuju ljude 25. studenoga 2025
  • Dno zdjelice je problem 24. studenoga 2025
  • 7 aplikacija otvorenog koda koje bih pošteno platio jer su tako dobre 24. studenoga 2025
  • Najbolje rane ponude monitora za Crni petak 2025.: 39 rano rasprodano 24. studenoga 2025

O nama

Oblak Znanja je blog edukativnog karaktera i namijenjen je svima koji žele unaprijediti svoje znanje iz područja računala i interneta.

Naš cilj je edukacija i pisanje zanimljivih objava kojima ćemo zajedno učiti i informirati se o svijetu informatike.

Na ovom blogu zabranjeno je svako kopiranje sadržaja bez dozvole autora.

Oblak Znanja

Oznake

besplatni powerpoint predlošci društvene mreže excel facebook firefox gmail google+ Google Chrome halloween halloween walpapers internet kartice linkedin profil linux microsoft Mozilla Firefox ms powerpoint oblak znanja office 2007 office savjeti online kupovina pick powerpoint powerpoint predložak powerpoint savjeti rastući niz savjet slike za radnu površinu spremanje datoteka strani jezik tipkovnicke kratice twitter twitter alati uređivanje slika wallpaper clock web preglednik windows windows 7 windows aplikacije windows vista word word 2007 word savjeti youtube savjeti youtube tipkovničke kratice