Oblak Znanja

  • Home
  • Novosti
  • Učionica
    • Informatika 5
    • Informatika 6
    • Informatika 7
    • Informatika 8
    • Logo jezik
    • WordPress
    • Microsoft Office
  • Vodiči
    • Online vodiči
    • Kratki savjeti
    • Korisne aplikacije
    • Društvene mreže
    • Multimedija
    • Zanimljivosti
✕

Kako bi Googleov ‘unutarnji RL’ mogao otključati dugoročne agente umjetne inteligencije

Novosti

Kako bi Googleov ‘unutarnji RL’ mogao otključati dugoročne agente umjetne inteligencije

Tomšić Damjan 20. siječnja 2026

Istraživači u Googleu razvili su tehniku ​​koja modelima umjetne inteligencije olakšava učenje složenih zadataka rasuđivanja koji obično uzrokuju halucinacije ili raspad LLM-a. Umjesto obuke LLM-a kroz predviđanje sljedećeg tokena, njihova tehnika, tzv unutarnje potkrepljujuće učenje (unutarnji RL), usmjerava unutarnje aktivacije modela prema razvoju korak po korak rješenja visoke razine za problem unosa.

U konačnici, ovo bi moglo pružiti skalabilni put za stvaranje autonomnih agenata koji mogu upravljati složenim razmišljanjem i robotikom u stvarnom svijetu bez potrebe za stalnim, ručnim vodstvom.

Sadržaj objave

  • 1 Ograničenja predviđanja sljedećeg tokena
  • 2 Upravljanje internim mislima LLM-a
  • 3 Interni RL u akciji
    • 3.1 Povezani sadržaji

Ograničenja predviđanja sljedećeg tokena

Učenje s potkrepljenjem igra ključnu ulogu u LLM-ovima nakon obuke, posebno za složene zadatke rasuđivanja koji zahtijevaju dugoročno planiranje. Međutim, problem leži u arhitekturi ovih modela. LLM-ovi su autoregresivni, što znači da generiraju nizove jedan po jedan token. Kada ovi modeli istražuju nove strategije tijekom treninga, oni to čine tako što unose male, nasumične promjene na sljedeći pojedinačni token ili radnju. Ovo razotkriva dublje ograničenje: predviđanje sljedećeg tokena prisiljava modele da traže rješenja na pogrešnoj razini apstrakcije, čineći razmišljanje dugog horizonta neučinkovitim čak i kada model “zna” što treba učiniti.

Ovaj pristup token po token dobro funkcionira za modeliranje osnovnog jezika, ali se kvari u dugotrajnim zadacima gdje su nagrade rijetke. Ako se model oslanja isključivo na nasumično uzorkovanje na razini tokena, vjerojatnost da ćete naići na ispravno rješenje u više koraka je beskrajno mala, "reda veličine jedan u milijun," prema istraživačima.

Problem nije samo u tome što se modeli zbunjuju; radi se o tome da se zbune na pogrešnoj razini. U komentarima danim za VentureBeat, Yanick Schimpf, koautor rada, primjećuje da se u zadatku od 20 koraka agent može izgubiti u sitnim detaljima jednog koraka ili može izgubiti pojam o općem cilju.

"Tvrdimo da kada se suočimo s problemom s nekom apstraktnom strukturom… [goal-oriented exploration] je ono što želiš," rekao je Schimpf. Prvo rješavanjem problema na apstraktnoj razini, agent se obvezuje na put, osiguravajući da se "izgubiti se u jednom od koraka rasuđivanja" i ne uspijevaju dovršiti širi tijek rada.

Kako bi se to riješilo, područje je dugo gledalo prema hijerarhijskom učenju s pojačanjem. HRL pokušava riješiti složene probleme razlažući ih u hijerarhiju vremenski apstraktnih radnji (potrutine visoke razine koje predstavljaju različite faze rješenja) umjesto da upravlja zadatkom kao nizom tokena.

Međutim, otkrivanje tih odgovarajućih potprograma ostaje dugogodišnji izazov. Trenutačne HRL metode često ne otkrivaju ispravne politike, često "konvergirajući u degenerirane opcije" koji ne predstavljaju smislena ponašanja. Čak i sofisticirane moderne metode kao što je GRPO (popularni RL algoritam koji se koristi za zadatke rijetkog nagrađivanja) ne uspijevaju u složenim okruženjima jer ne mogu učinkovito premostiti jaz između izvršenja na niskoj razini i planiranja na visokoj razini.

Upravljanje internim mislima LLM-a

Kako bi prevladao ta ograničenja, Googleov tim predložio je interni RL. Već napredni autoregresivni modeli "znati" kako interno obavljati složene zadatke u više koraka, čak i ako za to nisu izričito obučeni.

Budući da su ova složena ponašanja skrivena unutar rezidualnog toka modela (tj. brojčanih vrijednosti koje prenose informacije kroz slojeve mreže), istraživači su uveli "kontroler interne neuronske mreže," odnosno metakontroler. Umjesto praćenja i mijenjanja izlaznog tokena, metakontroler kontrolira ponašanje modela primjenom promjena na unutarnje aktivacije modela u srednjim slojevima.

Ovo pomicanje usmjerava model u određeno korisno stanje. Osnovni model zatim automatski generira slijed pojedinačnih koraka potrebnih za postizanje tog cilja jer je već vidio te obrasce tijekom svoje početne predvježbe.

Metakontroler radi kroz učenje bez nadzora i ne zahtijeva primjere obuke označene od strane ljudi. Umjesto toga, istraživači koriste samonadzirani okvir gdje model analizira cijeli slijed ponašanja i radi unatrag kako bi zaključio skrivenu namjeru visoke razine koja najbolje objašnjava radnje.

Tijekom interne RL faze, ažuriranja se primjenjuju na metakontroler, što prebacuje obuku s predviđanja sljedećeg tokena na učenje radnji visoke razine koje mogu dovesti do rješenja.

Da biste razumjeli praktičnu vrijednost toga, razmislite o poslovnom agentu zaduženom za generiranje koda. Danas postoji težak kompromis: trebate "niske temperature" (predvidljivost) da dobijete pravu sintaksu, ali "visoka temperatura" (kreativnost) za rješavanje logičke zagonetke.

"Unutarnji RL bi to mogao olakšati dopuštajući modelu da istražuje prostor apstraktnih radnji, tj. strukturiranje logike i poziva metoda, dok delegira realizaciju tih radnji na razini tokena robusnoj distribuciji niže temperature osnovnog modela," rekao je Schimpf. Agent istražuje rješenje bez narušavanja sintakse.

Istraživači su istražili dvije metode za primjenu ovog regulatora. U prvom, osnovni autoregresivni model je prethodno obučen na skupu podataka o ponašanju i zatim zamrznut, dok je metakontroler osposobljen da upravlja preostalim tokom zamrznutog modela. U drugom se metakontroler i osnovni model zajednički optimiziraju, s parametrima obje mreže koji se ažuriraju istovremeno.

Interni RL u akciji

Kako bi procijenili učinkovitost internog RL-a, istraživači su proveli eksperimente u hijerarhijskim okruženjima dizajniranim da zbune tradicionalne učenike. To je uključivalo diskretni mrežni svijet i kontinuirani kontrolni zadatak gdje je četveronožac "mrav" robot mora koordinirati pokrete zglobova. Oba okruženja koristila su rijetke nagrade s vrlo dugim akcijskim sekvencama.

Dok osnovne linije kao što su GRPO i CompILE nisu uspjele naučiti zadatke unutar milijun epizoda zbog poteškoća u dodjeljivanju kredita kroz duge horizonte, interni RL postigao je visoke stope uspjeha s malim brojem epizoda obuke. Odabirom ciljeva visoke razine umjesto sitnih koraka, metakontroler je drastično smanjio prostor pretraživanja. To je omogućilo modelu da identificira koje su odluke na visokoj razini dovele do uspjeha, čineći dodjelu kredita dovoljno učinkovitom da riješi problem rijetke nagrade.

Naime, istraživači su otkrili da "smrznuti" pristup je bio superioran. Kada su osnovni model i metakontroler zajedno trenirani od nule, sustav nije uspio razviti značajne apstrakcije. Međutim, primijenjen na zamrznuti model, metakontroler je uspješno otkrio ključne kontrolne točke bez ikakvih ljudskih oznaka, savršeno usklađujući svoj unutarnji mehanizam prebacivanja s trenutcima temeljne istine kada je agent završio jedan podcilj i započeo sljedeći.

Budući da se industrija trenutno fiksira na modele rezoniranja koji izlaze opširno "lanci misli" za rješavanje problema, Googleovo istraživanje ukazuje na drugačiju, možda učinkovitiju budućnost.

"Naša se studija pridružuje sve većem broju radova koji sugeriraju da je ‘unutarnje razmišljanje’ ne samo izvedivo, već i potencijalno učinkovitije od pristupa temeljenih na tokenima," rekao je Schimpf. "Štoviše, ove tihe ‘misli’ mogu se odvojiti od specifičnih modaliteta unosa — svojstvo koje bi moglo biti osobito relevantno za budućnost multimodalne umjetne inteligencije."

Ako se unutarnje razmišljanje može voditi bez eksternalizacije, budućnost agenata umjetne inteligencije mogla bi manje ovisiti o strategijama podsticanja, a više o tome koliko dobro možemo pristupiti i upravljati onim što modeli već interno predstavljaju. Za poduzeća koja se klade na autonomne sustave koji moraju planirati, prilagođavati se i djelovati kroz duge horizonte, taj bi pomak mogao biti važniji od bilo kojeg novog mjerila za razmišljanje.

Web izvor

Povezani sadržaji

  • Diga Labs partneri s Ambrus Studio -om za lansiranje imerzivnih metaverznih iskustavaDiga Labs partneri s Ambrus Studio -om za lansiranje imerzivnih metaverznih iskustava
  • Summer Game Fest June 2025: Everything announcedSummer Game Fest June 2025: Everything announced
  • Neuroznanstvenici dešifriraju odugovlačenje: moždani mehanizam objašnjava zašto ljudi ostavljaju određene zadatke za kasnijeNeuroznanstvenici dešifriraju odugovlačenje: moždani mehanizam objašnjava zašto ljudi ostavljaju određene zadatke za kasnije
  • Ova distribucija Linuxa mogla bi omogućiti vašem starom laptopu da ‘zablista’ nakon zalaska Windowsa 10Ova distribucija Linuxa mogla bi omogućiti vašem starom laptopu da ‘zablista’ nakon zalaska Windowsa 10
  • Tehnološki trendovi na Bliskom istoku 2026.: AI, cyber sigurnost i suverena infrastruktura zauzimaju središnje mjestoTehnološki trendovi na Bliskom istoku 2026.: AI, cyber sigurnost i suverena infrastruktura zauzimaju središnje mjesto
  • Digitalna povezanost postaje katalizator za napredak u WalesuDigitalna povezanost postaje katalizator za napredak u Walesu

Previous Article

Potraga za izvanzemaljskim artefaktima dolazi u fokus

Next Article

Zayo širi mrežu diljem Pirenejskog poluotoka

Posljednje objave

The best external hard drives of 2026: Expert tested

AT&T-ovi novi neograničeni planovi izgledaju solidno

AT&T-ovi novi neograničeni planovi izgledaju solidno

Dok se vrte glasine o Witcher 3 DLC-u, CD Projekt Red želi da znate da Cyberpunk 2077 više neće dobivati ​​nikakav ‘tajni’ sadržaj

Dok se vrte glasine o Witcher 3 DLC-u, CD Projekt Red želi da znate da Cyberpunk 2077 više neće dobivati ​​nikakav ‘tajni’ sadržaj

Sadržaj

  • 1 Ograničenja predviđanja sljedećeg tokena
  • 2 Upravljanje internim mislima LLM-a
  • 3 Interni RL u akciji

Novosti

  • The best external hard drives of 2026: Expert tested 15. ožujka 2026
  • AT&T-ovi novi neograničeni planovi izgledaju solidno 15. ožujka 2026
  • Dok se vrte glasine o Witcher 3 DLC-u, CD Projekt Red želi da znate da Cyberpunk 2077 više neće dobivati ​​nikakav ‘tajni’ sadržaj 15. ožujka 2026
  • Altneti ‘na koje se mora računati’ u širokopojasnom pristupu u Velikoj Britaniji 15. ožujka 2026
  • Random Labs koji podržava Y Combinator lansira Slate V1, tvrdeći da je prvi ‘swarm-native’ agent za kodiranje 14. ožujka 2026
  • Pi možete približno izračunati bacanjem igala na pod 14. ožujka 2026
  • Zašto koristim Appleove i Googleove upravitelje lozinkama – i ne obaziri se na kaos 14. ožujka 2026
  • T-Mobile izbacuje 2TB + neograničene korisnike Google fotografija na Google tamo gdje njihov plan ne postoji 14. ožujka 2026
  • “Ljudi jednostavno nisu bili spremni za” Starfield, kaže skladatelj igre dok govori o “vizionaru” Toddu Howardu 14. ožujka 2026
  • Openreach testira ‘pionirsko’ otkrivanje curenja vode optičkim vlaknima 14. ožujka 2026

O nama

Oblak Znanja je blog edukativnog karaktera i namijenjen je svima koji žele unaprijediti svoje znanje iz područja računala i interneta.

Naš cilj je edukacija i pisanje zanimljivih objava kojima ćemo zajedno učiti i informirati se o svijetu informatike.

Na ovom blogu zabranjeno je svako kopiranje sadržaja bez dozvole autora.

Oblak Znanja

Oznake

besplatni powerpoint predlošci društvene mreže excel facebook firefox gmail google+ Google Chrome halloween halloween walpapers internet kartice linkedin profil linux microsoft Mozilla Firefox ms powerpoint oblak znanja office 2007 office savjeti online kupovina pick powerpoint powerpoint predložak powerpoint savjeti rastući niz savjet slike za radnu površinu spremanje datoteka strani jezik tipkovnicke kratice twitter twitter alati uređivanje slika wallpaper clock web preglednik windows windows 7 windows aplikacije windows vista word word 2007 word savjeti youtube savjeti youtube tipkovničke kratice