Oblak Znanja

  • Home
  • Novosti
  • Učionica
    • Informatika 5
    • Informatika 6
    • Informatika 7
    • Informatika 8
    • Logo jezik
    • WordPress
    • Microsoft Office
  • Vodiči
    • Online vodiči
    • Kratki savjeti
    • Korisne aplikacije
    • Društvene mreže
    • Multimedija
    • Zanimljivosti
✕

Zašto platoi učenja za pojačanje bez dubine predstavljanja (i drugi ključni zaključci iz NeurIPS 2025)

Novosti

Zašto platoi učenja za pojačanje bez dubine predstavljanja (i drugi ključni zaključci iz NeurIPS 2025)

Tomšić Damjan 18. siječnja 2026

Svake godine NeurIPS proizvede stotine impresivnih radova i pregršt radova koji suptilno resetiraju razmišljanja praktičara o skaliranju, evaluaciji i dizajnu sustava. U 2025. godini najkonzekventniji radovi nisu se odnosili ni na jedan revolucionarni model. Umjesto toga, osporili su temeljne pretpostavke na koje su se akademici i korporacije tiho oslanjali: veći modeli znače bolje rezoniranje, RL stvara nove mogućnosti, pozornost je “riješena”, a generativni modeli neizbježno pamte.

Ovogodišnji vrhunski radovi zajedno ukazuju na dublji pomak: napredak umjetne inteligencije sada je manje ograničen kapacitetom sirovog modela, a više arhitekturom, dinamikom obuke i strategijom evaluacije.

Ispod je tehnički detaljan uvid u pet najutjecajnijih dokumenata NeurIPS 2025 — i što oni znače za svakoga tko gradi sustave umjetne inteligencije u stvarnom svijetu.

Sadržaj objave

  • 1 1. LLM-ovi se približavaju—i konačno imamo način da to izmjerimo
  • 2 Zašto je to važno u praksi
  • 3 2. Pažnja nije gotova — jednostavna vrata mijenjaju sve
    • 3.1 Zašto radi
  • 4 3. RL može skalirati — ako skalirate u dubinu, a ne samo podatke
    • 4.1 Zašto je to važno izvan robotike
  • 5 4. Zašto difuzijski modeli generaliziraju umjesto da pamte
    • 5.1 Praktične implikacije
  • 6 5. RL poboljšava izvedbu rasuđivanja, a ne sposobnost rasuđivanja
    • 6.1 Što to znači za kanale LLM obuke
  • 7 Šira slika: napredak umjetne inteligencije postaje ograničen sustavima
    • 7.1 Povezani sadržaji

1. LLM-ovi se približavaju—i konačno imamo način da to izmjerimo

Papir: Umjetni um košnice: Otvorena homogenost jezičnih modela

Godinama se ocjenjivanje LLM-a fokusiralo na ispravnost. Ali u otvorenim ili dvosmislenim zadacima poput brainstorminga, ideja ili kreativne sinteze, često nema niti jedan točan odgovor. Rizik je umjesto toga homogenost: modeli koji proizvode iste “sigurne” odgovore visoke vjerojatnosti.

Ovaj rad predstavlja Infinity-Chat, mjerilo osmišljeno eksplicitno za mjerenje raznolikosti i pluralizma u generaciji bez ograničenja. Umjesto da ocjenjuje odgovore kao točne ili netočne, mjeri:

  • Kolaps unutar modela: Koliko se često isti model ponavlja

  • Homogenost među modelima: Koliko su rezultati različitih modela slični

Rezultat je neugodan, ali važan: u svim arhitekturama i pružateljima, modeli sve više konvergiraju na sličnim rezultatima — čak i kada postoji više valjanih odgovora.

Zašto je to važno u praksi

Za korporacije, ovo preoblikuje “usklađivanje” kao kompromis. Podešavanje preferencija i sigurnosna ograničenja mogu tiho smanjiti raznolikost, što dovodi do pomoćnika koji se osjećaju previše sigurnima, predvidljivima ili pristranima prema dominantnim stajalištima.

Za ponijeti: Ako se vaš proizvod oslanja na kreativne ili istraživačke rezultate, metrika raznolikosti mora biti građani prve klase.

2. Pažnja nije gotova — jednostavna vrata mijenjaju sve

Papir: Ograničena pažnja za modele velikih jezika

Pozornost na transformatore tretirana je kao ustaljeno inženjerstvo. Ovaj rad dokazuje da nije.

Autori uvode malu arhitektonsku promjenu: Primijenite sigmoidna vrata ovisna o upitu nakon skaliranog točkastog produkta pažnje, po glavi pažnje. To je to. Nema egzotičnih kernela, nema masivnih troškova.

Aprijeći desetke velikih obuka — uključujući modele guste i mješavine stručnjaka (MoE) obučene na trilijunima tokena — ova zatvorena varijanta:

  • Poboljšana stabilnost

  • Smanjeno “poniranje pažnje”

  • Poboljšano izvedba dugog konteksta

  • Konzistentno nadmašivao pozornost vanilije

Zašto radi

Vrata uvode:

  • Nelinearnost u izlazima pažnje

  • Implicitna rijetkostsuzbijanje patoloških aktivacija

Ovo dovodi u pitanje pretpostavku da su propusti u pažnji isključivo problemi podataka ili optimizacije.

Za ponijeti: Neki od najvećih problema s pouzdanošću LLM-a mogu biti arhitektonski — a ne algoritamski — i rješivi s iznenađujuće malim promjenama.

3. RL može skalirati — ako skalirate u dubinu, a ne samo podatke

Papir: Mreže od 1000 slojeva za samonadzorno učenje potkrepljenjag

Konvencionalna mudrost kaže da RL ne napreduje dobro bez gustih nagrada ili demonstracija. Ovaj rad otkriva da je ta pretpostavka nepotpuna.

Agresivnim skaliranjem dubine mreže s tipičnih 2 do 5 slojeva na gotovo 1000 slojeva, autori pokazuju dramatične dobitke u samonadziranom, ciljano uvjetovanom RL-u, s poboljšanjima performansi u rasponu od 2X do 50X.

Ključ nije gruba sila. To je uparivanje dubine s kontrastnim ciljevima, stabilnim režimima optimizacije i prikazima uvjetovanim ciljevima

Zašto je to važno izvan robotike

Za agentske sustave i autonomne tijekove rada, ovo sugerira da dubina reprezentacije – ne samo podaci ili oblikovanje nagrada – može biti kritična poluga za generalizaciju i istraživanje.

Za ponijeti: RL-ova ograničenja skaliranja mogu biti arhitektonska, a ne temeljna.

4. Zašto difuzijski modeli generaliziraju umjesto da pamte

Papir: Zašto difuzijski modeli ne pamte: Uloga implicitne dinamičke regulacije u obuci

Difuzijski modeli su masivno nadparametrizirani, ali često generaliziraju izvanredno dobro. Ovaj rad objašnjava zašto.

Autori identificiraju dva različita vremenska okvira obuke:

  • Onaj gdje se generativna kvaliteta brzo poboljšava

  • Drugi — mnogo sporiji — gdje dolazi do pamćenja

Ono što je najvažnije, vremenska skala memoriranja raste linearno s veličinom skupa podataka, stvarajući sve širi prozor u kojem se modeli poboljšavaju bez pretjeranog prilagođavanja.

Praktične implikacije

Ovo preoblikuje strategije ranog zaustavljanja i skaliranja skupa podataka. Pamćenje nije neizbježno — ono je predvidljivo i odgođeno.

Za ponijeti: Za obuku difuzije, veličina skupa podataka ne poboljšava samo kvalitetu – ona aktivno odgađa prekomjerno opremanje.

5. RL poboljšava izvedbu rasuđivanja, a ne sposobnost rasuđivanja

Papir: Potiče li učenje s potkrepljenjem doista razmišljanje na LLM-u?

Možda strateški najvažniji rezultat NeurIPS 2025. ujedno je i najotrežnjujući.

Ovaj rad rigorozno testira je li zapravo učenje s potkrepljenjem s provjerljivim nagradama (RLVR). stvara nove sposobnosti rasuđivanja u LLM-u — ili jednostavno preoblikuje postojeće.

Njihov zaključak: RLVR prvenstveno poboljšava učinkovitost uzorkovanja, a ne sposobnost rasuđivanja. Kod velikih veličina uzorka, osnovni model često već sadrži točne putanje razmišljanja.

Što to znači za kanale LLM obuke

RL se bolje razumije kao:

  • Mehanizam za oblikovanje distribucije

  • Nije generator fundamentalno novih sposobnosti

Za ponijeti: Kako bi se doista proširio kapacitet rasuđivanja, RL vjerojatno treba biti uparen s mehanizmima kao što su učiteljska destilacija ili arhitektonske promjene — a ne koristiti se izolirano.

Šira slika: napredak umjetne inteligencije postaje ograničen sustavima

Uzeti zajedno, ovi dokumenti ukazuju na zajedničku temu:

Usko grlo u modernoj umjetnoj inteligenciji više nije sirova veličina modela – to je dizajn sustava.

  • Kolaps raznolikosti zahtijeva nove metrike procjene

  • Nedostaci pozornosti zahtijevaju arhitektonske popravke

  • RL skaliranje ovisi o dubini i zastupljenosti

  • Memoriranje ovisi o dinamici treninga, a ne o broju parametara

  • Dobici u rasuđivanju ovise o tome kako su distribucije oblikovane, a ne samo optimizirane

Za graditelje poruka je jasna: konkurentska prednost se pomiče s “tko ima najveći model” na “tko razumije sustav”.

Maitreyi Chatterjee je softverski inženjer.

Devansh Agarwal trenutno radi kao ML inženjer u FAANG-u.

Web izvor

Povezani sadržaji

  • Kubuntu protiv Fedore: Koji Linux distro je pravi za vašu KDE Plasma radnu površinu?Kubuntu protiv Fedore: Koji Linux distro je pravi za vašu KDE Plasma radnu površinu?
  • 007: Prvo svjetlo dobiva datum izlaska u ožujku 2026. i izdanje kolekcionara u iznosu od 300 dolara007: Prvo svjetlo dobiva datum izlaska u ožujku 2026. i izdanje kolekcionara u iznosu od 300 dolara
  • Ospice uzrokuju oticanje mozga kod djece u Južnoj KaroliniOspice uzrokuju oticanje mozga kod djece u Južnoj Karolini
  • Google čita masovno AI ažuriranje za Google HomeGoogle čita masovno AI ažuriranje za Google Home
  • Sve se u glasovnoj umjetnoj inteligenciji upravo promijenilo: kako proizvođači umjetne inteligencije u poduzećima mogu imati koristiSve se u glasovnoj umjetnoj inteligenciji upravo promijenilo: kako proizvođači umjetne inteligencije u poduzećima mogu imati koristi
  • Dva najbolja alata za uklanjanje nepoželjnog softvera [Malware, Adware, Spyware, Toolbars]Dva najbolja alata za uklanjanje nepoželjnog softvera [Malware, Adware, Spyware, Toolbars]

Previous Article

Trump je proglasio svemirsku utrku s Kinom. SAD gubi

Next Article

Čini se da Resident Evil Requiem neće dobiti kolekcionarsko izdanje – ali zašto?

Posljednje objave

The best external hard drives of 2026: Expert tested

AT&T-ovi novi neograničeni planovi izgledaju solidno

AT&T-ovi novi neograničeni planovi izgledaju solidno

Dok se vrte glasine o Witcher 3 DLC-u, CD Projekt Red želi da znate da Cyberpunk 2077 više neće dobivati ​​nikakav ‘tajni’ sadržaj

Dok se vrte glasine o Witcher 3 DLC-u, CD Projekt Red želi da znate da Cyberpunk 2077 više neće dobivati ​​nikakav ‘tajni’ sadržaj

Sadržaj

  • 1 1. LLM-ovi se približavaju—i konačno imamo način da to izmjerimo
  • 2 Zašto je to važno u praksi
  • 3 2. Pažnja nije gotova — jednostavna vrata mijenjaju sve
    • 3.1 Zašto radi
  • 4 3. RL može skalirati — ako skalirate u dubinu, a ne samo podatke
    • 4.1 Zašto je to važno izvan robotike
  • 5 4. Zašto difuzijski modeli generaliziraju umjesto da pamte
    • 5.1 Praktične implikacije
  • 6 5. RL poboljšava izvedbu rasuđivanja, a ne sposobnost rasuđivanja
    • 6.1 Što to znači za kanale LLM obuke
  • 7 Šira slika: napredak umjetne inteligencije postaje ograničen sustavima

Novosti

  • The best external hard drives of 2026: Expert tested 15. ožujka 2026
  • AT&T-ovi novi neograničeni planovi izgledaju solidno 15. ožujka 2026
  • Dok se vrte glasine o Witcher 3 DLC-u, CD Projekt Red želi da znate da Cyberpunk 2077 više neće dobivati ​​nikakav ‘tajni’ sadržaj 15. ožujka 2026
  • Altneti ‘na koje se mora računati’ u širokopojasnom pristupu u Velikoj Britaniji 15. ožujka 2026
  • Random Labs koji podržava Y Combinator lansira Slate V1, tvrdeći da je prvi ‘swarm-native’ agent za kodiranje 14. ožujka 2026
  • Pi možete približno izračunati bacanjem igala na pod 14. ožujka 2026
  • Zašto koristim Appleove i Googleove upravitelje lozinkama – i ne obaziri se na kaos 14. ožujka 2026
  • T-Mobile izbacuje 2TB + neograničene korisnike Google fotografija na Google tamo gdje njihov plan ne postoji 14. ožujka 2026
  • “Ljudi jednostavno nisu bili spremni za” Starfield, kaže skladatelj igre dok govori o “vizionaru” Toddu Howardu 14. ožujka 2026
  • Openreach testira ‘pionirsko’ otkrivanje curenja vode optičkim vlaknima 14. ožujka 2026

O nama

Oblak Znanja je blog edukativnog karaktera i namijenjen je svima koji žele unaprijediti svoje znanje iz područja računala i interneta.

Naš cilj je edukacija i pisanje zanimljivih objava kojima ćemo zajedno učiti i informirati se o svijetu informatike.

Na ovom blogu zabranjeno je svako kopiranje sadržaja bez dozvole autora.

Oblak Znanja

Oznake

besplatni powerpoint predlošci društvene mreže excel facebook firefox gmail google+ Google Chrome halloween halloween walpapers internet kartice linkedin profil linux microsoft Mozilla Firefox ms powerpoint oblak znanja office 2007 office savjeti online kupovina pick powerpoint powerpoint predložak powerpoint savjeti rastući niz savjet slike za radnu površinu spremanje datoteka strani jezik tipkovnicke kratice twitter twitter alati uređivanje slika wallpaper clock web preglednik windows windows 7 windows aplikacije windows vista word word 2007 word savjeti youtube savjeti youtube tipkovničke kratice