Zašto platoi učenja za pojačanje bez dubine predstavljanja (i drugi ključni zaključci iz NeurIPS 2025)

Svake godine NeurIPS proizvede stotine impresivnih radova i pregršt radova koji suptilno resetiraju razmišljanja praktičara o skaliranju, evaluaciji i dizajnu sustava. U 2025. godini najkonzekventniji radovi nisu se odnosili ni na jedan revolucionarni model. Umjesto toga, osporili su temeljne pretpostavke na koje su se akademici i korporacije tiho oslanjali: veći modeli znače bolje rezoniranje, RL stvara nove mogućnosti, pozornost je “riješena”, a generativni modeli neizbježno pamte.

Ovogodišnji vrhunski radovi zajedno ukazuju na dublji pomak: napredak umjetne inteligencije sada je manje ograničen kapacitetom sirovog modela, a više arhitekturom, dinamikom obuke i strategijom evaluacije.

Ispod je tehnički detaljan uvid u pet najutjecajnijih dokumenata NeurIPS 2025 — i što oni znače za svakoga tko gradi sustave umjetne inteligencije u stvarnom svijetu.

Sadržaj objave

1 1. LLM-ovi se približavaju—i konačno imamo način da to izmjerimo
2 Zašto je to važno u praksi
3 2. Pažnja nije gotova — jednostavna vrata mijenjaju sve
- 3.1 Zašto radi
4 3. RL može skalirati — ako skalirate u dubinu, a ne samo podatke
- 4.1 Zašto je to važno izvan robotike
5 4. Zašto difuzijski modeli generaliziraju umjesto da pamte
- 5.1 Praktične implikacije
6 5. RL poboljšava izvedbu rasuđivanja, a ne sposobnost rasuđivanja
- 6.1 Što to znači za kanale LLM obuke
7 Šira slika: napredak umjetne inteligencije postaje ograničen sustavima
- 7.1 Povezani sadržaji

1. LLM-ovi se približavaju—i konačno imamo način da to izmjerimo

Papir: Umjetni um košnice: Otvorena homogenost jezičnih modela

Godinama se ocjenjivanje LLM-a fokusiralo na ispravnost. Ali u otvorenim ili dvosmislenim zadacima poput brainstorminga, ideja ili kreativne sinteze, često nema niti jedan točan odgovor. Rizik je umjesto toga homogenost: modeli koji proizvode iste “sigurne” odgovore visoke vjerojatnosti.

Ovaj rad predstavlja Infinity-Chat, mjerilo osmišljeno eksplicitno za mjerenje raznolikosti i pluralizma u generaciji bez ograničenja. Umjesto da ocjenjuje odgovore kao točne ili netočne, mjeri:

Kolaps unutar modela: Koliko se često isti model ponavlja
Homogenost među modelima: Koliko su rezultati različitih modela slični

Rezultat je neugodan, ali važan: u svim arhitekturama i pružateljima, modeli sve više konvergiraju na sličnim rezultatima — čak i kada postoji više valjanih odgovora.

Zašto je to važno u praksi

Za korporacije, ovo preoblikuje “usklađivanje” kao kompromis. Podešavanje preferencija i sigurnosna ograničenja mogu tiho smanjiti raznolikost, što dovodi do pomoćnika koji se osjećaju previše sigurnima, predvidljivima ili pristranima prema dominantnim stajalištima.

Za ponijeti: Ako se vaš proizvod oslanja na kreativne ili istraživačke rezultate, metrika raznolikosti mora biti građani prve klase.

2. Pažnja nije gotova — jednostavna vrata mijenjaju sve

Papir: Ograničena pažnja za modele velikih jezika

Pozornost na transformatore tretirana je kao ustaljeno inženjerstvo. Ovaj rad dokazuje da nije.

Autori uvode malu arhitektonsku promjenu: Primijenite sigmoidna vrata ovisna o upitu nakon skaliranog točkastog produkta pažnje, po glavi pažnje. To je to. Nema egzotičnih kernela, nema masivnih troškova.

Aprijeći desetke velikih obuka — uključujući modele guste i mješavine stručnjaka (MoE) obučene na trilijunima tokena — ova zatvorena varijanta:

Poboljšana stabilnost
Smanjeno “poniranje pažnje”
Poboljšano izvedba dugog konteksta
Konzistentno nadmašivao pozornost vanilije

Zašto radi

Vrata uvode:

Nelinearnost u izlazima pažnje
Implicitna rijetkostsuzbijanje patoloških aktivacija

Ovo dovodi u pitanje pretpostavku da su propusti u pažnji isključivo problemi podataka ili optimizacije.

Za ponijeti: Neki od najvećih problema s pouzdanošću LLM-a mogu biti arhitektonski — a ne algoritamski — i rješivi s iznenađujuće malim promjenama.

3. RL može skalirati — ako skalirate u dubinu, a ne samo podatke

Papir: Mreže od 1000 slojeva za samonadzorno učenje potkrepljenjag

Konvencionalna mudrost kaže da RL ne napreduje dobro bez gustih nagrada ili demonstracija. Ovaj rad otkriva da je ta pretpostavka nepotpuna.

Agresivnim skaliranjem dubine mreže s tipičnih 2 do 5 slojeva na gotovo 1000 slojeva, autori pokazuju dramatične dobitke u samonadziranom, ciljano uvjetovanom RL-u, s poboljšanjima performansi u rasponu od 2X do 50X.

Ključ nije gruba sila. To je uparivanje dubine s kontrastnim ciljevima, stabilnim režimima optimizacije i prikazima uvjetovanim ciljevima

Zašto je to važno izvan robotike

Za agentske sustave i autonomne tijekove rada, ovo sugerira da dubina reprezentacije – ne samo podaci ili oblikovanje nagrada – može biti kritična poluga za generalizaciju i istraživanje.

Za ponijeti: RL-ova ograničenja skaliranja mogu biti arhitektonska, a ne temeljna.

4. Zašto difuzijski modeli generaliziraju umjesto da pamte

Papir: Zašto difuzijski modeli ne pamte: Uloga implicitne dinamičke regulacije u obuci

Difuzijski modeli su masivno nadparametrizirani, ali često generaliziraju izvanredno dobro. Ovaj rad objašnjava zašto.

Autori identificiraju dva različita vremenska okvira obuke:

Onaj gdje se generativna kvaliteta brzo poboljšava
Drugi — mnogo sporiji — gdje dolazi do pamćenja

Ono što je najvažnije, vremenska skala memoriranja raste linearno s veličinom skupa podataka, stvarajući sve širi prozor u kojem se modeli poboljšavaju bez pretjeranog prilagođavanja.

Praktične implikacije

Ovo preoblikuje strategije ranog zaustavljanja i skaliranja skupa podataka. Pamćenje nije neizbježno — ono je predvidljivo i odgođeno.

Za ponijeti: Za obuku difuzije, veličina skupa podataka ne poboljšava samo kvalitetu – ona aktivno odgađa prekomjerno opremanje.

5. RL poboljšava izvedbu rasuđivanja, a ne sposobnost rasuđivanja

Papir: Potiče li učenje s potkrepljenjem doista razmišljanje na LLM-u?

Možda strateški najvažniji rezultat NeurIPS 2025. ujedno je i najotrežnjujući.

Ovaj rad rigorozno testira je li zapravo učenje s potkrepljenjem s provjerljivim nagradama (RLVR). stvara nove sposobnosti rasuđivanja u LLM-u — ili jednostavno preoblikuje postojeće.

Njihov zaključak: RLVR prvenstveno poboljšava učinkovitost uzorkovanja, a ne sposobnost rasuđivanja. Kod velikih veličina uzorka, osnovni model često već sadrži točne putanje razmišljanja.

Što to znači za kanale LLM obuke

RL se bolje razumije kao:

Mehanizam za oblikovanje distribucije
Nije generator fundamentalno novih sposobnosti

Za ponijeti: Kako bi se doista proširio kapacitet rasuđivanja, RL vjerojatno treba biti uparen s mehanizmima kao što su učiteljska destilacija ili arhitektonske promjene — a ne koristiti se izolirano.

Šira slika: napredak umjetne inteligencije postaje ograničen sustavima

Uzeti zajedno, ovi dokumenti ukazuju na zajedničku temu:

Usko grlo u modernoj umjetnoj inteligenciji više nije sirova veličina modela – to je dizajn sustava.

Kolaps raznolikosti zahtijeva nove metrike procjene
Nedostaci pozornosti zahtijevaju arhitektonske popravke
RL skaliranje ovisi o dubini i zastupljenosti
Memoriranje ovisi o dinamici treninga, a ne o broju parametara
Dobici u rasuđivanju ovise o tome kako su distribucije oblikovane, a ne samo optimizirane

Za graditelje poruka je jasna: konkurentska prednost se pomiče s “tko ima najveći model” na “tko razumije sustav”.

Maitreyi Chatterjee je softverski inženjer.

Devansh Agarwal trenutno radi kao ML inženjer u FAANG-u.

Web izvor