Svake godine NeurIPS proizvede stotine impresivnih radova i pregršt radova koji suptilno resetiraju razmišljanja praktičara o skaliranju, evaluaciji i dizajnu sustava. U 2025. godini najkonzekventniji radovi nisu se odnosili ni na jedan revolucionarni model. Umjesto toga, osporili su temeljne pretpostavke na koje su se akademici i korporacije tiho oslanjali: veći modeli znače bolje rezoniranje, RL stvara nove mogućnosti, pozornost je “riješena”, a generativni modeli neizbježno pamte.
Ovogodišnji vrhunski radovi zajedno ukazuju na dublji pomak: napredak umjetne inteligencije sada je manje ograničen kapacitetom sirovog modela, a više arhitekturom, dinamikom obuke i strategijom evaluacije.
Ispod je tehnički detaljan uvid u pet najutjecajnijih dokumenata NeurIPS 2025 — i što oni znače za svakoga tko gradi sustave umjetne inteligencije u stvarnom svijetu.
Sadržaj objave
- 1 1. LLM-ovi se približavaju—i konačno imamo način da to izmjerimo
- 2 Zašto je to važno u praksi
- 3 2. Pažnja nije gotova — jednostavna vrata mijenjaju sve
- 4 3. RL može skalirati — ako skalirate u dubinu, a ne samo podatke
- 5 4. Zašto difuzijski modeli generaliziraju umjesto da pamte
- 6 5. RL poboljšava izvedbu rasuđivanja, a ne sposobnost rasuđivanja
- 7 Šira slika: napredak umjetne inteligencije postaje ograničen sustavima
1. LLM-ovi se približavaju—i konačno imamo način da to izmjerimo
Papir: Umjetni um košnice: Otvorena homogenost jezičnih modela
Godinama se ocjenjivanje LLM-a fokusiralo na ispravnost. Ali u otvorenim ili dvosmislenim zadacima poput brainstorminga, ideja ili kreativne sinteze, često nema niti jedan točan odgovor. Rizik je umjesto toga homogenost: modeli koji proizvode iste “sigurne” odgovore visoke vjerojatnosti.
Ovaj rad predstavlja Infinity-Chat, mjerilo osmišljeno eksplicitno za mjerenje raznolikosti i pluralizma u generaciji bez ograničenja. Umjesto da ocjenjuje odgovore kao točne ili netočne, mjeri:
-
Kolaps unutar modela: Koliko se često isti model ponavlja
-
Homogenost među modelima: Koliko su rezultati različitih modela slični
Rezultat je neugodan, ali važan: u svim arhitekturama i pružateljima, modeli sve više konvergiraju na sličnim rezultatima — čak i kada postoji više valjanih odgovora.
Zašto je to važno u praksi
Za korporacije, ovo preoblikuje “usklađivanje” kao kompromis. Podešavanje preferencija i sigurnosna ograničenja mogu tiho smanjiti raznolikost, što dovodi do pomoćnika koji se osjećaju previše sigurnima, predvidljivima ili pristranima prema dominantnim stajalištima.
Za ponijeti: Ako se vaš proizvod oslanja na kreativne ili istraživačke rezultate, metrika raznolikosti mora biti građani prve klase.
2. Pažnja nije gotova — jednostavna vrata mijenjaju sve
Papir: Ograničena pažnja za modele velikih jezika
Pozornost na transformatore tretirana je kao ustaljeno inženjerstvo. Ovaj rad dokazuje da nije.
Autori uvode malu arhitektonsku promjenu: Primijenite sigmoidna vrata ovisna o upitu nakon skaliranog točkastog produkta pažnje, po glavi pažnje. To je to. Nema egzotičnih kernela, nema masivnih troškova.
Aprijeći desetke velikih obuka — uključujući modele guste i mješavine stručnjaka (MoE) obučene na trilijunima tokena — ova zatvorena varijanta:
-
Poboljšana stabilnost
-
Smanjeno “poniranje pažnje”
-
Poboljšano izvedba dugog konteksta
-
Konzistentno nadmašivao pozornost vanilije
Zašto radi
Vrata uvode:
-
Nelinearnost u izlazima pažnje
-
Implicitna rijetkostsuzbijanje patoloških aktivacija
Ovo dovodi u pitanje pretpostavku da su propusti u pažnji isključivo problemi podataka ili optimizacije.
Za ponijeti: Neki od najvećih problema s pouzdanošću LLM-a mogu biti arhitektonski — a ne algoritamski — i rješivi s iznenađujuće malim promjenama.
3. RL može skalirati — ako skalirate u dubinu, a ne samo podatke
Papir: Mreže od 1000 slojeva za samonadzorno učenje potkrepljenjag
Konvencionalna mudrost kaže da RL ne napreduje dobro bez gustih nagrada ili demonstracija. Ovaj rad otkriva da je ta pretpostavka nepotpuna.
Agresivnim skaliranjem dubine mreže s tipičnih 2 do 5 slojeva na gotovo 1000 slojeva, autori pokazuju dramatične dobitke u samonadziranom, ciljano uvjetovanom RL-u, s poboljšanjima performansi u rasponu od 2X do 50X.
Ključ nije gruba sila. To je uparivanje dubine s kontrastnim ciljevima, stabilnim režimima optimizacije i prikazima uvjetovanim ciljevima
Zašto je to važno izvan robotike
Za agentske sustave i autonomne tijekove rada, ovo sugerira da dubina reprezentacije – ne samo podaci ili oblikovanje nagrada – može biti kritična poluga za generalizaciju i istraživanje.
Za ponijeti: RL-ova ograničenja skaliranja mogu biti arhitektonska, a ne temeljna.
4. Zašto difuzijski modeli generaliziraju umjesto da pamte
Papir: Zašto difuzijski modeli ne pamte: Uloga implicitne dinamičke regulacije u obuci
Difuzijski modeli su masivno nadparametrizirani, ali često generaliziraju izvanredno dobro. Ovaj rad objašnjava zašto.
Autori identificiraju dva različita vremenska okvira obuke:
-
Onaj gdje se generativna kvaliteta brzo poboljšava
-
Drugi — mnogo sporiji — gdje dolazi do pamćenja
Ono što je najvažnije, vremenska skala memoriranja raste linearno s veličinom skupa podataka, stvarajući sve širi prozor u kojem se modeli poboljšavaju bez pretjeranog prilagođavanja.
Praktične implikacije
Ovo preoblikuje strategije ranog zaustavljanja i skaliranja skupa podataka. Pamćenje nije neizbježno — ono je predvidljivo i odgođeno.
Za ponijeti: Za obuku difuzije, veličina skupa podataka ne poboljšava samo kvalitetu – ona aktivno odgađa prekomjerno opremanje.
5. RL poboljšava izvedbu rasuđivanja, a ne sposobnost rasuđivanja
Papir: Potiče li učenje s potkrepljenjem doista razmišljanje na LLM-u?
Možda strateški najvažniji rezultat NeurIPS 2025. ujedno je i najotrežnjujući.
Ovaj rad rigorozno testira je li zapravo učenje s potkrepljenjem s provjerljivim nagradama (RLVR). stvara nove sposobnosti rasuđivanja u LLM-u — ili jednostavno preoblikuje postojeće.
Njihov zaključak: RLVR prvenstveno poboljšava učinkovitost uzorkovanja, a ne sposobnost rasuđivanja. Kod velikih veličina uzorka, osnovni model često već sadrži točne putanje razmišljanja.
Što to znači za kanale LLM obuke
RL se bolje razumije kao:
-
Mehanizam za oblikovanje distribucije
-
Nije generator fundamentalno novih sposobnosti
Za ponijeti: Kako bi se doista proširio kapacitet rasuđivanja, RL vjerojatno treba biti uparen s mehanizmima kao što su učiteljska destilacija ili arhitektonske promjene — a ne koristiti se izolirano.
Šira slika: napredak umjetne inteligencije postaje ograničen sustavima
Uzeti zajedno, ovi dokumenti ukazuju na zajedničku temu:
Usko grlo u modernoj umjetnoj inteligenciji više nije sirova veličina modela – to je dizajn sustava.
-
Kolaps raznolikosti zahtijeva nove metrike procjene
-
Nedostaci pozornosti zahtijevaju arhitektonske popravke
-
RL skaliranje ovisi o dubini i zastupljenosti
-
Memoriranje ovisi o dinamici treninga, a ne o broju parametara
-
Dobici u rasuđivanju ovise o tome kako su distribucije oblikovane, a ne samo optimizirane
Za graditelje poruka je jasna: konkurentska prednost se pomiče s “tko ima najveći model” na “tko razumije sustav”.
Maitreyi Chatterjee je softverski inženjer.
Devansh Agarwal trenutno radi kao ML inženjer u FAANG-u.





