Oblak Znanja

  • Home
  • Novosti
  • Učionica
    • Informatika 5
    • Informatika 6
    • Informatika 7
    • Informatika 8
    • Logo jezik
    • WordPress
    • Microsoft Office
  • Vodiči
    • Online vodiči
    • Kratki savjeti
    • Korisne aplikacije
    • Društvene mreže
    • Multimedija
    • Zanimljivosti
✕

Zašto platoi učenja za pojačanje bez dubine predstavljanja (i drugi ključni zaključci iz NeurIPS 2025)

Novosti

Zašto platoi učenja za pojačanje bez dubine predstavljanja (i drugi ključni zaključci iz NeurIPS 2025)

Tomšić Damjan 18. siječnja 2026

Svake godine NeurIPS proizvede stotine impresivnih radova i pregršt radova koji suptilno resetiraju razmišljanja praktičara o skaliranju, evaluaciji i dizajnu sustava. U 2025. godini najkonzekventniji radovi nisu se odnosili ni na jedan revolucionarni model. Umjesto toga, osporili su temeljne pretpostavke na koje su se akademici i korporacije tiho oslanjali: veći modeli znače bolje rezoniranje, RL stvara nove mogućnosti, pozornost je “riješena”, a generativni modeli neizbježno pamte.

Ovogodišnji vrhunski radovi zajedno ukazuju na dublji pomak: napredak umjetne inteligencije sada je manje ograničen kapacitetom sirovog modela, a više arhitekturom, dinamikom obuke i strategijom evaluacije.

Ispod je tehnički detaljan uvid u pet najutjecajnijih dokumenata NeurIPS 2025 — i što oni znače za svakoga tko gradi sustave umjetne inteligencije u stvarnom svijetu.

Sadržaj objave

  • 1 1. LLM-ovi se približavaju—i konačno imamo način da to izmjerimo
  • 2 Zašto je to važno u praksi
  • 3 2. Pažnja nije gotova — jednostavna vrata mijenjaju sve
    • 3.1 Zašto radi
  • 4 3. RL može skalirati — ako skalirate u dubinu, a ne samo podatke
    • 4.1 Zašto je to važno izvan robotike
  • 5 4. Zašto difuzijski modeli generaliziraju umjesto da pamte
    • 5.1 Praktične implikacije
  • 6 5. RL poboljšava izvedbu rasuđivanja, a ne sposobnost rasuđivanja
    • 6.1 Što to znači za kanale LLM obuke
  • 7 Šira slika: napredak umjetne inteligencije postaje ograničen sustavima
    • 7.1 Povezani sadržaji

1. LLM-ovi se približavaju—i konačno imamo način da to izmjerimo

Papir: Umjetni um košnice: Otvorena homogenost jezičnih modela

Godinama se ocjenjivanje LLM-a fokusiralo na ispravnost. Ali u otvorenim ili dvosmislenim zadacima poput brainstorminga, ideja ili kreativne sinteze, često nema niti jedan točan odgovor. Rizik je umjesto toga homogenost: modeli koji proizvode iste “sigurne” odgovore visoke vjerojatnosti.

Ovaj rad predstavlja Infinity-Chat, mjerilo osmišljeno eksplicitno za mjerenje raznolikosti i pluralizma u generaciji bez ograničenja. Umjesto da ocjenjuje odgovore kao točne ili netočne, mjeri:

  • Kolaps unutar modela: Koliko se često isti model ponavlja

  • Homogenost među modelima: Koliko su rezultati različitih modela slični

Rezultat je neugodan, ali važan: u svim arhitekturama i pružateljima, modeli sve više konvergiraju na sličnim rezultatima — čak i kada postoji više valjanih odgovora.

Zašto je to važno u praksi

Za korporacije, ovo preoblikuje “usklađivanje” kao kompromis. Podešavanje preferencija i sigurnosna ograničenja mogu tiho smanjiti raznolikost, što dovodi do pomoćnika koji se osjećaju previše sigurnima, predvidljivima ili pristranima prema dominantnim stajalištima.

Za ponijeti: Ako se vaš proizvod oslanja na kreativne ili istraživačke rezultate, metrika raznolikosti mora biti građani prve klase.

2. Pažnja nije gotova — jednostavna vrata mijenjaju sve

Papir: Ograničena pažnja za modele velikih jezika

Pozornost na transformatore tretirana je kao ustaljeno inženjerstvo. Ovaj rad dokazuje da nije.

Autori uvode malu arhitektonsku promjenu: Primijenite sigmoidna vrata ovisna o upitu nakon skaliranog točkastog produkta pažnje, po glavi pažnje. To je to. Nema egzotičnih kernela, nema masivnih troškova.

Aprijeći desetke velikih obuka — uključujući modele guste i mješavine stručnjaka (MoE) obučene na trilijunima tokena — ova zatvorena varijanta:

  • Poboljšana stabilnost

  • Smanjeno “poniranje pažnje”

  • Poboljšano izvedba dugog konteksta

  • Konzistentno nadmašivao pozornost vanilije

Zašto radi

Vrata uvode:

  • Nelinearnost u izlazima pažnje

  • Implicitna rijetkostsuzbijanje patoloških aktivacija

Ovo dovodi u pitanje pretpostavku da su propusti u pažnji isključivo problemi podataka ili optimizacije.

Za ponijeti: Neki od najvećih problema s pouzdanošću LLM-a mogu biti arhitektonski — a ne algoritamski — i rješivi s iznenađujuće malim promjenama.

3. RL može skalirati — ako skalirate u dubinu, a ne samo podatke

Papir: Mreže od 1000 slojeva za samonadzorno učenje potkrepljenjag

Konvencionalna mudrost kaže da RL ne napreduje dobro bez gustih nagrada ili demonstracija. Ovaj rad otkriva da je ta pretpostavka nepotpuna.

Agresivnim skaliranjem dubine mreže s tipičnih 2 do 5 slojeva na gotovo 1000 slojeva, autori pokazuju dramatične dobitke u samonadziranom, ciljano uvjetovanom RL-u, s poboljšanjima performansi u rasponu od 2X do 50X.

Ključ nije gruba sila. To je uparivanje dubine s kontrastnim ciljevima, stabilnim režimima optimizacije i prikazima uvjetovanim ciljevima

Zašto je to važno izvan robotike

Za agentske sustave i autonomne tijekove rada, ovo sugerira da dubina reprezentacije – ne samo podaci ili oblikovanje nagrada – može biti kritična poluga za generalizaciju i istraživanje.

Za ponijeti: RL-ova ograničenja skaliranja mogu biti arhitektonska, a ne temeljna.

4. Zašto difuzijski modeli generaliziraju umjesto da pamte

Papir: Zašto difuzijski modeli ne pamte: Uloga implicitne dinamičke regulacije u obuci

Difuzijski modeli su masivno nadparametrizirani, ali često generaliziraju izvanredno dobro. Ovaj rad objašnjava zašto.

Autori identificiraju dva različita vremenska okvira obuke:

  • Onaj gdje se generativna kvaliteta brzo poboljšava

  • Drugi — mnogo sporiji — gdje dolazi do pamćenja

Ono što je najvažnije, vremenska skala memoriranja raste linearno s veličinom skupa podataka, stvarajući sve širi prozor u kojem se modeli poboljšavaju bez pretjeranog prilagođavanja.

Praktične implikacije

Ovo preoblikuje strategije ranog zaustavljanja i skaliranja skupa podataka. Pamćenje nije neizbježno — ono je predvidljivo i odgođeno.

Za ponijeti: Za obuku difuzije, veličina skupa podataka ne poboljšava samo kvalitetu – ona aktivno odgađa prekomjerno opremanje.

5. RL poboljšava izvedbu rasuđivanja, a ne sposobnost rasuđivanja

Papir: Potiče li učenje s potkrepljenjem doista razmišljanje na LLM-u?

Možda strateški najvažniji rezultat NeurIPS 2025. ujedno je i najotrežnjujući.

Ovaj rad rigorozno testira je li zapravo učenje s potkrepljenjem s provjerljivim nagradama (RLVR). stvara nove sposobnosti rasuđivanja u LLM-u — ili jednostavno preoblikuje postojeće.

Njihov zaključak: RLVR prvenstveno poboljšava učinkovitost uzorkovanja, a ne sposobnost rasuđivanja. Kod velikih veličina uzorka, osnovni model često već sadrži točne putanje razmišljanja.

Što to znači za kanale LLM obuke

RL se bolje razumije kao:

  • Mehanizam za oblikovanje distribucije

  • Nije generator fundamentalno novih sposobnosti

Za ponijeti: Kako bi se doista proširio kapacitet rasuđivanja, RL vjerojatno treba biti uparen s mehanizmima kao što su učiteljska destilacija ili arhitektonske promjene — a ne koristiti se izolirano.

Šira slika: napredak umjetne inteligencije postaje ograničen sustavima

Uzeti zajedno, ovi dokumenti ukazuju na zajedničku temu:

Usko grlo u modernoj umjetnoj inteligenciji više nije sirova veličina modela – to je dizajn sustava.

  • Kolaps raznolikosti zahtijeva nove metrike procjene

  • Nedostaci pozornosti zahtijevaju arhitektonske popravke

  • RL skaliranje ovisi o dubini i zastupljenosti

  • Memoriranje ovisi o dinamici treninga, a ne o broju parametara

  • Dobici u rasuđivanju ovise o tome kako su distribucije oblikovane, a ne samo optimizirane

Za graditelje poruka je jasna: konkurentska prednost se pomiče s “tko ima najveći model” na “tko razumije sustav”.

Maitreyi Chatterjee je softverski inženjer.

Devansh Agarwal trenutno radi kao ML inženjer u FAANG-u.

Web izvor

Povezani sadržaji

  • Zašto se SAD trkuju za izgradnju nuklearnog reaktora na MjesecuZašto se SAD trkuju za izgradnju nuklearnog reaktora na Mjesecu
  • Google je odlučio da Google Assistant može ostati još maloGoogle je odlučio da Google Assistant može ostati još malo
  • Vaš AT&T plan upravo je dobio besplatnu nadogradnju iznenađenja – što je novoVaš AT&T plan upravo je dobio besplatnu nadogradnju iznenađenja – što je novo
  • Način na koji punite tablet tiho ga ubija – 3 pogreške koje treba izbjegavati (i na pravi način)Način na koji punite tablet tiho ga ubija – 3 pogreške koje treba izbjegavati (i na pravi način)
  • Kina vodi svijet u prijelazu čiste energije. Evo kako to izgledaKina vodi svijet u prijelazu čiste energije. Evo kako to izgleda
  • Android-USB-DriversPreuzmite Android USB upravljačke programe | Android drivers download

Previous Article

Trump je proglasio svemirsku utrku s Kinom. SAD gubi

Next Article

Čini se da Resident Evil Requiem neće dobiti kolekcionarsko izdanje – ali zašto?

Posljednje objave

Britansko regulatorno tijelo za tržišno natjecanje istražuje Googleovu AI pretragu

Britansko regulatorno tijelo za tržišno natjecanje istražuje Googleovu AI pretragu

Factify želi preskočiti PDF i .docx dajući digitalnim dokumentima vlastiti mozak

Factify želi preskočiti PDF i .docx dajući digitalnim dokumentima vlastiti mozak

Sat Sudnjeg dana sada je 85 sekundi do ponoći. Evo što to znači

Sat Sudnjeg dana sada je 85 sekundi do ponoći. Evo što to znači

Sadržaj

  • 1 1. LLM-ovi se približavaju—i konačno imamo način da to izmjerimo
  • 2 Zašto je to važno u praksi
  • 3 2. Pažnja nije gotova — jednostavna vrata mijenjaju sve
    • 3.1 Zašto radi
  • 4 3. RL može skalirati — ako skalirate u dubinu, a ne samo podatke
    • 4.1 Zašto je to važno izvan robotike
  • 5 4. Zašto difuzijski modeli generaliziraju umjesto da pamte
    • 5.1 Praktične implikacije
  • 6 5. RL poboljšava izvedbu rasuđivanja, a ne sposobnost rasuđivanja
    • 6.1 Što to znači za kanale LLM obuke
  • 7 Šira slika: napredak umjetne inteligencije postaje ograničen sustavima

Novosti

  • Britansko regulatorno tijelo za tržišno natjecanje istražuje Googleovu AI pretragu 29. siječnja 2026
  • Factify želi preskočiti PDF i .docx dajući digitalnim dokumentima vlastiti mozak 29. siječnja 2026
  • Sat Sudnjeg dana sada je 85 sekundi do ponoći. Evo što to znači 28. siječnja 2026
  • Najjača sigurnosna značajka vašeg Android telefona isključena je prema zadanim postavkama i skrivena – uključite je sada 28. siječnja 2026
  • Google lansira Google AI Plus plan za 7,99 USD mjesečno 28. siječnja 2026
  • “Kao da nikad nije postojao” – Glumac za kojeg se pretpostavlja da je Farah u remakeu Prince of Persia: Sands of Time otkrio je da je igra otkazana na internetu 28. siječnja 2026
  • AO implementira izvornu bežičnu mrežu Mist AI 28. siječnja 2026
  • Contextual AI pokreće Agent Composer kako bi poslovni RAG pretvorio u AI agente spremne za proizvodnju 27. siječnja 2026
  • Hvatanje trenutka kada je bijeli patuljak eksplodirao 27. siječnja 2026
  • Zašto ne kupujem ‘AI slušalice’ dok ne dobiju ove 3 specifične nadogradnje 27. siječnja 2026

O nama

Oblak Znanja je blog edukativnog karaktera i namijenjen je svima koji žele unaprijediti svoje znanje iz područja računala i interneta.

Naš cilj je edukacija i pisanje zanimljivih objava kojima ćemo zajedno učiti i informirati se o svijetu informatike.

Na ovom blogu zabranjeno je svako kopiranje sadržaja bez dozvole autora.

Oblak Znanja

Oznake

besplatni powerpoint predlošci društvene mreže excel facebook firefox gmail google+ Google Chrome halloween halloween walpapers internet kartice linkedin profil linux microsoft Mozilla Firefox ms powerpoint oblak znanja office 2007 office savjeti online kupovina pick powerpoint powerpoint predložak powerpoint savjeti rastući niz savjet slike za radnu površinu spremanje datoteka strani jezik tipkovnicke kratice twitter twitter alati uređivanje slika wallpaper clock web preglednik windows windows 7 windows aplikacije windows vista word word 2007 word savjeti youtube savjeti youtube tipkovničke kratice