Oblak Znanja

  • Home
  • Novosti
  • Učionica
    • Informatika 5
    • Informatika 6
    • Informatika 7
    • Informatika 8
    • Logo jezik
    • WordPress
    • Microsoft Office
  • Vodiči
    • Online vodiči
    • Kratki savjeti
    • Korisne aplikacije
    • Društvene mreže
    • Multimedija
    • Zanimljivosti
✕

Nvidijina nova tehnika smanjuje troškove LLM zaključivanja za 8x bez gubitka točnosti

Novosti

Nvidijina nova tehnika smanjuje troškove LLM zaključivanja za 8x bez gubitka točnosti

Tomšić Damjan 13. veljače 2026

Istraživači u Nvidiji razvili su tehniku ​​koja može smanjiti troškove memorije za rasuđivanje velikog jezičnog modela do osam puta. Njihova tehnika, tzv dinamičko škripanje memorije (DMS), komprimira predmemoriju vrijednosti ključa (KV), LLM-ovi privremene memorije generiraju i pohranjuju dok obrađuju upite i razmišljaju kroz probleme i dokumente.

Dok su istraživači već prije predlagali različite metode komprimiranja ove predmemorije, većina se bori da to učini bez degradacije inteligencije modela. Nvidijin pristup uspijeva odbaciti velik dio predmemorije uz zadržavanje (au nekim slučajevima i poboljšanje) sposobnosti razmišljanja modela.

Eksperimenti pokazuju da DMS omogućuje doktorantima da "misliti" dulje i istražite više rješenja bez uobičajenih troškova u brzini ili memoriji.

Sadržaj objave

  • 1 Usko grlo rasuđivanja
  • 2 Dinamičko škripanje memorije
  • 3 DMS na djelu
  • 4 Budućnost sjećanja
    • 4.1 Povezani sadržaji

Usko grlo rasuđivanja

LLM poboljšavaju svoju izvedbu na složenim zadacima generiranjem "lanac misli" tokeni, u biti zapisuju svoje korake razmišljanja prije nego što dođu do konačnog odgovora. Tehnike skaliranja vremena zaključivanja iskorištavaju to tako što modelu daju veći proračun za generiranje ovih tokena razmišljanja ili za paralelno istraživanje više potencijalnih putova razmišljanja.

Međutim, ovo poboljšano razmišljanje dolazi sa značajnim računalnim troškovima. Kako model generira više tokena, on gradi a KV predmemorija.

Za aplikacije u stvarnom svijetu, KV predmemorija je glavno usko grlo. Kako lanac razmišljanja raste, predmemorija raste linearno, trošeći ogromne količine memorije na GPU-u. To prisiljava hardver da troši više vremena na čitanje podataka iz memorije nego na stvarno računanje, što usporava generiranje i povećava kašnjenje. Također ograničava broj korisnika koje sustav može opsluživati ​​istovremeno, jer ponestanak VRAM-a uzrokuje pad sustava ili usporavanje do puzanja.

Nvidijini istraživači smatraju ovo ne samo tehničkom preprekom, već i temeljnom ekonomskom za poduzeće.

"Pitanje nije samo u količini hardvera; radi se o tome obrađuje li vaša infrastruktura 100 niti za zaključivanje ili 800 niti za istu cijenu," Piotr Nawrot, viši inženjer dubokog učenja u Nvidiji, rekao je za VentureBeat.

Prethodni pokušaji da se to riješi bili su usredotočeni na pristupe temeljene na heuristici. Ove metode koriste stroga pravila, kao što su a "klizni prozor" koji sprema samo najnovije tokene i briše ostale. Iako ovo smanjuje korištenje memorije, često prisiljava model da odbaci kritične informacije potrebne za rješavanje problema, degradirajući točnost izlaza.

"Standardne metode izbacivanja pokušavaju odabrati stare i neiskorištene tokene za izbacivanje pomoću heuristike," rekli su istraživači. "Oni pojednostavljuju problem, nadajući se da će odgovor ostati točan ako približe unutarnju mehaniku modela."

Druga rješenja koriste straničnu memoriju za pretovar neiskorištenih dijelova KV predmemorije u sporiju memoriju, ali stalna izmjena podataka dovodi do kašnjenja koje čini aplikacije u stvarnom vremenu tromima.

Dinamičko škripanje memorije

DMS ima drugačiji pristup "naknadno opremanje" postojeće LLM-ove za inteligentno upravljanje vlastitom memorijom. Umjesto primjene fiksnog pravila o tome što izbrisati, DMS obučava model da identificira koji su tokeni bitni za buduće razmišljanje, a koji su jednokratni.

"Ne nagađa samo važnost; uči politiku koja eksplicitno čuva konačnu izlaznu distribuciju modela," rekao je Nawrot.

Proces transformira standardni, prethodno obučeni LLM kao što je Llama 3 ili Qwen 3 u model koji se sam sažima. Ono što je ključno, ovo ne zahtijeva obuku modela od nule, što bi bilo pretjerano skupo. Umjesto toga, DMS mijenja namjenu postojećih neurona unutar slojeva pažnje modela za izlaz a "zadržati" ili "iseliti" signal za svaki token.

Za timove koji su zabrinuti zbog složenosti naknadnog opremanja, istraživači su primijetili da je proces osmišljen tako da bude lagan. "Kako bi se poboljšala učinkovitost ovog procesa, težine modela mogu se zamrznuti, što proces čini sličnim prilagodbi niskog ranga (LoRA)," rekao je Nawrot. To znači standardni poslovni model kao što je Qwen3-8B "može se naknadno opremiti DMS-om u roku od nekoliko sati na jednom DGX H100."

Jedan od važnih dijelova DMS-a je mehanizam tzv "odgođena deložacija." U standardnoj rasparčavanju, ako se token smatra nevažnim, odmah se briše. To je riskantno jer bi modelu mogao biti potreban djelić sekunde da integrira kontekst tog tokena u njegovo trenutno stanje.

DMS to ublažava označavanjem tokena za izbacivanje, ali ga drži dostupnim kratko vrijeme (npr. nekoliko stotina koraka). Ova odgoda omogućuje modelu da "ekstrakt" sve preostale potrebne informacije iz tokena i spojite ih u trenutni kontekst prije nego što se token izbriše iz KV predmemorije.

“Mehanizam ‘odgođenog izbacivanja’ je ključan jer nisu svi tokeni jednostavno ‘važni’ (čuvati zauvijek) ili ‘beskorisni’ (brisati odmah). Mnogi se nalaze između — nose neke informacije, ali nedovoljno da opravdaju zauzimanje cijelog mjesta u memoriji”, rekao je Nawrot. “Ovdje leži redundancija. Zadržavanjem ovih tokena u lokalnom prozoru kratko vrijeme prije izbacivanja, dopuštamo modelu da se brine o njima i redistribuira njihove informacije u buduće tokene.”

Istraživači su otkrili da je ovaj proces naknadnog opremanja vrlo učinkovit. Mogli su opremiti prethodno obučenog LLM-a DMS-om u samo 1000 koraka obuke, što je mali dio računanja potrebnog za izvornu obuku. Rezultirajući modeli koriste standardne kernele i mogu se izravno ubaciti u postojeće nizove zaključaka visokih performansi bez prilagođenog hardvera ili složenog softverskog prepisivanja.

DMS na djelu

Kako bi potvrdili tehniku, istraživači su primijenili DMS na nekoliko modela razmišljanja, uključujući Qwen-R1 seriju (preuzetu iz DeepSeek R1) i Llama 3.2, te ih testirali na teškim mjerilima kao što su AIME 24 (matematika), GPQA Diamond (znanost) i LiveCodeBench (kodiranje).

Rezultati pokazuju da DMS učinkovito pomiče Pareto granicu, optimalni kompromis između cijene i performansi. Na AIME 24 matematičkom mjerilu, model Qwen-R1 32B opremljen DMS-om postigao je rezultat 12,0 bodova viši od standardnog modela kada je ograničen na isti proračun propusnosti memorije. Sažimanjem predmemorije model si je to mogao priuštiti "misliti" mnogo dublje i šire nego što bi standardni model mogao za isti proračun memorije i računanja.

Što je možda najviše iznenađujuće, DMS je prkosio uvriježenoj mudrosti da kompresija šteti razumijevanju dugog konteksta. U "igla u plastu sijena" testovima, koji mjere sposobnost modela da pronađe određenu informaciju zakopanu u velikom dokumentu, DMS varijante zapravo su nadmašile standardne modele. Aktivno upravljajući svojom memorijom umjesto pasivnim gomilanjem buke, model je održavao čišći, korisniji kontekst.

Za infrastrukturu poduzeća, dobitak učinkovitosti izravno se prevodi u uštedu propusnosti i hardvera. Budući da je predmemorija značajno manja, GPU troši manje vremena na dohvaćanje podataka, smanjujući vrijeme čekanja za korisnike. U testovima s modelom Qwen3-8B, DMS je dostigao točnost vanilla modela dok je pružao do 5x veću propusnost. To znači da jedan poslužitelj može obraditi pet puta više korisničkih upita u sekundi bez pada kvalitete.

Budućnost sjećanja

Nvidia je objavila DMS kao dio svog KVPress knjižnica. Što se tiče načina na koji poduzeća mogu započeti s DMS-om, Nawrot je naglasio da je prepreka za ulazak niska. "’Minimalna održiva infrastruktura’ standardni su cjevovod Hugging Face — nisu potrebne prilagođene CUDA kernele," Nawrot je rekao, napominjući da je kod u potpunosti kompatibilan sa standardnim FlashAttentionom.

Gledajući unaprijed, tim gleda na DMS kao na dio veće promjene u kojoj upravljanje memorijom postaje zaseban, inteligentan sloj skupa umjetne inteligencije. Nawrot je također potvrdio da je DMS "potpuno kompatibilan" s novijim arhitekturama poput Latentna pažnja s više glava (MLA) koji se koristi u DeepSeekovim modelima, što sugerira da bi kombiniranje ovih pristupa moglo dovesti do još većeg povećanja učinkovitosti.

Kako poduzeća prelaze s jednostavnih chatbota na složene agentske sustave koji zahtijevaju prošireno razmišljanje, cijena zaključivanja postaje primarna briga. Tehnike poput DMS-a pružaju put za održivo skaliranje ovih mogućnosti.

"Jedva da smo zagrebali površinu onoga što je moguće," Nawrot je rekao, "i očekujemo da će se skaliranje vremena zaključivanja dalje razvijati."

Web izvor

Povezani sadržaji

  • GPT-5.2 prvi dojmovi: snažno ažuriranje, posebno za poslovne zadatke i tijekove radaGPT-5.2 prvi dojmovi: snažno ažuriranje, posebno za poslovne zadatke i tijekove rada
  • Ovaj besplatni Linux distro najlakši je način za oživljavanje vašeg starog računala. Kako to funkcioniraOvaj besplatni Linux distro najlakši je način za oživljavanje vašeg starog računala. Kako to funkcionira
  • CityFibre udvostručuje brzinu širokopojasne mreže s veleprodajnom ponudom od 5,5 GbpsCityFibre udvostručuje brzinu širokopojasne mreže s veleprodajnom ponudom od 5,5 Gbps
  • Vaša Galaxy S25 Series One Ui 8 ažuriranja idu uživo u SAD -uVaša Galaxy S25 Series One Ui 8 ažuriranja idu uživo u SAD -u
  • Novi postupak postavljanja Google TV izgleda dovoljno jednostavnoNovi postupak postavljanja Google TV izgleda dovoljno jednostavno
  • Apple gura gotovo 30 sigurnosnih ispravki u mobilnom ažuriranjuApple gura gotovo 30 sigurnosnih ispravki u mobilnom ažuriranju

Previous Article

Borba oko američkih klimatskih pravila tek počinje

Next Article

Ulaganje u umjetnu inteligenciju i učinak na urbane digitalne blizance

Posljednje objave

Ulaganje u umjetnu inteligenciju i učinak na urbane digitalne blizance

Ulaganje u umjetnu inteligenciju i učinak na urbane digitalne blizance

Nvidijina nova tehnika smanjuje troškove LLM zaključivanja za 8x bez gubitka točnosti

Nvidijina nova tehnika smanjuje troškove LLM zaključivanja za 8x bez gubitka točnosti

Borba oko američkih klimatskih pravila tek počinje

Borba oko američkih klimatskih pravila tek počinje

Sadržaj

  • 1 Usko grlo rasuđivanja
  • 2 Dinamičko škripanje memorije
  • 3 DMS na djelu
  • 4 Budućnost sjećanja

Novosti

  • Ulaganje u umjetnu inteligenciju i učinak na urbane digitalne blizance 13. veljače 2026
  • Nvidijina nova tehnika smanjuje troškove LLM zaključivanja za 8x bez gubitka točnosti 13. veljače 2026
  • Borba oko američkih klimatskih pravila tek počinje 13. veljače 2026
  • Linux nakon Linusa? Kernel zajednica konačno sastavlja plan za zamjenu Torvaldsa 13. veljače 2026
  • Ovaj jednostavan YouTube TV trik može vam skinuti 80 dolara s računa – evo kako 13. veljače 2026
  • T-Mobile može uživo prevesti vaše pozive s bilo kojeg telefona 13. veljače 2026
  • PlayStation State of Play izvješće uživo za veljaču 2026. – pogled unaprijed na Sonyjeve planove 12. veljače 2026
  • Problemi s napajanjem označeni su kao glavni inhibitor rasta europskog tržišta podatkovnih centara 12. veljače 2026
  • z.ai GLM-5 otvorenog koda postiže rekordno nisku stopu halucinacija i koristi novu RL ‘slime’ tehniku 12. veljače 2026
  • Studija budističkih redovnika otkriva da meditacija mijenja aktivnost mozga 12. veljače 2026

O nama

Oblak Znanja je blog edukativnog karaktera i namijenjen je svima koji žele unaprijediti svoje znanje iz područja računala i interneta.

Naš cilj je edukacija i pisanje zanimljivih objava kojima ćemo zajedno učiti i informirati se o svijetu informatike.

Na ovom blogu zabranjeno je svako kopiranje sadržaja bez dozvole autora.

Oblak Znanja

Oznake

besplatni powerpoint predlošci društvene mreže excel facebook firefox gmail google+ Google Chrome halloween halloween walpapers internet kartice linkedin profil linux microsoft Mozilla Firefox ms powerpoint oblak znanja office 2007 office savjeti online kupovina pick powerpoint powerpoint predložak powerpoint savjeti rastući niz savjet slike za radnu površinu spremanje datoteka strani jezik tipkovnicke kratice twitter twitter alati uređivanje slika wallpaper clock web preglednik windows windows 7 windows aplikacije windows vista word word 2007 word savjeti youtube savjeti youtube tipkovničke kratice