Istraživači u Nvidiji razvili su tehniku koja može smanjiti troškove memorije za rasuđivanje velikog jezičnog modela do osam puta. Njihova tehnika, tzv dinamičko škripanje memorije (DMS), komprimira predmemoriju vrijednosti ključa (KV), LLM-ovi privremene memorije generiraju i pohranjuju dok obrađuju upite i razmišljaju kroz probleme i dokumente.
Dok su istraživači već prije predlagali različite metode komprimiranja ove predmemorije, većina se bori da to učini bez degradacije inteligencije modela. Nvidijin pristup uspijeva odbaciti velik dio predmemorije uz zadržavanje (au nekim slučajevima i poboljšanje) sposobnosti razmišljanja modela.
Eksperimenti pokazuju da DMS omogućuje doktorantima da "misliti" dulje i istražite više rješenja bez uobičajenih troškova u brzini ili memoriji.
Sadržaj objave
Usko grlo rasuđivanja
LLM poboljšavaju svoju izvedbu na složenim zadacima generiranjem "lanac misli" tokeni, u biti zapisuju svoje korake razmišljanja prije nego što dođu do konačnog odgovora. Tehnike skaliranja vremena zaključivanja iskorištavaju to tako što modelu daju veći proračun za generiranje ovih tokena razmišljanja ili za paralelno istraživanje više potencijalnih putova razmišljanja.
Međutim, ovo poboljšano razmišljanje dolazi sa značajnim računalnim troškovima. Kako model generira više tokena, on gradi a KV predmemorija.
Za aplikacije u stvarnom svijetu, KV predmemorija je glavno usko grlo. Kako lanac razmišljanja raste, predmemorija raste linearno, trošeći ogromne količine memorije na GPU-u. To prisiljava hardver da troši više vremena na čitanje podataka iz memorije nego na stvarno računanje, što usporava generiranje i povećava kašnjenje. Također ograničava broj korisnika koje sustav može opsluživati istovremeno, jer ponestanak VRAM-a uzrokuje pad sustava ili usporavanje do puzanja.
Nvidijini istraživači smatraju ovo ne samo tehničkom preprekom, već i temeljnom ekonomskom za poduzeće.
"Pitanje nije samo u količini hardvera; radi se o tome obrađuje li vaša infrastruktura 100 niti za zaključivanje ili 800 niti za istu cijenu," Piotr Nawrot, viši inženjer dubokog učenja u Nvidiji, rekao je za VentureBeat.
Prethodni pokušaji da se to riješi bili su usredotočeni na pristupe temeljene na heuristici. Ove metode koriste stroga pravila, kao što su a "klizni prozor" koji sprema samo najnovije tokene i briše ostale. Iako ovo smanjuje korištenje memorije, često prisiljava model da odbaci kritične informacije potrebne za rješavanje problema, degradirajući točnost izlaza.
"Standardne metode izbacivanja pokušavaju odabrati stare i neiskorištene tokene za izbacivanje pomoću heuristike," rekli su istraživači. "Oni pojednostavljuju problem, nadajući se da će odgovor ostati točan ako približe unutarnju mehaniku modela."
Druga rješenja koriste straničnu memoriju za pretovar neiskorištenih dijelova KV predmemorije u sporiju memoriju, ali stalna izmjena podataka dovodi do kašnjenja koje čini aplikacije u stvarnom vremenu tromima.
Dinamičko škripanje memorije
DMS ima drugačiji pristup "naknadno opremanje" postojeće LLM-ove za inteligentno upravljanje vlastitom memorijom. Umjesto primjene fiksnog pravila o tome što izbrisati, DMS obučava model da identificira koji su tokeni bitni za buduće razmišljanje, a koji su jednokratni.
"Ne nagađa samo važnost; uči politiku koja eksplicitno čuva konačnu izlaznu distribuciju modela," rekao je Nawrot.
Proces transformira standardni, prethodno obučeni LLM kao što je Llama 3 ili Qwen 3 u model koji se sam sažima. Ono što je ključno, ovo ne zahtijeva obuku modela od nule, što bi bilo pretjerano skupo. Umjesto toga, DMS mijenja namjenu postojećih neurona unutar slojeva pažnje modela za izlaz a "zadržati" ili "iseliti" signal za svaki token.
Za timove koji su zabrinuti zbog složenosti naknadnog opremanja, istraživači su primijetili da je proces osmišljen tako da bude lagan. "Kako bi se poboljšala učinkovitost ovog procesa, težine modela mogu se zamrznuti, što proces čini sličnim prilagodbi niskog ranga (LoRA)," rekao je Nawrot. To znači standardni poslovni model kao što je Qwen3-8B "može se naknadno opremiti DMS-om u roku od nekoliko sati na jednom DGX H100."
Jedan od važnih dijelova DMS-a je mehanizam tzv "odgođena deložacija." U standardnoj rasparčavanju, ako se token smatra nevažnim, odmah se briše. To je riskantno jer bi modelu mogao biti potreban djelić sekunde da integrira kontekst tog tokena u njegovo trenutno stanje.
DMS to ublažava označavanjem tokena za izbacivanje, ali ga drži dostupnim kratko vrijeme (npr. nekoliko stotina koraka). Ova odgoda omogućuje modelu da "ekstrakt" sve preostale potrebne informacije iz tokena i spojite ih u trenutni kontekst prije nego što se token izbriše iz KV predmemorije.
“Mehanizam ‘odgođenog izbacivanja’ je ključan jer nisu svi tokeni jednostavno ‘važni’ (čuvati zauvijek) ili ‘beskorisni’ (brisati odmah). Mnogi se nalaze između — nose neke informacije, ali nedovoljno da opravdaju zauzimanje cijelog mjesta u memoriji”, rekao je Nawrot. “Ovdje leži redundancija. Zadržavanjem ovih tokena u lokalnom prozoru kratko vrijeme prije izbacivanja, dopuštamo modelu da se brine o njima i redistribuira njihove informacije u buduće tokene.”
Istraživači su otkrili da je ovaj proces naknadnog opremanja vrlo učinkovit. Mogli su opremiti prethodno obučenog LLM-a DMS-om u samo 1000 koraka obuke, što je mali dio računanja potrebnog za izvornu obuku. Rezultirajući modeli koriste standardne kernele i mogu se izravno ubaciti u postojeće nizove zaključaka visokih performansi bez prilagođenog hardvera ili složenog softverskog prepisivanja.
DMS na djelu
Kako bi potvrdili tehniku, istraživači su primijenili DMS na nekoliko modela razmišljanja, uključujući Qwen-R1 seriju (preuzetu iz DeepSeek R1) i Llama 3.2, te ih testirali na teškim mjerilima kao što su AIME 24 (matematika), GPQA Diamond (znanost) i LiveCodeBench (kodiranje).
Rezultati pokazuju da DMS učinkovito pomiče Pareto granicu, optimalni kompromis između cijene i performansi. Na AIME 24 matematičkom mjerilu, model Qwen-R1 32B opremljen DMS-om postigao je rezultat 12,0 bodova viši od standardnog modela kada je ograničen na isti proračun propusnosti memorije. Sažimanjem predmemorije model si je to mogao priuštiti "misliti" mnogo dublje i šire nego što bi standardni model mogao za isti proračun memorije i računanja.
Što je možda najviše iznenađujuće, DMS je prkosio uvriježenoj mudrosti da kompresija šteti razumijevanju dugog konteksta. U "igla u plastu sijena" testovima, koji mjere sposobnost modela da pronađe određenu informaciju zakopanu u velikom dokumentu, DMS varijante zapravo su nadmašile standardne modele. Aktivno upravljajući svojom memorijom umjesto pasivnim gomilanjem buke, model je održavao čišći, korisniji kontekst.
Za infrastrukturu poduzeća, dobitak učinkovitosti izravno se prevodi u uštedu propusnosti i hardvera. Budući da je predmemorija značajno manja, GPU troši manje vremena na dohvaćanje podataka, smanjujući vrijeme čekanja za korisnike. U testovima s modelom Qwen3-8B, DMS je dostigao točnost vanilla modela dok je pružao do 5x veću propusnost. To znači da jedan poslužitelj može obraditi pet puta više korisničkih upita u sekundi bez pada kvalitete.
Budućnost sjećanja
Nvidia je objavila DMS kao dio svog KVPress knjižnica. Što se tiče načina na koji poduzeća mogu započeti s DMS-om, Nawrot je naglasio da je prepreka za ulazak niska. "’Minimalna održiva infrastruktura’ standardni su cjevovod Hugging Face — nisu potrebne prilagođene CUDA kernele," Nawrot je rekao, napominjući da je kod u potpunosti kompatibilan sa standardnim FlashAttentionom.
Gledajući unaprijed, tim gleda na DMS kao na dio veće promjene u kojoj upravljanje memorijom postaje zaseban, inteligentan sloj skupa umjetne inteligencije. Nawrot je također potvrdio da je DMS "potpuno kompatibilan" s novijim arhitekturama poput Latentna pažnja s više glava (MLA) koji se koristi u DeepSeekovim modelima, što sugerira da bi kombiniranje ovih pristupa moglo dovesti do još većeg povećanja učinkovitosti.
Kako poduzeća prelaze s jednostavnih chatbota na složene agentske sustave koji zahtijevaju prošireno razmišljanje, cijena zaključivanja postaje primarna briga. Tehnike poput DMS-a pružaju put za održivo skaliranje ovih mogućnosti.
"Jedva da smo zagrebali površinu onoga što je moguće," Nawrot je rekao, "i očekujemo da će se skaliranje vremena zaključivanja dalje razvijati."





