IndexCache, novi alat za optimizaciju rijetke pozornosti, donosi 1,82x brže zaključivanje na AI modelima dugog konteksta

Obrada 200.000 tokena kroz veliki jezični model skupa je i spora: što je duži kontekst, to su troškovi brži. Istraživači sa Sveučilišta Tsinghua i Z.ai su izgradio tehniku nazvanu IndexCache koji smanjuje do 75% redundantnog izračuna u modelima rijetke pažnje, isporučujući do 1,82x brže vrijeme do prvog tokena i 1,48x bržu generiranje propusnosti na toj duljini konteksta.

Tehnika se primjenjuje na modele koji koriste DeepSeek Sparse Attention arhitekturu, uključujući najnovije obitelji DeepSeek i GLM. Može pomoći tvrtkama u pružanju bržih korisničkih iskustava za modele dugog konteksta u proizvodnom opsegu, sposobnost koja je već dokazana u preliminarnim testovima na modelu GLM-5 sa 744 milijarde parametara.

Sadržaj objave

1 DSA usko grlo
2 Privlačenje pažnje s IndexCacheom
3 Ubrzanja u stvarnom svijetu na proizvodnim modelima
4 Stavljanje IndexCachea u proizvodnju

DSA usko grlo

Veliki jezični modeli oslanjaju se na mehanizam samopažnje, proces u kojem model izračunava odnos između svakog tokena u njegovom kontekstu i svih prethodnih kako bi predvidio sljedeći token.

Međutim, samopažnja ima ozbiljno ograničenje. Njegova računalna složenost kvadratno se mjeri s duljinom niza. Za aplikacije koje zahtijevaju prozore proširenog konteksta (npr. velika obrada dokumenata, agentski radni tokovi u više koraka ili dugo razmišljanje u lancu misli), ovo kvadratno skaliranje dovodi do sporih brzina zaključivanja i značajnih troškova računanja i memorije.

Rijetka pozornost nudi načelno rješenje za ovaj problem skaliranja. Umjesto izračunavanja odnosa između svakog tokena i svih prethodnih, rijetka pažnja optimizira proces tako što svaki upit odabire i bavi se samo najrelevantnijim podskupom tokena.

DeepSeek Sparse Attention (DSA) vrlo je učinkovita implementacija ovog koncepta, prvi put uvedena u DeepSeek-V3.2. Kako bi se utvrdilo koji su tokeni najvažniji, DSA uvodi lagani "modul za indeksiranje munje" na svakom sloju modela. Ovaj indeksator ocjenjuje sve prethodne tokene i odabire malu seriju za glavni mehanizam pažnje za obradu. Čineći to, DSA smanjuje teško računanje temeljne pozornosti s kvadratnog na linearno, dramatično ubrzavajući model uz očuvanje kvalitete izlaza.

Ali istraživači su identificirali dugotrajni nedostatak: sam DSA indekser još uvijek radi na kvadratnoj složenosti na svakom pojedinom sloju. Iako je indekser računalno jeftiniji od glavnog procesa pažnje, kako duljina konteksta raste, vrijeme koje model troši na pokretanje ovih indeksatora vrtoglavo raste. Ovo ozbiljno usporava model, posebno tijekom početnog "predispuniti" faza u kojoj se upit prvi put obrađuje.

Privlačenje pažnje s IndexCacheom

Kako bi riješio usko grlo indeksatora, istraživački tim otkrio je ključnu karakteristiku načina na koji DSA modeli obrađuju podatke. Podskup važnih tokena koje indeksator odabire ostaje izuzetno stabilan dok se podaci kreću kroz uzastopne slojeve transformatora. Empirijski testovi na DSA modelima otkrili su da susjedni slojevi dijele između 70% i 100% svojih odabranih tokena.

Kako bi iskoristili ovu međuslojnu redundantnost, istraživači su razvili IndexCache. Tehnika dijeli slojeve modela u dvije kategorije. Mali broj punih (F) slojeva zadržava svoje indeksatore, aktivno ocjenjujući tokene i birajući one najvažnije za predmemoriju. Ostali slojevi postaju zajednički (S), ne vrše indeksiranje i ponovno koriste predmemorirane indekse iz najbližeg prethodnog F sloja.

Tijekom zaključivanja, model jednostavno provjerava vrstu sloja. Ako dosegne F sloj, izračunava i sprema svježe indekse. Ako je to S sloj, preskače matematiku i kopira predmemorirane podatke.

Postoji širok raspon tehnika optimizacije koje pokušavaju riješiti usko grlo pažnje sažimanje KV predmemorijegdje su pohranjene izračunate vrijednosti pažnje. Umjesto smanjivanja memorijskog otiska poput standardne kompresije KV predmemorije, IndexCache napada usko grlo računala.

“IndexCache nije tradicionalna KV tehnika kompresije ili dijeljenja predmemorije”, rekao je Yushi Bai, koautor rada, za VentureBeat. “Uklanja tu zalihost ponovnim korištenjem indeksa preko slojeva, čime se smanjuje računanje, a ne samo memorijski otisak. Komplementaran je postojećim pristupima i može se kombinirati s njima.”

Istraživači su razvili dva pristupa implementaciji za IndexCache. (Vrijedi napomenuti da se IndexCache odnosi samo na modele koji koriste DSA arhitekturu, kao što su najnoviji DeepSeek modeli i najnovija obitelj GLM modela.)

Za programere koji rade s gotovim DSA modelima gdje je ponovna obuka neizvediva ili preskupa, stvorili su metodu bez obuke koja se oslanja na algoritam “pohlepnog odabira slojeva”. Pokretanjem malog skupa podataka kalibracije kroz model, ovaj algoritam automatski određuje optimalni položaj F i S slojeva bez ažuriranja težine. Empirijski dokazi pokazuju da pohlepni algoritam može sigurno ukloniti 75% indeksatora, a pritom usklađuje nizvodnu izvedbu izvornog modela.

Za timove koji prethode obuku ili intenzivno fino podešavaju vlastite temeljne modele, istraživači predlažu verziju svjesnu obuke koja optimizira mrežne parametre za nativnu podršku dijeljenja između slojeva. Ovaj pristup uvodi “gubitak višeslojne destilacije” tijekom treninga. Prisiljava svakog zadržanog indeksatora da nauči kako odabrati konsenzusni podskup tokena koji će biti vrlo relevantan za sve sljedeće slojeve kojima služi.

Ubrzanja u stvarnom svijetu na proizvodnim modelima

Kako bi testirali utjecaj IndexCachea, istraživači su ga primijenili na parametar od 30 milijardi GLM-4.7 Flash model i usporedio ga sa standardnom baznom linijom.

Na duljini konteksta od 200K, uklanjanje 75% indeksatora smanjilo je latenciju predispunjavanja s 19,5 sekundi na samo 10,7 sekundi, pružajući ubrzanje od 1,82x. Istraživači napominju da se očekuje da će ova ubrzanja biti još veća u duljim kontekstima.

Tijekom faze dekodiranja, u kojoj model generira svoj odgovor, IndexCache je povećao propusnost po zahtjevu s 58 tokena u sekundi na 86 tokena u sekundi na oznaci konteksta od 200K, što je dovelo do ubrzanja od 1,48x. Kada je memorija poslužitelja potpuno zasićena zahtjevima, ukupna propusnost dekodiranja skočila je do 51%.

Za poslovne timove, ova povećanja učinkovitosti izravno se pretvaraju u uštede troškova. “U smislu ROI-ja, IndexCache pruža dosljedne prednosti u svim scenarijima, ali dobici su najuočljiviji u radnim opterećenjima dugog konteksta kao što su RAG, analiza dokumenata i agentski cjevovodi”, rekao je Bai. “U tim slučajevima, primjećujemo najmanje približno 20% smanjenja troškova implementacije i slična poboljšanja u kašnjenju koje percipiraju korisnici.” Dodao je da se za zadatke vrlo kratkog konteksta koristi kreću oko 5%.

Zanimljivo je da ova poboljšanja učinkovitosti nisu ugrozila sposobnost rasuđivanja. Koristeći pristup bez treninga za eliminaciju 75% indeksatora, model 30B odgovarao je izvornoj osnovnoj prosječnoj ocjeni na referentnim vrijednostima dugog konteksta, postigavši 49,9 u odnosu na izvornih 50,2. Na vrlo složenoj referentnoj točki matematičkog zaključivanja AIME 2025, optimizirani model zapravo je nadmašio izvornu osnovnu vrijednost, postigavši ocjenu 92,6 u usporedbi s 91,0.

Tim je također proveo preliminarne eksperimente na proizvodnom modelu GLM-5 od 744 milijarde parametara. Otkrili su da je eliminacija 75% njegovih indeksatora metodom bez obuke donijela najmanje 1,3x ubrzanje na kontekstima preko 100K tokena. U isto vrijeme, model je zadržao gotovo identičan prosjek kvalitete na zadacima dugog konteksta.

Stavljanje IndexCachea u proizvodnju

Za razvojne timove koji danas žele implementirati pristup bez obuke, proces je jednostavan, ali zahtijeva pažljivo postavljanje. Dok pohlepni algoritam pretraživanja automatski pronalazi optimalnu konfiguraciju sloja, kvaliteta te konfiguracije ovisi o podacima koje obrađuje.

“Preporučamo korištenje podataka specifičnih za domenu kao skupa za kalibraciju tako da se otkriveni uzorak dijeljenja slojeva uskladi sa stvarnim radnim opterećenjima”, rekao je Bai.

Nakon kalibracije, optimizacija je vrlo dostupna za proizvodna okruženja. Zakrpe otvorenog koda već postoje dostupno na GitHubu za glavne motore za posluživanje. “Integracija je relativno jednostavna – programeri mogu primijeniti zakrpu na postojeće nizove zaključaka, kao što su vLLM ili SGLang, i omogućiti IndexCache uz minimalne promjene konfiguracije”, rekao je Bai.

Dok IndexCache nudi trenutni popravak za današnja računalna uska grla, njegova temeljna filozofija ukazuje na širu promjenu u tome kako će AI industrija pristupiti dizajnu modela.

“Budući modeli temelja vjerojatno će biti projektirani s ograničenjima nizvodnog zaključivanja na umu od samog početka”, zaključio je Bai. “To znači dizajne koji nisu samo skalabilni u smislu veličine modela, već i optimizirani za stvarnu propusnost i latenciju, umjesto da ih tretiramo kao post hoc probleme.”

Web izvor

IndexCache, novi alat za optimizaciju rijetke pozornosti, donosi 1,82x brže zaključivanje na AI modelima dugog konteksta

ByTomšić Damjan

DSA usko grlo

Privlačenje pažnje s IndexCacheom

Ubrzanja u stvarnom svijetu na proizvodnim modelima

Stavljanje IndexCachea u proizvodnju

By Tomšić Damjan

AI IQ is here: a new site scores frontier AI models on the human IQ scale. The results are already dividing tech.

Što će biti potrebno da umjetna inteligencija postane održiva

Red Hat Desktop u odnosu na Fedora Hummingbird: Koji put razvoja AI Linuxa je pravi za vas?

You missed

AI IQ is here: a new site scores frontier AI models on the human IQ scale. The results are already dividing tech.

Što će biti potrebno da umjetna inteligencija postane održiva

Red Hat Desktop u odnosu na Fedora Hummingbird: Koji put razvoja AI Linuxa je pravi za vas?

Googlebook izgleda obećavajuće, ali jedna velika marka prijenosnih računala upadljivo je odsutna

IndexCache, novi alat za optimizaciju rijetke pozornosti, donosi 1,82x brže zaključivanje na AI modelima dugog konteksta

ByTomšić Damjan

DSA usko grlo

Privlačenje pažnje s IndexCacheom

Ubrzanja u stvarnom svijetu na proizvodnim modelima

Stavljanje IndexCachea u proizvodnju

By Tomšić Damjan

Related Post

AI IQ is here: a new site scores frontier AI models on the human IQ scale. The results are already dividing tech.

Što će biti potrebno da umjetna inteligencija postane održiva

Red Hat Desktop u odnosu na Fedora Hummingbird: Koji put razvoja AI Linuxa je pravi za vas?

You missed

AI IQ is here: a new site scores frontier AI models on the human IQ scale. The results are already dividing tech.

Što će biti potrebno da umjetna inteligencija postane održiva

Red Hat Desktop u odnosu na Fedora Hummingbird: Koji put razvoja AI Linuxa je pravi za vas?

Googlebook izgleda obećavajuće, ali jedna velika marka prijenosnih računala upadljivo je odsutna