Oblak Znanja

  • Home
  • Novosti
  • Učionica
    • Informatika 5
    • Informatika 6
    • Informatika 7
    • Informatika 8
    • Logo jezik
    • WordPress
    • Microsoft Office
  • Vodiči
    • Online vodiči
    • Kratki savjeti
    • Korisne aplikacije
    • Društvene mreže
    • Multimedija
    • Zanimljivosti
✕

IndexCache, novi alat za optimizaciju rijetke pozornosti, donosi 1,82x brže zaključivanje na AI modelima dugog konteksta

Novosti

IndexCache, novi alat za optimizaciju rijetke pozornosti, donosi 1,82x brže zaključivanje na AI modelima dugog konteksta

Tomšić Damjan 28. ožujka 2026

Obrada 200.000 tokena kroz veliki jezični model skupa je i spora: što je duži kontekst, to su troškovi brži. Istraživači sa Sveučilišta Tsinghua i Z.ai su izgradio tehniku ​​nazvanu IndexCache koji smanjuje do 75% redundantnog izračuna u modelima rijetke pažnje, isporučujući do 1,82x brže vrijeme do prvog tokena i 1,48x bržu generiranje propusnosti na toj duljini konteksta.

Tehnika se primjenjuje na modele koji koriste DeepSeek Sparse Attention arhitekturu, uključujući najnovije obitelji DeepSeek i GLM. Može pomoći tvrtkama u pružanju bržih korisničkih iskustava za modele dugog konteksta u proizvodnom opsegu, sposobnost koja je već dokazana u preliminarnim testovima na modelu GLM-5 sa 744 milijarde parametara.

Sadržaj objave

  • 1 DSA usko grlo
  • 2 Privlačenje pažnje s IndexCacheom
  • 3 Ubrzanja u stvarnom svijetu na proizvodnim modelima
  • 4 Stavljanje IndexCachea u proizvodnju

DSA usko grlo

Veliki jezični modeli oslanjaju se na mehanizam samopažnje, proces u kojem model izračunava odnos između svakog tokena u njegovom kontekstu i svih prethodnih kako bi predvidio sljedeći token.

Međutim, samopažnja ima ozbiljno ograničenje. Njegova računalna složenost kvadratno se mjeri s duljinom niza. Za aplikacije koje zahtijevaju prozore proširenog konteksta (npr. velika obrada dokumenata, agentski radni tokovi u više koraka ili dugo razmišljanje u lancu misli), ovo kvadratno skaliranje dovodi do sporih brzina zaključivanja i značajnih troškova računanja i memorije.

Rijetka pozornost nudi načelno rješenje za ovaj problem skaliranja. Umjesto izračunavanja odnosa između svakog tokena i svih prethodnih, rijetka pažnja optimizira proces tako što svaki upit odabire i bavi se samo najrelevantnijim podskupom tokena.

DeepSeek Sparse Attention (DSA) vrlo je učinkovita implementacija ovog koncepta, prvi put uvedena u DeepSeek-V3.2. Kako bi se utvrdilo koji su tokeni najvažniji, DSA uvodi lagani "modul za indeksiranje munje" na svakom sloju modela. Ovaj indeksator ocjenjuje sve prethodne tokene i odabire malu seriju za glavni mehanizam pažnje za obradu. Čineći to, DSA smanjuje teško računanje temeljne pozornosti s kvadratnog na linearno, dramatično ubrzavajući model uz očuvanje kvalitete izlaza.

Ali istraživači su identificirali dugotrajni nedostatak: sam DSA indekser još uvijek radi na kvadratnoj složenosti na svakom pojedinom sloju. Iako je indekser računalno jeftiniji od glavnog procesa pažnje, kako duljina konteksta raste, vrijeme koje model troši na pokretanje ovih indeksatora vrtoglavo raste. Ovo ozbiljno usporava model, posebno tijekom početnog "predispuniti" faza u kojoj se upit prvi put obrađuje.

Privlačenje pažnje s IndexCacheom

Kako bi riješio usko grlo indeksatora, istraživački tim otkrio je ključnu karakteristiku načina na koji DSA modeli obrađuju podatke. Podskup važnih tokena koje indeksator odabire ostaje izuzetno stabilan dok se podaci kreću kroz uzastopne slojeve transformatora. Empirijski testovi na DSA modelima otkrili su da susjedni slojevi dijele između 70% i 100% svojih odabranih tokena.

Kako bi iskoristili ovu međuslojnu redundantnost, istraživači su razvili IndexCache. Tehnika dijeli slojeve modela u dvije kategorije. Mali broj punih (F) slojeva zadržava svoje indeksatore, aktivno ocjenjujući tokene i birajući one najvažnije za predmemoriju. Ostali slojevi postaju zajednički (S), ne vrše indeksiranje i ponovno koriste predmemorirane indekse iz najbližeg prethodnog F sloja.

Tijekom zaključivanja, model jednostavno provjerava vrstu sloja. Ako dosegne F sloj, izračunava i sprema svježe indekse. Ako je to S sloj, preskače matematiku i kopira predmemorirane podatke.

Postoji širok raspon tehnika optimizacije koje pokušavaju riješiti usko grlo pažnje sažimanje KV predmemorijegdje su pohranjene izračunate vrijednosti pažnje. Umjesto smanjivanja memorijskog otiska poput standardne kompresije KV predmemorije, IndexCache napada usko grlo računala.

“IndexCache nije tradicionalna KV tehnika kompresije ili dijeljenja predmemorije”, rekao je Yushi Bai, koautor rada, za VentureBeat. “Uklanja tu zalihost ponovnim korištenjem indeksa preko slojeva, čime se smanjuje računanje, a ne samo memorijski otisak. Komplementaran je postojećim pristupima i može se kombinirati s njima.”

Istraživači su razvili dva pristupa implementaciji za IndexCache. (Vrijedi napomenuti da se IndexCache odnosi samo na modele koji koriste DSA arhitekturu, kao što su najnoviji DeepSeek modeli i najnovija obitelj GLM modela.)

Za programere koji rade s gotovim DSA modelima gdje je ponovna obuka neizvediva ili preskupa, stvorili su metodu bez obuke koja se oslanja na algoritam “pohlepnog odabira slojeva”. Pokretanjem malog skupa podataka kalibracije kroz model, ovaj algoritam automatski određuje optimalni položaj F i S slojeva bez ažuriranja težine. Empirijski dokazi pokazuju da pohlepni algoritam može sigurno ukloniti 75% indeksatora, a pritom usklađuje nizvodnu izvedbu izvornog modela.

Za timove koji prethode obuku ili intenzivno fino podešavaju vlastite temeljne modele, istraživači predlažu verziju svjesnu obuke koja optimizira mrežne parametre za nativnu podršku dijeljenja između slojeva. Ovaj pristup uvodi “gubitak višeslojne destilacije” tijekom treninga. Prisiljava svakog zadržanog indeksatora da nauči kako odabrati konsenzusni podskup tokena koji će biti vrlo relevantan za sve sljedeće slojeve kojima služi.

Ubrzanja u stvarnom svijetu na proizvodnim modelima

Kako bi testirali utjecaj IndexCachea, istraživači su ga primijenili na parametar od 30 milijardi GLM-4.7 Flash model i usporedio ga sa standardnom baznom linijom.

Na duljini konteksta od 200K, uklanjanje 75% indeksatora smanjilo je latenciju predispunjavanja s 19,5 sekundi na samo 10,7 sekundi, pružajući ubrzanje od 1,82x. Istraživači napominju da se očekuje da će ova ubrzanja biti još veća u duljim kontekstima.

Tijekom faze dekodiranja, u kojoj model generira svoj odgovor, IndexCache je povećao propusnost po zahtjevu s 58 tokena u sekundi na 86 tokena u sekundi na oznaci konteksta od 200K, što je dovelo do ubrzanja od 1,48x. Kada je memorija poslužitelja potpuno zasićena zahtjevima, ukupna propusnost dekodiranja skočila je do 51%.

Za poslovne timove, ova povećanja učinkovitosti izravno se pretvaraju u uštede troškova. “U smislu ROI-ja, IndexCache pruža dosljedne prednosti u svim scenarijima, ali dobici su najuočljiviji u radnim opterećenjima dugog konteksta kao što su RAG, analiza dokumenata i agentski cjevovodi”, rekao je Bai. “U tim slučajevima, primjećujemo najmanje približno 20% smanjenja troškova implementacije i slična poboljšanja u kašnjenju koje percipiraju korisnici.” Dodao je da se za zadatke vrlo kratkog konteksta koristi kreću oko 5%.

Zanimljivo je da ova poboljšanja učinkovitosti nisu ugrozila sposobnost rasuđivanja. Koristeći pristup bez treninga za eliminaciju 75% indeksatora, model 30B odgovarao je izvornoj osnovnoj prosječnoj ocjeni na referentnim vrijednostima dugog konteksta, postigavši ​​49,9 u odnosu na izvornih 50,2. Na vrlo složenoj referentnoj točki matematičkog zaključivanja AIME 2025, optimizirani model zapravo je nadmašio izvornu osnovnu vrijednost, postigavši ​​ocjenu 92,6 u usporedbi s 91,0.

Tim je također proveo preliminarne eksperimente na proizvodnom modelu GLM-5 od 744 milijarde parametara. Otkrili su da je eliminacija 75% njegovih indeksatora metodom bez obuke donijela najmanje 1,3x ubrzanje na kontekstima preko 100K tokena. U isto vrijeme, model je zadržao gotovo identičan prosjek kvalitete na zadacima dugog konteksta.

Stavljanje IndexCachea u proizvodnju

Za razvojne timove koji danas žele implementirati pristup bez obuke, proces je jednostavan, ali zahtijeva pažljivo postavljanje. Dok pohlepni algoritam pretraživanja automatski pronalazi optimalnu konfiguraciju sloja, kvaliteta te konfiguracije ovisi o podacima koje obrađuje.

“Preporučamo korištenje podataka specifičnih za domenu kao skupa za kalibraciju tako da se otkriveni uzorak dijeljenja slojeva uskladi sa stvarnim radnim opterećenjima”, rekao je Bai.

Nakon kalibracije, optimizacija je vrlo dostupna za proizvodna okruženja. Zakrpe otvorenog koda već postoje dostupno na GitHubu za glavne motore za posluživanje. “Integracija je relativno jednostavna – programeri mogu primijeniti zakrpu na postojeće nizove zaključaka, kao što su vLLM ili SGLang, i omogućiti IndexCache uz minimalne promjene konfiguracije”, rekao je Bai.

Dok IndexCache nudi trenutni popravak za današnja računalna uska grla, njegova temeljna filozofija ukazuje na širu promjenu u tome kako će AI industrija pristupiti dizajnu modela.

“Budući modeli temelja vjerojatno će biti projektirani s ograničenjima nizvodnog zaključivanja na umu od samog početka”, zaključio je Bai. “To znači dizajne koji nisu samo skalabilni u smislu veličine modela, već i optimizirani za stvarnu propusnost i latenciju, umjesto da ih tretiramo kao post hoc probleme.”

Web izvor

Previous Article

Na ovaj ili onaj način, većina naše električne energije dolazi iz solarne energije

Next Article

Pave Space prikuplja 40 milijuna dolara kako bi ubrzao postavljanje satelita

Posljednje objave

John i Brenda Romero misle da je trenutni krah naše industrije videoigara još “krahovitiji” od zloglasne recesije iz 1980-ih

John i Brenda Romero misle da je trenutni krah naše industrije videoigara još “krahovitiji” od zloglasne recesije iz 1980-ih

Pave Space prikuplja 40 milijuna dolara kako bi ubrzao postavljanje satelita

IndexCache, novi alat za optimizaciju rijetke pozornosti, donosi 1,82x brže zaključivanje na AI modelima dugog konteksta

IndexCache, novi alat za optimizaciju rijetke pozornosti, donosi 1,82x brže zaključivanje na AI modelima dugog konteksta

Sadržaj

  • 1 DSA usko grlo
  • 2 Privlačenje pažnje s IndexCacheom
  • 3 Ubrzanja u stvarnom svijetu na proizvodnim modelima
  • 4 Stavljanje IndexCachea u proizvodnju

Novosti

  • John i Brenda Romero misle da je trenutni krah naše industrije videoigara još “krahovitiji” od zloglasne recesije iz 1980-ih 28. ožujka 2026
  • Pave Space prikuplja 40 milijuna dolara kako bi ubrzao postavljanje satelita 28. ožujka 2026
  • IndexCache, novi alat za optimizaciju rijetke pozornosti, donosi 1,82x brže zaključivanje na AI modelima dugog konteksta 28. ožujka 2026
  • Na ovaj ili onaj način, većina naše električne energije dolazi iz solarne energije 28. ožujka 2026
  • Amazon Spring Sale live blog 2026: The top deals you can’t miss 27. ožujka 2026
  • Jupi, još jedno povećanje cijene Netflixa za sve planove 27. ožujka 2026
  • Amazonova serija God of War pronalazi svoju Kraljicu Valkira Freyu u glumici Lost and For All Mankind 27. ožujka 2026
  • Nokia se pridružuje Linxu kao tehnički partner za osvježenje mreže u Londonu 27. ožujka 2026
  • Intercomov novi Fin Apex 1.0 nakon obuke pobjeđuje GPT-5.4 i Claude Sonnet 4.6 u rezolucijama korisničke službe 27. ožujka 2026
  • Senatori zahtijevaju da znaju koliko energije podatkovni centri troše 27. ožujka 2026

O nama

Oblak Znanja je blog edukativnog karaktera i namijenjen je svima koji žele unaprijediti svoje znanje iz područja računala i interneta.

Naš cilj je edukacija i pisanje zanimljivih objava kojima ćemo zajedno učiti i informirati se o svijetu informatike.

Na ovom blogu zabranjeno je svako kopiranje sadržaja bez dozvole autora.

Oblak Znanja

Oznake

besplatni powerpoint predlošci društvene mreže excel facebook firefox gmail google+ Google Chrome halloween halloween walpapers internet kartice linkedin profil linux microsoft Mozilla Firefox ms powerpoint oblak znanja office 2007 office savjeti online kupovina pick powerpoint powerpoint predložak powerpoint savjeti rastući niz savjet slike za radnu površinu spremanje datoteka strani jezik tipkovnicke kratice twitter twitter alati uređivanje slika wallpaper clock web preglednik windows windows 7 windows aplikacije windows vista word word 2007 word savjeti youtube savjeti youtube tipkovničke kratice