• Pon. svi 18th, 2026

Oblak Znanja

informatička edukacija i vijesti

Mješavina rekurzija donosi 2x brže zaključivanje-evo kako je implementirati

ByTomšić Damjan

srp 23, 2025

Želite pametnije uvide u vašu pristiglu poštu? Prijavite se za naše tjedne biltene kako biste dobili samo ono što je važno za vođe AI, podataka i sigurnosti. Pretplatite se sada


Istraživači na Kaist AI i Mila Uveli su novu arhitekturu transformatora koja čini velike jezične modele (LLMS) više memorijske i računanje. Arhitektura, nazvana Smjesa rekurzija (MOR), značajno poboljšava točnost modela i pruža veću propusnost u usporedbi s transformatorima vanilije, čak i ako je ograničen istim brojem parametara i računanjem proračuna.

Izazovi skaliranja LLMS -a

Impresivne sposobnosti današnjih LLM-ova izravno su vezane za svoju sve veću veličinu. No kako se ovi modeli razmjenjuju, njihovi otisci memorijske tragove i računalni zahtjevi često postaju neodrživi, što i obuku i implementaciju postavlja izazov za organizacije izvan hiperskalnih podatkovnih centara. To je dovelo do potrage za učinkovitijim dizajnom.

Napori za poboljšanje učinkovitosti LLM -a usredotočili su se uglavnom na dvije metode: dijeljenje parametara i adaptivno računanje. Tehnike dijeljenja parametara smanjuju ukupni broj jedinstvenih parametara ponovnim korištenjem utega u različitim dijelovima modela, smanjujući na taj način ukupnu računalnu složenost. Na primjer, “vezanje sloja” je tehnika koja ponovno koristi utege modela u nekoliko slojeva. Metode adaptivnog računanja prilagođavaju modele tako da koriste samo onoliko resursa za zaključivanje koliko im je potrebno. Na primjer, “rano izlazak” dinamički izdvaja računanje omogućujući modelu da prestane obradu “jednostavnijih” tokena rano u mreži.

Međutim, stvaranje arhitekture koja učinkovito objedinjuje i učinkovitost parametara i adaptivno računanje ostaje neuhvatljivo.


Serija AI Impact vraća se u San Francisco – 5. kolovoza

Sljedeća faza AI je ovdje – jeste li spremni? Pridružite se vođama iz Block, GSK i SAP-a za ekskluzivni pogled na to kako autonomni agenti preoblikovaju radne tokove poduzeća-od odlučivanja u stvarnom vremenu do automatizacije krajnjeg do kraja.

Osigurajte svoje mjesto odmah – prostor je ograničen: https://bit.ly/3guuplf


Kako funkcionira mješavina rekurzija

Mješavina rekurzija je okvir koji kombinira dijeljenje parametara s adaptivnim računanjem za rješavanje visokih računalnih zahtjeva LLMS-a. To se temelji na konceptu rekurzivnih transformatora, modela koji više puta primjenjuju skup zajedničkih slojeva više puta. Umjesto dubokog niza jedinstvenih slojeva, rekurzivna transformator podijeli model u nekoliko “rekurzijskih blokova”, svaki s zajedničkim bazenom parametara. Ovaj dizajn omogućuje više računanja bez povećanja veličine modela.

MOR poboljšava ovaj rekurzivni pristup s dvije ključne komponente. Prvi je lagan usmjerivač koji inteligentno dodjeljuje određenu dubinu rekurzije svakom tokenu. Ovaj je koncept sličan mehanizmu usmjeravanja u modelima mješavine (MOE), gdje usmjerivač usmjerava tokene na specijalizirane stručne mreže. U MOR -u, međutim, “stručnjaci” su različite dubine rekurzije, omogućujući modelu da odabere koliko se računanja dinamički primjenjuje na svaki token. Odlučuje koliko puta bi se zajednički blok slojeva trebao primijeniti na temelju složenosti tokena ili potrebne “dubine razmišljanja”. To izračunava samo tamo gdje je najpotrebnija, izbjegavajući izgubljene cikluse na dijelovima unosa koji se lako mogu obraditi.

Smjesa rekurzija Izvor: ARXIV

Druga komponenta je učinkovitija strategija predmemoriranja ključa i vrijednosti (KV). KV predmemoriranje je standardna tehnika koja pohranjuje informacije iz prethodnih tokena kako bi ubrzala generaciju, ali postaje usko grlo memorije u rekurzivnim modelima. MOR uvodi mehanizam za predmemoriranje KV-a “rekurzijsko” koji selektivno pohranjuje i dohvaća parove ključa i vrijednosti samo za tokene koji su još uvijek aktivni na određenom koraku rekurzije. Ovo ciljano predmemoriranje smanjuje memorijski promet i poboljšava propusnost bez potrebe za složenim modifikacijama nakon treninga.

Kao što istraživači navode u svom radu, “u osnovi, MOR omogućava modelima da učinkovito prilagođavaju svoju dubinu razmišljanja na osnovi po tokeru, objedinjujući učinkovitost parametara s adaptivnim računanjem.”

Različite usmjeravanje tokena i KV mehanizmi za predmemoriranje za rekurzivne transformatore Izvor: ARXIV

Mor u akciji

Kako bi testirali njihov okvir, istraživači su obučavali modele MOR-a u rasponu od 135 milijuna do 1,7 milijardi parametara i uspoređivali ih s vanilijom i standardnim rekurzivnim osnovnim modelima na gubitku validacije i referentnim vrijednostima točnosti.

Rezultati pokazuju značajne dobitke. Kada je dobio jednak proračun za izračunavanje treninga, model MOR-a postigao je višu prosječnu točnost nekoliko udaraca (43,1% prema 42,3%) od osnovne vrijednosti vanilije, unatoč tome što je koristio gotovo 50% manje parametara. Kada se obučava na istoj količini podataka, model MOR smanjio je vrijeme treninga za 19% i smanjio vršnu upotrebu memorije za 25% u odnosu na model vanilije.

Mor arhitektura se također pokazuje skalabilnom. Iako je malo slabiji učinak modela vanilije na najmanjoj skali od 135 m parametara, jaz se brzo zatvorio kako se veličina modela povećavala. Za modele s više od 360 m parametara, MOR je podudarao ili premašio performanse standardnih transformatora, posebno na nižim računalnim proračunima. Nadalje, Morov dizajn dramatično pojačava propusnost zaključivanja. Jedna konfiguracija MOR -a postigla je 2,06x brzinu preko osnovne linije vanilije. Za tvrtku koja djeluje na mjeri, to bi se moglo pretvoriti u značajne operativne uštede troškova.

Sangmin Bae, koautor rada i doktorat u Kaistu, prekinuo je praktični utjecaj u e-pošti na VentureBeat. “Iako je teško pružiti točne brojeve, na visokoj razini, smanjenje veličine parametara modela i otiska KV predmemorije znači da možemo istovremeno obavljati zaključke na mnogim drugim uzorcima”, rekao je. “To se odnosi na povećani broj obrađenih tokena odjednom, a rukovanje duljim kontekstnim prozorima postaje izvediv.”

Praktičan put za usvajanje poduzeća

Iako rezultati rada potječu od modela obučenih ispočetka, ključno pitanje za poduzeća je kako usvojiti MOR bez masovnih ulaganja. Prema BAE-u, “Uprt” postojeći modeli otvorenog koda “je definitivno isplativiji pristup”. Napomenuo je da, iako je trening novi model izravan, “pristup za ubrzavanje mogao bi biti prikladniji i učinkovitiji sve dok se skalabilnost samog MOR -a u potpunosti potvrdi.”

Usvajanje MOR-a također uvodi nove arhitektonske „gumbice“ za programere, omogućujući im da preciziraju ravnotežu između performansi i učinkovitosti. Ovaj će kompromis u potpunosti ovisiti o potrebama zahtjeva.

“Za jednostavnije zadatke ili scenarije, možda će biti korisno koristiti modele s više koraka rekurzije, nudeći veću fleksibilnost i obrnuto”, objasnio je Bae. Naglasio je da će “optimalne postavke vrlo ovisiti o određenom postavljanju raspoređivanja”, ohrabrujući timove da istražuju kompromise na temelju nalaza rada.

Gledajući unaprijed, okvir MOR je “modalitet-agnostik”, što znači da njegovi principi adaptivnog računanja nisu ograničeni na tekst. Ovo otvara vrata značajnom dobitku učinkovitosti u obradi videozapisa, zvuka i drugih složenih vrsta podataka.

“Izuzetno smo uzbuđeni zbog njegovog potencijalnog proširenja na scenarije multi-modalnosti u kojima su dobici učinkovitosti presudni”, rekao je Bae.

Dinamičkim prilagođavanjem dubine obrade za svaki segment video ili audio toka, MOR bi mogao otključati još veće uštede troškova i poboljšanja performansi, što dovodi snagu AI velikih razmjera u širi raspon poslovnih aplikacija. Kako se zaključuje, Mor nudi “učinkovit put ka postizanju mogućnosti velikih modela sa značajno smanjenim računalnim i memorijskim režijskim troškovima.”



Web izvor

By Tomšić Damjan

Pozdrav, ja sam Damjan Tomšić, osnivatelj i urednik informatičko edukativnog bloga Oblak Znanja. Za Vas ću se potruditi da dobijete edukativne članke, savjete i recenzije vezane uz osnovno i napredno korištenje računala i interneta. Kontak: Google+, Gmail.