Mješavina rekurzija donosi 2x brže zaključivanje-evo kako je implementirati

Želite pametnije uvide u vašu pristiglu poštu? Prijavite se za naše tjedne biltene kako biste dobili samo ono što je važno za vođe AI, podataka i sigurnosti. Pretplatite se sada

Istraživači na Kaist AI i Mila Uveli su novu arhitekturu transformatora koja čini velike jezične modele (LLMS) više memorijske i računanje. Arhitektura, nazvana Smjesa rekurzija (MOR), značajno poboljšava točnost modela i pruža veću propusnost u usporedbi s transformatorima vanilije, čak i ako je ograničen istim brojem parametara i računanjem proračuna.

Sadržaj objave

1 Izazovi skaliranja LLMS -a
2 Kako funkcionira mješavina rekurzija
3 Mor u akciji
4 Praktičan put za usvajanje poduzeća

Izazovi skaliranja LLMS -a

Impresivne sposobnosti današnjih LLM-ova izravno su vezane za svoju sve veću veličinu. No kako se ovi modeli razmjenjuju, njihovi otisci memorijske tragove i računalni zahtjevi često postaju neodrživi, što i obuku i implementaciju postavlja izazov za organizacije izvan hiperskalnih podatkovnih centara. To je dovelo do potrage za učinkovitijim dizajnom.

Napori za poboljšanje učinkovitosti LLM -a usredotočili su se uglavnom na dvije metode: dijeljenje parametara i adaptivno računanje. Tehnike dijeljenja parametara smanjuju ukupni broj jedinstvenih parametara ponovnim korištenjem utega u različitim dijelovima modela, smanjujući na taj način ukupnu računalnu složenost. Na primjer, “vezanje sloja” je tehnika koja ponovno koristi utege modela u nekoliko slojeva. Metode adaptivnog računanja prilagođavaju modele tako da koriste samo onoliko resursa za zaključivanje koliko im je potrebno. Na primjer, “rano izlazak” dinamički izdvaja računanje omogućujući modelu da prestane obradu “jednostavnijih” tokena rano u mreži.

Međutim, stvaranje arhitekture koja učinkovito objedinjuje i učinkovitost parametara i adaptivno računanje ostaje neuhvatljivo.

Serija AI Impact vraća se u San Francisco – 5. kolovoza

Sljedeća faza AI je ovdje – jeste li spremni? Pridružite se vođama iz Block, GSK i SAP-a za ekskluzivni pogled na to kako autonomni agenti preoblikovaju radne tokove poduzeća-od odlučivanja u stvarnom vremenu do automatizacije krajnjeg do kraja.

Osigurajte svoje mjesto odmah – prostor je ograničen: https://bit.ly/3guuplf

Kako funkcionira mješavina rekurzija

Mješavina rekurzija je okvir koji kombinira dijeljenje parametara s adaptivnim računanjem za rješavanje visokih računalnih zahtjeva LLMS-a. To se temelji na konceptu rekurzivnih transformatora, modela koji više puta primjenjuju skup zajedničkih slojeva više puta. Umjesto dubokog niza jedinstvenih slojeva, rekurzivna transformator podijeli model u nekoliko “rekurzijskih blokova”, svaki s zajedničkim bazenom parametara. Ovaj dizajn omogućuje više računanja bez povećanja veličine modela.

MOR poboljšava ovaj rekurzivni pristup s dvije ključne komponente. Prvi je lagan usmjerivač koji inteligentno dodjeljuje određenu dubinu rekurzije svakom tokenu. Ovaj je koncept sličan mehanizmu usmjeravanja u modelima mješavine (MOE), gdje usmjerivač usmjerava tokene na specijalizirane stručne mreže. U MOR -u, međutim, “stručnjaci” su različite dubine rekurzije, omogućujući modelu da odabere koliko se računanja dinamički primjenjuje na svaki token. Odlučuje koliko puta bi se zajednički blok slojeva trebao primijeniti na temelju složenosti tokena ili potrebne “dubine razmišljanja”. To izračunava samo tamo gdje je najpotrebnija, izbjegavajući izgubljene cikluse na dijelovima unosa koji se lako mogu obraditi.

Smjesa rekurzija Izvor: ARXIV

Druga komponenta je učinkovitija strategija predmemoriranja ključa i vrijednosti (KV). KV predmemoriranje je standardna tehnika koja pohranjuje informacije iz prethodnih tokena kako bi ubrzala generaciju, ali postaje usko grlo memorije u rekurzivnim modelima. MOR uvodi mehanizam za predmemoriranje KV-a “rekurzijsko” koji selektivno pohranjuje i dohvaća parove ključa i vrijednosti samo za tokene koji su još uvijek aktivni na određenom koraku rekurzije. Ovo ciljano predmemoriranje smanjuje memorijski promet i poboljšava propusnost bez potrebe za složenim modifikacijama nakon treninga.

Kao što istraživači navode u svom radu, “u osnovi, MOR omogućava modelima da učinkovito prilagođavaju svoju dubinu razmišljanja na osnovi po tokeru, objedinjujući učinkovitost parametara s adaptivnim računanjem.”

Različite usmjeravanje tokena i KV mehanizmi za predmemoriranje za rekurzivne transformatore Izvor: ARXIV

Mor u akciji

Kako bi testirali njihov okvir, istraživači su obučavali modele MOR-a u rasponu od 135 milijuna do 1,7 milijardi parametara i uspoređivali ih s vanilijom i standardnim rekurzivnim osnovnim modelima na gubitku validacije i referentnim vrijednostima točnosti.

Rezultati pokazuju značajne dobitke. Kada je dobio jednak proračun za izračunavanje treninga, model MOR-a postigao je višu prosječnu točnost nekoliko udaraca (43,1% prema 42,3%) od osnovne vrijednosti vanilije, unatoč tome što je koristio gotovo 50% manje parametara. Kada se obučava na istoj količini podataka, model MOR smanjio je vrijeme treninga za 19% i smanjio vršnu upotrebu memorije za 25% u odnosu na model vanilije.

Mor arhitektura se također pokazuje skalabilnom. Iako je malo slabiji učinak modela vanilije na najmanjoj skali od 135 m parametara, jaz se brzo zatvorio kako se veličina modela povećavala. Za modele s više od 360 m parametara, MOR je podudarao ili premašio performanse standardnih transformatora, posebno na nižim računalnim proračunima. Nadalje, Morov dizajn dramatično pojačava propusnost zaključivanja. Jedna konfiguracija MOR -a postigla je 2,06x brzinu preko osnovne linije vanilije. Za tvrtku koja djeluje na mjeri, to bi se moglo pretvoriti u značajne operativne uštede troškova.

Sangmin Bae, koautor rada i doktorat u Kaistu, prekinuo je praktični utjecaj u e-pošti na VentureBeat. “Iako je teško pružiti točne brojeve, na visokoj razini, smanjenje veličine parametara modela i otiska KV predmemorije znači da možemo istovremeno obavljati zaključke na mnogim drugim uzorcima”, rekao je. “To se odnosi na povećani broj obrađenih tokena odjednom, a rukovanje duljim kontekstnim prozorima postaje izvediv.”

Praktičan put za usvajanje poduzeća

Iako rezultati rada potječu od modela obučenih ispočetka, ključno pitanje za poduzeća je kako usvojiti MOR bez masovnih ulaganja. Prema BAE-u, “Uprt” postojeći modeli otvorenog koda “je definitivno isplativiji pristup”. Napomenuo je da, iako je trening novi model izravan, “pristup za ubrzavanje mogao bi biti prikladniji i učinkovitiji sve dok se skalabilnost samog MOR -a u potpunosti potvrdi.”

Usvajanje MOR-a također uvodi nove arhitektonske „gumbice“ za programere, omogućujući im da preciziraju ravnotežu između performansi i učinkovitosti. Ovaj će kompromis u potpunosti ovisiti o potrebama zahtjeva.

“Za jednostavnije zadatke ili scenarije, možda će biti korisno koristiti modele s više koraka rekurzije, nudeći veću fleksibilnost i obrnuto”, objasnio je Bae. Naglasio je da će “optimalne postavke vrlo ovisiti o određenom postavljanju raspoređivanja”, ohrabrujući timove da istražuju kompromise na temelju nalaza rada.

Gledajući unaprijed, okvir MOR je “modalitet-agnostik”, što znači da njegovi principi adaptivnog računanja nisu ograničeni na tekst. Ovo otvara vrata značajnom dobitku učinkovitosti u obradi videozapisa, zvuka i drugih složenih vrsta podataka.

“Izuzetno smo uzbuđeni zbog njegovog potencijalnog proširenja na scenarije multi-modalnosti u kojima su dobici učinkovitosti presudni”, rekao je Bae.

Dinamičkim prilagođavanjem dubine obrade za svaki segment video ili audio toka, MOR bi mogao otključati još veće uštede troškova i poboljšanja performansi, što dovodi snagu AI velikih razmjera u širi raspon poslovnih aplikacija. Kako se zaključuje, Mor nudi “učinkovit put ka postizanju mogućnosti velikih modela sa značajno smanjenim računalnim i memorijskim režijskim troškovima.”

Dnevni uvidi u slučajeve poslovne uporabe s VB dnevno

Ako želite impresionirati svog šefa, VB Daily vas je pokrivao. Dajemo vam unutarnju lopaticu o tome što tvrtke rade s generativnim AI, od regulatornih pomaka do praktičnih razmještaja, tako da možete dijeliti uvide za maksimalni ROI.

Pročitajte našu politiku privatnosti

Hvala na pretplati. Pogledajte više VB biltena ovdje.

Došlo je do pogreške.

Web izvor

Mješavina rekurzija donosi 2x brže zaključivanje-evo kako je implementirati

ByTomšić Damjan

Izazovi skaliranja LLMS -a

Kako funkcionira mješavina rekurzija

Mor u akciji

Praktičan put za usvajanje poduzeća

By Tomšić Damjan

‘Rust ponovno čini kodiranje zabavnim’: Zašto se Linux udaljava od C-a, prema Gregu Kroah-Hartmanu

Nikada ne idem na odmor, a da prije toga ne obavim ovih 7 sigurnosnih provjera doma

Pixel uređaji dobivaju novu beta verziju

You missed

‘Rust ponovno čini kodiranje zabavnim’: Zašto se Linux udaljava od C-a, prema Gregu Kroah-Hartmanu

Nikada ne idem na odmor, a da prije toga ne obavim ovih 7 sigurnosnih provjera doma

Pixel uređaji dobivaju novu beta verziju

Igrači League of Legends Classica sukobljavaju se s kozmetikom stare škole, jer je vjernost novog načina igre dovedena u pitanje

Mješavina rekurzija donosi 2x brže zaključivanje-evo kako je implementirati

ByTomšić Damjan

Izazovi skaliranja LLMS -a

Kako funkcionira mješavina rekurzija

Mor u akciji

Praktičan put za usvajanje poduzeća

By Tomšić Damjan

Related Post

‘Rust ponovno čini kodiranje zabavnim’: Zašto se Linux udaljava od C-a, prema Gregu Kroah-Hartmanu

Nikada ne idem na odmor, a da prije toga ne obavim ovih 7 sigurnosnih provjera doma

Pixel uređaji dobivaju novu beta verziju

You missed

‘Rust ponovno čini kodiranje zabavnim’: Zašto se Linux udaljava od C-a, prema Gregu Kroah-Hartmanu

Nikada ne idem na odmor, a da prije toga ne obavim ovih 7 sigurnosnih provjera doma

Pixel uređaji dobivaju novu beta verziju

Igrači League of Legends Classica sukobljavaju se s kozmetikom stare škole, jer je vjernost novog načina igre dovedena u pitanje