Standardne smjernice za izgradnju velikih jezičnih modela (LLM) optimiziraju samo troškove obuke i zanemaruju troškove zaključivanja. To predstavlja izazov za aplikacije u stvarnom svijetu koje koriste tehnike skaliranja vremena zaključivanja za povećanje točnosti odgovora modela, kao što je crtanje višestrukih uzoraka rezoniranja iz modela pri implementaciji.
Kako bi premostili ovaj jaz, istraživači sa Sveučilišta Wisconsin-Madison i Sveučilišta Stanford uveli su Uvježbavanje za testiranje (T2) zakoni skaliranja, okvir koji zajednički optimizira veličinu parametra modela, njegovu količinu podataka za obuku i broj uzoraka zaključivanja u vrijeme testiranja.
U praksi, njihov pristup dokazuje da je računalski optimalno trenirati znatno manje modele na mnogo više podataka nego što to propisuju tradicionalna pravila, a zatim koristiti spremljenu računsku potrošnju za generiranje više ponovljenih uzoraka pri zaključivanju.
Za poslovne programere AI aplikacija koji obučavaju vlastite modele, ovo istraživanje pruža dokazani nacrt za maksimiziranje povrata ulaganja. To pokazuje da AI razmišljanje ne zahtijeva nužno trošenje ogromnih iznosa na granične modele. Umjesto toga, manji modeli mogu pružiti jaču izvedbu na složenim zadacima, dok zadržavaju troškove zaključivanja po upitu podesnima unutar proračuna za implementaciju u stvarnom svijetu.
Sadržaj objave
Sukobni zakoni skaliranja
Zakoni skaliranja važan su dio razvoja velikih jezičnih modela. Zakoni o skaliranju prije obuke diktiraju najbolji način za dodjelu računanja tijekom stvaranja modela, dok zakoni skaliranja vremena ispitivanja upute kako dodijeliti računanje tijekom implementacije, kao što je puštanje modela da “dulje razmišlja” ili generiranje višestrukih uzoraka rezoniranja za rješavanje složenih problema.
Problem je u tome što su ti zakoni skaliranja razvijeni potpuno neovisno jedan o drugome unatoč tome što su u osnovi isprepleteni.
Veličina parametra modela i trajanje obuke izravno određuju i kvalitetu i cijenu po upitu njegovih uzoraka zaključivanja. Trenutačno je industrijski zlatni standard za predobuku Pravilo činčilešto sugerira optimalan za izračunavanje omjer od otprilike 20 tokena za obuku za svaki parametar modela.
Međutim, kreatori modernih obitelji modela umjetne inteligencije, kao što su Llama, Gemma i Qwen, redovito krše ovo pravilo namjerno pretrenirajući svoje manje modele na ogromnim količinama podataka.
Kao što je Nicholas Roberts, koautor rada, rekao za VentureBeat, tradicionalni pristup ima problema pri izgradnji složenih agentskih radnih procesa: "Po mom mišljenju, niz zaključaka se raspada kada je svaki pojedinačni poziv zaključivanja skup. To je slučaj kada su modeli veliki i morate napraviti mnogo ponovljenih uzorkovanja." Umjesto da se oslanjaju na masivne modele, programeri mogu koristiti pretrenirane kompaktne modele za pokretanje ovog ponovljenog uzorkovanja uz djelić cijene.
No budući da se zakoni o skaliranju vremena obuke i testiranja ispituju izolirano, ne postoji rigorozan okvir za izračunavanje koliko bi model trebao biti pretreniran na temelju toga koliko će uzoraka rezoniranja morati generirati tijekom implementacije.
Posljedično, ranije nije postojala formula koja zajednički optimizira veličinu modela, količinu podataka za obuku i proračune za zaključivanje vremena testiranja.
Razlog zbog kojeg je ovaj okvir teško formulirati jest taj što skaliranje vremena prije obuke i testiranja govore dva različita matematička jezika. Tijekom predvježbanja, izvedba modela se mjeri korištenjem “gubitka”, glatke, kontinuirane metrike koja prati pogreške predviđanja dok model uči.
U vrijeme testiranja, programeri koriste metriku iz stvarnog svijeta za procjenu sposobnosti razmišljanja modela, kao što je pass@k, koja mjeri vjerojatnost da će model proizvesti barem jedan točan odgovor kroz k neovisnih, ponovljenih pokušaja.
Zakoni skaliranja od treniranja do testiranja
Kako bi riješili nepovezanost između obuke i implementacije, istraživači uvode Train-to-Test (T2) zakoni skaliranja. Na visokoj razini, ovaj okvir predviđa izvedbu rezoniranja modela tretirajući tri varijable kao jednu jednadžbu: veličinu modela (N), količinu tokena učenja iz kojih uči (D) i broj uzoraka rezoniranja koje generira tijekom zaključivanja (k).
T2 kombinira preduvježbavanje i proračune za zaključivanje u jednu optimizacijsku formulu koja uzima u obzir i osnovni trošak za treniranje modela (6ND) i trošak sastavljanja za ponovno postavljanje upita pri zaključivanju (2Nk). Istraživači su isprobali različite pristupe modeliranju: treba li modelirati gubitak prije treninga ili izvedbu tijekom testa (pass@k) kao funkcije N, D i k.
Prvi pristup uzima poznatu matematičku jednadžbu koja se koristi za Chinchilla skaliranje (koja izračunava pogrešku predviđanja modela ili gubitak) i izravno je modificira dodavanjem nove varijable koja uzima u obzir broj ponovljenih uzoraka vremena testiranja (k). To omogućuje razvojnim programerima da vide kako povećanje izračunavanja zaključivanja smanjuje ukupnu stopu pogreške modela.
Drugi pristup izravno modelira nizvodnu pass@k točnost. Programerima govori kolika je vjerojatnost da će njihova aplikacija riješiti problem s određenim računalnim proračunom.
Ali trebaju li poduzeća koristiti ovaj okvir za svaku aplikaciju? Roberts pojašnjava da je ovaj pristup visoko specijaliziran. "Pretpostavljam da ne biste vidjeli toliku korist za aplikacije koje zahtijevaju mnogo znanja, kao što su modeli za chat," rekao je. umjesto toga, "T2 prilagođen je zahtjevnim aplikacijama kao što je kodiranje, gdje biste obično koristili ponovljeno uzorkovanje kao metodu skaliranja vremena testiranja."
Što to znači za programere
Za potvrdu T2 skaliranja zakona, istraživači su izgradili opsežnu testnu površinu od preko 100 jezičnih modela, u rasponu od 5 milijuna do 901 milijuna parametara. Istrenirali su 21 novu, jako pretreniranu kontrolnu točku od nule kako bi provjerili održavaju li se njihove matematičke prognoze u stvarnosti. Zatim su usporedili modele u osam različitih zadataka, koji su uključivali skupove podataka iz stvarnog svijeta kao što su SciQ i OpenBookQA, uz sintetičke zadatke dizajnirane za testiranje aritmetike, prostornog razmišljanja i prisjećanja znanja.
Oba njihova matematička modela dokazala su da se granica optimalnog računanja drastično pomiče od standardnog Chinchilla skaliranja. Kako bi se maksimizirala izvedba pod fiksnim proračunom, optimalan izbor je model koji je značajno manji i obučen na mnogo više podataka nego što nalaže tradicionalno pravilo od 20 tokena po parametru.
U njihovim eksperimentima, visoko pretrenirani mali modeli dosljedno su nadmašivali veće, Chinchilla-optimalne modele u svih osam evaluacijskih zadataka kada su uračunati troškovi uzorkovanja tijekom testiranja.
Za programere koji žele primijeniti ova otkrića tehnička je prepreka iznenađujuće niska.
"Nije potrebno ništa posebno za izvođenje skaliranja testnog vremena s našim trenutnim modelima," rekao je Roberts. "Prilikom implementacije, programeri mogu apsolutno integrirati infrastrukturu koja čini proces uzorkovanja učinkovitijim (npr. KV predmemoriranje ako koristite transformator)."
KV predmemoriranje pomaže pohranjivanjem prethodno obrađenog konteksta tako da model ne mora ponovno čitati početni prompt od nule za svaki novi uzorak rezoniranja.
Međutim, ekstremna pretreniranost dolazi s praktičnim kompromisima. Dok pretrenirani modeli mogu biti notorno tvrdoglavi i teži za fino ugađanje, Roberts primjećuje da kada su primijenili nadzirano fino ugađanje, "iako je ovaj učinak bio prisutan, nije bio dovoljno jak učinak da se optimalni model vrati Chinchilli." Strategija optimalnog računanja ostaje definitivno usmjerena prema kompaktnim modelima.
Ipak, timovi koji to guraju do apsolutne granice moraju paziti da ne dosegnu ograničenja fizičkih podataka. "Drugi kut je da ako naše preporuke za pretreniranost dovedete do krajnosti, zapravo biste mogli ostati bez podataka o treningu," rekao je Roberts, misleći na nazirenje "podatkovni zid" gdje se iscrpljuju visokokvalitetni internetski podaci.
Ovi eksperimenti potvrđuju da je, ako se aplikacija oslanja na generiranje višestrukih uzoraka obrazloženja tijekom testiranja, agresivno pretreniranje kompaktnog modela praktički i matematički najučinkovitiji način da se potroši računalni proračun od početka do kraja.
Kako bi pomogao razvojnim programerima da počnu, istraživački tim planira uskoro otvoriti svoje kontrolne točke i kod, omogućujući tvrtkama da uključe vlastite podatke i odmah testiraju ponašanje skaliranja. U konačnici, ovaj okvir služi kao izjednačujuća snaga u industriji umjetne inteligencije.
Ovo je posebno ključno jer visoka cijena graničnih modela može postati prepreka dok skalirate agentske aplikacije koje se oslanjaju na modele razmišljanja.
"T2 iz temelja mijenja tko može graditi jake modele rezoniranja," zaključuje Roberts. "Možda vam neće trebati veliki računalni proračuni da biste dobili najsuvremenije obrazloženje. Umjesto toga, potrebni su vam dobri podaci i pametna raspodjela proračuna za obuku i zaključivanje."
