Pridružite se našim dnevnim i tjednim biltenima za najnovija ažuriranja i ekskluzivni sadržaj na vodećim AI pokrivenosti. Saznati više
Dva popularna pristupa za prilagođavanje velikih jezičnih modela (LLMS) za zadatke nizvodno su fino podešavanje i učenje u kontekstu (ICL). U a nedavna studijaistraživači sa Sveučilišta Google DeepMind i Stanford istraživali su mogućnosti generalizacije ove dvije metode. Otkrivaju da ICL ima veću sposobnost generalizacije (iako dolazi uz veći trošak računanja tijekom zaključivanja). Oni također predlažu novi pristup kako bi dobili najbolje iz oba svijeta.
Nalazi mogu pomoći programerima da donesu ključne odluke prilikom izrade LLM aplikacija za svoje podatke o poduzeću.
Sadržaj objave
Testiranje kako jezični modeli uče nove trikove
Fino podešavanje uključuje uzimanje unaprijed obučenog LLM-a i dodatno ga obučavanje na manjem, specijaliziranom skupu podataka. Ovo prilagođava unutarnje parametre modela kako bi ga podučavali novim znanjem ili vještinama. S druge strane, Intext Learning (ICL) ne mijenja temeljne parametre modela. Umjesto toga, on vodi LLM pružanjem primjera željenog zadatka izravno unutar ulaznog propisa. Model zatim koristi ove primjere kako bi shvatio kako se nositi s novim, sličnim upitom.
Istraživači su namjeravali strogo usporediti koliko se modeli generaliziraju s novim zadacima koristeći ove dvije metode. Konstruirali su „kontrolirane sintetičke skupove podataka činjeničnog znanja“ sa složenim, samosvjesnim strukturama, poput imaginarnih obiteljskih stabala ili hijerarhije izmišljenih koncepata.
Kako bi osigurali da testiraju sposobnost modela da nauče nove informacije, zamijenili su sve imenice, pridjeve i glagole gluposti, izbjegavajući bilo kakvo preklapanje s podacima s kojima su se LLM-ovi mogli susresti tijekom pred-treninga.
Modeli su zatim testirani na raznim izazovima generalizacije. Na primjer, jedan test uključen Jednostavni preokreti. Ako je trenirao model da je “FEMP opasniji od glona”, može li to ispravno zaključiti da su “gljivica manje opasna od FEMP -a”? Još jedan test usredotočen na Jednostavni silogizmioblik logičkog odbitka. Ako mu se kaže “svi su gloni su yomp” i “svi troff su glin”, može li model zaključiti da su “svi troff Yomp”? Također su koristili složeniju “referentnu vrijednost semantičke strukture” s bogatijom hijerarhijom ovih izmišljenih činjenica kako bi testirali više nijansiranog razumijevanja.
„Naši se rezultati usredotočuju prvenstveno na postavke o tome kako se modeli generaliziraju na odbitke i preokrete od preciznog prilagođavanja novih struktura znanja, s jasnim implikacijama na situacije kada se fino podešavanje koristi za prilagodbu modela specifičnim i vlasničkim informacijama specifičnim za tvrtku“, Andrew Lampinen, istraživački znanstvenik na Googleu DeepMind-u i vodstvu papira.
Da bi procijenili performanse, istraživači su na tim skupovima podataka Flash-a prilagodili Blizanci 1.5. Za ICL, oni su prije postavljanja testnih pitanja hranili cijeli skup podataka (ili velikih podskupova) kao kontekst na upućeni model.
Rezultati su dosljedno pokazali da je, u postavkama koje se podudaraju s podacima, ICL doveo do bolje generalizacije od standardnog finog podešavanja. Modeli koji su koristili ICL općenito su bili bolji u zadacima poput preokreta odnosa ili logičkih odbitaka iz određenog konteksta. Unaprijed trenirani modeli, bez finog podešavanja ili ICL-a, izveli su loše, što ukazuje na novosti podataka o testu.
“Jedan od glavnih kompromisa koje treba uzeti u obzir jest da, iako ICL ne zahtijeva precizno prilagođavanje (što štedi troškove obuke), općenito je računalno skuplji sa svakom uporabom, jer zahtijeva davanje dodatnog konteksta modelu”, rekao je Lampinen. “S druge strane, ICL se bolje generalizira za skupove podataka i modele koje smo procijenili.”
Hibridni pristup: povećanje finog podešavanja
Nastavljajući na opažanju da se ICL ističe u fleksibilnoj generalizaciji, istraživači su predložili novu metodu za poboljšanje finog podešavanja: dodavanje zaključaka u kontekstu u fino podešavanje podataka. Temeljna ideja je korištenje vlastitih ICL mogućnosti LLM-a za generiranje raznolikih i bogato zaključenih primjera, a zatim dodavanje ovih proširenih primjera u skup podataka koji se koristi za fino podešavanje.
Istražili su dvije glavne strategije povećanja podataka:
- A lokalna strategija: Ovaj se pristup usredotočuje na pojedinačne informacije. LLM se traži da preformulira pojedinačne rečenice iz podataka o treningu ili iz njih izvuče izravne zaključke, poput generiranja preokreta.
- A globalna strategija: LLM daje potpuni skup podataka o treningu kao kontekst, a zatim se traži da generira zaključke povezivanjem određenog dokumenta ili činjenice s ostalim podacima, što dovodi do dužeg traga relevantnih zaključaka.
Kad su modeli bili fino podešeni na ovim proširenim skupovima podataka, dobici su bili značajni. Ovo prošireno fino podešavanje značajno je poboljšalo generalizaciju, nadmašujući ne samo standardno fino podešavanje, već i običan ICL.
“Na primjer, ako jedan od dokumenata tvrtke kaže da je” XYZ interni alat za analizu podataka “, naši rezultati sugeriraju da će ICL i prošireni finetuning biti učinkovitiji u omogućavanju modelu da odgovore na povezana pitanja poput” Koji interni alati za analizu podataka postoje? “
Ovaj pristup nudi uvjerljiv put naprijed za poduzeća. Ulaganjem u stvaranje ovih skupova podataka s ICL-om, programeri mogu izgraditi fino podešene modele koji pokazuju jače mogućnosti generalizacije.
To može dovesti do robusnijih i pouzdanijih LLM aplikacija koje se bolje snalaze na različitim unosima u stvarnom svijetu, a da pritom ne nastanu kontinuirane troškove zaključivanja povezanih s velikim upitama u kontekstu.
“Prošireno precizno prilagođavanje općenito će učiniti proces prilagođavanja modela skupljim, jer zahtijeva dodatni korak ICL-a za povećanje podataka, nakon čega slijedi fino podešavanje”, rekla je Lampinen. “Hoće li taj dodatni trošak zaslužiti poboljšana generalizacija ovisit će o slučaju specifične uporabe. Međutim, on je računalno jeftiniji od primjene ICL -a svaki put kada se model koristi, kada se amortizira tijekom mnogih uporabe modela.”
Dok je Lampinen napomenuo da su potrebna daljnja istraživanja kako bi se vidjelo kako komponente koje su proučavali međusobno djeluju u različitim postavkama, dodao je da njihova otkrića ukazuju na to da bi programeri možda htjeli razmotriti istraživanje povećanog prilagođenog prilagođavanja u slučajevima kada vide neadekvatne performanse samo od finog podešavanja.
“U konačnici, nadamo se da će ovaj rad pridonijeti znanosti o razumijevanju učenja i generalizacije u modelima temelja i praktičnosti prilagođavanja njihovim zadacima nizvodno”, rekla je Lampinen.
Web izvor