Pridružite se našim dnevnim i tjednim biltenima za najnovija ažuriranja i ekskluzivni sadržaj na vodećim AI pokrivenosti. Saznati više
Deepseek Aikineski istraživački laboratorij koji je dobio prepoznavanje svojih moćnih jezičnih modela otvorenog koda kao što je DeepSeek-R1, uveo je značajan napredak u modeliranju nagrade za velike jezične modele (LLMS).
Njihova nova tehnika, samo-principilantna kritika ugađanja (SPCT), ima za cilj stvoriti opće i skalabilne modele nagrađivanja (RMS). To bi potencijalno moglo dovesti do sposobnijih AI aplikacija za otvorene zadatke i domene u kojima trenutni modeli ne mogu uhvatiti nijanse i složenosti svog okruženja i korisnika.
Sadržaj objave
Ključna uloga i trenutna ograničenja modela nagrađivanja
Učenje pojačanja (RL) postalo je kamen temeljac u razvoju vrhunskih LLM-ova. U RL-u se modeli precizno prilagođavaju na temelju povratnih signala koji ukazuju na kvalitetu njihovih odgovora.
Modeli nagrađivanja su kritična komponenta koja pruža ove signale. U osnovi, RM djeluje kao sudac, ocjenjujući LLM izlaze i dodjeljujući rezultat ili “nagradu” koji vodi RL proces i uči LLM da proizvede korisnije odgovore.
Međutim, trenutni RM -ovi često se suočavaju s ograničenjima. Obično su izvrsne u uskim domenama s jasnim pravilima ili lako provjerljivim odgovorima. Na primjer, trenutni modeli vrhunskih obrazloženja poput DeepSeek-R1 podvrgnuti su se RL fazi, u kojoj su bili osposobljeni za probleme matematike i kodiranja u kojima je osnovna istina jasno definirana.
Međutim, stvaranje modela nagrađivanja za složene, otvorene ili subjektivne upite u općenito domena ostaje glavna prepreka. U papir Objašnjavajući njihovu novu tehniku, istraživači iz DeepSeek AI pišu: “Generalistički RM zahtijeva da generiraju visokokvalitetne nagrade izvan određenih domena, gdje su kriteriji za nagrade raznolikiji i složeniji, a često nema eksplicitne referentne ili prizemne istine.”
Oni ističu četiri ključna izazova u stvaranju općih RMS -a sposobnih za rukovanje širim zadacima:
- Ulazna fleksibilnost: RM mora podnijeti različite vrste ulaza i biti u mogućnosti istovremeno procijeniti jedan ili više odgovora.
- Točnost: Mora generirati točne signale nagrađivanja u različitim domenama u kojima su kriteriji složeni, a zemaljska istina često nije dostupna.
- Skalabilnost zaključivanja: RM bi trebao proizvesti visokokvalitetne nagrade kada se tijekom zaključivanja dodjeljuju više računalnih resursa.
- Učenje skalabilnog ponašanja: Da bi se RMS učinkovito skalirao u vrijeme zaključivanja, oni trebaju naučiti ponašanja koja omogućuju poboljšane performanse jer se koristi više računanja.
Modeli nagrađivanja mogu se široko klasificirati njihovom “paradigmom stvaranja nagrade” (npr. Skalarni RMS koji iznosi jedan rezultat, generativni RMS koji proizvode tekstualne kritike) i njihov “uzorak bodovanja” (npr. Pointno bodovanje dodjeljuje individualne rezultate svakom odgovoru, u paru odabire bolje dva odgovora). Ovi izbora dizajna utječu na prikladnost modela za opće zadatke, posebno ulazna fleksibilnost i potencijal za Skaliranje vremena zaključivanja.
Na primjer, jednostavni skalarni RMS bore se s skaliranjem zaključivanja jer će više puta generirati isti rezultat, dok parnih RMS-a ne može lako ocijeniti pojedinačne odgovore.
Istraživači predlažu da „usmjereno generativno modeliranje nagrade“ (GRM), gdje model generira tekstualne kritike i dobiva rezultate iz njih, može ponuditi fleksibilnost i skalabilnost potrebnu za opće zahtjeve.
Tim DeepSeek proveo je preliminarne eksperimente na modelima poput GPT-4O i Gemma-2-27B, i otkrio je da bi „određena načela mogla voditi stvaranje nagrade u pravilnim kriterijima za GRM-ove, poboljšavajući kvalitetu nagrada, što nas je nadahnulo da bi se vremenska skalabilnost RM-a mogla postići skaliranjem načela visoke kvalitete i izražaja.“
Obuka RMS -a za stvaranje vlastitih principa
Na temelju ovih nalaza, istraživači su razvili samoprincipil kritiku ugađanja (SPCT), koji trenira GRM za generiranje načela i kritika na temelju upitova i odgovora dinamički.
Istraživači predlažu da načela trebaju biti “dio stvaranja nagrade umjesto koraka prethodne obrade”. Na ovaj način GRM -ovi bi mogli generirati načela u letu na temelju zadatka koji ocjenjuju, a zatim generirati kritike na temelju principa.
“Ovaj pomak omogućuje [the] Načela koja se generiraju na temelju upita i odgovora, adaptivno usklađivanje [the] Proces stvaranja nagrade i kvaliteta i preciznost principa i odgovarajućih kritika mogli bi se dodatno poboljšati nakon treninga na GRM-u “, pišu istraživači.
SPCT uključuje dvije glavne faze:
- Odbacivanje finog podešavanja: Ova faza obučava GRM kako bi generirala principe i kritike za različite vrste unosa pomoću ispravnog formata. Model stvara načela, kritike i nagrade za dane upite/odgovore. Putanje (pokušaji generacije) prihvaćaju se samo ako se predviđena nagrada uskladi s osnovnom istinom (na primjer, ispravno identificiranje boljeg odgovora) i odbačenih drugačije. Ovaj se postupak ponavlja i model je precizan na filtriranim primjerima kako bi se poboljšao svoj princip/stvaranje kritika.
- RL temeljen na pravilima: U ovoj fazi model se dodatno prilagođava učenjem pojačanja temeljenog na ishodima. GRM stvara načela i kritike za svaki upit, a signali nagrađivanja izračunavaju se na temelju jednostavnih pravila o točnosti (npr. Je li odabrao poznati najbolji odgovor?). Tada se model ažurira. To potiče GRM da nauči kako generirati učinkovite principe i točne kritike dinamički i na skalabilan način.
“Korištenje mrežnog RL-a zasnovanog na pravilima, SPCT omogućuje GRMS-u da nauči adaptivno pozitivno načela i kritike na temelju upita i odgovora unosa, što dovodi do boljih nagrada ishoda u općim domenama”, pišu istraživači.
Da bi se riješili izazov za skaliranje zaključivanja (postižući bolje rezultate s više računanja), istraživači više puta pokreću GRM za isti unos, generirajući različite skupove principa i kritike. Konačna nagrada određuje se glasovanjem (agregiranjem rezultata uzoraka). To omogućava modelu da razmotri širi raspon perspektiva, što dovodi do potencijalno preciznijih i nijansiranih konačnih prosudbi jer mu se pruža više resursa.
Međutim, neki generirani principi/kritike mogu biti nekvalitetni ili pristrani zbog ograničenja ili slučajnosti modela. Da bi se riješili, istraživači su predstavili “meta RM ” – Odvojena, lagana skalarna RM obučena je posebno za predviđanje hoće li princip/kritika generirana od primarnog GRM -a vjerojatno dovesti do ispravne konačne nagrade.
Tijekom zaključka, Meta RM procjenjuje generirane uzorke i filtrira nekvalitetne presude prije konačnog glasanja, dodatno povećavajući performanse skaliranja.
SPCT u praksu s Deepseek-GRM
Istraživači su primijenili SPCT na Gemma-2-27B, Googleov model otvorene težine, stvarajući DeepSeek-GRM-27B. Procijenili su ga protiv nekoliko snažnih osnovnih RMS-a (uključujući LLM-As-A-sudge, skalarne RMS i polu-skalarne RMS) i javne modele (poput GPT-4O i Nemotron-4-340B-WARWARW) u više referentnih vrijednosti.
Otkrili su da je DeepSeek-GRM-27B nadmašio osnovne metode obučene na iste podatke. SPCT je značajno poboljšao kvalitetu i, što je presudno, skalabilnost zaključivanja u odnosu na standardno fino podešavanje.
Kada se skalira u vrijeme zaključivanja stvaranjem više uzoraka, performanse DeepSeek-GRM-27B značajno su se povećale, nadmašivši čak i mnogo veće modele poput Nemotron-4-340B-nagrade i GPT-4O. Meta RM je dodatno poboljšao skaliranje, postižući najbolje rezultate filtriranjem prosudbi.
“Uz uzorkovanje većih razmjera, DeepSeek-GRM mogao bi preciznije prosuditi na načela s većom raznolikošću i izlaznim nagradama s finijom granularnošću”, pišu istraživači.
Zanimljivo je da je SPCT pokazao manju pristranost u različitim domenama u usporedbi sa skalarnim RMS -om, koji su se često vršili na provjerljivim zadacima, ali drugdje loše.
Implikacije na poduzeće
Razvijanje više općih i skalabilnih modela nagrađivanja može biti obećavajuće za AI aplikacije poduzeća. Potencijalna područja koja mogu imati koristi od generalističkih RM -ova uključuju kreativne zadatke i aplikacije u kojima se model mora prilagoditi dinamičnim okruženjima kao što su razvijajuće preferencije kupaca.
Unatoč jakim rezultatima, DeepSeek-GRM i dalje zaostaje za specijaliziranim skalarnim RMS-om na čisto provjerljivim zadacima u kojima bi izričita stvaranja rasuđivanja mogla biti manje učinkovita od izravnog bodovanja. Učinkovitost također ostaje izazov u usporedbi s ne generativnim RMS-om.
Tim DeepSeek sugerira da će se budući rad usredotočiti na poboljšanja učinkovitosti i dublju integraciju. Kako zaključuju, “budući upute mogu uključivati integriranje GRM-a u internetske RL cjevovode kao svestrana sučelja sustava nagrađivanja, istraživanje koreliranja zaključivanja s modelima politike ili služenje kao robusni izvanmrežni evaluatori za modele temelja.”
Web izvor
