• Sri. svi 20th, 2026

Oblak Znanja

informatička edukacija i vijesti

Deepseek otkriva novu tehniku ​​za pametnije, skalabilne AI modele nagrađivanja

ByTomšić Damjan

tra 9, 2025

Pridružite se našim dnevnim i tjednim biltenima za najnovija ažuriranja i ekskluzivni sadržaj na vodećim AI pokrivenosti. Saznati više


Deepseek Aikineski istraživački laboratorij koji je dobio prepoznavanje svojih moćnih jezičnih modela otvorenog koda kao što je DeepSeek-R1, uveo je značajan napredak u modeliranju nagrade za velike jezične modele (LLMS).

Njihova nova tehnika, samo-principilantna kritika ugađanja (SPCT), ima za cilj stvoriti opće i skalabilne modele nagrađivanja (RMS). To bi potencijalno moglo dovesti do sposobnijih AI aplikacija za otvorene zadatke i domene u kojima trenutni modeli ne mogu uhvatiti nijanse i složenosti svog okruženja i korisnika.

Ključna uloga i trenutna ograničenja modela nagrađivanja

Učenje pojačanja (RL) postalo je kamen temeljac u razvoju vrhunskih LLM-ova. U RL-u se modeli precizno prilagođavaju na temelju povratnih signala koji ukazuju na kvalitetu njihovih odgovora.

Modeli nagrađivanja su kritična komponenta koja pruža ove signale. U osnovi, RM djeluje kao sudac, ocjenjujući LLM izlaze i dodjeljujući rezultat ili “nagradu” koji vodi RL proces i uči LLM da proizvede korisnije odgovore.

Međutim, trenutni RM -ovi često se suočavaju s ograničenjima. Obično su izvrsne u uskim domenama s jasnim pravilima ili lako provjerljivim odgovorima. Na primjer, trenutni modeli vrhunskih obrazloženja poput DeepSeek-R1 podvrgnuti su se RL fazi, u kojoj su bili osposobljeni za probleme matematike i kodiranja u kojima je osnovna istina jasno definirana.

Međutim, stvaranje modela nagrađivanja za složene, otvorene ili subjektivne upite u općenito domena ostaje glavna prepreka. U papir Objašnjavajući njihovu novu tehniku, istraživači iz DeepSeek AI pišu: “Generalistički RM zahtijeva da generiraju visokokvalitetne nagrade izvan određenih domena, gdje su kriteriji za nagrade raznolikiji i složeniji, a često nema eksplicitne referentne ili prizemne istine.”

Oni ističu četiri ključna izazova u stvaranju općih RMS -a sposobnih za rukovanje širim zadacima:

  1. Ulazna fleksibilnost: RM mora podnijeti različite vrste ulaza i biti u mogućnosti istovremeno procijeniti jedan ili više odgovora.
  2. Točnost: Mora generirati točne signale nagrađivanja u različitim domenama u kojima su kriteriji složeni, a zemaljska istina često nije dostupna.
  3. Skalabilnost zaključivanja: RM bi trebao proizvesti visokokvalitetne nagrade kada se tijekom zaključivanja dodjeljuju više računalnih resursa.
  4. Učenje skalabilnog ponašanja: Da bi se RMS učinkovito skalirao u vrijeme zaključivanja, oni trebaju naučiti ponašanja koja omogućuju poboljšane performanse jer se koristi više računanja.
Različite vrste modela nagrađivanja Kreditna: ARXIV

Modeli nagrađivanja mogu se široko klasificirati njihovom “paradigmom stvaranja nagrade” (npr. Skalarni RMS koji iznosi jedan rezultat, generativni RMS koji proizvode tekstualne kritike) i njihov “uzorak bodovanja” (npr. Pointno bodovanje dodjeljuje individualne rezultate svakom odgovoru, u paru odabire bolje dva odgovora). Ovi izbora dizajna utječu na prikladnost modela za opće zadatke, posebno ulazna fleksibilnost i potencijal za Skaliranje vremena zaključivanja.

Na primjer, jednostavni skalarni RMS bore se s skaliranjem zaključivanja jer će više puta generirati isti rezultat, dok parnih RMS-a ne može lako ocijeniti pojedinačne odgovore.

Istraživači predlažu da „usmjereno generativno modeliranje nagrade“ (GRM), gdje model generira tekstualne kritike i dobiva rezultate iz njih, može ponuditi fleksibilnost i skalabilnost potrebnu za opće zahtjeve.

Tim DeepSeek proveo je preliminarne eksperimente na modelima poput GPT-4O i Gemma-2-27B, i otkrio je da bi „određena načela mogla voditi stvaranje nagrade u pravilnim kriterijima za GRM-ove, poboljšavajući kvalitetu nagrada, što nas je nadahnulo da bi se vremenska skalabilnost RM-a mogla postići skaliranjem načela visoke kvalitete i izražaja.“

Obuka RMS -a za stvaranje vlastitih principa

Na temelju ovih nalaza, istraživači su razvili samoprincipil kritiku ugađanja (SPCT), koji trenira GRM za generiranje načela i kritika na temelju upitova i odgovora dinamički.

Istraživači predlažu da načela trebaju biti “dio stvaranja nagrade umjesto koraka prethodne obrade”. Na ovaj način GRM -ovi bi mogli generirati načela u letu na temelju zadatka koji ocjenjuju, a zatim generirati kritike na temelju principa.

“Ovaj pomak omogućuje [the] Načela koja se generiraju na temelju upita i odgovora, adaptivno usklađivanje [the] Proces stvaranja nagrade i kvaliteta i preciznost principa i odgovarajućih kritika mogli bi se dodatno poboljšati nakon treninga na GRM-u “, pišu istraživači.

Samoprihvaćanje kritike za ugađanje (SPCT) Kredit: ARXIV

SPCT uključuje dvije glavne faze:

  1. Odbacivanje finog podešavanja: Ova faza obučava GRM kako bi generirala principe i kritike za različite vrste unosa pomoću ispravnog formata. Model stvara načela, kritike i nagrade za dane upite/odgovore. Putanje (pokušaji generacije) prihvaćaju se samo ako se predviđena nagrada uskladi s osnovnom istinom (na primjer, ispravno identificiranje boljeg odgovora) i odbačenih drugačije. Ovaj se postupak ponavlja i model je precizan na filtriranim primjerima kako bi se poboljšao svoj princip/stvaranje kritika.
  2. RL temeljen na pravilima: U ovoj fazi model se dodatno prilagođava učenjem pojačanja temeljenog na ishodima. GRM stvara načela i kritike za svaki upit, a signali nagrađivanja izračunavaju se na temelju jednostavnih pravila o točnosti (npr. Je li odabrao poznati najbolji odgovor?). Tada se model ažurira. To potiče GRM da nauči kako generirati učinkovite principe i točne kritike dinamički i na skalabilan način.

“Korištenje mrežnog RL-a zasnovanog na pravilima, SPCT omogućuje GRMS-u da nauči adaptivno pozitivno načela i kritike na temelju upita i odgovora unosa, što dovodi do boljih nagrada ishoda u općim domenama”, pišu istraživači.

Da bi se riješili izazov za skaliranje zaključivanja (postižući bolje rezultate s više računanja), istraživači više puta pokreću GRM za isti unos, generirajući različite skupove principa i kritike. Konačna nagrada određuje se glasovanjem (agregiranjem rezultata uzoraka). To omogućava modelu da razmotri širi raspon perspektiva, što dovodi do potencijalno preciznijih i nijansiranih konačnih prosudbi jer mu se pruža više resursa.

Međutim, neki generirani principi/kritike mogu biti nekvalitetni ili pristrani zbog ograničenja ili slučajnosti modela. Da bi se riješili, istraživači su predstavili “meta RM ” – Odvojena, lagana skalarna RM obučena je posebno za predviđanje hoće li princip/kritika generirana od primarnog GRM -a vjerojatno dovesti do ispravne konačne nagrade.

Tijekom zaključka, Meta RM procjenjuje generirane uzorke i filtrira nekvalitetne presude prije konačnog glasanja, dodatno povećavajući performanse skaliranja.

SPCT u praksu s Deepseek-GRM

Istraživači su primijenili SPCT na Gemma-2-27B, Googleov model otvorene težine, stvarajući DeepSeek-GRM-27B. Procijenili su ga protiv nekoliko snažnih osnovnih RMS-a (uključujući LLM-As-A-sudge, skalarne RMS i polu-skalarne RMS) i javne modele (poput GPT-4O i Nemotron-4-340B-WARWARW) u više referentnih vrijednosti.

Otkrili su da je DeepSeek-GRM-27B nadmašio osnovne metode obučene na iste podatke. SPCT je značajno poboljšao kvalitetu i, što je presudno, skalabilnost zaključivanja u odnosu na standardno fino podešavanje.

Izvedba DeepSeek-GRM (obučena s SPCT-om) i dalje se poboljšava s kreditnim kreditom za vrijeme zaključivanja: ARXIV

Kada se skalira u vrijeme zaključivanja stvaranjem više uzoraka, performanse DeepSeek-GRM-27B značajno su se povećale, nadmašivši čak i mnogo veće modele poput Nemotron-4-340B-nagrade i GPT-4O. Meta RM je dodatno poboljšao skaliranje, postižući najbolje rezultate filtriranjem prosudbi.

“Uz uzorkovanje većih razmjera, DeepSeek-GRM mogao bi preciznije prosuditi na načela s većom raznolikošću i izlaznim nagradama s finijom granularnošću”, pišu istraživači.

Zanimljivo je da je SPCT pokazao manju pristranost u različitim domenama u usporedbi sa skalarnim RMS -om, koji su se često vršili na provjerljivim zadacima, ali drugdje loše.

Implikacije na poduzeće

Razvijanje više općih i skalabilnih modela nagrađivanja može biti obećavajuće za AI aplikacije poduzeća. Potencijalna područja koja mogu imati koristi od generalističkih RM -ova uključuju kreativne zadatke i aplikacije u kojima se model mora prilagoditi dinamičnim okruženjima kao što su razvijajuće preferencije kupaca.

Unatoč jakim rezultatima, DeepSeek-GRM i dalje zaostaje za specijaliziranim skalarnim RMS-om na čisto provjerljivim zadacima u kojima bi izričita stvaranja rasuđivanja mogla biti manje učinkovita od izravnog bodovanja. Učinkovitost također ostaje izazov u usporedbi s ne generativnim RMS-om.

Tim DeepSeek sugerira da će se budući rad usredotočiti na poboljšanja učinkovitosti i dublju integraciju. Kako zaključuju, “budući upute mogu uključivati ​​integriranje GRM-a u internetske RL cjevovode kao svestrana sučelja sustava nagrađivanja, istraživanje koreliranja zaključivanja s modelima politike ili služenje kao robusni izvanmrežni evaluatori za modele temelja.”



Web izvor

By Tomšić Damjan

Pozdrav, ja sam Damjan Tomšić, osnivatelj i urednik informatičko edukativnog bloga Oblak Znanja. Za Vas ću se potruditi da dobijete edukativne članke, savjete i recenzije vezane uz osnovno i napredno korištenje računala i interneta. Kontak: Google+, Gmail.