Vaši AI modeli ne uspijevaju u proizvodnji – evo kako popraviti odabir modela

Pridružite se našim dnevnim i tjednim biltenima za najnovija ažuriranja i ekskluzivni sadržaj na vodećim AI pokrivenosti. Saznati više

Poduzeća moraju znati rade li modeli koji napajaju svoje aplikacije i agenti u stvarnim scenarijima. Ova vrsta evaluacije ponekad može biti složena jer je teško predvidjeti određene scenarije. Obnovljena verzija RewardBench Benchmark-a čini organizacijama bolju predodžbu o izvedbi stvarnog života modela.

A Allen Institut za AI (AI2) Pokrenuli nagradu RewardBench 2, ažuriranu verziju referentne vrijednosti modela nagrađivanja, RewardBench, za koju tvrde da pruža cjelovitiji prikaz performansi modela i procjenjuje kako se modeli usklađuju s ciljevima i standardima poduzeća.

AI2 je izgradio nagradu s klasifikacijskim zadacima koji mjere korelacije kroz izračunavanje i trening nizvodno. RewardBench se uglavnom bavi modelima nagrađivanja (RM), koji mogu djelovati kao suci i procijeniti LLM izlaze. RMS dodijelite rezultat ili “nagradu” koja vodi učenje pojačanja s ljudskim povratnim informacijama (RHLF).

RewardBench 2 je ovdje! Trebali smo dugo da naučimo iz našeg prvog alata za procjenu modela nagrađivanja kako bismo napravili onaj koji je znatno teže i više povezano s skaliranjem RLHF-a nizvodno i vremenom zaključivanja. pic.twitter.com/ngetvnroqv
– Ai2 (@allen_ai) 2. lipnja 2025

Nathan Lambert, viši znanstvenik u AI2, rekao je za VentureBeat da je prva nagrađivača djelovala onako kako je predviđeno kad je pokrenut. Ipak, model okruženja brzo se razvijalo, a isto tako i njezina mjerila.

“Kako su modeli nagrađivanja postajali napredniji i koristili su slučajeve nijansiraniji, brzo smo s zajednicom prepoznali da prva verzija nije u potpunosti uhvatila složenost ljudskih preferencija u stvarnom svijetu”, rekao je.

Lambert je dodao da smo s RewardBenchom 2, “namjeravali poboljšati širinu i dubinu evaluacije – udružujući raznovrsnije, izazovnije upute i usavršavanje metodologije da bolje odražavaju kako ljudi zapravo prosuđuju AI izlaze u praksi.” Kazao je da druga verzija koristi neviđene ljudske upute, ima izazovniju postavku i nove domene.

Sadržaj objave

1 Korištenje evaluacija za modele koji ocjenjuju
2 Kako su se modeli izvodili
- 2.1 Povezani sadržaji

Korištenje evaluacija za modele koji ocjenjuju

Iako modeli nagrađivanja testiraju kako dobro funkcioniraju modeli, također je važno da se RMS uskladi s vrijednostima tvrtke; Inače, postupak učenja finog podešavanja i pojačanja može ojačati loše ponašanje, poput halucinacije, smanjiti generalizaciju i previsoko postići štetne odgovore.

Nagrađivanje 2 obuhvaća šest različitih domena: činjeničnost, precizno podučavanje, matematika, sigurnost, fokus i kravate.

„Poduzeća bi trebala koristiti nagradu na dva različita načina, ovisno o njihovoj primjeni. Ako sami izvode RLHF, trebali bi usvojiti najbolje prakse i skupove podataka iz vodećih modela u vlastitim cjevovodima, jer modeli nagrađivanja trebaju na političkoj treningu (tj. Nagradni modeli koji se mogu prirediti s tim da će se ugraditi u domet). Nastup “, rekao je Lambert.

Lambert je napomenuo da referentne vrijednosti poput RewardBench-a nude korisnicima način da procijene modele koje odaberu na temelju “dimenzija koje su im najvažnije, a ne oslanjajući se na uski rezultat jedne veličine.” Kazao je da je ideja o učinku, za koju mnoge metode evaluacije tvrde da je procjenjivanje, vrlo subjektivna jer dobar odgovor modela vrlo ovisi o kontekstu i ciljevima korisnika. U isto vrijeme, ljudske preferencije postaju vrlo nijansirane.

AI 2 objavio je prvu verziju Nagrađivanje u ožujku 2024. U to je vrijeme tvrtka rekla da je to prvo mjerilo i ploča s liderom za modele nagrađivanja. Od tada se pojavilo nekoliko metoda za usporedbu i poboljšanje RM -a. Istraživači na MetaSajam je izašao s Rewordbench. Deepseek Objavio je novu tehniku pod nazivom samoprincipil kritika ugađanja za pametnije i skalabilno RM.

Super uzbuđen što je naša evaluacija modela druge nagrade. Znatno je tvrđi, mnogo čistiji i dobro je povezan s uzorkovanjem PPO/BON nizvodno.
Sretno brdsko spajanje!
Ogromne čestitke @saumyamalik44 koji vode projekt s potpunom predanošću izvrsnosti. https://t.co/c0b6rhtxy5
– Nathan Lambert (@natolambert) 2. lipnja 2025

Kako su se modeli izvodili

Budući da je RewardBench 2 ažurirana verzija RewardBench -a, AI2 je testirao i postojeće i novo obučene modele kako bi vidjeli da li i dalje visoko rangiraju. Oni su uključivali različite modele, poput verzija Blizanca, Claudea, GPT-4. i LLAMA-3.1, zajedno s skupovima podataka i modelima poput Qwen, Skywork i vlastitim Tulu.

Tvrtka je otkrila da veći modeli nagrađivanja najbolje djeluju na referentnoj vrijednosti jer su njihovi osnovni modeli jači. Sve u svemu, najjači modeli su varijante upute LLAMA-3.1. U pogledu fokusa i sigurnosti, podaci o Skyworku “posebno su korisni”, a Tulu je dobro uspio u činjeničnosti.

AI2 je rekao da su, iako vjeruju da je RewardBench 2 “korak naprijed u širokoj, multi-domenoj procjeni na temelju točnosti” za modele nagrađivanja, upozorili su da bi se procjena modela trebala uglavnom koristiti kao vodič za odabir modela koji najbolje rade s potrebama poduzeća.

Dnevni uvidi u slučajeve poslovne uporabe s VB dnevno

Ako želite impresionirati svog šefa, VB Daily vas je pokrivao. Dajemo vam unutarnju lopaticu o tome što tvrtke rade s generativnim AI, od regulatornih pomaka do praktičnih razmještaja, tako da možete dijeliti uvide za maksimalni ROI.

Pročitajte našu politiku privatnosti

Hvala na pretplati. Pogledajte više VB biltena ovdje.

Došlo je do pogreške.

Web izvor