Oblak Znanja

  • Home
  • Novosti
  • Učionica
    • Informatika 5
    • Informatika 6
    • Informatika 7
    • Informatika 8
    • Logo jezik
    • WordPress
    • Microsoft Office
  • Vodiči
    • Online vodiči
    • Kratki savjeti
    • Korisne aplikacije
    • Društvene mreže
    • Multimedija
    • Zanimljivosti
✕

Vaši AI modeli ne uspijevaju u proizvodnji – evo kako popraviti odabir modela

Novosti

Vaši AI modeli ne uspijevaju u proizvodnji – evo kako popraviti odabir modela

Tomšić Damjan 4. lipnja 2025


Pridružite se našim dnevnim i tjednim biltenima za najnovija ažuriranja i ekskluzivni sadržaj na vodećim AI pokrivenosti. Saznati više


Poduzeća moraju znati rade li modeli koji napajaju svoje aplikacije i agenti u stvarnim scenarijima. Ova vrsta evaluacije ponekad može biti složena jer je teško predvidjeti određene scenarije. Obnovljena verzija RewardBench Benchmark-a čini organizacijama bolju predodžbu o izvedbi stvarnog života modela.

A Allen Institut za AI (AI2) Pokrenuli nagradu RewardBench 2, ažuriranu verziju referentne vrijednosti modela nagrađivanja, RewardBench, za koju tvrde da pruža cjelovitiji prikaz performansi modela i procjenjuje kako se modeli usklađuju s ciljevima i standardima poduzeća.

AI2 je izgradio nagradu s klasifikacijskim zadacima koji mjere korelacije kroz izračunavanje i trening nizvodno. RewardBench se uglavnom bavi modelima nagrađivanja (RM), koji mogu djelovati kao suci i procijeniti LLM izlaze. RMS dodijelite rezultat ili “nagradu” koja vodi učenje pojačanja s ljudskim povratnim informacijama (RHLF).

RewardBench 2 je ovdje! Trebali smo dugo da naučimo iz našeg prvog alata za procjenu modela nagrađivanja kako bismo napravili onaj koji je znatno teže i više povezano s skaliranjem RLHF-a nizvodno i vremenom zaključivanja. pic.twitter.com/ngetvnroqv

– Ai2 (@allen_ai) 2. lipnja 2025

Nathan Lambert, viši znanstvenik u AI2, rekao je za VentureBeat da je prva nagrađivača djelovala onako kako je predviđeno kad je pokrenut. Ipak, model okruženja brzo se razvijalo, a isto tako i njezina mjerila.

“Kako su modeli nagrađivanja postajali napredniji i koristili su slučajeve nijansiraniji, brzo smo s zajednicom prepoznali da prva verzija nije u potpunosti uhvatila složenost ljudskih preferencija u stvarnom svijetu”, rekao je.

Lambert je dodao da smo s RewardBenchom 2, “namjeravali poboljšati širinu i dubinu evaluacije – udružujući raznovrsnije, izazovnije upute i usavršavanje metodologije da bolje odražavaju kako ljudi zapravo prosuđuju AI izlaze u praksi.” Kazao je da druga verzija koristi neviđene ljudske upute, ima izazovniju postavku i nove domene.

Sadržaj objave

  • 1 Korištenje evaluacija za modele koji ocjenjuju
  • 2 Kako su se modeli izvodili
    • 2.1 Povezani sadržaji

Korištenje evaluacija za modele koji ocjenjuju

Iako modeli nagrađivanja testiraju kako dobro funkcioniraju modeli, također je važno da se RMS uskladi s vrijednostima tvrtke; Inače, postupak učenja finog podešavanja i pojačanja može ojačati loše ponašanje, poput halucinacije, smanjiti generalizaciju i previsoko postići štetne odgovore.

Nagrađivanje 2 obuhvaća šest različitih domena: činjeničnost, precizno podučavanje, matematika, sigurnost, fokus i kravate.

„Poduzeća bi trebala koristiti nagradu na dva različita načina, ovisno o njihovoj primjeni. Ako sami izvode RLHF, trebali bi usvojiti najbolje prakse i skupove podataka iz vodećih modela u vlastitim cjevovodima, jer modeli nagrađivanja trebaju na političkoj treningu (tj. Nagradni modeli koji se mogu prirediti s tim da će se ugraditi u domet). Nastup “, rekao je Lambert.

Lambert je napomenuo da referentne vrijednosti poput RewardBench-a nude korisnicima način da procijene modele koje odaberu na temelju “dimenzija koje su im najvažnije, a ne oslanjajući se na uski rezultat jedne veličine.” Kazao je da je ideja o učinku, za koju mnoge metode evaluacije tvrde da je procjenjivanje, vrlo subjektivna jer dobar odgovor modela vrlo ovisi o kontekstu i ciljevima korisnika. U isto vrijeme, ljudske preferencije postaju vrlo nijansirane.

AI 2 objavio je prvu verziju Nagrađivanje u ožujku 2024. U to je vrijeme tvrtka rekla da je to prvo mjerilo i ploča s liderom za modele nagrađivanja. Od tada se pojavilo nekoliko metoda za usporedbu i poboljšanje RM -a. Istraživači na MetaSajam je izašao s Rewordbench. Deepseek Objavio je novu tehniku ​​pod nazivom samoprincipil kritika ugađanja za pametnije i skalabilno RM.

Super uzbuđen što je naša evaluacija modela druge nagrade. Znatno je tvrđi, mnogo čistiji i dobro je povezan s uzorkovanjem PPO/BON nizvodno.

Sretno brdsko spajanje!

Ogromne čestitke @saumyamalik44 koji vode projekt s potpunom predanošću izvrsnosti. https://t.co/c0b6rhtxy5

– Nathan Lambert (@natolambert) 2. lipnja 2025

Kako su se modeli izvodili

Budući da je RewardBench 2 ažurirana verzija RewardBench -a, AI2 je testirao i postojeće i novo obučene modele kako bi vidjeli da li i dalje visoko rangiraju. Oni su uključivali različite modele, poput verzija Blizanca, Claudea, GPT-4. i LLAMA-3.1, zajedno s skupovima podataka i modelima poput Qwen, Skywork i vlastitim Tulu.

Tvrtka je otkrila da veći modeli nagrađivanja najbolje djeluju na referentnoj vrijednosti jer su njihovi osnovni modeli jači. Sve u svemu, najjači modeli su varijante upute LLAMA-3.1. U pogledu fokusa i sigurnosti, podaci o Skyworku “posebno su korisni”, a Tulu je dobro uspio u činjeničnosti.

AI2 je rekao da su, iako vjeruju da je RewardBench 2 “korak naprijed u širokoj, multi-domenoj procjeni na temelju točnosti” za modele nagrađivanja, upozorili su da bi se procjena modela trebala uglavnom koristiti kao vodič za odabir modela koji najbolje rade s potrebama poduzeća.

Dnevni uvidi u slučajeve poslovne uporabe s VB dnevno

Ako želite impresionirati svog šefa, VB Daily vas je pokrivao. Dajemo vam unutarnju lopaticu o tome što tvrtke rade s generativnim AI, od regulatornih pomaka do praktičnih razmještaja, tako da možete dijeliti uvide za maksimalni ROI.

Pročitajte našu politiku privatnosti

Hvala na pretplati. Pogledajte više VB biltena ovdje.

Došlo je do pogreške.



Web izvor

Povezani sadržaji

  • 5 još jednadžbi fizike koje bi svi trebali znati
  • Kako učiniti da LibreOffice više sliči Microsoft OfficeuKako učiniti da LibreOffice više sliči Microsoft Officeu
  • Nintendo Povećavanje troškova prekidača 2 pribora u SAD -u zbog tarifa, ali cijena konzole da ostane istaNintendo Povećavanje troškova prekidača 2 pribora u SAD -u zbog tarifa, ali cijena konzole da ostane ista
  • Kaos, zbrka i zavjere: Unutar Facebook grupe za autizam RFK Jr.Kaos, zbrka i zavjere: Unutar Facebook grupe za autizam RFK Jr.
  • Besplatni web resursi za mršavljenje, postizanje dobre forme i vitalnostiBesplatni web resursi za mršavljenje, postizanje dobre forme i vitalnosti
  • Koristio sam gotovo svaki Linux distro, ali ovaj ima svježu perspektivuKoristio sam gotovo svaki Linux distro, ali ovaj ima svježu perspektivu

Previous Article

Astronomi su otkrili galaksiju milijunima godina starije od bilo kojeg ranije opaženih

Next Article

Lumen slijeće zemaljski ugovor o backhaulu za juno trans-pacifički kabel

Posljednje objave

Njemačka država zamjenjuje Microsoft Exchange i Outlook e-poštom otvorenog koda

Samsung nudi 100 dolara trenutačne ponude novim korisnicima XR slušalica prije nego što je Upakiran

Google fotografije stvaranje kolaža dobiva velika poboljšanja

Google fotografije stvaranje kolaža dobiva velika poboljšanja

Sadržaj

  • 1 Korištenje evaluacija za modele koji ocjenjuju
  • 2 Kako su se modeli izvodili

Novosti

  • Njemačka država zamjenjuje Microsoft Exchange i Outlook e-poštom otvorenog koda 15. listopada 2025
  • Samsung nudi 100 dolara trenutačne ponude novim korisnicima XR slušalica prije nego što je Upakiran 15. listopada 2025
  • Google fotografije stvaranje kolaža dobiva velika poboljšanja 14. listopada 2025
  • Assassin’s Creed Franchise olovo ostavlja Ubisoft nakon formiranja podružnice Tencent 14. listopada 2025
  • Sita otkriva prevlake za vlaknastim optičkim aerodromima 14. listopada 2025
  • Jezični modeli koji se samo usavršavaju postaju stvarnost s MIT-ovom ažuriranom tehnikom pečata 14. listopada 2025
  • Kako učiniti STEM smiješnim – i idi virusno radeći 14. listopada 2025
  • 10 Windows aplikacija otvorenog koda ne mogu živjeti – i svi su besplatni 14. listopada 2025
  • Isprobao sam pametne naočale s XMEMS zvučnicima i aktivnim hlađenjem – i puni su obećanja 13. listopada 2025
  • Moramo se približiti pokretanju Galaxy XR 13. listopada 2025

O nama

Oblak Znanja je blog edukativnog karaktera i namijenjen je svima koji žele unaprijediti svoje znanje iz područja računala i interneta.

Naš cilj je edukacija i pisanje zanimljivih objava kojima ćemo zajedno učiti i informirati se o svijetu informatike.

Na ovom blogu zabranjeno je svako kopiranje sadržaja bez dozvole autora.

Oblak Znanja

Oznake

besplatni powerpoint predlošci društvene mreže excel facebook firefox gmail google+ Google Chrome halloween halloween walpapers internet kartice linkedin profil linux microsoft Mozilla Firefox ms powerpoint oblak znanja office 2007 office savjeti online kupovina pick powerpoint powerpoint predložak powerpoint savjeti rastući niz savjet slike za radnu površinu spremanje datoteka strani jezik tipkovnicke kratice twitter twitter alati uređivanje slika wallpaper clock web preglednik windows windows 7 windows aplikacije windows vista word word 2007 word savjeti youtube savjeti youtube tipkovničke kratice