Oblak Znanja

  • Home
  • Novosti
  • Učionica
    • Informatika 5
    • Informatika 6
    • Informatika 7
    • Informatika 8
    • Logo jezik
    • WordPress
    • Microsoft Office
  • Vodiči
    • Online vodiči
    • Kratki savjeti
    • Korisne aplikacije
    • Društvene mreže
    • Multimedija
    • Zanimljivosti
✕

Vaši AI modeli ne uspijevaju u proizvodnji – evo kako popraviti odabir modela

Novosti

Vaši AI modeli ne uspijevaju u proizvodnji – evo kako popraviti odabir modela

Tomšić Damjan 4. lipnja 2025


Pridružite se našim dnevnim i tjednim biltenima za najnovija ažuriranja i ekskluzivni sadržaj na vodećim AI pokrivenosti. Saznati više


Poduzeća moraju znati rade li modeli koji napajaju svoje aplikacije i agenti u stvarnim scenarijima. Ova vrsta evaluacije ponekad može biti složena jer je teško predvidjeti određene scenarije. Obnovljena verzija RewardBench Benchmark-a čini organizacijama bolju predodžbu o izvedbi stvarnog života modela.

A Allen Institut za AI (AI2) Pokrenuli nagradu RewardBench 2, ažuriranu verziju referentne vrijednosti modela nagrađivanja, RewardBench, za koju tvrde da pruža cjelovitiji prikaz performansi modela i procjenjuje kako se modeli usklađuju s ciljevima i standardima poduzeća.

AI2 je izgradio nagradu s klasifikacijskim zadacima koji mjere korelacije kroz izračunavanje i trening nizvodno. RewardBench se uglavnom bavi modelima nagrađivanja (RM), koji mogu djelovati kao suci i procijeniti LLM izlaze. RMS dodijelite rezultat ili “nagradu” koja vodi učenje pojačanja s ljudskim povratnim informacijama (RHLF).

RewardBench 2 je ovdje! Trebali smo dugo da naučimo iz našeg prvog alata za procjenu modela nagrađivanja kako bismo napravili onaj koji je znatno teže i više povezano s skaliranjem RLHF-a nizvodno i vremenom zaključivanja. pic.twitter.com/ngetvnroqv

– Ai2 (@allen_ai) 2. lipnja 2025

Nathan Lambert, viši znanstvenik u AI2, rekao je za VentureBeat da je prva nagrađivača djelovala onako kako je predviđeno kad je pokrenut. Ipak, model okruženja brzo se razvijalo, a isto tako i njezina mjerila.

“Kako su modeli nagrađivanja postajali napredniji i koristili su slučajeve nijansiraniji, brzo smo s zajednicom prepoznali da prva verzija nije u potpunosti uhvatila složenost ljudskih preferencija u stvarnom svijetu”, rekao je.

Lambert je dodao da smo s RewardBenchom 2, “namjeravali poboljšati širinu i dubinu evaluacije – udružujući raznovrsnije, izazovnije upute i usavršavanje metodologije da bolje odražavaju kako ljudi zapravo prosuđuju AI izlaze u praksi.” Kazao je da druga verzija koristi neviđene ljudske upute, ima izazovniju postavku i nove domene.

Sadržaj objave

  • 1 Korištenje evaluacija za modele koji ocjenjuju
  • 2 Kako su se modeli izvodili
    • 2.1 Povezani sadržaji

Korištenje evaluacija za modele koji ocjenjuju

Iako modeli nagrađivanja testiraju kako dobro funkcioniraju modeli, također je važno da se RMS uskladi s vrijednostima tvrtke; Inače, postupak učenja finog podešavanja i pojačanja može ojačati loše ponašanje, poput halucinacije, smanjiti generalizaciju i previsoko postići štetne odgovore.

Nagrađivanje 2 obuhvaća šest različitih domena: činjeničnost, precizno podučavanje, matematika, sigurnost, fokus i kravate.

„Poduzeća bi trebala koristiti nagradu na dva različita načina, ovisno o njihovoj primjeni. Ako sami izvode RLHF, trebali bi usvojiti najbolje prakse i skupove podataka iz vodećih modela u vlastitim cjevovodima, jer modeli nagrađivanja trebaju na političkoj treningu (tj. Nagradni modeli koji se mogu prirediti s tim da će se ugraditi u domet). Nastup “, rekao je Lambert.

Lambert je napomenuo da referentne vrijednosti poput RewardBench-a nude korisnicima način da procijene modele koje odaberu na temelju “dimenzija koje su im najvažnije, a ne oslanjajući se na uski rezultat jedne veličine.” Kazao je da je ideja o učinku, za koju mnoge metode evaluacije tvrde da je procjenjivanje, vrlo subjektivna jer dobar odgovor modela vrlo ovisi o kontekstu i ciljevima korisnika. U isto vrijeme, ljudske preferencije postaju vrlo nijansirane.

AI 2 objavio je prvu verziju Nagrađivanje u ožujku 2024. U to je vrijeme tvrtka rekla da je to prvo mjerilo i ploča s liderom za modele nagrađivanja. Od tada se pojavilo nekoliko metoda za usporedbu i poboljšanje RM -a. Istraživači na MetaSajam je izašao s Rewordbench. Deepseek Objavio je novu tehniku ​​pod nazivom samoprincipil kritika ugađanja za pametnije i skalabilno RM.

Super uzbuđen što je naša evaluacija modela druge nagrade. Znatno je tvrđi, mnogo čistiji i dobro je povezan s uzorkovanjem PPO/BON nizvodno.

Sretno brdsko spajanje!

Ogromne čestitke @saumyamalik44 koji vode projekt s potpunom predanošću izvrsnosti. https://t.co/c0b6rhtxy5

– Nathan Lambert (@natolambert) 2. lipnja 2025

Kako su se modeli izvodili

Budući da je RewardBench 2 ažurirana verzija RewardBench -a, AI2 je testirao i postojeće i novo obučene modele kako bi vidjeli da li i dalje visoko rangiraju. Oni su uključivali različite modele, poput verzija Blizanca, Claudea, GPT-4. i LLAMA-3.1, zajedno s skupovima podataka i modelima poput Qwen, Skywork i vlastitim Tulu.

Tvrtka je otkrila da veći modeli nagrađivanja najbolje djeluju na referentnoj vrijednosti jer su njihovi osnovni modeli jači. Sve u svemu, najjači modeli su varijante upute LLAMA-3.1. U pogledu fokusa i sigurnosti, podaci o Skyworku “posebno su korisni”, a Tulu je dobro uspio u činjeničnosti.

AI2 je rekao da su, iako vjeruju da je RewardBench 2 “korak naprijed u širokoj, multi-domenoj procjeni na temelju točnosti” za modele nagrađivanja, upozorili su da bi se procjena modela trebala uglavnom koristiti kao vodič za odabir modela koji najbolje rade s potrebama poduzeća.

Dnevni uvidi u slučajeve poslovne uporabe s VB dnevno

Ako želite impresionirati svog šefa, VB Daily vas je pokrivao. Dajemo vam unutarnju lopaticu o tome što tvrtke rade s generativnim AI, od regulatornih pomaka do praktičnih razmještaja, tako da možete dijeliti uvide za maksimalni ROI.

Pročitajte našu politiku privatnosti

Hvala na pretplati. Pogledajte više VB biltena ovdje.

Došlo je do pogreške.



Web izvor

Povezani sadržaji

  • U Grand Canyonu otkriven je drevni crv penisa s prstenima oštrih zuba
  • Nema dodavanja bloatwarea na telefone jer želi tok prihodaNema dodavanja bloatwarea na telefone jer želi tok prihoda
  • Posljednji od američkih showrunera razgovaraju gdje će ići treća sezonaPosljednji od američkih showrunera razgovaraju gdje će ići treća sezona
  • Gladni crvi mogli bi pomoći u rješavanju plastičnog zagađenjaGladni crvi mogli bi pomoći u rješavanju plastičnog zagađenja
  • Tech prophet Mary Meeker just dropped a massive report on AI trends – here’s your TL;DRTech prophet Mary Meeker just dropped a massive report on AI trends – here’s your TL;DR
  • Vrijeme je za kupnju Galaxy osiguranja ako ste preskočili kupljenoVrijeme je za kupnju Galaxy osiguranja ako ste preskočili kupljeno

Previous Article

Astronomi su otkrili galaksiju milijunima godina starije od bilo kojeg ranije opaženih

Next Article

Lumen slijeće zemaljski ugovor o backhaulu za juno trans-pacifički kabel

Posljednje objave

Teksaški sudac odbacuje drugu tužbu zbog prekida rada CrowdStrikea

Teksaški sudac odbacuje drugu tužbu zbog prekida rada CrowdStrikea

Z.ai GLM-Image otvorenog koda pobjeđuje Googleov Nano Banana Pro u složenom prikazivanju teksta, ali ne i u estetici

Z.ai GLM-Image otvorenog koda pobjeđuje Googleov Nano Banana Pro u složenom prikazivanju teksta, ali ne i u estetici

Neuroznanstvenici dešifriraju odugovlačenje: moždani mehanizam objašnjava zašto ljudi ostavljaju određene zadatke za kasnije

Neuroznanstvenici dešifriraju odugovlačenje: moždani mehanizam objašnjava zašto ljudi ostavljaju određene zadatke za kasnije

Sadržaj

  • 1 Korištenje evaluacija za modele koji ocjenjuju
  • 2 Kako su se modeli izvodili

Novosti

  • Teksaški sudac odbacuje drugu tužbu zbog prekida rada CrowdStrikea 15. siječnja 2026
  • Z.ai GLM-Image otvorenog koda pobjeđuje Googleov Nano Banana Pro u složenom prikazivanju teksta, ali ne i u estetici 15. siječnja 2026
  • Neuroznanstvenici dešifriraju odugovlačenje: moždani mehanizam objašnjava zašto ljudi ostavljaju određene zadatke za kasnije 15. siječnja 2026
  • Ovaj popularni Bose zvučnik izgubit će softversku podršku 2026. – ali sada ima spas 14. siječnja 2026
  • Google Photos “Ask” pretraga još uvijek ima puno mrzitelja 14. siječnja 2026
  • Battlefield 6, 2. sezona odgođena je za veljaču, ali još sadržaja za 1. sezonu i događaja je na putu 14. siječnja 2026
  • Širokopojasna revolucija u Velikoj Britaniji ne pokazuje znakove usporavanja 14. siječnja 2026
  • Zašto Egnyte nastavlja zapošljavati mlađe inženjere unatoč porastu AI alata za kodiranje 14. siječnja 2026
  • Microsoft popušta pod pritiskom: Podatkovni centri trebali bi plaćati skuplju struju 14. siječnja 2026
  • Top 10 PowerShell naredbi za korištenje u 2026 13. siječnja 2026

O nama

Oblak Znanja je blog edukativnog karaktera i namijenjen je svima koji žele unaprijediti svoje znanje iz područja računala i interneta.

Naš cilj je edukacija i pisanje zanimljivih objava kojima ćemo zajedno učiti i informirati se o svijetu informatike.

Na ovom blogu zabranjeno je svako kopiranje sadržaja bez dozvole autora.

Oblak Znanja

Oznake

besplatni powerpoint predlošci društvene mreže excel facebook firefox gmail google+ Google Chrome halloween halloween walpapers internet kartice linkedin profil linux microsoft Mozilla Firefox ms powerpoint oblak znanja office 2007 office savjeti online kupovina pick powerpoint powerpoint predložak powerpoint savjeti rastući niz savjet slike za radnu površinu spremanje datoteka strani jezik tipkovnicke kratice twitter twitter alati uređivanje slika wallpaper clock web preglednik windows windows 7 windows aplikacije windows vista word word 2007 word savjeti youtube savjeti youtube tipkovničke kratice