Oblak Znanja

  • Home
  • Novosti
  • Učionica
    • Informatika 5
    • Informatika 6
    • Informatika 7
    • Informatika 8
    • Logo jezik
    • WordPress
    • Microsoft Office
  • Vodiči
    • Online vodiči
    • Kratki savjeti
    • Korisne aplikacije
    • Društvene mreže
    • Multimedija
    • Zanimljivosti
✕

Zaustavite usporedbu u laboratoriju: Inclusion Arena pokazuje kako LLM -ovi djeluju u proizvodnji

Novosti

Zaustavite usporedbu u laboratoriju: Inclusion Arena pokazuje kako LLM -ovi djeluju u proizvodnji

Tomšić Damjan 20. kolovoza 2025


Želite pametnije uvide u vašu pristiglu poštu? Prijavite se za naše tjedne biltene kako biste dobili samo ono što je važno za vođe AI, podataka i sigurnosti. Pretplatite se sada


Modeli ispitivanja referentnih oznaka postali su ključni za poduzeća, omogućujući im da odaberu vrstu performansi koja odjekuje s njihovim potrebama. Ali nisu sva referentna vrijednost izgrađena iste, a mnogi se testni modeli temelje na statičkim skupovima podataka ili testiranju.

Istraživači iz uključivanja AI, koji je povezan s Alibaba Grupa mravapredložio je novu ploču i referentnu vrijednost modela koji se više fokusira na izvedbu modela u stvarnim scenarijima. Tvrde da LLM -ovi trebaju ploču koja uzima u obzir kako ih ljudi koriste i koliko ljudi preferiraju njihove odgovore u usporedbi s modelima statičkih znanja.

U a papirIstraživači su postavili temelje za inkluzijsku arenu, koja rangira modele na temelju preferencija korisnika.

„Da bismo riješili ove praznine, predlažemo inkluzivnu arenu, živu ploču s vodom koja premošćuje aplikacije u stvarnom svijetu s najmodernijim LLM-ovima i MLLM-ovima. Za razliku od platformi s gužvama, naš sustav nasumično pokreće borbe za model tijekom višestrukih ljudskih-ai dijaloga u stvarnim aplikacijama, navodi se i na papiru.


AI skaliranje pogađa svoje granice

Power ograničenja, rastući troškovi tokena i kašnjenja zaključivanja preoblikovaju Enterprise AI. Pridružite se našem ekskluzivnom salonu kako biste otkrili kako su vrhunski timovi:

  • Pretvaranje energije u stratešku prednost
  • Arhitekturiste učinkovite zaključke za stvarne propusne dobitke
  • Otključavanje natjecateljskog ROI -a s održivim AI sustavima

Osigurajte svoje mjesto da ostanete naprijed:: https://bit.ly/4mwgngo


INFUILD Arena izdvaja se među ostalim pločama modela, kao što su MMLU i OpenLLM, zbog svog stvarnog aspekta i jedinstvene metode rangiranja modela. Koristi metodu modeliranja Bradley-Terry, sličnu onoj koju koristi chatbot arena.

Uključivanje Arena djeluje integrirajući referentnu vrijednost u AI aplikacije za prikupljanje skupova podataka i provođenje ljudskih procjena. Istraživači priznaju da je “broj početno integriranih aplikacija na AI pogon ograničen, ali želimo izgraditi otvoreni savez za proširenje ekosustava.”

Do sada je većina ljudi upoznata s pločama i referentnim vrijednostima koje izgovaraju izvedbu svakog novog LLM -a koje su objavile tvrtke poput Open,, Google ili Antropski. VentureBeat nije stranac ovim pločama s vodećim pločama jer su neki modeli, poput XAI Grok 3, pokažite njihovu silu prelazeći ploču Chatbot Arena. Istraživači za uključivanje AI tvrde da njihova nova ploča s vodom „osigurava evaluacije odražavaju praktične scenarije upotrebe“, tako da poduzeća imaju bolje informacije oko modela koje planiraju odabrati.

Sadržaj objave

  • 1 Korištenje metode Bradley-Terry
  • 2 Kako to funkcionira
  • 3 Više ploča s čelnikom, više izbora
    • 3.1 Povezani sadržaji

Korištenje metode Bradley-Terry

INFUILD Arena crpi inspiraciju iz Chatbot Arene, koristeći metodu Bradley-Terry, dok Chatbot Arena također istodobno koristi ELO metodu rangiranja.

Većina ploča na čelu oslanja se na ELO metodu za postavljanje rangiranja i performansi. Elo se odnosi na ELO ocjenu u šahu, što određuje relativnu vještinu igrača. I Elo i Bradley-Terry su vjerojatni okviri, ali istraživači su rekli kako Bradley-Terry proizvodi stabilnije ocjene.

“Model Bradley-Terry pruža snažan okvir za zaključivanje latentnih sposobnosti iz rezultata parnih usporedbi”, navodi se u radu. “Međutim, u praktičnim scenarijima, posebno s velikim i rastućim brojem modela, izgled iscrpnih usporedbi u paru postaje računski zabranjen i intenzivan za resurse. To ističe kritičnu potrebu za inteligentnim strategijama bitke koje maksimiziraju dobitak informacija u ograničenom proračunu.”

Kako bi rangiranje bio učinkovitiji pred velikim brojem LLMS -a, Inclesion Arena ima još dvije komponente: mehanizam podudaranja smještaja i uzorkovanje blizine. Mehanizam podudaranja plasmana procjenjuje početni rangiranje za nove modele registrirane za ploču s liderom. Uzorkovanje blizine tada ograničava te usporedbe s modelima unutar iste regije povjerenja.

Kako to funkcionira

Pa kako to funkcionira?

Okvir za uključivanje Arene integrira se u aplikacije na AI pogonu. Trenutno su na raspolaganju dvije aplikacije na inkluzivnoj Areni: Aplikacija za chat znakova Joyland i aplikacija za obrazovnu komunikaciju T-Box. Kada ljudi koriste aplikacije, upute se šalju u više LLM -ova iza kulisa za odgovore. Korisnici tada biraju koji im se odgovor najviše sviđa, iako ne znaju koji je model generirao odgovor.

Okvir razmatra korisničke postavke za generiranje parova modela za usporedbu. Algoritam Bradley-Terry tada se koristi za izračunavanje rezultata za svaki model, što tada dovodi do konačne ploče.

Uključivanje AI ograničio je svoj eksperiment na podatke do srpnja 2025. godine, što je sadržavalo 501,003 u paru usporedbe.

Prema početnim eksperimentima s inkluzijom Arene, model koji je najizradniji je Anthropic’s Claude 3.7 sonet, DeepSeek V3-0324, Claude 3.5 sonet, DeepSeek V3 i Qwen Max-0125.

Naravno, to su bili podaci iz dvije aplikacije s više od 46.611 aktivnih korisnika, navodi se u radu. Istraživači su rekli da mogu stvoriti robusniju i precizniju ploču s više podataka.

Više ploča s čelnikom, više izbora

Sve veći broj modela koji se objavljuju čini izazovnijim za poduzeća da odaberu koji LLMS za početak evaluacije. Ploče i referentne vrijednosti vode donositelji tehničkih odluka na modele koji bi mogli pružiti najbolje performanse za njihove potrebe. Naravno, organizacije bi tada trebale provoditi interne procjene kako bi osigurale da su LLM -ovi učinkoviti za njihove primjene.

Također pruža ideju o širem LLM krajoliku, ističući koji modeli postaju konkurentni u usporedbi s njihovim vršnjacima. Nedavna mjerila kao što je RewardBench 2 od Allen Institut zaPokušavam uskladiti modele s slučajevima upotrebe u stvarnom životu za poduzeća.

Dnevni uvidi u slučajeve poslovne uporabe s VB dnevno

Ako želite impresionirati svog šefa, VB Daily vas je pokrivao. Dajemo vam unutarnju lopaticu o tome što tvrtke rade s generativnim AI, od regulatornih pomaka do praktičnih razmještaja, tako da možete dijeliti uvide za maksimalni ROI.

Pročitajte našu politiku privatnosti

Hvala na pretplati. Pogledajte više VB biltena ovdje.

Došlo je do pogreške.



Web izvor

Povezani sadržaji

  • Dolazi lunarna ekonomija
  • Komprimiranje powerpoint prezentacijeKako komprimirati i smanjiti PowerPoint prezentaciju?
  • Automatsko sortiranje podataka u Wordu
  • Naslovnica izrezanaBackGrounder | Izrežite wallpaper ili Facebook naslovnicu u dimenziju po želji
  • Battlefield 6 uskoro ne dolazi na Switch 2Battlefield 6 uskoro ne dolazi na Switch 2
  • Android OS na WidowsimaInstalirajte Android OS na vaše računalo

Previous Article

FEMA sada zahtijeva da žrtve katastrofe imaju adresu e -pošte

Next Article

Oracle Cloud and private 5G give added edge to SailGP

Posljednje objave

Za mene su ove Bose slušalice lak izbor u odnosu na AirPods – zašto ne požalim

Za mene su ove Bose slušalice lak izbor u odnosu na AirPods – zašto ne požalim

Zašto se sa svojim Pixelom pridružiti Android beta programu?

Zašto se sa svojim Pixelom pridružiti Android beta programu?

Evo naših PS Plus Extra i Premium igara za listopad

Evo naših PS Plus Extra i Premium igara za listopad

Sadržaj

  • 1 Korištenje metode Bradley-Terry
  • 2 Kako to funkcionira
  • 3 Više ploča s čelnikom, više izbora

Novosti

  • Za mene su ove Bose slušalice lak izbor u odnosu na AirPods – zašto ne požalim 16. listopada 2025
  • Zašto se sa svojim Pixelom pridružiti Android beta programu? 16. listopada 2025
  • Evo naših PS Plus Extra i Premium igara za listopad 15. listopada 2025
  • Tvrtke koje su spremne za AI pretvaranje mrežnih pilota u profit 15. listopada 2025
  • Dfinity launches Caffeine, an AI platform that builds production apps from natural language prompts 15. listopada 2025
  • SpaceX-ov drugi generalni zvjezdani brod potpisuje se gotovo savršenim testnim letom 15. listopada 2025
  • Njemačka država zamjenjuje Microsoft Exchange i Outlook e-poštom otvorenog koda 15. listopada 2025
  • Samsung nudi 100 dolara trenutačne ponude novim korisnicima XR slušalica prije nego što je Upakiran 15. listopada 2025
  • Google fotografije stvaranje kolaža dobiva velika poboljšanja 14. listopada 2025
  • Assassin’s Creed Franchise olovo ostavlja Ubisoft nakon formiranja podružnice Tencent 14. listopada 2025

O nama

Oblak Znanja je blog edukativnog karaktera i namijenjen je svima koji žele unaprijediti svoje znanje iz područja računala i interneta.

Naš cilj je edukacija i pisanje zanimljivih objava kojima ćemo zajedno učiti i informirati se o svijetu informatike.

Na ovom blogu zabranjeno je svako kopiranje sadržaja bez dozvole autora.

Oblak Znanja

Oznake

besplatni powerpoint predlošci društvene mreže excel facebook firefox gmail google+ Google Chrome halloween halloween walpapers internet kartice linkedin profil linux microsoft Mozilla Firefox ms powerpoint oblak znanja office 2007 office savjeti online kupovina pick powerpoint powerpoint predložak powerpoint savjeti rastući niz savjet slike za radnu površinu spremanje datoteka strani jezik tipkovnicke kratice twitter twitter alati uređivanje slika wallpaper clock web preglednik windows windows 7 windows aplikacije windows vista word word 2007 word savjeti youtube savjeti youtube tipkovničke kratice