Želite pametnije uvide u vašu pristiglu poštu? Prijavite se za naše tjedne biltene kako biste dobili samo ono što je važno za vođe AI, podataka i sigurnosti. Pretplatite se sada
Modeli ispitivanja referentnih oznaka postali su ključni za poduzeća, omogućujući im da odaberu vrstu performansi koja odjekuje s njihovim potrebama. Ali nisu sva referentna vrijednost izgrađena iste, a mnogi se testni modeli temelje na statičkim skupovima podataka ili testiranju.
Istraživači iz uključivanja AI, koji je povezan s Alibaba Grupa mravapredložio je novu ploču i referentnu vrijednost modela koji se više fokusira na izvedbu modela u stvarnim scenarijima. Tvrde da LLM -ovi trebaju ploču koja uzima u obzir kako ih ljudi koriste i koliko ljudi preferiraju njihove odgovore u usporedbi s modelima statičkih znanja.
U a papirIstraživači su postavili temelje za inkluzijsku arenu, koja rangira modele na temelju preferencija korisnika.
„Da bismo riješili ove praznine, predlažemo inkluzivnu arenu, živu ploču s vodom koja premošćuje aplikacije u stvarnom svijetu s najmodernijim LLM-ovima i MLLM-ovima. Za razliku od platformi s gužvama, naš sustav nasumično pokreće borbe za model tijekom višestrukih ljudskih-ai dijaloga u stvarnim aplikacijama, navodi se i na papiru.
AI skaliranje pogađa svoje granice
Power ograničenja, rastući troškovi tokena i kašnjenja zaključivanja preoblikovaju Enterprise AI. Pridružite se našem ekskluzivnom salonu kako biste otkrili kako su vrhunski timovi:
- Pretvaranje energije u stratešku prednost
- Arhitekturiste učinkovite zaključke za stvarne propusne dobitke
- Otključavanje natjecateljskog ROI -a s održivim AI sustavima
Osigurajte svoje mjesto da ostanete naprijed:: https://bit.ly/4mwgngo
INFUILD Arena izdvaja se među ostalim pločama modela, kao što su MMLU i OpenLLM, zbog svog stvarnog aspekta i jedinstvene metode rangiranja modela. Koristi metodu modeliranja Bradley-Terry, sličnu onoj koju koristi chatbot arena.
Uključivanje Arena djeluje integrirajući referentnu vrijednost u AI aplikacije za prikupljanje skupova podataka i provođenje ljudskih procjena. Istraživači priznaju da je “broj početno integriranih aplikacija na AI pogon ograničen, ali želimo izgraditi otvoreni savez za proširenje ekosustava.”
Do sada je većina ljudi upoznata s pločama i referentnim vrijednostima koje izgovaraju izvedbu svakog novog LLM -a koje su objavile tvrtke poput Open,, Google ili Antropski. VentureBeat nije stranac ovim pločama s vodećim pločama jer su neki modeli, poput XAI Grok 3, pokažite njihovu silu prelazeći ploču Chatbot Arena. Istraživači za uključivanje AI tvrde da njihova nova ploča s vodom „osigurava evaluacije odražavaju praktične scenarije upotrebe“, tako da poduzeća imaju bolje informacije oko modela koje planiraju odabrati.
Sadržaj objave
Korištenje metode Bradley-Terry
INFUILD Arena crpi inspiraciju iz Chatbot Arene, koristeći metodu Bradley-Terry, dok Chatbot Arena također istodobno koristi ELO metodu rangiranja.
Većina ploča na čelu oslanja se na ELO metodu za postavljanje rangiranja i performansi. Elo se odnosi na ELO ocjenu u šahu, što određuje relativnu vještinu igrača. I Elo i Bradley-Terry su vjerojatni okviri, ali istraživači su rekli kako Bradley-Terry proizvodi stabilnije ocjene.
“Model Bradley-Terry pruža snažan okvir za zaključivanje latentnih sposobnosti iz rezultata parnih usporedbi”, navodi se u radu. “Međutim, u praktičnim scenarijima, posebno s velikim i rastućim brojem modela, izgled iscrpnih usporedbi u paru postaje računski zabranjen i intenzivan za resurse. To ističe kritičnu potrebu za inteligentnim strategijama bitke koje maksimiziraju dobitak informacija u ograničenom proračunu.”
Kako bi rangiranje bio učinkovitiji pred velikim brojem LLMS -a, Inclesion Arena ima još dvije komponente: mehanizam podudaranja smještaja i uzorkovanje blizine. Mehanizam podudaranja plasmana procjenjuje početni rangiranje za nove modele registrirane za ploču s liderom. Uzorkovanje blizine tada ograničava te usporedbe s modelima unutar iste regije povjerenja.
Kako to funkcionira
Pa kako to funkcionira?
Okvir za uključivanje Arene integrira se u aplikacije na AI pogonu. Trenutno su na raspolaganju dvije aplikacije na inkluzivnoj Areni: Aplikacija za chat znakova Joyland i aplikacija za obrazovnu komunikaciju T-Box. Kada ljudi koriste aplikacije, upute se šalju u više LLM -ova iza kulisa za odgovore. Korisnici tada biraju koji im se odgovor najviše sviđa, iako ne znaju koji je model generirao odgovor.
Okvir razmatra korisničke postavke za generiranje parova modela za usporedbu. Algoritam Bradley-Terry tada se koristi za izračunavanje rezultata za svaki model, što tada dovodi do konačne ploče.
Uključivanje AI ograničio je svoj eksperiment na podatke do srpnja 2025. godine, što je sadržavalo 501,003 u paru usporedbe.
Prema početnim eksperimentima s inkluzijom Arene, model koji je najizradniji je Anthropic’s Claude 3.7 sonet, DeepSeek V3-0324, Claude 3.5 sonet, DeepSeek V3 i Qwen Max-0125.
Naravno, to su bili podaci iz dvije aplikacije s više od 46.611 aktivnih korisnika, navodi se u radu. Istraživači su rekli da mogu stvoriti robusniju i precizniju ploču s više podataka.
Više ploča s čelnikom, više izbora
Sve veći broj modela koji se objavljuju čini izazovnijim za poduzeća da odaberu koji LLMS za početak evaluacije. Ploče i referentne vrijednosti vode donositelji tehničkih odluka na modele koji bi mogli pružiti najbolje performanse za njihove potrebe. Naravno, organizacije bi tada trebale provoditi interne procjene kako bi osigurale da su LLM -ovi učinkoviti za njihove primjene.
Također pruža ideju o širem LLM krajoliku, ističući koji modeli postaju konkurentni u usporedbi s njihovim vršnjacima. Nedavna mjerila kao što je RewardBench 2 od Allen Institut zaPokušavam uskladiti modele s slučajevima upotrebe u stvarnom životu za poduzeća.
Web izvor