Oblak Znanja

  • Home
  • Novosti
  • Učionica
    • Informatika 5
    • Informatika 6
    • Informatika 7
    • Informatika 8
    • Logo jezik
    • WordPress
    • Microsoft Office
  • Vodiči
    • Online vodiči
    • Kratki savjeti
    • Korisne aplikacije
    • Društvene mreže
    • Multimedija
    • Zanimljivosti
✕

Zaustavite usporedbu u laboratoriju: Inclusion Arena pokazuje kako LLM -ovi djeluju u proizvodnji

Novosti

Zaustavite usporedbu u laboratoriju: Inclusion Arena pokazuje kako LLM -ovi djeluju u proizvodnji

Tomšić Damjan 20. kolovoza 2025


Želite pametnije uvide u vašu pristiglu poštu? Prijavite se za naše tjedne biltene kako biste dobili samo ono što je važno za vođe AI, podataka i sigurnosti. Pretplatite se sada


Modeli ispitivanja referentnih oznaka postali su ključni za poduzeća, omogućujući im da odaberu vrstu performansi koja odjekuje s njihovim potrebama. Ali nisu sva referentna vrijednost izgrađena iste, a mnogi se testni modeli temelje na statičkim skupovima podataka ili testiranju.

Istraživači iz uključivanja AI, koji je povezan s Alibaba Grupa mravapredložio je novu ploču i referentnu vrijednost modela koji se više fokusira na izvedbu modela u stvarnim scenarijima. Tvrde da LLM -ovi trebaju ploču koja uzima u obzir kako ih ljudi koriste i koliko ljudi preferiraju njihove odgovore u usporedbi s modelima statičkih znanja.

U a papirIstraživači su postavili temelje za inkluzijsku arenu, koja rangira modele na temelju preferencija korisnika.

„Da bismo riješili ove praznine, predlažemo inkluzivnu arenu, živu ploču s vodom koja premošćuje aplikacije u stvarnom svijetu s najmodernijim LLM-ovima i MLLM-ovima. Za razliku od platformi s gužvama, naš sustav nasumično pokreće borbe za model tijekom višestrukih ljudskih-ai dijaloga u stvarnim aplikacijama, navodi se i na papiru.


AI skaliranje pogađa svoje granice

Power ograničenja, rastući troškovi tokena i kašnjenja zaključivanja preoblikovaju Enterprise AI. Pridružite se našem ekskluzivnom salonu kako biste otkrili kako su vrhunski timovi:

  • Pretvaranje energije u stratešku prednost
  • Arhitekturiste učinkovite zaključke za stvarne propusne dobitke
  • Otključavanje natjecateljskog ROI -a s održivim AI sustavima

Osigurajte svoje mjesto da ostanete naprijed:: https://bit.ly/4mwgngo


INFUILD Arena izdvaja se među ostalim pločama modela, kao što su MMLU i OpenLLM, zbog svog stvarnog aspekta i jedinstvene metode rangiranja modela. Koristi metodu modeliranja Bradley-Terry, sličnu onoj koju koristi chatbot arena.

Uključivanje Arena djeluje integrirajući referentnu vrijednost u AI aplikacije za prikupljanje skupova podataka i provođenje ljudskih procjena. Istraživači priznaju da je “broj početno integriranih aplikacija na AI pogon ograničen, ali želimo izgraditi otvoreni savez za proširenje ekosustava.”

Do sada je većina ljudi upoznata s pločama i referentnim vrijednostima koje izgovaraju izvedbu svakog novog LLM -a koje su objavile tvrtke poput Open,, Google ili Antropski. VentureBeat nije stranac ovim pločama s vodećim pločama jer su neki modeli, poput XAI Grok 3, pokažite njihovu silu prelazeći ploču Chatbot Arena. Istraživači za uključivanje AI tvrde da njihova nova ploča s vodom „osigurava evaluacije odražavaju praktične scenarije upotrebe“, tako da poduzeća imaju bolje informacije oko modela koje planiraju odabrati.

Sadržaj objave

  • 1 Korištenje metode Bradley-Terry
  • 2 Kako to funkcionira
  • 3 Više ploča s čelnikom, više izbora
    • 3.1 Povezani sadržaji

Korištenje metode Bradley-Terry

INFUILD Arena crpi inspiraciju iz Chatbot Arene, koristeći metodu Bradley-Terry, dok Chatbot Arena također istodobno koristi ELO metodu rangiranja.

Većina ploča na čelu oslanja se na ELO metodu za postavljanje rangiranja i performansi. Elo se odnosi na ELO ocjenu u šahu, što određuje relativnu vještinu igrača. I Elo i Bradley-Terry su vjerojatni okviri, ali istraživači su rekli kako Bradley-Terry proizvodi stabilnije ocjene.

“Model Bradley-Terry pruža snažan okvir za zaključivanje latentnih sposobnosti iz rezultata parnih usporedbi”, navodi se u radu. “Međutim, u praktičnim scenarijima, posebno s velikim i rastućim brojem modela, izgled iscrpnih usporedbi u paru postaje računski zabranjen i intenzivan za resurse. To ističe kritičnu potrebu za inteligentnim strategijama bitke koje maksimiziraju dobitak informacija u ograničenom proračunu.”

Kako bi rangiranje bio učinkovitiji pred velikim brojem LLMS -a, Inclesion Arena ima još dvije komponente: mehanizam podudaranja smještaja i uzorkovanje blizine. Mehanizam podudaranja plasmana procjenjuje početni rangiranje za nove modele registrirane za ploču s liderom. Uzorkovanje blizine tada ograničava te usporedbe s modelima unutar iste regije povjerenja.

Kako to funkcionira

Pa kako to funkcionira?

Okvir za uključivanje Arene integrira se u aplikacije na AI pogonu. Trenutno su na raspolaganju dvije aplikacije na inkluzivnoj Areni: Aplikacija za chat znakova Joyland i aplikacija za obrazovnu komunikaciju T-Box. Kada ljudi koriste aplikacije, upute se šalju u više LLM -ova iza kulisa za odgovore. Korisnici tada biraju koji im se odgovor najviše sviđa, iako ne znaju koji je model generirao odgovor.

Okvir razmatra korisničke postavke za generiranje parova modela za usporedbu. Algoritam Bradley-Terry tada se koristi za izračunavanje rezultata za svaki model, što tada dovodi do konačne ploče.

Uključivanje AI ograničio je svoj eksperiment na podatke do srpnja 2025. godine, što je sadržavalo 501,003 u paru usporedbe.

Prema početnim eksperimentima s inkluzijom Arene, model koji je najizradniji je Anthropic’s Claude 3.7 sonet, DeepSeek V3-0324, Claude 3.5 sonet, DeepSeek V3 i Qwen Max-0125.

Naravno, to su bili podaci iz dvije aplikacije s više od 46.611 aktivnih korisnika, navodi se u radu. Istraživači su rekli da mogu stvoriti robusniju i precizniju ploču s više podataka.

Više ploča s čelnikom, više izbora

Sve veći broj modela koji se objavljuju čini izazovnijim za poduzeća da odaberu koji LLMS za početak evaluacije. Ploče i referentne vrijednosti vode donositelji tehničkih odluka na modele koji bi mogli pružiti najbolje performanse za njihove potrebe. Naravno, organizacije bi tada trebale provoditi interne procjene kako bi osigurale da su LLM -ovi učinkoviti za njihove primjene.

Također pruža ideju o širem LLM krajoliku, ističući koji modeli postaju konkurentni u usporedbi s njihovim vršnjacima. Nedavna mjerila kao što je RewardBench 2 od Allen Institut zaPokušavam uskladiti modele s slučajevima upotrebe u stvarnom životu za poduzeća.

Dnevni uvidi u slučajeve poslovne uporabe s VB dnevno

Ako želite impresionirati svog šefa, VB Daily vas je pokrivao. Dajemo vam unutarnju lopaticu o tome što tvrtke rade s generativnim AI, od regulatornih pomaka do praktičnih razmještaja, tako da možete dijeliti uvide za maksimalni ROI.

Pročitajte našu politiku privatnosti

Hvala na pretplati. Pogledajte više VB biltena ovdje.

Došlo je do pogreške.



Web izvor

Povezani sadržaji

  • Google čita značajka slatka nova brisanje poruka
  • Što se dogodilo kad sam na putovanju u letenju donio Coros pametni satŠto se dogodilo kad sam na putovanju u letenju donio Coros pametni sat
  • Podesite i ubrzajte Windows OS | Simple Performance BoostPodesite i ubrzajte Windows OS | Simple Performance Boost
  • Kako unaprijed zakazati objavljivanje na Facebook stranici
  • Kako su svemir i njegova zrcalna verzija različitiKako su svemir i njegova zrcalna verzija različiti
  • Upućena EM Dash – Aijev omiljeni interpunkcijski znak i kako vam puše naslovnicuUpućena EM Dash – Aijev omiljeni interpunkcijski znak i kako vam puše naslovnicu

Previous Article

FEMA sada zahtijeva da žrtve katastrofe imaju adresu e -pošte

Next Article

Oracle Cloud and private 5G give added edge to SailGP

Posljednje objave

Pixel 9 Pro rasprodaja zaliha stiže s cijenama niskim od 500 USD

Pixel 9 Pro rasprodaja zaliha stiže s cijenama niskim od 500 USD

Obožavatelji Fortnitea kažu “ne AI pomazi” nakon što su uočili ono za što vjeruju da su slike generirane umjetnom inteligencijom u igri

Obožavatelji Fortnitea kažu “ne AI pomazi” nakon što su uočili ono za što vjeruju da su slike generirane umjetnom inteligencijom u igri

Microsoft stvara okvir za sigurnu arhitekturu optičke mreže

Microsoft stvara okvir za sigurnu arhitekturu optičke mreže

Sadržaj

  • 1 Korištenje metode Bradley-Terry
  • 2 Kako to funkcionira
  • 3 Više ploča s čelnikom, više izbora

Novosti

  • Pixel 9 Pro rasprodaja zaliha stiže s cijenama niskim od 500 USD 1. prosinca 2025
  • Obožavatelji Fortnitea kažu “ne AI pomazi” nakon što su uočili ono za što vjeruju da su slike generirane umjetnom inteligencijom u igri 30. studenoga 2025
  • Microsoft stvara okvir za sigurnu arhitekturu optičke mreže 30. studenoga 2025
  • Zašto je vidljiva umjetna inteligencija SRE sloj koji nedostaje tvrtkama za pouzdane LLM-ove 30. studenoga 2025
  • Lijek za mršavljenje Zepbound testira se kao lijek za dugi Covid 30. studenoga 2025
  • Koliko RAM-a vaše računalo zapravo treba 2025. godine? Stručnjak za Windows i Mac računa 30. studenoga 2025
  • Samsung daje 71% popusta na Galaxy Watch 8 30. studenoga 2025
  • Hollow Knight: Silksong dev misli da će Clair Obscur: Expedition 33 osvojiti igru ​​godine: “Iznimna je i široko ukusna” 29. studenoga 2025
  • RailTel modernizira međugradske optičke mreže metroa diljem Indije 29. studenoga 2025
  • Anthropic kaže da je riješio dugogodišnji problem AI agenta s novim Claude SDK-om za više sesija 29. studenoga 2025

O nama

Oblak Znanja je blog edukativnog karaktera i namijenjen je svima koji žele unaprijediti svoje znanje iz područja računala i interneta.

Naš cilj je edukacija i pisanje zanimljivih objava kojima ćemo zajedno učiti i informirati se o svijetu informatike.

Na ovom blogu zabranjeno je svako kopiranje sadržaja bez dozvole autora.

Oblak Znanja

Oznake

besplatni powerpoint predlošci društvene mreže excel facebook firefox gmail google+ Google Chrome halloween halloween walpapers internet kartice linkedin profil linux microsoft Mozilla Firefox ms powerpoint oblak znanja office 2007 office savjeti online kupovina pick powerpoint powerpoint predložak powerpoint savjeti rastući niz savjet slike za radnu površinu spremanje datoteka strani jezik tipkovnicke kratice twitter twitter alati uređivanje slika wallpaper clock web preglednik windows windows 7 windows aplikacije windows vista word word 2007 word savjeti youtube savjeti youtube tipkovničke kratice