Scale AI pokreće Voice Showdown, prvo mjerilo za glasovnu umjetnu inteligenciju u stvarnom svijetu — a rezultati su ponižavajući za neke vrhunske modele

Glas AI kreće se brže od alata koje koristimo za mjerenje. Svaki veći laboratorij umjetne inteligencije – OpenAI, Google DeepMind, Anthropic, xAI – utrkuje se u slanju glasovnih modela sposobnih za prirodnu konverzaciju u stvarnom vremenu.

Ali mjerila koja se koriste za procjenu tih modela uglavnom se još uvijek pokreću na sintetičkom govoru, upitima samo na engleskom i skriptiranim setovima testova koji malo podsjećaju na to kako ljudi zapravo razgovaraju.

Razmjer AIpokretanje anotacije velikih podataka čijeg je utemeljitelja Meta prošle godine otimao da vodi njihov Superintelligence Labi dalje je jak i rješava problem: danas se pokreće Glasovni obračunono što naziva prvom globalnom arenom temeljenom na preferencijama dizajniranom za usporedbu glasovne umjetne inteligencije kroz objektiv stvarne ljudske interakcije.

Ovaj proizvod korisnicima nudi jedinstvenu stratešku vrijednost: besplatan pristup vodećim svjetskim graničnim modelima. Putem platforme ChatLab tvrtke Scale korisnici mogu komunicirati s modelima visoke razine—koji obično zahtijevaju višestruke pretplate od 20 USD mjesečno—bez naknade. U zamjenu, korisnici sudjeluju u povremenim naslijepo, head-to-head "bitke" kako bi odabrali koji od dva anonimizirana vodeća glasovna modela nudi bolje iskustvo, pružajući podatke za najautentičniju ljestvicu glasovnih AI modela u industriji po ljudskim preferencijama.

"Glasovna umjetna inteligencija trenutačno je trenutno najbrže pokretna granica u umjetnoj inteligenciji," rekla je Janie Gu, voditeljica proizvoda za Showdown at Scale AI. "Ali način na koji procjenjujemo glasovne modele nije zadržao korak."

Rezultati, izvučeni iz tisuća spontanih glasovnih razgovora na više od 60 jezika, otkrivaju nedostatke u mogućnostima koje su druga mjerila stalno promašivala.

Sadržaj objave

1 Kako funkcionira Scale’s Voice Showdown
2 Glasanje usklađeno s poticajima
3 Novi Voice AI leaderboard na koji bi svaki donositelj poslovnih odluka trebao obratiti pozornost
4 Iznenađeni otkriveni podacima o preferencijama iz stvarnog svijeta
5 Izbor glasa je više od estetike
6 Modeli degradiraju u razgovoru
7 Zašto neki glasovni AI modeli gube
8 Što je sljedeće
- 8.1 Povezani sadržaji

Kako funkcionira Scale’s Voice Showdown

Voice Showdown izgrađen je na ChatLabu, Scaleovoj platformi za chat koja ne ovisi o modelu, gdje korisnici mogu slobodno komunicirati s bilo kojim graničnim AI modelom koji odaberu — besplatno — unutar jedne aplikacije. Platforma je dostupna Scaleovoj globalnoj zajednici od preko 500.000 anotatora, od kojih je otprilike 300.000 poslalo barem jedan upit. Scale danas otvara platformu za javnu listu čekanja.

Mehanizam evaluacije je elegantan u svojoj jednostavnosti: dok korisnik vodi prirodni glasovni razgovor s modelom, sustav povremeno – na manje od 5% svih glasovnih upita – prikazuje slijepu usporedbu. Isti upit šalje se drugom, anonimnom modelu, a korisnik odabire odgovor koji želi.

Ovaj dizajn rješava tri problema koji muče postojeće glasovne referentne vrijednosti.

Prvo, svaki upit dolazi iz stvarnog ljudskog govora — s naglascima, pozadinskom bukom, poludovršenim rečenicama i dodatkom za razgovor — umjesto sintetiziranog zvuka generiranog iz teksta.

Drugo, platforma se proteže na više od 60 jezika na 6 kontinenata, a više od trećine bitaka odvija se na jezicima koji nisu engleski, uključujući španjolski, arapski, japanski, portugalski, hindski i francuski.

Treće, budući da se bitke odvijaju unutar stvarnih dnevnih razgovora korisnika, 81% upita su razgovorni ili otvoreni – pitanja bez ijednog točnog odgovora. To isključuje automatsko bodovanje i čini ljudske preferencije jedinim vjerodostojnim signalom.

Voice Showdown trenutno pokreće dva načina evaluacije: Diktiranje (korisnici govore, modeli odgovaraju tekstom) i Govor-u-Govor ili S2S (Govor-u-Govor, korisnici govore, modeli odgovaraju). Treći način rada — Full Duplex, koji snima prekidni razgovor u stvarnom vremenu — je u razvoju.

Glasanje usklađeno s poticajima

Jedan detalj dizajna razlikuje Voice Showdown od Chatbot Arene (LM Arena), tekstualnog mjerila kojem je najsličniji. U LM Areni, kritičari su primijetili da korisnici ponekad bacaju glasove za bacanje s malim ulogom u ishod. Voice Showdown to izravno rješava: nakon što korisnik glasa za model koji preferira, aplikacija ga prebacuje na taj model do kraja razgovora. Ako ste glasali za GPT-4o Audio umjesto Gemini, sada razgovarate s GPT-4o Audio. To usklađivanje posljedica s preferencijama obeshrabruje slučajno ili nepošteno glasovanje.

Sustav također kontrolira zbunjujuće faktore koji bi mogli pokvariti usporedbe: oba modela odgovora počinju strujati istovremeno (eliminiranje pristranosti brzine), glasovni spol se podudara u obje opcije (eliminiranje pristranosti rodnih preferencija), a niti jedan model nije identificiran imenom tijekom glasovanja.

Novi Voice AI leaderboard na koji bi svaki donositelj poslovnih odluka trebao obratiti pozornost

Voice Showdown pokreće se s 11 graničnih modela procijenjenih u 52 para model-glas od 18. ožujka 2026. Ne podržavaju svi modeli oba načina ocjenjivanja — ploča s najboljim rezultatima Dictate uključuje 8 modela, dok S2S uključuje 6.

Diktirajte ploču s najboljim rezultatima (unos govora, izlazak teksta)

U ovom načinu rada korisnici daju govorni upit i procjenjuju dva tekstualna odgovora jedan uz drugi. Ovo su osnovni rezultati:

Gemini 3 Pro (1073)
Blizanac 3 (1068)
GPT-4o audio (1019)
Qwen 3 Omni (1000)
Voxtral Small (925)
Gemma 3n (918)
GPT u stvarnom vremenu (875)
Phi-4 Multimodalni (729)

Bilješka: Gemini 3 Pro i Gemini 3 Flash statistički su izjednačeni za najviši rang.

Speech-to-Speech (S2S) Leaderboard

U ovom načinu rada korisnici razgovaraju s modelom i ocjenjuju dva konkurentna zvučna odgovora. Također osnovne linije:

Gemini 2.5 Flash Audio (1060)
GPT-4o audio (1059)
Grok Glas (1024)
Qwen 3 Omni (1000)
GPT u stvarnom vremenu (962)
GPT u stvarnom vremenu 1.5 (920)

Bilješka: Gemini 2.5 Flash Audio i GPT-4o Audio statistički su povezani za najviši rang u osnovnim procjenama.

Dictate rangiranje predvode Googleovi Gemini 3 Pro i Gemini 3 Flash, koji su statistički izjednačeni na #1 s Elo rezultatima oko 1,043-1,044 nakon stilskih kontrola.

GPT-4o Audio drži čisto treće mjesto. Otvoreni modeli, uključujući Gemma3n, Voxtral Small i Phi-4 Multimodal značajno napreduju.

Speech-to-Speech (S2S) ljestvica pokazuje čvršću utrku na vrhu, s Gemini 2.5 Flash Audio i GPT-4o Audio statistički izjednačenim na #1 u osnovnoj ljestvici.

Nakon prilagodbe za duljinu odgovora i formatiranje — čimbenike koji mogu povećati percipiranu kvalitetu — GPT-4o Audio povlači prednost (1102 Elo u odnosu na 1075 za Gemini 2.5 Flash Audio).

Grok Voice skočio je na drugu poziciju na 1093 pod kontrolama stila, što sugerira da njegovo sirovo 3. mjesto na ljestvici slabije prodaje njegovu stvarnu kvalitetu izvedbe.

Qwen 3 Omni, otvoreni model iz Alibabinog Qwen tima, ima bolju izvedbu na čistim preferencijama nego što bi njegova popularnost sugerirala — zauzima četvrto mjesto u oba načina, ispred nekoliko imena višeg profila.

"Kad ljudi dođu, traže velika imena," primijetio je Gu. "Ali za prednost, manje poznati modeli poput Qwena zapravo povlače prednost."

Iznenađeni otkriveni podacima o preferencijama iz stvarnog svijeta

Osim rangiranja, stvarna vrijednost Voice Showdowna je u dijagnostici kvarova — a one daju kompliciraniju sliku glasovne umjetne inteligencije nego što to većina ljestvica pokazuje.

Višejezični jaz je gori nego što mislite

Robusnost jezika najveća je razlika među modelima. U Dictateu, modeli Gemini 3 vode u gotovo svakom testiranom jeziku.

U S2S, pobjednik uvelike ovisi o tome koji se jezik govori: GPT-4o Audio vodi u arapskom i turskom; Gemini 2.5 Flash Audio najjači je na francuskom; Grok Voice je konkurentan na japanskom i portugalskom jeziku.

Ali alarmantnije je otkriće koliko često neki modeli jednostavno uopće prestanu odgovarati na jeziku korisnika.

GPT Realtime 1.5 — OpenAI-jev noviji glasovni model u stvarnom vremenu — odgovara na engleskom jeziku na upite koji nisu engleski otprilike 20% vremena, čak i na službeno podržanim jezicima s velikim brojem resursa poput hindskog, španjolskog i turskog.

Njegov prethodnik, GPT Realtime, ne podudara se otprilike upola od te stope (~10%). Gemini 2.5 Flash Audio i GPT-4o Audio nalaze se na ~7%.

Fenomen ide u oba smjera: neki modeli prenose neengleski kontekst iz ranijeg razgovora u engleski ili jednostavno pogrešno čuju upit i generiraju nepovezani odgovor na potpuno pogrešnom jeziku.

Doslovni izrazi korisnika s platforme otvoreno prikazuju frustraciju: "Rekao sam da danas imam intervju s Quest Managementom i umjesto odgovora dao mi je informacije o ‘Risk Managementu’."

"GPT Realtime 1.5 mislio je da govorim nepovezano i preporučio pomoć za mentalno zdravlje, dok je Qwen 3 Omni ispravno identificirao da govorim nigerijskim lokalnim jezikom."

Razlog zašto postojeće referentne vrijednosti to propuštaju: izgrađene su na sintetičkom govoru optimiziranom za čiste akustične uvjete i rijetko su višejezične. Pravi govornici u stvarnom okruženju — s pozadinskom bukom, kratkim izgovorima i regionalnim naglascima — kvare razumijevanje govora na način koji laboratorijski uvjeti ne predviđaju.

Izbor glasa je više od estetike

Voice Showdown ne ocjenjuje modele samo na razini modela, već i na razini pojedinačnog glasa — a varijacije unutar glasovnog kataloga jednog modela su zapanjujuće.

Za jedan neimenovani model u studiji, glas s najboljom izvedbom osvajao je 30 postotnih bodova češće od glasa s najlošijom izvedbom iz istog temeljnog modela. Oba glasa dijele isto razmišljanje i pozadinu generiranja. Razlika je isključivo u audio prezentaciji.

Glasovi s najboljom izvedbom obično pobjeđuju ili gube na razumijevanju zvuka i potpunosti sadržaja — je li vas model točno čuo i odgovorio u potpunosti. Ali kvaliteta govora ostaje odlučujući čimbenik na razini odabira glasa, osobito kada su modeli inače usporedivi. "Glas izravno oblikuje kako korisnici procjenjuju interakciju," rekao je Gu.

Modeli degradiraju u razgovoru

Većina mjerila testira jedan okret. Voice Showdown testira koliko se modeli drže u dugim razgovorima — a rezultati nisu laskavi.

Na Turn 1, kvaliteta sadržaja odgovorna je za 23% kvarova modela. Do Turn 11 i kasnije, to postaje primarni način kvara na 43%. Većina modela bilježi pad stope pobjede kako se razgovori produžuju, boreći se za održavanje koherentnosti u višestrukim razmjenama.

Varijante GPT-a u stvarnom vremenu su iznimka, neznatno se poboljšavaju na kasnijim potezima – u skladu s njihovim poznatim prednostima u duljim kontekstima i njihovim dokumentiranim slabostima u kratkim, bučnim izjavama koje dominiraju ranim interakcijama.

Duljina upita pokazuje komplementarni obrazac: kratkim upitima (ispod 10 sekundi) dominiraju neuspješno razumijevanje zvuka (38%), dok dugi upiti (preko 40 sekundi) pomiču primarni neuspjeh prema kvaliteti sadržaja (31%). Kraći zvuk daje modelima manje akustičnog konteksta za analizu; dulji zahtjevi se razumiju, ali je teže odgovoriti dobro.

Zašto neki glasovni AI modeli gube

Nakon svake usporedbe S2S, korisnici označavaju zašto su preferirali jedan odgovor nad drugim u tri osi: razumijevanje zvuka, kvaliteta sadržaja i govorni izlaz. Signature neuspjeha značajno se razlikuju ovisno o modelu.

Gubici Qwen 3 Omnija grupiraju se oko generiranja govora — njegovo razmišljanje je natjecateljsko, ali korisnike odbija kako zvuči. Gubicima GPT Realtime 1.5 dominiraju neuspjesi u razumijevanju zvuka (51%), što je u skladu s njegovim ponašanjem promjene jezika na zahtjevne upite. Neuspjesi Grok Voicea uravnoteženiji su u sve tri osi, što ne ukazuje na pojedinačnu dominantnu slabost, ali ni na osobitu snagu.

Što je sljedeće

Trenutačna ploča s najboljim rezultatima pokriva naizmjeničnu interakciju — vi govorite, model odgovara, ponavljanje. Ali pravi glasovni razgovori ne funkcioniraju na taj način. Ljudi prekidaju, mijenjaju smjer usred rečenice i pričaju jedni preko drugih.

Scale kaže da Full Duplex procjena — osmišljena za bilježenje ove dinamike u stvarnom vremenu kroz ljudske preferencije umjesto skriptiranih scenarija ili automatiziranih metrika — dolazi u Showdown kao sljedeća. Nijedna postojeća referentna vrijednost ne bilježi full-duplex interakciju putem organskih podataka o ljudskim preferencijama.

Ploča s najboljim rezultatima dostupna je uživo na scale.com/showdown. Javna lista čekanja za pridruživanje ChatLabu i glasovanje o usporedbama otvorena je danas, a korisnici dobivaju besplatan pristup graničnim glasovnim modelima uključujući GPT-4o, Gemini i Grok u zamjenu za povremene glasove preferencija.

Web izvor