Unatoč velikom hypeu, "glas AI" je do sada uglavnom bio eufemizam za petlju zahtjev-odgovor. Vi govorite, poslužitelj u oblaku transkribira vaše riječi, jezični model razmišlja, a robotski glas čita tekst natrag. Funkcionalno, ali ne baš razgovorno.
Sve se to promijenilo prošlog tjedna s brzim nizom moćnih, brzih i sposobnijih glasovnih AI modela izdanja od Nvidia, Unutarnji svijet, FlashLabsi Alibabin Qwen timu kombinaciji s velikim prikupljanjem talenata i ugovorom o licenciranju tehnologije od strane Google DeepMind i Hume AI.
Sada je industrija učinkovito riješila četvoricu "nemoguće" problemi glasovnog računalstva: latencija, fluidnost, učinkovitost i emocije.
Za graditelje poduzeća, implikacije su trenutne. Prešli smo iz doba "chatbotovi koji govore" do doba "empatična sučelja."
Evo kako se krajolik promijenio, specifični modeli licenciranja za svaki novi alat i što to znači za sljedeću generaciju aplikacija.
Sadržaj objave
- 1 1. Smrt latencije – nema više neugodnih stanki
- 2 2. Rješavanje "problem robota" putem full duplexa
- 3 3. Kompresija visoke vjernosti dovodi do manje količine podataka
- 4 4. Faktor ‘to’ koji nedostaje: emocionalna inteligencija
- 5 5. Nova korporativna glasovna AI knjiga
- 6 Od dovoljno dobrog do stvarno dobrog
1. Smrt latencije – nema više neugodnih stanki
The "čarobni broj" u ljudskom razgovoru je otprilike 200 milisekundi. To je tipičan jaz između jedne osobe koja završava rečenicu i druge koja započinje svoju. Sve dulje od 500 ms čini se kao kašnjenje satelita; sve dulje od sekunde u potpunosti razbija iluziju inteligencije.
Do sada je lančano povezivanje ASR (prepoznavanje govora), LLM (inteligencija) i TTS (pretvorba teksta u govor) rezultiralo latencijama od 2 do 5 sekundi.
Inworld AI izdaje TTS 1.5 izravno napada ovo usko grlo. Postizanjem P90 latencije ispod 120 ms, Inworld je učinkovito gurnuo tehnologiju brže od ljudske percepcije.
Za programere koji izrađuju agente korisničke službe ili interaktivne avatare za obuku, to znači "pauza u razmišljanju" je mrtav.
Ono što je ključno, Inworld tvrdi da ovaj model postiže "sinkronizacija na razini visema," što znači da će se pokreti usana digitalnog avatara podudarati sa zvukom kadar po kadar – što je preduvjet za igranje igrica visoke vjernosti i VR obuku.
Dostupan je putem komercijalnog API-ja (cjenovne razine temeljene na upotrebi) s besplatnom razinom za testiranje.
Istovremeno, FlashLabs je objavio Chroma 1.0end-to-end model koji integrira faze slušanja i govora. Obradom audio tokena izravno putem isprepletenog rasporeda tekstualnih i audio tokena (omjer 1:2), model zaobilazi potrebu za pretvaranjem govora u tekst i natrag.
Ovaj "streaming arhitektura" omogućuje modelu učinkovito generiranje akustičnih kodova dok još uvijek generira tekst "razmišljajući naglas" u obliku podataka prije nego što se zvuk uopće sintetizira. Ovaj je otvorenog koda na Hugging Face pod licencom Apache 2.0 pogodnom za poduzeća, komercijalno isplativom.
Zajedno, oni signaliziraju da brzina više nije razlika; to je roba. Ako vaša glasovna aplikacija ima odgodu od 3 sekunde, sada je zastarjela. Standard za 2026. je trenutačni, prekidivi odgovor.
2. Rješavanje "problem robota" putem full duplexa
Brzina je beskorisna ako je umjetna inteligencija nepristojna. Tradicionalni glasovni botovi su "poludupleks"— kao walkie-talkie, ne mogu slušati dok govore. Ako pokušate prekinuti bankovnog bota da ispravi pogrešku, on vas nastavlja govoriti.
Nvidijin PersonaPlexobjavljen prošli tjedan, uvodi parametar od 7 milijardi "puni dupleks" model.
Izgrađen na Moshi arhitekturi (izvorno iz Kyutaija), koristi dizajn dvostrukog toka: jedan tok za slušanje (putem Mimi neuronskog audio kodeka) i jedan za govor (putem Helium jezičnog modela). To omogućuje modelu da ažurira svoje unutarnje stanje dok korisnik govori, što mu omogućuje elegantno rukovanje prekidima.
Ono što je najvažnije, razumije "povratno kanaliziranje"— neverbalno "uh-ha," "prava," i "okej" koje ljudi koriste za signaliziranje aktivnog slušanja bez uzimanja riječi. Ovo je suptilan, ali dubok pomak za dizajn korisničkog sučelja.
AI koji se može prekinuti omogućuje učinkovitost. Kupac može prekinuti dugo pravno odricanje od odgovornosti govoreći: "Shvatio sam, nastavi dalje," i AI će se odmah okrenuti. Ovo oponaša dinamiku ljudskog operatera visoke kompetencije.
Težine modela objavljene su pod licencom Nvidia Open Model (dopuštena za komercijalnu upotrebu, ali uz uvjete pripisivanja/distribucije), dok je kod licenciran MIT-om.
3. Kompresija visoke vjernosti dovodi do manje količine podataka
Dok su se Inworld i Nvidia usredotočili na brzinu i ponašanje, AI moćnik otvorenog koda Qwen (matična tvrtka Alibaba Cloud) tiho je riješio problem propusnosti.
Ranije danas, tim je objavio Qwen3-TTSs revolucionarnim tokenizatorom od 12 Hz. Na jednostavnom engleskom, to znači da model može predstavljati govor visoke vjernosti koristeći nevjerojatno malu količinu podataka – samo 12 tokena u sekundi.
Usporedbe radi, prijašnji najsuvremeniji modeli zahtijevali su znatno veće stope tokena za održavanje kvalitete zvuka. Qwenova mjerila pokazuju da nadmašuje konkurente poput FireredTTS 2 na ključnim metrikama rekonstrukcije (MCD, CER, WER) dok koristi manje tokena.
Zašto je to važno za poduzeće? Trošak i razmjer.
Model koji zahtijeva manje podataka za generiranje govora jeftiniji je za pokretanje i brži za strujanje, posebno na rubnim uređajima ili u okruženjima niske propusnosti (poput terenskog tehničara koji koristi glasovnog asistenta na 4G vezi). Pretvara visokokvalitetnu glasovnu umjetnu inteligenciju iz luksuza koji opterećuje poslužitelje u lagani uslužni program.
Dostupno je na Hugging Face sada pod dopuštenom licencom Apache 2.0, savršeno za istraživanje i komercijalnu primjenu.
4. Faktor ‘to’ koji nedostaje: emocionalna inteligencija
Možda najznačajnija vijest tjedna—i najsloženija—je Prelazak Google DeepMinda na licenciranje Hume AI tehnologije i zaposliti svog glavnog izvršnog direktora, Alana Cowena, zajedno s ključnim istraživačkim osobljem.
Dok Google integrira ovu tehnologiju u Gemini kako bi pokrenuo sljedeću generaciju potrošačkih pomoćnika, sama Hume AI se okreće kako bi postala okosnica infrastrukture za poduzeće.
Pod novi izvršni direktor Andrew EttingerHume udvostručuje tezu da "emocija" nije značajka korisničkog sučelja, već problem s podacima.
U ekskluzivnom intervjuu za VentureBeat u vezi s prijelazom, Ettinger je objasnio da kako glas postaje primarno sučelje, trenutni skup nije dovoljan jer sve ulaze tretira kao ravni tekst.
"Iz prve sam ruke vidio kako granični laboratoriji koriste podatke za postizanje točnosti modela," kaže Ettinger. "Glas se vrlo jasno pojavljuje kao de facto sučelje za AI. Ako vidite da se to događa, također biste zaključili da će emocionalna inteligencija oko tog glasa biti kritična – dijalekti, razumijevanje, rasuđivanje, modulacija."
Izazov za graditelje poduzeća bio je taj što su LLM-ovi po dizajnu sociopati — oni predviđaju sljedeću riječ, a ne emocionalno stanje korisnika. Zdravstveni bot koji zvuči veselo kada pacijent prijavi kroničnu bol predstavlja odgovornost. Financijski bot koji zvuči dosadno kada klijent prijavi prijevaru predstavlja rizik odljeva.
Ettinger naglašava da se ovdje ne radi samo o tome da botovi zvuče lijepo; radi se o konkurentskoj prednosti.
Na pitanje o sve konkurentnijem okruženju i ulozi otvorenog izvornog koda u odnosu na vlasničke modele, Ettinger je ostao pragmatičan.
Napomenuo je da dok modeli otvorenog koda poput PersonaPlexa podižu temelje za interakciju, vlasnička prednost leži u podacima—točnije, visokokvalitetnim, emocionalno komentiranim govornim podacima koje je Hume godinama prikupljao.
"Tim u Humeu naišao je naglavačke na problem koji dijele gotovo svi glasovni modeli izgradnje tima danas: nedostatak visokokvalitetnih, emocionalno komentiranih govornih podataka za post-trening," on napisao je na LinkedInu. "Rješavanje ovog zahtjeva zahtijevalo je preispitivanje načina na koji se audio podaci prikupljaju, označavaju i ocjenjuju… To je naša prednost. Emocija nije značajka; to je temelj."
Humeovi modeli i podatkovna infrastruktura dostupni su putem vlasničkog poslovnog licenciranja.
5. Nova korporativna glasovna AI knjiga
S ovim dijelovima na mjestu, "Glasovni snop" za 2026. izgleda radikalno drugačije.
-
Mozak: LLM (poput Gemini ili GPT-4o) daje obrazloženje.
-
Tijelo: Učinkoviti, otvoreni modeli kao što su PersonaPlex (Nvidia), Chroma (FlashLabs) ili Qwen3-TTS upravljaju redom, sintezom i kompresijom, omogućujući programerima da ugoste svoje agente s visokim odzivom.
-
Duša: Platforme poput Humea daju označene podatke i emocionalnu težinu kako bi osigurali AI "čita sobu," sprječavanje štete po reputaciju gluhog bota.
Ettinger tvrdi tržišnu potražnju za ovom specifičnom "emocionalni sloj" eksplodira izvan pukih tehničkih pomoćnika.
"Vidimo to vrlo duboko s graničnim laboratorijima, ali i u zdravstvu, obrazovanju, financijama i proizvodnji," rekao mi je Ettinger. "Dok ljudi pokušavaju staviti aplikacije u ruke tisuća radnika diljem svijeta koji imaju složene SKU-ove… svakodnevno vidimo desetke i desetke slučajeva upotrebe."
Ovo se slaže s njegovim komentari na LinkedInugdje je otkrio da je Hume potpisao "višestruki 8-znamenkasti ugovori samo u siječnju," potvrđujući tezu da su poduzeća spremna platiti premiju za AI koja ne razumije samo što je kupac rekao, već i kako se osjećao.
Od dovoljno dobrog do stvarno dobrog
Godinama se glasovna umjetna inteligencija poduzeća ocjenjivala po krivulji. Ako je razumio namjeru korisnika 80% vremena, bio je uspjeh.
Tehnologije objavljene ovaj tjedan uklonile su tehničke isprike za loša iskustva. Latencija je riješena. Prekid je riješen. Propusnost je riješena. Emotivna nijansa je rješiva.
"Baš kao što su GPU-ovi postali temelj za modele obuke," Ettinger je napisao na svom LinkedInu, "emocionalna inteligencija bit će temeljni sloj za AI sustave koji zapravo služe ljudskoj dobrobiti."
Za CIO ili CTO poruka je jasna: Trenje je uklonjeno iz sučelja. Jedino preostalo trvenje je u tome koliko brzo organizacije mogu usvojiti novi skup.


