Oblak Znanja

  • Home
  • Novosti
  • Učionica
    • Informatika 5
    • Informatika 6
    • Informatika 7
    • Informatika 8
    • Logo jezik
    • WordPress
    • Microsoft Office
  • Vodiči
    • Online vodiči
    • Kratki savjeti
    • Korisne aplikacije
    • Društvene mreže
    • Multimedija
    • Zanimljivosti
✕

Sve se u glasovnoj umjetnoj inteligenciji upravo promijenilo: kako proizvođači umjetne inteligencije u poduzećima mogu imati koristi

Novosti

Sve se u glasovnoj umjetnoj inteligenciji upravo promijenilo: kako proizvođači umjetne inteligencije u poduzećima mogu imati koristi

Tomšić Damjan 23. siječnja 2026

Unatoč velikom hypeu, "glas AI" je do sada uglavnom bio eufemizam za petlju zahtjev-odgovor. Vi govorite, poslužitelj u oblaku transkribira vaše riječi, jezični model razmišlja, a robotski glas čita tekst natrag. Funkcionalno, ali ne baš razgovorno.

Sve se to promijenilo prošlog tjedna s brzim nizom moćnih, brzih i sposobnijih glasovnih AI modela izdanja od Nvidia, Unutarnji svijet, FlashLabsi Alibabin Qwen timu kombinaciji s velikim prikupljanjem talenata i ugovorom o licenciranju tehnologije od strane Google DeepMind i Hume AI.

Sada je industrija učinkovito riješila četvoricu "nemoguće" problemi glasovnog računalstva: latencija, fluidnost, učinkovitost i emocije.

Za graditelje poduzeća, implikacije su trenutne. Prešli smo iz doba "chatbotovi koji govore" do doba "empatična sučelja."

Evo kako se krajolik promijenio, specifični modeli licenciranja za svaki novi alat i što to znači za sljedeću generaciju aplikacija.

Sadržaj objave

  • 1 1. Smrt latencije – nema više neugodnih stanki
  • 2 2. Rješavanje "problem robota" putem full duplexa
  • 3 3. Kompresija visoke vjernosti dovodi do manje količine podataka
  • 4 4. Faktor ‘to’ koji nedostaje: emocionalna inteligencija
  • 5 5. Nova korporativna glasovna AI knjiga
  • 6 Od dovoljno dobrog do stvarno dobrog
    • 6.1 Povezani sadržaji

1. Smrt latencije – nema više neugodnih stanki

The "čarobni broj" u ljudskom razgovoru je otprilike 200 milisekundi. To je tipičan jaz između jedne osobe koja završava rečenicu i druge koja započinje svoju. Sve dulje od 500 ms čini se kao kašnjenje satelita; sve dulje od sekunde u potpunosti razbija iluziju inteligencije.

Do sada je lančano povezivanje ASR (prepoznavanje govora), LLM (inteligencija) i TTS (pretvorba teksta u govor) rezultiralo latencijama od 2 do 5 sekundi.

Inworld AI izdaje TTS 1.5 izravno napada ovo usko grlo. Postizanjem P90 latencije ispod 120 ms, Inworld je učinkovito gurnuo tehnologiju brže od ljudske percepcije.

Za programere koji izrađuju agente korisničke službe ili interaktivne avatare za obuku, to znači "pauza u razmišljanju" je mrtav.

Ono što je ključno, Inworld tvrdi da ovaj model postiže "sinkronizacija na razini visema," što znači da će se pokreti usana digitalnog avatara podudarati sa zvukom kadar po kadar – što je preduvjet za igranje igrica visoke vjernosti i VR obuku.

Dostupan je putem komercijalnog API-ja (cjenovne razine temeljene na upotrebi) s besplatnom razinom za testiranje.

Istovremeno, FlashLabs je objavio Chroma 1.0end-to-end model koji integrira faze slušanja i govora. Obradom audio tokena izravno putem isprepletenog rasporeda tekstualnih i audio tokena (omjer 1:2), model zaobilazi potrebu za pretvaranjem govora u tekst i natrag.

Ovaj "streaming arhitektura" omogućuje modelu učinkovito generiranje akustičnih kodova dok još uvijek generira tekst "razmišljajući naglas" u obliku podataka prije nego što se zvuk uopće sintetizira. Ovaj je otvorenog koda na Hugging Face pod licencom Apache 2.0 pogodnom za poduzeća, komercijalno isplativom.

Zajedno, oni signaliziraju da brzina više nije razlika; to je roba. Ako vaša glasovna aplikacija ima odgodu od 3 sekunde, sada je zastarjela. Standard za 2026. je trenutačni, prekidivi odgovor.

2. Rješavanje "problem robota" putem full duplexa

Brzina je beskorisna ako je umjetna inteligencija nepristojna. Tradicionalni glasovni botovi su "poludupleks"— kao walkie-talkie, ne mogu slušati dok govore. Ako pokušate prekinuti bankovnog bota da ispravi pogrešku, on vas nastavlja govoriti.

Nvidijin PersonaPlexobjavljen prošli tjedan, uvodi parametar od 7 milijardi "puni dupleks" model.

Izgrađen na Moshi arhitekturi (izvorno iz Kyutaija), koristi dizajn dvostrukog toka: jedan tok za slušanje (putem Mimi neuronskog audio kodeka) i jedan za govor (putem Helium jezičnog modela). To omogućuje modelu da ažurira svoje unutarnje stanje dok korisnik govori, što mu omogućuje elegantno rukovanje prekidima.

Ono što je najvažnije, razumije "povratno kanaliziranje"— neverbalno "uh-ha," "prava," i "okej" koje ljudi koriste za signaliziranje aktivnog slušanja bez uzimanja riječi. Ovo je suptilan, ali dubok pomak za dizajn korisničkog sučelja.

AI koji se može prekinuti omogućuje učinkovitost. Kupac može prekinuti dugo pravno odricanje od odgovornosti govoreći: "Shvatio sam, nastavi dalje," i AI će se odmah okrenuti. Ovo oponaša dinamiku ljudskog operatera visoke kompetencije.

Težine modela objavljene su pod licencom Nvidia Open Model (dopuštena za komercijalnu upotrebu, ali uz uvjete pripisivanja/distribucije), dok je kod licenciran MIT-om.

3. Kompresija visoke vjernosti dovodi do manje količine podataka

Dok su se Inworld i Nvidia usredotočili na brzinu i ponašanje, AI moćnik otvorenog koda Qwen (matična tvrtka Alibaba Cloud) tiho je riješio problem propusnosti.

Ranije danas, tim je objavio Qwen3-TTSs revolucionarnim tokenizatorom od 12 Hz. Na jednostavnom engleskom, to znači da model može predstavljati govor visoke vjernosti koristeći nevjerojatno malu količinu podataka – samo 12 tokena u sekundi.

Usporedbe radi, prijašnji najsuvremeniji modeli zahtijevali su znatno veće stope tokena za održavanje kvalitete zvuka. Qwenova mjerila pokazuju da nadmašuje konkurente poput FireredTTS 2 na ključnim metrikama rekonstrukcije (MCD, CER, WER) dok koristi manje tokena.

Zašto je to važno za poduzeće? Trošak i razmjer.

Model koji zahtijeva manje podataka za generiranje govora jeftiniji je za pokretanje i brži za strujanje, posebno na rubnim uređajima ili u okruženjima niske propusnosti (poput terenskog tehničara koji koristi glasovnog asistenta na 4G vezi). Pretvara visokokvalitetnu glasovnu umjetnu inteligenciju iz luksuza koji opterećuje poslužitelje u lagani uslužni program.

Dostupno je na Hugging Face sada pod dopuštenom licencom Apache 2.0, savršeno za istraživanje i komercijalnu primjenu.

4. Faktor ‘to’ koji nedostaje: emocionalna inteligencija

Možda najznačajnija vijest tjedna—i najsloženija—je Prelazak Google DeepMinda na licenciranje Hume AI tehnologije i zaposliti svog glavnog izvršnog direktora, Alana Cowena, zajedno s ključnim istraživačkim osobljem.

Dok Google integrira ovu tehnologiju u Gemini kako bi pokrenuo sljedeću generaciju potrošačkih pomoćnika, sama Hume AI se okreće kako bi postala okosnica infrastrukture za poduzeće.

Pod novi izvršni direktor Andrew EttingerHume udvostručuje tezu da "emocija" nije značajka korisničkog sučelja, već problem s podacima.

U ekskluzivnom intervjuu za VentureBeat u vezi s prijelazom, Ettinger je objasnio da kako glas postaje primarno sučelje, trenutni skup nije dovoljan jer sve ulaze tretira kao ravni tekst.

"Iz prve sam ruke vidio kako granični laboratoriji koriste podatke za postizanje točnosti modela," kaže Ettinger. "Glas se vrlo jasno pojavljuje kao de facto sučelje za AI. Ako vidite da se to događa, također biste zaključili da će emocionalna inteligencija oko tog glasa biti kritična – dijalekti, razumijevanje, rasuđivanje, modulacija."

Izazov za graditelje poduzeća bio je taj što su LLM-ovi po dizajnu sociopati — oni predviđaju sljedeću riječ, a ne emocionalno stanje korisnika. Zdravstveni bot koji zvuči veselo kada pacijent prijavi kroničnu bol predstavlja odgovornost. Financijski bot koji zvuči dosadno kada klijent prijavi prijevaru predstavlja rizik odljeva.

Ettinger naglašava da se ovdje ne radi samo o tome da botovi zvuče lijepo; radi se o konkurentskoj prednosti.

Na pitanje o sve konkurentnijem okruženju i ulozi otvorenog izvornog koda u odnosu na vlasničke modele, Ettinger je ostao pragmatičan.

Napomenuo je da dok modeli otvorenog koda poput PersonaPlexa podižu temelje za interakciju, vlasnička prednost leži u podacima—točnije, visokokvalitetnim, emocionalno komentiranim govornim podacima koje je Hume godinama prikupljao.

"Tim u Humeu naišao je naglavačke na problem koji dijele gotovo svi glasovni modeli izgradnje tima danas: nedostatak visokokvalitetnih, emocionalno komentiranih govornih podataka za post-trening," on napisao je na LinkedInu. "Rješavanje ovog zahtjeva zahtijevalo je preispitivanje načina na koji se audio podaci prikupljaju, označavaju i ocjenjuju… To je naša prednost. Emocija nije značajka; to je temelj."

Humeovi modeli i podatkovna infrastruktura dostupni su putem vlasničkog poslovnog licenciranja.

5. Nova korporativna glasovna AI knjiga

S ovim dijelovima na mjestu, "Glasovni snop" za 2026. izgleda radikalno drugačije.

  • Mozak: LLM (poput Gemini ili GPT-4o) daje obrazloženje.

  • Tijelo: Učinkoviti, otvoreni modeli kao što su PersonaPlex (Nvidia), Chroma (FlashLabs) ili Qwen3-TTS upravljaju redom, sintezom i kompresijom, omogućujući programerima da ugoste svoje agente s visokim odzivom.

  • Duša: Platforme poput Humea daju označene podatke i emocionalnu težinu kako bi osigurali AI "čita sobu," sprječavanje štete po reputaciju gluhog bota.

Ettinger tvrdi tržišnu potražnju za ovom specifičnom "emocionalni sloj" eksplodira izvan pukih tehničkih pomoćnika.

"Vidimo to vrlo duboko s graničnim laboratorijima, ali i u zdravstvu, obrazovanju, financijama i proizvodnji," rekao mi je Ettinger. "Dok ljudi pokušavaju staviti aplikacije u ruke tisuća radnika diljem svijeta koji imaju složene SKU-ove… svakodnevno vidimo desetke i desetke slučajeva upotrebe."

Ovo se slaže s njegovim komentari na LinkedInugdje je otkrio da je Hume potpisao "višestruki 8-znamenkasti ugovori samo u siječnju," potvrđujući tezu da su poduzeća spremna platiti premiju za AI koja ne razumije samo što je kupac rekao, već i kako se osjećao.

Od dovoljno dobrog do stvarno dobrog

Godinama se glasovna umjetna inteligencija poduzeća ocjenjivala po krivulji. Ako je razumio namjeru korisnika 80% vremena, bio je uspjeh.

Tehnologije objavljene ovaj tjedan uklonile su tehničke isprike za loša iskustva. Latencija je riješena. Prekid je riješen. Propusnost je riješena. Emotivna nijansa je rješiva.

"Baš kao što su GPU-ovi postali temelj za modele obuke," Ettinger je napisao na svom LinkedInu, "emocionalna inteligencija bit će temeljni sloj za AI sustave koji zapravo služe ljudskoj dobrobiti."

Za CIO ili CTO poruka je jasna: Trenje je uklonjeno iz sučelja. Jedino preostalo trvenje je u tome koliko brzo organizacije mogu usvojiti novi skup.

Web izvor

Povezani sadržaji

  • Zli genijalci i Theta Labs lansiraju AI chatbot na temelju eSports maskote MeeshZli genijalci i Theta Labs lansiraju AI chatbot na temelju eSports maskote Meesh
  • Nakon pet burnih godina, Ubisoftov Princ of Perzijski: Remake Sands of Time sada je “dubok” u razvojuNakon pet burnih godina, Ubisoftov Princ of Perzijski: Remake Sands of Time sada je “dubok” u razvoju
  • Google TV predstavlja 4 slatke nove Gemini značajkeGoogle TV predstavlja 4 slatke nove Gemini značajke
  • Najveća kamera ikad izgrađena objavljuje svoje prve slike kozmosaNajveća kamera ikad izgrađena objavljuje svoje prve slike kozmosa
  • Jačanje naše jezgre: pozdravljamo Karyne Levy kao novu upravnu urednicu VentureBeataJačanje naše jezgre: pozdravljamo Karyne Levy kao novu upravnu urednicu VentureBeata
  • Proširivanje osjetilnih iskustava u virtualnim okruženjimaProširivanje osjetilnih iskustava u virtualnim okruženjima

Previous Article

Blue Origin ulazi u utrku za satelitski internet s TeraWaveom

Next Article

Unutar trenda tehnoloških 'spinouta' koji rješavaju probleme iz stvarnog svijeta

Posljednje objave

Dok se vrte glasine o Witcher 3 DLC-u, CD Projekt Red želi da znate da Cyberpunk 2077 više neće dobivati ​​nikakav ‘tajni’ sadržaj

Dok se vrte glasine o Witcher 3 DLC-u, CD Projekt Red želi da znate da Cyberpunk 2077 više neće dobivati ​​nikakav ‘tajni’ sadržaj

Altneti ‘na koje se mora računati’ u širokopojasnom pristupu u Velikoj Britaniji

Random Labs koji podržava Y Combinator lansira Slate V1, tvrdeći da je prvi ‘swarm-native’ agent za kodiranje

Random Labs koji podržava Y Combinator lansira Slate V1, tvrdeći da je prvi ‘swarm-native’ agent za kodiranje

Sadržaj

  • 1 1. Smrt latencije – nema više neugodnih stanki
  • 2 2. Rješavanje "problem robota" putem full duplexa
  • 3 3. Kompresija visoke vjernosti dovodi do manje količine podataka
  • 4 4. Faktor ‘to’ koji nedostaje: emocionalna inteligencija
  • 5 5. Nova korporativna glasovna AI knjiga
  • 6 Od dovoljno dobrog do stvarno dobrog

Novosti

  • Dok se vrte glasine o Witcher 3 DLC-u, CD Projekt Red želi da znate da Cyberpunk 2077 više neće dobivati ​​nikakav ‘tajni’ sadržaj 15. ožujka 2026
  • Altneti ‘na koje se mora računati’ u širokopojasnom pristupu u Velikoj Britaniji 15. ožujka 2026
  • Random Labs koji podržava Y Combinator lansira Slate V1, tvrdeći da je prvi ‘swarm-native’ agent za kodiranje 14. ožujka 2026
  • Pi možete približno izračunati bacanjem igala na pod 14. ožujka 2026
  • Zašto koristim Appleove i Googleove upravitelje lozinkama – i ne obaziri se na kaos 14. ožujka 2026
  • T-Mobile izbacuje 2TB + neograničene korisnike Google fotografija na Google tamo gdje njihov plan ne postoji 14. ožujka 2026
  • “Ljudi jednostavno nisu bili spremni za” Starfield, kaže skladatelj igre dok govori o “vizionaru” Toddu Howardu 14. ožujka 2026
  • Openreach testira ‘pionirsko’ otkrivanje curenja vode optičkim vlaknima 14. ožujka 2026
  • NanoClaw i Docker su partneri kako bi napravili sandboxove najsigurnijim načinom za poduzeća da implementiraju AI agente 13. ožujka 2026
  • Virus herpesa može vas brže stariti 13. ožujka 2026

O nama

Oblak Znanja je blog edukativnog karaktera i namijenjen je svima koji žele unaprijediti svoje znanje iz područja računala i interneta.

Naš cilj je edukacija i pisanje zanimljivih objava kojima ćemo zajedno učiti i informirati se o svijetu informatike.

Na ovom blogu zabranjeno je svako kopiranje sadržaja bez dozvole autora.

Oblak Znanja

Oznake

besplatni powerpoint predlošci društvene mreže excel facebook firefox gmail google+ Google Chrome halloween halloween walpapers internet kartice linkedin profil linux microsoft Mozilla Firefox ms powerpoint oblak znanja office 2007 office savjeti online kupovina pick powerpoint powerpoint predložak powerpoint savjeti rastući niz savjet slike za radnu površinu spremanje datoteka strani jezik tipkovnicke kratice twitter twitter alati uređivanje slika wallpaper clock web preglednik windows windows 7 windows aplikacije windows vista word word 2007 word savjeti youtube savjeti youtube tipkovničke kratice