Oblak Znanja

  • Home
  • Novosti
  • Učionica
    • Informatika 5
    • Informatika 6
    • Informatika 7
    • Informatika 8
    • Logo jezik
    • WordPress
    • Microsoft Office
  • Vodiči
    • Online vodiči
    • Kratki savjeti
    • Korisne aplikacije
    • Društvene mreže
    • Multimedija
    • Zanimljivosti
✕

Sve se u glasovnoj umjetnoj inteligenciji upravo promijenilo: kako proizvođači umjetne inteligencije u poduzećima mogu imati koristi

Novosti

Sve se u glasovnoj umjetnoj inteligenciji upravo promijenilo: kako proizvođači umjetne inteligencije u poduzećima mogu imati koristi

Tomšić Damjan 23. siječnja 2026

Unatoč velikom hypeu, "glas AI" je do sada uglavnom bio eufemizam za petlju zahtjev-odgovor. Vi govorite, poslužitelj u oblaku transkribira vaše riječi, jezični model razmišlja, a robotski glas čita tekst natrag. Funkcionalno, ali ne baš razgovorno.

Sve se to promijenilo prošlog tjedna s brzim nizom moćnih, brzih i sposobnijih glasovnih AI modela izdanja od Nvidia, Unutarnji svijet, FlashLabsi Alibabin Qwen timu kombinaciji s velikim prikupljanjem talenata i ugovorom o licenciranju tehnologije od strane Google DeepMind i Hume AI.

Sada je industrija učinkovito riješila četvoricu "nemoguće" problemi glasovnog računalstva: latencija, fluidnost, učinkovitost i emocije.

Za graditelje poduzeća, implikacije su trenutne. Prešli smo iz doba "chatbotovi koji govore" do doba "empatična sučelja."

Evo kako se krajolik promijenio, specifični modeli licenciranja za svaki novi alat i što to znači za sljedeću generaciju aplikacija.

Sadržaj objave

  • 1 1. Smrt latencije – nema više neugodnih stanki
  • 2 2. Rješavanje "problem robota" putem full duplexa
  • 3 3. Kompresija visoke vjernosti dovodi do manje količine podataka
  • 4 4. Faktor ‘to’ koji nedostaje: emocionalna inteligencija
  • 5 5. Nova korporativna glasovna AI knjiga
  • 6 Od dovoljno dobrog do stvarno dobrog
    • 6.1 Povezani sadržaji

1. Smrt latencije – nema više neugodnih stanki

The "čarobni broj" u ljudskom razgovoru je otprilike 200 milisekundi. To je tipičan jaz između jedne osobe koja završava rečenicu i druge koja započinje svoju. Sve dulje od 500 ms čini se kao kašnjenje satelita; sve dulje od sekunde u potpunosti razbija iluziju inteligencije.

Do sada je lančano povezivanje ASR (prepoznavanje govora), LLM (inteligencija) i TTS (pretvorba teksta u govor) rezultiralo latencijama od 2 do 5 sekundi.

Inworld AI izdaje TTS 1.5 izravno napada ovo usko grlo. Postizanjem P90 latencije ispod 120 ms, Inworld je učinkovito gurnuo tehnologiju brže od ljudske percepcije.

Za programere koji izrađuju agente korisničke službe ili interaktivne avatare za obuku, to znači "pauza u razmišljanju" je mrtav.

Ono što je ključno, Inworld tvrdi da ovaj model postiže "sinkronizacija na razini visema," što znači da će se pokreti usana digitalnog avatara podudarati sa zvukom kadar po kadar – što je preduvjet za igranje igrica visoke vjernosti i VR obuku.

Dostupan je putem komercijalnog API-ja (cjenovne razine temeljene na upotrebi) s besplatnom razinom za testiranje.

Istovremeno, FlashLabs je objavio Chroma 1.0end-to-end model koji integrira faze slušanja i govora. Obradom audio tokena izravno putem isprepletenog rasporeda tekstualnih i audio tokena (omjer 1:2), model zaobilazi potrebu za pretvaranjem govora u tekst i natrag.

Ovaj "streaming arhitektura" omogućuje modelu učinkovito generiranje akustičnih kodova dok još uvijek generira tekst "razmišljajući naglas" u obliku podataka prije nego što se zvuk uopće sintetizira. Ovaj je otvorenog koda na Hugging Face pod licencom Apache 2.0 pogodnom za poduzeća, komercijalno isplativom.

Zajedno, oni signaliziraju da brzina više nije razlika; to je roba. Ako vaša glasovna aplikacija ima odgodu od 3 sekunde, sada je zastarjela. Standard za 2026. je trenutačni, prekidivi odgovor.

2. Rješavanje "problem robota" putem full duplexa

Brzina je beskorisna ako je umjetna inteligencija nepristojna. Tradicionalni glasovni botovi su "poludupleks"— kao walkie-talkie, ne mogu slušati dok govore. Ako pokušate prekinuti bankovnog bota da ispravi pogrešku, on vas nastavlja govoriti.

Nvidijin PersonaPlexobjavljen prošli tjedan, uvodi parametar od 7 milijardi "puni dupleks" model.

Izgrađen na Moshi arhitekturi (izvorno iz Kyutaija), koristi dizajn dvostrukog toka: jedan tok za slušanje (putem Mimi neuronskog audio kodeka) i jedan za govor (putem Helium jezičnog modela). To omogućuje modelu da ažurira svoje unutarnje stanje dok korisnik govori, što mu omogućuje elegantno rukovanje prekidima.

Ono što je najvažnije, razumije "povratno kanaliziranje"— neverbalno "uh-ha," "prava," i "okej" koje ljudi koriste za signaliziranje aktivnog slušanja bez uzimanja riječi. Ovo je suptilan, ali dubok pomak za dizajn korisničkog sučelja.

AI koji se može prekinuti omogućuje učinkovitost. Kupac može prekinuti dugo pravno odricanje od odgovornosti govoreći: "Shvatio sam, nastavi dalje," i AI će se odmah okrenuti. Ovo oponaša dinamiku ljudskog operatera visoke kompetencije.

Težine modela objavljene su pod licencom Nvidia Open Model (dopuštena za komercijalnu upotrebu, ali uz uvjete pripisivanja/distribucije), dok je kod licenciran MIT-om.

3. Kompresija visoke vjernosti dovodi do manje količine podataka

Dok su se Inworld i Nvidia usredotočili na brzinu i ponašanje, AI moćnik otvorenog koda Qwen (matična tvrtka Alibaba Cloud) tiho je riješio problem propusnosti.

Ranije danas, tim je objavio Qwen3-TTSs revolucionarnim tokenizatorom od 12 Hz. Na jednostavnom engleskom, to znači da model može predstavljati govor visoke vjernosti koristeći nevjerojatno malu količinu podataka – samo 12 tokena u sekundi.

Usporedbe radi, prijašnji najsuvremeniji modeli zahtijevali su znatno veće stope tokena za održavanje kvalitete zvuka. Qwenova mjerila pokazuju da nadmašuje konkurente poput FireredTTS 2 na ključnim metrikama rekonstrukcije (MCD, CER, WER) dok koristi manje tokena.

Zašto je to važno za poduzeće? Trošak i razmjer.

Model koji zahtijeva manje podataka za generiranje govora jeftiniji je za pokretanje i brži za strujanje, posebno na rubnim uređajima ili u okruženjima niske propusnosti (poput terenskog tehničara koji koristi glasovnog asistenta na 4G vezi). Pretvara visokokvalitetnu glasovnu umjetnu inteligenciju iz luksuza koji opterećuje poslužitelje u lagani uslužni program.

Dostupno je na Hugging Face sada pod dopuštenom licencom Apache 2.0, savršeno za istraživanje i komercijalnu primjenu.

4. Faktor ‘to’ koji nedostaje: emocionalna inteligencija

Možda najznačajnija vijest tjedna—i najsloženija—je Prelazak Google DeepMinda na licenciranje Hume AI tehnologije i zaposliti svog glavnog izvršnog direktora, Alana Cowena, zajedno s ključnim istraživačkim osobljem.

Dok Google integrira ovu tehnologiju u Gemini kako bi pokrenuo sljedeću generaciju potrošačkih pomoćnika, sama Hume AI se okreće kako bi postala okosnica infrastrukture za poduzeće.

Pod novi izvršni direktor Andrew EttingerHume udvostručuje tezu da "emocija" nije značajka korisničkog sučelja, već problem s podacima.

U ekskluzivnom intervjuu za VentureBeat u vezi s prijelazom, Ettinger je objasnio da kako glas postaje primarno sučelje, trenutni skup nije dovoljan jer sve ulaze tretira kao ravni tekst.

"Iz prve sam ruke vidio kako granični laboratoriji koriste podatke za postizanje točnosti modela," kaže Ettinger. "Glas se vrlo jasno pojavljuje kao de facto sučelje za AI. Ako vidite da se to događa, također biste zaključili da će emocionalna inteligencija oko tog glasa biti kritična – dijalekti, razumijevanje, rasuđivanje, modulacija."

Izazov za graditelje poduzeća bio je taj što su LLM-ovi po dizajnu sociopati — oni predviđaju sljedeću riječ, a ne emocionalno stanje korisnika. Zdravstveni bot koji zvuči veselo kada pacijent prijavi kroničnu bol predstavlja odgovornost. Financijski bot koji zvuči dosadno kada klijent prijavi prijevaru predstavlja rizik odljeva.

Ettinger naglašava da se ovdje ne radi samo o tome da botovi zvuče lijepo; radi se o konkurentskoj prednosti.

Na pitanje o sve konkurentnijem okruženju i ulozi otvorenog izvornog koda u odnosu na vlasničke modele, Ettinger je ostao pragmatičan.

Napomenuo je da dok modeli otvorenog koda poput PersonaPlexa podižu temelje za interakciju, vlasnička prednost leži u podacima—točnije, visokokvalitetnim, emocionalno komentiranim govornim podacima koje je Hume godinama prikupljao.

"Tim u Humeu naišao je naglavačke na problem koji dijele gotovo svi glasovni modeli izgradnje tima danas: nedostatak visokokvalitetnih, emocionalno komentiranih govornih podataka za post-trening," on napisao je na LinkedInu. "Rješavanje ovog zahtjeva zahtijevalo je preispitivanje načina na koji se audio podaci prikupljaju, označavaju i ocjenjuju… To je naša prednost. Emocija nije značajka; to je temelj."

Humeovi modeli i podatkovna infrastruktura dostupni su putem vlasničkog poslovnog licenciranja.

5. Nova korporativna glasovna AI knjiga

S ovim dijelovima na mjestu, "Glasovni snop" za 2026. izgleda radikalno drugačije.

  • Mozak: LLM (poput Gemini ili GPT-4o) daje obrazloženje.

  • Tijelo: Učinkoviti, otvoreni modeli kao što su PersonaPlex (Nvidia), Chroma (FlashLabs) ili Qwen3-TTS upravljaju redom, sintezom i kompresijom, omogućujući programerima da ugoste svoje agente s visokim odzivom.

  • Duša: Platforme poput Humea daju označene podatke i emocionalnu težinu kako bi osigurali AI "čita sobu," sprječavanje štete po reputaciju gluhog bota.

Ettinger tvrdi tržišnu potražnju za ovom specifičnom "emocionalni sloj" eksplodira izvan pukih tehničkih pomoćnika.

"Vidimo to vrlo duboko s graničnim laboratorijima, ali i u zdravstvu, obrazovanju, financijama i proizvodnji," rekao mi je Ettinger. "Dok ljudi pokušavaju staviti aplikacije u ruke tisuća radnika diljem svijeta koji imaju složene SKU-ove… svakodnevno vidimo desetke i desetke slučajeva upotrebe."

Ovo se slaže s njegovim komentari na LinkedInugdje je otkrio da je Hume potpisao "višestruki 8-znamenkasti ugovori samo u siječnju," potvrđujući tezu da su poduzeća spremna platiti premiju za AI koja ne razumije samo što je kupac rekao, već i kako se osjećao.

Od dovoljno dobrog do stvarno dobrog

Godinama se glasovna umjetna inteligencija poduzeća ocjenjivala po krivulji. Ako je razumio namjeru korisnika 80% vremena, bio je uspjeh.

Tehnologije objavljene ovaj tjedan uklonile su tehničke isprike za loša iskustva. Latencija je riješena. Prekid je riješen. Propusnost je riješena. Emotivna nijansa je rješiva.

"Baš kao što su GPU-ovi postali temelj za modele obuke," Ettinger je napisao na svom LinkedInu, "emocionalna inteligencija bit će temeljni sloj za AI sustave koji zapravo služe ljudskoj dobrobiti."

Za CIO ili CTO poruka je jasna: Trenje je uklonjeno iz sučelja. Jedino preostalo trvenje je u tome koliko brzo organizacije mogu usvojiti novi skup.

Web izvor

Povezani sadržaji

  • Znanstvenici su napravili ljudska jaja iz stanica kože i koristili ih za stvaranje embrijaZnanstvenici su napravili ljudska jaja iz stanica kože i koristili ih za stvaranje embrija
  • Ljeto je Qwen: QWEN3-235B-A22B-Thinking-2507 Tops ljestviceLjeto je Qwen: QWEN3-235B-A22B-Thinking-2507 Tops ljestvice
  • “Sigurno ne bih želio skliznuti u 2027.”, kaže Grinding Gear Games, dok datum izlaska Path of Exile 2 ponovno pomiče“Sigurno ne bih želio skliznuti u 2027.”, kaže Grinding Gear Games, dok datum izlaska Path of Exile 2 ponovno pomiče
  • Instalirao sam Linux na ovaj 8-inčni mini laptop i to je moj novi omiljeni način računanjaInstalirao sam Linux na ovaj 8-inčni mini laptop i to je moj novi omiljeni način računanja
  • Ništa ne ažurira bitni prostor s 3 velika poboljšanjaNišta ne ažurira bitni prostor s 3 velika poboljšanja
  • Sinking City 2 dobiva prvi igrački trailer, razbija crowdfunding gol za manje od jednog danaSinking City 2 dobiva prvi igrački trailer, razbija crowdfunding gol za manje od jednog dana

Previous Article

Blue Origin ulazi u utrku za satelitski internet s TeraWaveom

Next Article

Unutar trenda tehnoloških 'spinouta' koji rješavaju probleme iz stvarnog svijeta

Posljednje objave

Factify želi preskočiti PDF i .docx dajući digitalnim dokumentima vlastiti mozak

Factify želi preskočiti PDF i .docx dajući digitalnim dokumentima vlastiti mozak

Sat Sudnjeg dana sada je 85 sekundi do ponoći. Evo što to znači

Sat Sudnjeg dana sada je 85 sekundi do ponoći. Evo što to znači

Najjača sigurnosna značajka vašeg Android telefona isključena je prema zadanim postavkama i skrivena – uključite je sada

Sadržaj

  • 1 1. Smrt latencije – nema više neugodnih stanki
  • 2 2. Rješavanje "problem robota" putem full duplexa
  • 3 3. Kompresija visoke vjernosti dovodi do manje količine podataka
  • 4 4. Faktor ‘to’ koji nedostaje: emocionalna inteligencija
  • 5 5. Nova korporativna glasovna AI knjiga
  • 6 Od dovoljno dobrog do stvarno dobrog

Novosti

  • Factify želi preskočiti PDF i .docx dajući digitalnim dokumentima vlastiti mozak 29. siječnja 2026
  • Sat Sudnjeg dana sada je 85 sekundi do ponoći. Evo što to znači 28. siječnja 2026
  • Najjača sigurnosna značajka vašeg Android telefona isključena je prema zadanim postavkama i skrivena – uključite je sada 28. siječnja 2026
  • Google lansira Google AI Plus plan za 7,99 USD mjesečno 28. siječnja 2026
  • “Kao da nikad nije postojao” – Glumac za kojeg se pretpostavlja da je Farah u remakeu Prince of Persia: Sands of Time otkrio je da je igra otkazana na internetu 28. siječnja 2026
  • AO implementira izvornu bežičnu mrežu Mist AI 28. siječnja 2026
  • Contextual AI pokreće Agent Composer kako bi poslovni RAG pretvorio u AI agente spremne za proizvodnju 27. siječnja 2026
  • Hvatanje trenutka kada je bijeli patuljak eksplodirao 27. siječnja 2026
  • Zašto ne kupujem ‘AI slušalice’ dok ne dobiju ove 3 specifične nadogradnje 27. siječnja 2026
  • Ažuriranje Google Play usluga uključuje podršku za sigurnosni ključ CTAP2, više 27. siječnja 2026

O nama

Oblak Znanja je blog edukativnog karaktera i namijenjen je svima koji žele unaprijediti svoje znanje iz područja računala i interneta.

Naš cilj je edukacija i pisanje zanimljivih objava kojima ćemo zajedno učiti i informirati se o svijetu informatike.

Na ovom blogu zabranjeno je svako kopiranje sadržaja bez dozvole autora.

Oblak Znanja

Oznake

besplatni powerpoint predlošci društvene mreže excel facebook firefox gmail google+ Google Chrome halloween halloween walpapers internet kartice linkedin profil linux microsoft Mozilla Firefox ms powerpoint oblak znanja office 2007 office savjeti online kupovina pick powerpoint powerpoint predložak powerpoint savjeti rastući niz savjet slike za radnu površinu spremanje datoteka strani jezik tipkovnicke kratice twitter twitter alati uređivanje slika wallpaper clock web preglednik windows windows 7 windows aplikacije windows vista word word 2007 word savjeti youtube savjeti youtube tipkovničke kratice