Želite pametnije uvide u vašu pristiglu poštu? Prijavite se za naše tjedne biltene kako biste dobili samo ono što je važno za vođe AI, podataka i sigurnosti. Pretplatite se sada
Open dodaje sve konkurentnije AI glasovno tržište za poduzeća sa svojim Novi model, GPT-Realtimeto slijedi složene upute i s glasovima “koji zvuče prirodnije i izražajnije.”
Kako glas AI nastavlja rasti, a kupci pronalaze slučajeve upotrebe kao što su pozivi za korisnike ili prijevod u stvarnom vremenu, tržište za realno zvučni AI glasovi koji također nude sigurnost u poduzeću se zagrijavaju. OpenAi tvrdi da njegov novi model pruža više ljudski glas, ali još uvijek se mora natjecati protiv tvrtki poput jedanaestlaba.
Model će biti dostupan na API -u u stvarnom vremenu, koji je tvrtka također općenito učinila dostupnom. Zajedno s modelom GPT-REALTIME, Openai je objavio i nove glasove na API-ju, koje naziva Cedar i Marin, te je ažurirao ostale glasove za rad s najnovijim modelom.
OpenAi je u Livestreamu rekao da je surađivao sa svojim kupcima koji grade glasovne aplikacije za obuku GPT-REALTIME i “pažljivo su usklađivali model s evalima koje su izgrađene na scenarijima u stvarnom svijetu poput korisničke podrške i akademskog podučavanja.”
AI skaliranje pogađa svoje granice
Power ograničenja, rastući troškovi tokena i kašnjenja zaključivanja preoblikovaju Enterprise AI. Pridružite se našem ekskluzivnom salonu kako biste otkrili kako su vrhunski timovi:
- Pretvaranje energije u stratešku prednost
- Arhitekturiste učinkovite zaključke za stvarne propusne dobitke
- Otključavanje natjecateljskog ROI -a s održivim AI sustavima
Osigurajte svoje mjesto da ostanete naprijed:: https://bit.ly/4mwgngo
Tvrtka je reklamirala sposobnost modela da stvori emotivne, prirodno zvučne glasove koji se također usklađuju s načinom na koji se programeri grade s tehnologijom.
Sadržaj objave
Modeli govora u govor
Model djeluje u okviru govora u govoru, omogućujući mu da razumije govorne upute i glasno reagira. Modeli govora u govoru idealno su prikladni za odgovore u stvarnom vremenu, gdje osoba, obično kupac, komunicira s aplikacijom.
Na primjer, kupac želi vratiti neke proizvode i poziva platformu za korisničku uslugu. Mogli bi razgovarati s AI glasovnim asistentom koji odgovara na pitanja i zahtijeva kao da razgovaraju s čovjekom.
U live stream -u, Openai kupci T-Mobile Prikazao je agent AI-a koji pomaže ljudima da pronađu nove telefone. Drugi kupac, platforma za pretraživanje nekretnina Zillowizložio je agenta koji pomaže nekome suziti susjedstvo kako bi pronašao savršeno mjesto.
OpenAi je rekao da je GPT-REALTIME njegov “najnapredniji, produkcijski glasovni model”. Kao i drugi glasovni modeli, on može prebaciti jezike usred rečenice. Međutim, istraživači OpenAi-a primijetili su da GPT-REALTIME može slijediti složenije upute poput “Izgovarano govorite u francuskom naglasku.”
No, GPT-Realtime se suočava s konkurencijom drugih modela koje mnoge marke već koriste. Jedanaest Objavljen razgovor AI 2.0 u svibnju. Zvuk Partneri s franšizama brze hrane za AI glasovni pogon. Naglašeni AI pokretanje Hume lansirao je svoj EVI 3 model, koji korisnicima omogućuje generiranje AI verzija vlastitog glasa.
Budući da poduzeća otkrivaju različite slučajeve upotrebe za glasovni AI, još općenitiji pružatelji modela koji nude multimodalne LLM -ove čine slučaj za sebe. Mistral Objavio je svoj novi Voxtral model, navodeći da će dobro funkcionirati s prijevodom u stvarnom vremenu. Google poboljšava svoje audio mogućnosti i stječe popularnost pomoću audio značajke na NotebookLM -u koji istraživačke bilješke pretvara u podcast.
Bolje upute slijedeći
OpenAi je rekao da je GPT-Realtime pametniji i bolje razumije izvorni zvuk, uključujući mogućnost hvatanja neverbalnih znakova poput smijeha ili uzdaha.
Benchmarking koristeći audio Eval s velikim klupama pokazalo je da je model postigao 82,8% u točnosti, u usporedbi s prethodnim modelom, koji je postigao 65,6%. OpenAi nije pružio brojeve testiranja GPT-REALTIME protiv modela svojih konkurenata.
OpenAi se fokusirao na poboljšanje mogućnosti praćenja uputa modela, osiguravajući da se model učinkovitije pridržava uputa. Novi model postiže ocjenu od 30,5% na multichallenge zvučnoj mjeri. Inženjeri su također pojačali funkciju poziva kako bi GPT-REALTIME mogao pristupiti ispravnim alatima.
Kako bi podržao novi model i poboljšao kako poduzeća integriraju AI mogućnosti u stvarnom vremenu u svoje aplikacije, Openai je u API u stvarnom vremenu dodao nekoliko novih značajki.
Sada može podržati MCP i prepoznati unose slike, omogućavajući mu da obavijesti korisnike o onome što vidi u stvarnom vremenu. Ovo je značajka koju je Google snažno naglasio tijekom prezentacije Projekta ASTRA prošle godine.
API u stvarnom vremenu također može podnijeti protokol inicijacije sesije (SIP). SIP povezuje aplikacije s telefonima poput javne telefonske mreže ili stolnih telefona, otvarajući više slučajeva uporabe kontakta. Korisnici također mogu uštedjeti i ponovo upotrijebiti upute na API -ju.
Do sada su ljudi impresionirani modelom, iako su to još uvijek početni testovi modela koji je nedavno objavljen.
OpenAi je smanjio cijene za GPT-REALTIME za 20% na 32 USD na milijun tokena za audio ulaz i 64 USD za audio izlazne tokene.
Web izvor



