Willkommen. Bienvenue. Dobrodošli. Ulazimo. Meta je predstavila višejezično automatsko prepoznavanje govora (ASR), AI sustav koji može transkribirati govor na više od 1600 jezika — uključujući 500 jezika s malim resursima kojima AI nikada prije nije upravljao.
Projekt predstavlja najnoviji razvoj Metinog tima Fundamental AI Research (FAIR) i signalizira veliki pomak prema otvaranju govorne tehnologije svim jezičnim zajednicama. Kritičari bi mogli tvrditi da bi promicanje globalnog jezika (tj. engleskog) bilo bolje korištenje našeg vremena, a možda bi dovelo do svjetskog sklada i više tehnoloških inovacija.
U svakom slučaju, prema najavatvrtka je uz sustav otvorila i nekoliko ključnih sredstava: Omnilingual wav2vec 2.0, samonadzirani višejezični govorni model sa sedam milijardi parametara i Omnilingual ASR Corpus, zbirku transkribiranog govora na 350 nedovoljno opsluženih jezika.
Svi modeli objavljeni su pod licencom Apache 2.0, dok su skupovi podataka licencirani pod CC-BY, čime se osigurava da ih globalna AI zajednica može slobodno koristiti i mijenjati. Okvir je izgrađen na fairseq2 i potpuno je kompatibilan s ekosustavom PyTorch.
Sadržaj objave
Rješavanje digitalnog jezičnog jaza
ASR sustavi su u prošlosti imali dobre rezultate samo za nekolicinu jezika s velikim resursima poput engleskog, španjolskog i mandarinskog, koji dominiraju internetom i imaju koristi od velikih označenih skupova podataka. Jezici s malo resursa, kojima često govore milijuni diljem svijeta, ostali su isključeni iz digitalnih sustava – jaz za koji Meta smatra da održava nejednakosti u obrazovanju, pristupu i digitalnom sudjelovanju.
Metin višejezični ASR osmišljen je kako bi zatvorio taj jaz smanjenjem podataka i stručnosti potrebnih za izgradnju funkcionalnih ASR modela. Njegova arhitektura uvodi dvije varijante dekodera — jednu koja se temelji na tradicionalnom okviru konekcionističke vremenske klasifikacije (CTC), a drugu koja koristi LLM dekoder temeljen na transformatoru.
Skaliranje ASR-a na globalnu pokrivenost
Meta izvještava da njihov najveći model — 7B-LLM-ASR — ima stopu pogreške ispod 10 za gotovo 80% njih.
Razmjer projekta također naglašava napredak u arhitekturama umjetne inteligencije koje mogu učiti iz netranskribiranog ili sirovog govora. Skalirajući wav2vec 2.0 na sedam milijardi parametara, Metini inženjeri izgradili su model koji uči generalizirane govorne reprezentacije bez potrebe za ogromnim označenim skupovima podataka, što olakšava proširenje na prethodno nepodržane jezike.
Donesite svoj jezik
Višejezični ASR ima sposobnost učenja novih jezika sa samo nekoliko primjera. Tradicionalno, dodavanje novog jezika ASR sustavima zahtijeva opsežno fino podešavanje od strane stručnjaka — skup i visoko tehnički proces. Nasuprot tome, Meta kaže da se njihov sustav može prilagoditi novom jeziku jednostavnom obradom nekoliko uparenih audio-tekstnih uzoraka, što je tehnika posuđena iz kontekstnog učenja na LLM-u.
Ovaj pristup znači da govornici nedovoljno zastupljenih jezika mogu pridonijeti uključivanju svog jezika bez pristupa vrhunskom računalstvu ili golemim skupovima podataka. Dok izvedba u početku možda neće odgovarati onoj kod potpuno obučenih modela, skalabilnost i pristupačnost ove metode mogle bi redefinirati način na koji jezici ulaze u digitalnu sferu.
Partnerstva i izvor podataka
Kako bi stvorila skup podataka, Meta je surađivala s lokalnim partnerima i lingvističkim organizacijama diljem svijeta. Mnoge od tih suradnji uključivale su zapošljavanje i kompenzaciju izvornih govornika za snimanje govora na vlastitom jeziku, često u udaljenim ili digitalno nedovoljno opskrbljenim područjima.
Kroz Language Technology Partner Program, Meta je surađivala s grupama kao što su Mozilla Foundation’s Common Voice i Lanfrica/NaijaVoices.
Tvrtka javno objavljuje naručene dijelove ovih podataka o obuci kao Omnilingual ASR Corpus, koji sada predstavlja “najveći spontani ASR skup podataka s ultra malim resursima.”
Šire implikacije
Izdavanje Višejezičnog ASR-a moglo bi imati implikacije izvan istraživanja. Za obrazovanje bi mogao podržati transkripciju i prijevod usmenih predaja ili predavanja na materinskim jezicima. Za vlade i nevladine organizacije, to bi moglo učiniti govorna sučelja i alate za dokumentaciju dostupnima marginaliziranim skupinama. A za industriju umjetne inteligencije u cjelini, pokazuje da se sustavi umjetne inteligencije na globalnoj razini mogu graditi na otvorenim temeljima koje pokreće zajednica.
OpenAI nudi američkim veteranima besplatan pristup ChatGPT Plusu, koristeći alate umjetne inteligencije za pomoć članovima službe u prijelazu na civilne karijere i nove mogućnosti.



