Thinking Machines prikazuje pregled AI glasovnog i video razgovora u gotovo stvarnom vremenu s novim ‘modelima interakcije’

Napušta li AI eru "na poteze" razgovor?

Trenutačno svi mi koji redovito koristimo AI modele za posao ili u osobnom životu znamo da osnovni način interakcije preko teksta, slika, zvuka i videa ostaje isti: ljudski korisnik daje unos, čeka između milisekundi do minuta (ili u nekim slučajevima, za posebno teške upite, sati i dani), a AI model daje izlaz.

Ali ako AI stvarno želi preuzeti teret poslova koji zahtijevaju prirodnu interakciju, morat će učiniti više od pružanja ove vrste "na poteze" interaktivnost — u konačnici će morati fluidnije i prirodnije reagirati na ljudske unose, čak i reagirati dok također obrađuje sljedeći ljudski unos, bio to tekst ili neki drugi format.

Barem se čini da je to tvrdnja Razmišljajući strojevidobro financiran AI startup koji su prošle godine osnovali bivša tehnološka direktorica OpenAI-ja Mira Murati i bivši OpenAI istraživač i suosnivač John Schulman, između ostalih.

Danas je tvrtka objavila pregled istraživanja onoga što smatra da jest "interakcijski modeli, nova klasa izvornih multimodalnih sustava koji tretiraju interaktivnost kao prvorazrednog građanina arhitekture modela, a ne vanjski softver "pojas," postižući neke impresivne dobitke na referentnim vrijednostima trećih strana i smanjenu latenciju kao rezultat.

Međutim, modeli još nisu dostupni široj javnosti pa čak ni tvrtkama – navodi tvrtka u svom objava na blogu: "U nadolazećim mjesecima otvorit ćemo ograničen pregled istraživanja za prikupljanje povratnih informacija, a šire izdanje kasnije ove godine."

Sadržaj objave

1 ‘Full duplex’ simultana ulazno/izlazna obrada
2 Sustav dvojnog modela
3 Impresivna izvedba na glavnim mjerilima u odnosu na modele brze interakcije drugih vodećih AI laboratorija
4 Potencijalno velika prednost za poduzeća – nakon što modeli postanu dostupni
5 Pozadina mislećih strojeva

‘Full duplex’ simultana ulazno/izlazna obrada

U središtu ove najave temeljna je promjena u tome kako umjetna inteligencija percipira vrijeme i prisutnost. Trenutačni granični modeli obično doživljavaju stvarnost u jednoj niti; čekaju da korisnik završi s unosom prije nego počnu s obradom, a njihova se percepcija zamrzava dok generiraju odgovor.

U svom postu na blogu, istraživači Thinking Machines opisali su status quo kao ograničenje koje prisiljava ljude na "zgrčiti se" sučeljima umjetne inteligencije, formulirajući pitanja poput e-pošte i skupljajući svoje misli.

Da riješim ovo "usko grlo u suradnji," Thinking Machines se udaljio od standardnog izmjeničnog niza žetona.

Umjesto toga, koriste multi-stream, micro-turn dizajn koji istovremeno obrađuje dijelove ulaza i izlaza od 200 ms.

Ovaj "puni dupleks" arhitektura omogućuje modelu slušanje, razgovor i gledanje u stvarnom vremenu, omogućujući mu povratni kanal dok korisnik govori ili se ubacuje kada primijeti vizualni znak—kao što je korisnik koji piše grešku u isječku koda ili prijatelj ulazi u okvir videa. Tehnički, model koristi ranu fuziju bez enkodera.

Umjesto da se oslanja na masivne samostalne kodere kao što je Whisper za audio, sustav prima neobrađene audio signale kao dMel i slikovne zakrpe (40×40) kroz lagani sloj za ugradnju, zajedno trenirajući sve komponente od nule unutar transformatora.

Sustav dvojnog modela

Pregled istraživanja predstavlja TML-Interakcija-Smalla Mješavina stručnjaka (MoE) od 276 milijardi parametara model s 12 milijardi aktivnih parametara. Budući da interakcija u stvarnom vremenu zahtijeva gotovo trenutna vremena odgovora koja su često u sukobu s dubokim razmišljanjem, tvrtka je osmislila dvodijelni sustav:

Model interakcije: Ostaje u stalnoj razmjeni s korisnikom, upravlja dijalogom, prisutnošću i trenutnim praćenjem.
Model pozadine: Asinkroni agent koji rukuje kontinuiranim razmišljanjem, pregledavanjem weba ili složenim pozivima alata, prenosi rezultate natrag u model interakcije kako bi se prirodno utkao u razgovor.

Ova postavka omogućuje umjetnoj inteligenciji izvršavanje zadataka kao što je prijevod uživo ili generiranje grafikona korisničkog sučelja dok nastavlja slušati povratne informacije korisnika — mogućnost prikazana u videu s najavom u kojem je model dao tipična vremena ljudske reakcije za različite znakove dok je istovremeno generirao trakasti grafikon.

Impresivna izvedba na glavnim mjerilima u odnosu na modele brze interakcije drugih vodećih AI laboratorija

Kako bi dokazali učinkovitost ovog pristupa, laboratorij je upotrijebio FD-klupamjerilo posebno osmišljeno za mjerenje kvalitete interakcije, a ne samo sirove inteligencije. Rezultati pokazuju da TML-Interaction-Small značajno nadmašuje postojeće sustave u stvarnom vremenu:

Responzivnost: Postigla je naizmjeničnu latenciju od 0,40 sekundiu usporedbi s 0,57 s za Gemini-3.1-flash-live i 1,18 s za GPT-realtime-2.0 (minimalno).
Kvaliteta interakcije: Na FD-klupi V1.5 postigao je pogodak 77.8gotovo udvostručivši rezultate svojih primarnih konkurenata (GPT-realtime-2.0 minimalni rezultat 46,8).
Vizualna proaktivnost: U specijaliziranim testovima poput RepCount-A (brojenje fizičkih ponavljanja u videu) i ProactiveVideoQAModel Thinking Machines uspješno se uključio u vizualni svijet dok su drugi granični modeli šutjeli ili davali netočne odgovore.

Metrički	TML-Interakcija-Small	GPT-realtime-2.0 (min.)	Gemini-3.1-flash-live (min.)
Naizmjenična latencija (s)	0,40	1.18	0,57
Kvaliteta interakcije (prosj.)	77.8	46.8	54.3
IFEval (VoiceBench)	82.1	81.7	67.6
Harmbench (%) odbijanja	99.0	99.5	99.0

Potencijalno velika prednost za poduzeća – nakon što modeli postanu dostupni

Kad bi bili dostupni poslovnom sektoru, modeli interakcije Thinking Machinesa predstavljali bi temeljnu promjenu u načinu na koji tvrtke integriraju AI u svoje operativne tijekove rada.

Izvorni model interakcije kao što je TML-Interaction-Small omogućuje nekoliko poslovnih mogućnosti koje su trenutno nemoguće ili vrlo osjetljive sa standardnim multimodalnim modelima:

Trenutačna AI poduzeća zahtijeva a "okrenuti se" dovršiti prije nego što može analizirati podatke. U proizvodnom ili laboratorijskom okruženju, izvorni model interakcije može nadzirati video feed i proaktivno se uključiti u trenutku kada otkrije kršenje sigurnosti ili odstupanje od protokola — bez čekanja da radnik zatraži povratnu informaciju.

Uspjeh modela u vizualnim mjerilima kao što su RepCount-A (precizno brojanje ponavljanja) i ProactiveVideoQA (odgovaranje na pitanja čim se pojavi vizualni dokaz) sugerira da bi mogao poslužiti kao revizor u stvarnom vremenu za fizičke zadatke s visokim ulozima.

Primarno trenje u glasovnoj službi za korisnike je 1-2 sekunde "obrada" kašnjenje uobičajeno u standardnim API-jima 2026. Model Thinking Machines postiže izmjeničnu latenciju od 0,40 sekundi, što je otprilike brzina prirodnog ljudskog razgovora.

Budući da izvorno rukuje simultanim govorom, bot za podršku poduzeća može poslušati frustraciju korisnika, pružiti "povratni kanal" znakovi (poput "Vidim" ili "mm-hmm") bez prekidanja korisnika i nude prijevod uživo koji djeluje kao prirodni razgovor, a ne kao niz nepovezanih snimaka.

Standardnim LLM-ovima nedostaje unutarnji sat; oni "znati" vrijeme samo ako je navedeno u tekstualnom upitu. Interakcijski modeli izvorno su svjesni vremena, što im omogućuje upravljanje vremenski osjetljivim procesima kao što su "Podsjeti me da provjerim temperaturu svake 4 minute" ili "Obavijesti me ako ovaj postupak potraje dulje od prethodnog". Ovo je ključno za industrijsko održavanje i farmaceutska istraživanja gdje je vrijeme bitna varijabla.

Pozadina mislećih strojeva

Ovo izdanje označava drugu veliku prekretnicu za Thinking Machines nakon pokretanja Tinkera u listopadu 2025., upravljanog API-ja za fino podešavanje jezičnih modela koji omogućuje istraživačima i programerima da kontroliraju svoje podatke i metode obuke dok Thinking Machines nosi infrastrukturni teret distribuirane obuke.

Tvrtka je rekla da Tinker podržava i male i velike otvorene modele, uključujući modele mješavine stručnjaka, a rani korisnici uključivali su grupe na Princetonu, Stanfordu, Berkeleyju i Redwood Researchu.

Prilikom lansiranja početkom 2025., Thinking Machines se predstavio kao tvrtka za istraživanje i proizvodnju AI koja pokušava učiniti napredne AI sustave “šire razumljivijima, prilagodljivijima i općenito sposobnijima”.

U srpnju 2025. Thinking Machines je rekao da je prikupio oko 2 milijarde dolara Procjena 12 milijardi dolara u krugu koji je vodio Andreessen Horowitz, uz sudjelovanje Nvidia, Accel, ServiceNow, Cisco, AMD i Jane Street, opisao ŽIČAN kao najveći početni krug financiranja u povijesti.

The Wall Street Journal izvijestio je u kolovozu 2025. da se konkurentski izvršni direktor za tehnologiju Mark Zuckerberg obratio Murati u vezi s kupnjom Thinking Machines Laba i, nakon što je ona odbila, Meta je tražio više od desetak od otprilike 50 zaposlenika startupa.

U ožujku i travnju 2026. tvrtka je također postala poznata po svojim računalnim ambicijama: objavila je a Nvidia partnerstvo da se zatim postavi barem jedan gigavat Vera Rubin sustava sljedeće generacije proširio svoj odnos s Google Cloudom na korištenje Googleove infrastrukture AI Hypercomputer sa sustavima Nvidia GB300 za istraživanje modela, radna opterećenja učenja pojačanja, obuku graničnih modela i Tinker.

Do travnja 2026. Izvijestio je Business Insider da je Meta zaposlila sedam članova osnivača iz Thinking Machinesa, uključujući Marka Jena i Yinghai Lua, dok je još jedan istraživač Thinking Machinesa, Tianyi Zhang, također prešao u Metu. U istom izvješću stoji da se Joshua Gross, koji je pomogao izraditi vodeći proizvod za fino ugađanje Thinking Machinesa, Tinker, pridružio Meta Superintelligence Labsu i da je tvrtka narasla na oko 130 zaposlenika unatoč odlascima.

Međutim, Thinking Machines nije samo gubio ljude: angažirao je i Meta veterana Soumitha Chintalu, tvorca PyTorcha, kao tehničkog direktora i dodao druge visokoprofilne tehničke talente poput Neala Wua. TechCrunch zasebno je u travnju 2026. izvijestio da se Weiyao Wang, osmogodišnji Meta veteran koji je radio na multimodalnim sustavima percepcije, pridružio Thinking Machinesu, naglašavajući da tijek talenata nije bio jednosmjeran.

Thinking Machines je ranije izjavio da je predan tome "značajne komponente otvorenog koda" u svojim izdanjima za osnaživanje istraživačke zajednice. Nije jasno hoće li ti novi modeli interakcijskih modela potpasti pod isti etos i uvjete izdavanja.

Ali jedno je sigurno: stvaranjem interaktivnosti koja je izvorna za model, Thinking Machines vjeruje da će skaliranje modela sada učiniti pametnijim i učinkovitijim suradnikom.

Web izvor

Thinking Machines prikazuje pregled AI glasovnog i video razgovora u gotovo stvarnom vremenu s novim ‘modelima interakcije’

ByTomšić Damjan

‘Full duplex’ simultana ulazno/izlazna obrada

Sustav dvojnog modela

Impresivna izvedba na glavnim mjerilima u odnosu na modele brze interakcije drugih vodećih AI laboratorija

Potencijalno velika prednost za poduzeća – nakon što modeli postanu dostupni

Pozadina mislećih strojeva

By Tomšić Damjan

Testiranje na ‘loš kolesterol’ ne govori cijelu priču

Dirty Frag nova je pogreška u Linuxu koja ugrožava vaš sustav – a još nema jednostavnog rješenja

Stopping bugs before they ship: The shift to preventative security

You missed

Thinking Machines prikazuje pregled AI glasovnog i video razgovora u gotovo stvarnom vremenu s novim ‘modelima interakcije’

Testiranje na ‘loš kolesterol’ ne govori cijelu priču

Dirty Frag nova je pogreška u Linuxu koja ugrožava vaš sustav – a još nema jednostavnog rješenja

Stopping bugs before they ship: The shift to preventative security

Thinking Machines prikazuje pregled AI glasovnog i video razgovora u gotovo stvarnom vremenu s novim ‘modelima interakcije’

ByTomšić Damjan

‘Full duplex’ simultana ulazno/izlazna obrada

Sustav dvojnog modela

Impresivna izvedba na glavnim mjerilima u odnosu na modele brze interakcije drugih vodećih AI laboratorija

Potencijalno velika prednost za poduzeća – nakon što modeli postanu dostupni

Pozadina mislećih strojeva

By Tomšić Damjan

Related Post

Testiranje na ‘loš kolesterol’ ne govori cijelu priču

Dirty Frag nova je pogreška u Linuxu koja ugrožava vaš sustav – a još nema jednostavnog rješenja

Stopping bugs before they ship: The shift to preventative security

You missed

Thinking Machines prikazuje pregled AI glasovnog i video razgovora u gotovo stvarnom vremenu s novim ‘modelima interakcije’

Testiranje na ‘loš kolesterol’ ne govori cijelu priču

Dirty Frag nova je pogreška u Linuxu koja ugrožava vaš sustav – a još nema jednostavnog rješenja

Stopping bugs before they ship: The shift to preventative security