Veliki jezični modeli nailaze na ograničenja u domenama koje zahtijevaju razumijevanje fizičkog svijeta – od robotike preko autonomne vožnje do proizvodnje. To ograničenje gura ulagače prema svjetskim modelima, a AMI Labs je nedugo nakon toga prikupio početnu rundu od 1,03 milijarde dolara World Labs osigurao je milijardu dolara.
Veliki jezični modeli (LLM) izvrsni su u obradi apstraktnog znanja kroz predviđanje sljedećeg tokena, ali im u osnovi nedostaje utemeljenje u fizičkoj kauzalnosti. Oni ne mogu pouzdano predvidjeti fizičke posljedice radnji u stvarnom svijetu.
Istraživači umjetne inteligencije i voditelji mišljenja sve su glasniji o tim ograničenjima dok industrija pokušava istisnuti umjetnu inteligenciju iz web preglednika u fizičke prostore. U intervjuu za podcaster Dwarkesh Patelprimatelj Turingove nagrade Richard Sutton upozorio je da LLM samo oponašaju ono što ljudi govore umjesto da modeliraju svijet, što ograničava njihovu sposobnost učenja iz iskustva i prilagođavanja promjenama u svijetu.
To je razlog zašto modeli temeljeni na LLM-ovima, uključujući modele jezika vizije (VLM-ovi), mogu pokazati krhko ponašanje i prekinuti s vrlo malim promjenama svojih ulaza.
Izvršni direktor Google DeepMinda Demis Hassabis ponovio je to mišljenje u drugom intervjuu, ističući da današnji modeli umjetne inteligencije pate od “nazubljene inteligencije”. Oni mogu riješiti složene matematičke olimpijade, ali ne uspijevaju u osnovnoj fizici jer im nedostaju kritične sposobnosti u pogledu dinamike stvarnog svijeta.
Kako bi riješili ovaj problem, istraživači prebacuju fokus na izgradnju modela svijeta koji djeluju kao interni simulatori, omogućujući AI sustavima da sigurno testiraju hipoteze prije poduzimanja fizičke radnje. Međutim, “svjetski modeli” je krovni pojam koji obuhvaća nekoliko različitih arhitektonskih pristupa.
To je proizvelo tri različita arhitektonska pristupa, svaki s različitim kompromisima.
Sadržaj objave
JEPA: izgrađeno za stvarno vrijeme
Prvi glavni pristup usmjeren je na učenje latentnih reprezentacija umjesto pokušaja predviđanja dinamike svijeta na razini piksela. Ovu metodu podržava AMI Labs, a uvelike se temelji na prediktivnoj arhitekturi zajedničkog ugrađivanja (JEPA).
JEPA modeli pokušavaju oponašati kako ljudi razumiju svijet. Kada promatramo svijet, ne pamtimo svaki pojedini piksel ili nebitan detalj u sceni. Na primjer, ako gledate automobil kako vozi ulicom, pratite njegovu putanju i brzinu; ne izračunavate točan odraz svjetla na svakom pojedinom listu drveća u pozadini.
JEPA modeli reproduciraju ovaj ljudski kognitivni prečac. Umjesto da tjera neuronsku mrežu da predvidi kako će točno izgledati sljedeći okvir videa, model uči manji skup apstraktnih ili “latentnih” značajki. Odbacuje nebitne detalje i u potpunosti se usredotočuje na temeljna pravila interakcije elemenata u sceni. To čini model otpornim na pozadinsku buku i male promjene koje kvare druge modele.
Ova je arhitektura visoko računalna i memorijska učinkovita. Zanemarujući nebitne detalje, zahtijeva mnogo manje primjera za obuku i radi sa znatno nižom latencijom. Ove ga karakteristike čine prikladnim za aplikacije u kojima se o učinkovitosti i zaključivanju u stvarnom vremenu ne može raspravljati, kao što su robotika, samovozeći automobili i tijekovi rada poduzeća s visokim ulozima.
Na primjer, AMI je partner sa zdravstvenom tvrtkom Nabla za korištenje ove arhitekture za simulaciju operativne složenosti i smanjenje kognitivnog opterećenja u brzim zdravstvenim okruženjima.
Yann LeCun, pionir JEPA arhitekture i suosnivač AMI-ja, objasnio je da svjetski modeli temeljeni na JEPA su dizajnirani da budu "kontrolirati u smislu da im možete zadati ciljeve, a prema konstrukciji, jedino što mogu učiniti jest ostvariti te ciljeve" u intervjuu za Newsweek.
Gaussove oznake: izgrađene za prostor
Drugi pristup oslanja se na generativne modele za izgradnju kompletnih prostornih okruženja od nule. Usvojile su ga tvrtke poput Svjetski laboratorijiova metoda uzima početni upit (to može biti slika ili tekstualni opis) i koristi generativni model za stvaranje 3D Gaussove oznake. Gaussov znak je tehnika za predstavljanje 3D scena pomoću milijuna sićušnih matematičkih čestica koje definiraju geometriju i osvjetljenje. Za razliku od generiranja ravnog videa, ove 3D reprezentacije mogu se izravno uvesti u standardne fizičke i 3D motore, kao što je Unreal Engine, gdje korisnici i drugi agenti umjetne inteligencije mogu slobodno kretati i komunicirati s njima iz bilo kojeg kuta.
Primarna prednost ovdje je drastično smanjenje vremena i jednokratnih troškova generiranja potrebnih za stvaranje složenih interaktivnih 3D okruženja. Bavi se točnim problemom koji je opisao osnivač World Labsa Fei-Fei Li, koji je primijetio da su LLM-ovi u konačnici poput “tvorci riječi u mraku”, posjeduje kitnjast jezik, ali mu nedostaje prostorna inteligencija i fizičko iskustvo. Model Marble World Labsa daje AI tu prostornu svijest koja nedostaje.
Iako ovaj pristup nije dizajniran za izvođenje u djeliću sekunde u stvarnom vremenu, on ima ogroman potencijal za prostorno računalstvo, interaktivnu zabavu, industrijski dizajn i izgradnju statičnih okruženja za obuku za robotiku. Vrijednost poduzeća očita je u Autodesku jaku potporu World Labsa integrirati te modele u svoje aplikacije industrijskog dizajna.
Generacija s kraja na kraj: stvorena za skalu
Treći pristup koristi end-to-end generativni model za obradu upita i radnji korisnika, kontinuirano generirajući scenu, fizičku dinamiku i reakcije u hodu. Umjesto izvoza statične 3D datoteke u vanjski fizički mehanizam, sam model djeluje kao motor. Unosi početni upit uz kontinuirani tok korisničkih radnji i generira sljedeće okvire okruženja u stvarnom vremenu, izvorno računajući fiziku, osvjetljenje i reakcije objekata.
DeepMind-a Duh 3 i Nvidijine Kozmos spadaju u ovu kategoriju. Ovi modeli pružaju vrlo jednostavno sučelje za generiranje beskonačnih interaktivnih iskustava i golemih količina sintetičkih podataka. DeepMind je to pokazao izvorno s Genie 3pokazujući kako model održava strogu postojanost objekta i dosljednu fiziku pri 24 sličice u sekundi bez oslanjanja na zasebni memorijski modul.
Ovaj pristup izravno se prevodi u teške sintetičke tvornice podataka. Nvidia Cosmos koristi ovu arhitekturu za skaliranje sintetičkih podataka i fizičkog AI razmišljanja, omogućujući programerima autonomnih vozila i robotike da sintetiziraju rijetke, opasne rubne slučajeve bez troškova ili rizika fizičkog testiranja. Waymo (druga Alphabetova podružnica) izgradio svoj model svijeta na temelju Genie 3, prilagodivši ga za obuku svojih samovozećih automobila.
Loša strana ove end-to-end generativne metode je veliki računalni trošak potreban za kontinuirano istovremeno iscrtavanje fizike i piksela. Ipak, ulaganje je neophodno kako bi se postigla vizija koju je iznio Hassabis, koji tvrdi da je potrebno duboko, unutarnje razumijevanje fizičke uzročnosti jer trenutnoj umjetnoj inteligenciji nedostaju kritične sposobnosti za sigurno djelovanje u stvarnom svijetu.
Što slijedi: hibridne arhitekture
LLM će i dalje služiti kao sučelje za razmišljanje i komunikaciju, ali svjetski modeli se postavljaju kao temeljna infrastruktura za cjevovode fizičkih i prostornih podataka. Kako temeljni modeli sazrijevaju, svjedoci smo pojave hibridnih arhitektura koje se oslanjaju na prednosti svakog pristupa.
Na primjer, nedavno razvijen startup za kibernetičku sigurnost DeepTempo LogLMmodel koji integrira elemente iz LLM-a i JEPA-e za otkrivanje anomalija i kibernetičkih prijetnji iz sigurnosnih i mrežnih zapisa.



