Oblak Znanja

  • Home
  • Novosti
  • Učionica
    • Informatika 5
    • Informatika 6
    • Informatika 7
    • Informatika 8
    • Logo jezik
    • WordPress
    • Microsoft Office
  • Vodiči
    • Online vodiči
    • Kratki savjeti
    • Korisne aplikacije
    • Društvene mreže
    • Multimedija
    • Zanimljivosti
✕

Tri načina na koja AI uči razumjeti fizički svijet

Novosti

Tri načina na koja AI uči razumjeti fizički svijet

Tomšić Damjan 21. ožujka 2026

Veliki jezični modeli nailaze na ograničenja u domenama koje zahtijevaju razumijevanje fizičkog svijeta – od robotike preko autonomne vožnje do proizvodnje. To ograničenje gura ulagače prema svjetskim modelima, a AMI Labs je nedugo nakon toga prikupio početnu rundu od 1,03 milijarde dolara World Labs osigurao je milijardu dolara.

Veliki jezični modeli (LLM) izvrsni su u obradi apstraktnog znanja kroz predviđanje sljedećeg tokena, ali im u osnovi nedostaje utemeljenje u fizičkoj kauzalnosti. Oni ne mogu pouzdano predvidjeti fizičke posljedice radnji u stvarnom svijetu.

Istraživači umjetne inteligencije i voditelji mišljenja sve su glasniji o tim ograničenjima dok industrija pokušava istisnuti umjetnu inteligenciju iz web preglednika u fizičke prostore. U intervjuu za podcaster Dwarkesh Patelprimatelj Turingove nagrade Richard Sutton upozorio je da LLM samo oponašaju ono što ljudi govore umjesto da modeliraju svijet, što ograničava njihovu sposobnost učenja iz iskustva i prilagođavanja promjenama u svijetu.

To je razlog zašto modeli temeljeni na LLM-ovima, uključujući modele jezika vizije (VLM-ovi), mogu pokazati krhko ponašanje i prekinuti s vrlo malim promjenama svojih ulaza.

Izvršni direktor Google DeepMinda Demis Hassabis ponovio je to mišljenje u drugom intervjuu, ističući da današnji modeli umjetne inteligencije pate od “nazubljene inteligencije”. Oni mogu riješiti složene matematičke olimpijade, ali ne uspijevaju u osnovnoj fizici jer im nedostaju kritične sposobnosti u pogledu dinamike stvarnog svijeta.

Kako bi riješili ovaj problem, istraživači prebacuju fokus na izgradnju modela svijeta koji djeluju kao interni simulatori, omogućujući AI sustavima da sigurno testiraju hipoteze prije poduzimanja fizičke radnje. Međutim, “svjetski modeli” je krovni pojam koji obuhvaća nekoliko različitih arhitektonskih pristupa.

To je proizvelo tri različita arhitektonska pristupa, svaki s različitim kompromisima.

Sadržaj objave

  • 1 JEPA: izgrađeno za stvarno vrijeme
  • 2 Gaussove oznake: izgrađene za prostor
  • 3 Generacija s kraja na kraj: stvorena za skalu
  • 4 Što slijedi: hibridne arhitekture
    • 4.1 Povezani sadržaji

JEPA: izgrađeno za stvarno vrijeme

Prvi glavni pristup usmjeren je na učenje latentnih reprezentacija umjesto pokušaja predviđanja dinamike svijeta na razini piksela. Ovu metodu podržava AMI Labs, a uvelike se temelji na prediktivnoj arhitekturi zajedničkog ugrađivanja (JEPA).

JEPA modeli pokušavaju oponašati kako ljudi razumiju svijet. Kada promatramo svijet, ne pamtimo svaki pojedini piksel ili nebitan detalj u sceni. Na primjer, ako gledate automobil kako vozi ulicom, pratite njegovu putanju i brzinu; ne izračunavate točan odraz svjetla na svakom pojedinom listu drveća u pozadini.

JEPA modeli reproduciraju ovaj ljudski kognitivni prečac. Umjesto da tjera neuronsku mrežu da predvidi kako će točno izgledati sljedeći okvir videa, model uči manji skup apstraktnih ili “latentnih” značajki. Odbacuje nebitne detalje i u potpunosti se usredotočuje na temeljna pravila interakcije elemenata u sceni. To čini model otpornim na pozadinsku buku i male promjene koje kvare druge modele.

Ova je arhitektura visoko računalna i memorijska učinkovita. Zanemarujući nebitne detalje, zahtijeva mnogo manje primjera za obuku i radi sa znatno nižom latencijom. Ove ga karakteristike čine prikladnim za aplikacije u kojima se o učinkovitosti i zaključivanju u stvarnom vremenu ne može raspravljati, kao što su robotika, samovozeći automobili i tijekovi rada poduzeća s visokim ulozima.

Na primjer, AMI je partner sa zdravstvenom tvrtkom Nabla za korištenje ove arhitekture za simulaciju operativne složenosti i smanjenje kognitivnog opterećenja u brzim zdravstvenim okruženjima.

Yann LeCun, pionir JEPA arhitekture i suosnivač AMI-ja, objasnio je da svjetski modeli temeljeni na JEPA su dizajnirani da budu "kontrolirati u smislu da im možete zadati ciljeve, a prema konstrukciji, jedino što mogu učiniti jest ostvariti te ciljeve" u intervjuu za Newsweek.

Gaussove oznake: izgrađene za prostor

Drugi pristup oslanja se na generativne modele za izgradnju kompletnih prostornih okruženja od nule. Usvojile su ga tvrtke poput Svjetski laboratorijiova metoda uzima početni upit (to može biti slika ili tekstualni opis) i koristi generativni model za stvaranje 3D Gaussove oznake. Gaussov znak je tehnika za predstavljanje 3D scena pomoću milijuna sićušnih matematičkih čestica koje definiraju geometriju i osvjetljenje. Za razliku od generiranja ravnog videa, ove 3D reprezentacije mogu se izravno uvesti u standardne fizičke i 3D motore, kao što je Unreal Engine, gdje korisnici i drugi agenti umjetne inteligencije mogu slobodno kretati i komunicirati s njima iz bilo kojeg kuta.

Primarna prednost ovdje je drastično smanjenje vremena i jednokratnih troškova generiranja potrebnih za stvaranje složenih interaktivnih 3D okruženja. Bavi se točnim problemom koji je opisao osnivač World Labsa Fei-Fei Li, koji je primijetio da su LLM-ovi u konačnici poput “tvorci riječi u mraku”, posjeduje kitnjast jezik, ali mu nedostaje prostorna inteligencija i fizičko iskustvo. Model Marble World Labsa daje AI tu prostornu svijest koja nedostaje.

Iako ovaj pristup nije dizajniran za izvođenje u djeliću sekunde u stvarnom vremenu, on ima ogroman potencijal za prostorno računalstvo, interaktivnu zabavu, industrijski dizajn i izgradnju statičnih okruženja za obuku za robotiku. Vrijednost poduzeća očita je u Autodesku jaku potporu World Labsa integrirati te modele u svoje aplikacije industrijskog dizajna.

Generacija s kraja na kraj: stvorena za skalu

Treći pristup koristi end-to-end generativni model za obradu upita i radnji korisnika, kontinuirano generirajući scenu, fizičku dinamiku i reakcije u hodu. Umjesto izvoza statične 3D datoteke u vanjski fizički mehanizam, sam model djeluje kao motor. Unosi početni upit uz kontinuirani tok korisničkih radnji i generira sljedeće okvire okruženja u stvarnom vremenu, izvorno računajući fiziku, osvjetljenje i reakcije objekata.

DeepMind-a Duh 3 i Nvidijine Kozmos spadaju u ovu kategoriju. Ovi modeli pružaju vrlo jednostavno sučelje za generiranje beskonačnih interaktivnih iskustava i golemih količina sintetičkih podataka. DeepMind je to pokazao izvorno s Genie 3pokazujući kako model održava strogu postojanost objekta i dosljednu fiziku pri 24 sličice u sekundi bez oslanjanja na zasebni memorijski modul.

Ovaj pristup izravno se prevodi u teške sintetičke tvornice podataka. Nvidia Cosmos koristi ovu arhitekturu za skaliranje sintetičkih podataka i fizičkog AI razmišljanja, omogućujući programerima autonomnih vozila i robotike da sintetiziraju rijetke, opasne rubne slučajeve bez troškova ili rizika fizičkog testiranja. Waymo (druga Alphabetova podružnica) izgradio svoj model svijeta na temelju Genie 3, prilagodivši ga za obuku svojih samovozećih automobila.

Loša strana ove end-to-end generativne metode je veliki računalni trošak potreban za kontinuirano istovremeno iscrtavanje fizike i piksela. Ipak, ulaganje je neophodno kako bi se postigla vizija koju je iznio Hassabis, koji tvrdi da je potrebno duboko, unutarnje razumijevanje fizičke uzročnosti jer trenutnoj umjetnoj inteligenciji nedostaju kritične sposobnosti za sigurno djelovanje u stvarnom svijetu.

Što slijedi: hibridne arhitekture

LLM će i dalje služiti kao sučelje za razmišljanje i komunikaciju, ali svjetski modeli se postavljaju kao temeljna infrastruktura za cjevovode fizičkih i prostornih podataka. Kako temeljni modeli sazrijevaju, svjedoci smo pojave hibridnih arhitektura koje se oslanjaju na prednosti svakog pristupa.

Na primjer, nedavno razvijen startup za kibernetičku sigurnost DeepTempo LogLMmodel koji integrira elemente iz LLM-a i JEPA-e za otkrivanje anomalija i kibernetičkih prijetnji iz sigurnosnih i mrežnih zapisa.

Web izvor

Povezani sadržaji

  • Ubuntu Server Installation Checklist | TechRepublicUbuntu Server Installation Checklist | TechRepublic
  • Isprobao sam Appleove 2 velike AI značajke najavljene na događaju iPhone 17 – i obje su izmjenjivače igaraIsprobao sam Appleove 2 velike AI značajke najavljene na događaju iPhone 17 – i obje su izmjenjivače igara
  • Dok se vrte glasine o Witcher 3 DLC-u, CD Projekt Red želi da znate da Cyberpunk 2077 više neće dobivati ​​nikakav ‘tajni’ sadržajDok se vrte glasine o Witcher 3 DLC-u, CD Projekt Red želi da znate da Cyberpunk 2077 više neće dobivati ​​nikakav ‘tajni’ sadržaj
  • ‘Značajne’ praznine u vlaknima prijete širenju podatkovnog centra‘Značajne’ praznine u vlaknima prijete širenju podatkovnog centra
  • Istraživači žure spasiti podatke američke vlade o trans mladima – prije nego što nestanuIstraživači žure spasiti podatke američke vlade o trans mladima – prije nego što nestanu
  • Ericsson pojačava NetCloud SASE s integriranim ZTNA bez klijenta za bežični WANEricsson pojačava NetCloud SASE s integriranim ZTNA bez klijenta za bežični WAN

Previous Article

Iranski rat stavlja globalna energetska tržišta na rub najgoreg mogućeg scenarija

Posljednje objave

Tri načina na koja AI uči razumjeti fizički svijet

Tri načina na koja AI uči razumjeti fizički svijet

Iranski rat stavlja globalna energetska tržišta na rub najgoreg mogućeg scenarija

Iranski rat stavlja globalna energetska tržišta na rub najgoreg mogućeg scenarija

Chainguard se utrkuje kako bi popravio povjerenje u softver izgrađen AI – evo kako

Sadržaj

  • 1 JEPA: izgrađeno za stvarno vrijeme
  • 2 Gaussove oznake: izgrađene za prostor
  • 3 Generacija s kraja na kraj: stvorena za skalu
  • 4 Što slijedi: hibridne arhitekture

Novosti

  • Tri načina na koja AI uči razumjeti fizički svijet 21. ožujka 2026
  • Iranski rat stavlja globalna energetska tržišta na rub najgoreg mogućeg scenarija 20. ožujka 2026
  • Chainguard se utrkuje kako bi popravio povjerenje u softver izgrađen AI – evo kako 20. ožujka 2026
  • Kako provjeriti je li tekstualna poruka spam na Androidu – i besplatni alat na koji se oslanjam 20. ožujka 2026
  • Ugrabite OnePlus Buds Pro 3 po ludo niskoj cijeni 20. ožujka 2026
  • ESRB neće slijediti PEGI-jeve promjene dobne ocjene u SAD-u 20. ožujka 2026
  • Postavljena pitanja o obilježavanju sjećanja na Instagramu u istrazi Noaha Donohoea 20. ožujka 2026
  • Zašto poduzeća zamjenjuju generičku umjetnu inteligenciju alatima koji poznaju svoje korisnike 19. ožujka 2026
  • Pripremite se za godinu kaotičnog vremena u SAD-u 19. ožujka 2026
  • Best Buy već prodaje MacBook Neo po sniženju – a kvaka i nije tako loša 19. ožujka 2026

O nama

Oblak Znanja je blog edukativnog karaktera i namijenjen je svima koji žele unaprijediti svoje znanje iz područja računala i interneta.

Naš cilj je edukacija i pisanje zanimljivih objava kojima ćemo zajedno učiti i informirati se o svijetu informatike.

Na ovom blogu zabranjeno je svako kopiranje sadržaja bez dozvole autora.

Oblak Znanja

Oznake

besplatni powerpoint predlošci društvene mreže excel facebook firefox gmail google+ Google Chrome halloween halloween walpapers internet kartice linkedin profil linux microsoft Mozilla Firefox ms powerpoint oblak znanja office 2007 office savjeti online kupovina pick powerpoint powerpoint predložak powerpoint savjeti rastući niz savjet slike za radnu površinu spremanje datoteka strani jezik tipkovnicke kratice twitter twitter alati uređivanje slika wallpaper clock web preglednik windows windows 7 windows aplikacije windows vista word word 2007 word savjeti youtube savjeti youtube tipkovničke kratice