Izvorna verzija od ovu priču pojavio u Časopis Quanta.
Evo testa za dojenčad: Pokažite im čašu vode na stolu. Sakrijte ga iza drvene ploče. Sada pomaknite ploču prema staklu. Ako ploča stalno prolazi pored stakla, kao da je nema, jesu li iznenađeni? Mnoga šestomjesečna djeca jesu, a do godinu dana gotovo sva djeca imaju intuitivnu predodžbu o postojanosti predmeta, naučenu promatranjem. Sada to rade i neki modeli umjetne inteligencije.
Istraživači su razvili AI sustav koji uči o svijetu putem videa i pokazuje pojam “iznenađenja” kada im se prezentiraju informacije koje su u suprotnosti sa znanjem koje je prikupio.
Model koji je izradila Meta i koji se zove Video Joint Embedding Predictive Architecture (V-JEPA) ne daje nikakve pretpostavke o fizici svijeta sadržanoj u videima. Unatoč tome, može početi shvaćati kako svijet funkcionira.
“Njihove tvrdnje su, a priori, vrlo uvjerljive, a rezultati su super zanimljivi”, kaže Micha Heilbronkognitivni znanstvenik sa Sveučilišta u Amsterdamu koji proučava kako mozak i umjetni sustavi daju smisao svijetu.
Sadržaj objave
Više apstrakcije
Kao što znaju inženjeri koji izrađuju samovozeće automobile, može biti teško natjerati AI sustav da pouzdano shvati ono što vidi. Većina sustava dizajniranih za “razumijevanje” videozapisa kako bi ili klasificirali njihov sadržaj (“osoba koja igra tenis”, na primjer) ili identificirali konture objekta – recimo, automobila ispred – radi u onome što se naziva “prostorom piksela”. Model u biti tretira svaki piksel u videu kao jednaku važnost.
Ali ovi modeli prostora piksela dolaze s ograničenjima. Zamislite da pokušavate pronaći smisao ulice u predgrađu. Ako scena ima automobile, semafore i drveće, model bi se mogao previše fokusirati na nebitne detalje kao što je kretanje lišća. Može propustiti boju semafora ili položaje automobila u blizini. “Kada idete na slike ili video, ne želite raditi u njima [pixel] prostora jer ima previše detalja koje ne želite modelirati”, rekao je Randall Balestrieroinformatičar na Sveučilištu Brown.



