Pridružite se našim dnevnim i tjednim biltenima za najnovija ažuriranja i ekskluzivni sadržaj o AI pokrivenosti vodećoj u industriji. Saznajte više
Istraživači na Sveučilište umjetne inteligencije Mohamed bin Zayed (MBZUAI) najavili su izdavanje LamaV-o1najsuvremeniji model umjetne inteligencije koji se može uhvatiti u koštac s nekim od najsloženijih zadataka zaključivanja preko teksta i slika.
Kombiniranjem vrhunskog učenja nastavnog plana i programa s naprednim tehnikama optimizacije kao što su Beam SearchLlamaV-o1 postavlja novo mjerilo za razmišljanje korak po korak u multimodalnim AI sustavima.
“Razumovanje je temeljna sposobnost za rješavanje složenih problema u više koraka, osobito u vizualnim kontekstima gdje je ključno sekvencijalno postupno razumijevanje”, napisali su istraživači u svom tehničkog izvješćeobjavljeno danas. Fino podešen za zadatke zaključivanja koji zahtijevaju preciznost i transparentnost, AI model nadmašuje mnoge svoje kolege u zadacima koji sežu od tumačenja financijskih grafikona do dijagnosticiranja medicinskih slika.
U tandemu s modelom predstavio se i tim VRC-Klupamjerilo osmišljeno za procjenu AI modela na njihovu sposobnost razmišljanja o problemima na način korak po korak. S više od 1000 različitih uzoraka i više od 4000 koraka razmišljanja, VRC-Bench je već hvaljen kao mjenjač igre u multimodalnom istraživanju umjetne inteligencije.
Sadržaj objave
Kako se LlamaV-o1 izdvaja od konkurencije
Tradicionalni modeli umjetne inteligencije često se usredotočuju na davanje konačnog odgovora, nudeći malo uvida u to kako su došli do svojih zaključaka. LlamaV-o1, međutim, naglašava razmišljanje korak po korak — sposobnost koja oponaša ljudsko rješavanje problema. Ovaj pristup omogućuje korisnicima da vide logične korake koje model poduzima, što ga čini osobito vrijednim za aplikacije u kojima je interpretabilnost ključna.
Istraživači su trenirali LlamaV-o1 pomoću LLaVA-CoT-100kskup podataka optimiziran za zadatke zaključivanja, i procijenio njegovu izvedbu pomoću VRC-Bench-a. Rezultati su impresivni: LlamaV-o1 postigao je ocjenu koraka obrazloženja od 68,93, nadmašivši dobro poznate modele otvorenog koda poput LlaVA-CoT (66.21), pa čak i neki modeli zatvorenog koda poput Claude 3,5 Sonet.
„Iskorištavanjem učinkovitosti Beam Searcha uz progresivnu strukturu učenja nastavnog plana i programa, predloženi model postupno stječe vještine, počevši od jednostavnijih zadataka kao što su [a] sažetak pristupa i titlovanje izvedenih pitanja i napredovanje do složenijih scenarija razmišljanja u više koraka, osiguravajući i optimizirano zaključivanje i robusne mogućnosti zaključivanja,” objasnili su istraživači.
Metodički pristup modela također ga čini bržim od konkurencije. “LlamaV-o1 donosi apsolutni dobitak od 3,8% u smislu prosječnog rezultata kroz šest referentnih vrijednosti dok je 5 puta brži tijekom skaliranja zaključaka”, istaknuo je tim u svom izvješću. Učinkovitost poput ove ključna je prodajna točka za poduzeća koja žele implementirati AI rješenja u velikim razmjerima.
Umjetna inteligencija za posao: Zašto je važno razmišljanje korak po korak
LlamaV-o1 naglasak na interpretabilnosti rješava kritične potrebe u industrijama poput financija, medicine i obrazovanja. Za tvrtke, mogućnost praćenja koraka koji stoje iza odluke umjetne inteligencije može izgraditi povjerenje i osigurati usklađenost s propisima.
Uzmimo medicinsko snimanje kao primjer. Radiolog koji koristi umjetnu inteligenciju za analizu skeniranja ne treba samo dijagnozu — mora znati kako je umjetna inteligencija došla do tog zaključka. Ovdje LlamaV-o1 blista, pružajući transparentno obrazloženje korak po korak koje stručnjaci mogu pregledati i potvrditi.
Model se također ističe u poljima kao što je razumijevanje grafikona i dijagrama, koji su ključni za financijsku analizu i donošenje odluka. U ispitivanjima na VRC-KlupaLlamaV-o1 dosljedno nadmašuje svoje konkurente u zadacima koji zahtijevaju interpretaciju složenih vizualnih podataka.
Ali model nije samo za aplikacije s visokim ulozima. Njegova svestranost čini ga prikladnim za širok raspon zadataka, od stvaranja sadržaja do agenata za razgovor. Istraživači su posebno podesili LlamaV-o1 da briljira u scenarijima stvarnog svijeta, koristeći Beam Search za optimiziranje putova razmišljanja i poboljšanje računalne učinkovitosti.
Beam Search omogućuje modelu paralelno generiranje više putova razmišljanja i odabir najlogičnijeg. Ovaj pristup ne samo da povećava točnost, već i smanjuje računalne troškove pokretanja modela, čineći ga atraktivnom opcijom za tvrtke svih veličina.
Što VRC-Bench znači za budućnost umjetne inteligencije
Oslobađanje od VRC-Klupa je značajan koliko i sam model. Za razliku od tradicionalnih mjerila koja se usredotočuju isključivo na točnost konačnog odgovora, VRC-Bench ocjenjuje kvalitetu pojedinačnih koraka zaključivanja, nudeći nijansiraniju procjenu mogućnosti AI modela.
“Većina mjerila prvenstveno se usredotočuje na točnost krajnjeg zadatka, zanemarujući kvalitetu srednjih koraka zaključivanja”, objasnili su istraživači. “[VRC-Bench] predstavlja raznolik skup izazova s osam različitih kategorija u rasponu od složene vizualne percepcije do znanstvenog zaključivanja s više [4,000] svih koraka rezoniranja, što omogućuje robusnu procjenu sposobnosti LLM-a da izvode točno i interpretabilno vizualno rezoniranje kroz više koraka.”
Ovaj fokus na razmišljanje korak po korak posebno je kritičan u područjima kao što su znanstveno istraživanje i obrazovanje, gdje proces iza rješenja može biti jednako važan kao i samo rješenje. Naglašavanjem logičke koherentnosti, VRC-Bench potiče razvoj modela koji se mogu nositi sa složenošću i dvosmislenošću zadataka iz stvarnog svijeta.
Izvedba LlamaV-o1 na VRC-Benchu dovoljno govori o njegovom potencijalu. U prosjeku je model postigao 67,33% u mjerilima poput MathVista i AI2Dnadmašujući druge modele otvorenog koda poput Llava-CoT (63,50%). Ovi rezultati pozicioniraju LlamaV-o1 kao lidera u prostoru umjetne inteligencije otvorenog koda, smanjujući jaz u odnosu na vlasničke modele poput GPT-4okoji je postigao 71,8%.
Sljedeća granica umjetne inteligencije: interpretabilno multimodalno razmišljanje
Dok LlamaV-o1 predstavlja veliko otkriće, nije bez ograničenja. Kao i svi modeli umjetne inteligencije, ograničen je kvalitetom podataka o obuci i može se boriti s visoko tehničkim ili protivničkim zahtjevima. Istraživači također upozoravaju na korištenje modela u scenarijima donošenja odluka s visokim ulozima, kao što su zdravstvena skrb ili financijska predviđanja, gdje pogreške mogu imati ozbiljne posljedice.
Unatoč ovim izazovima, LlamaV-o1 naglašava rastuću važnost multimodalnih AI sustava koji mogu besprijekorno integrirati tekst, slike i druge vrste podataka. Njegov uspjeh naglašava potencijal učenja nastavnog plana i programa i razmišljanja korak po korak za premošćivanje jaza između ljudske i strojne inteligencije.
Kako se AI sustavi sve više integriraju u naše svakodnevne živote, potražnja za objašnjivim modelima samo će rasti. LlamaV-o1 je dokaz da ne moramo žrtvovati performanse zbog transparentnosti — i da budućnost umjetne inteligencije ne prestaje na davanju odgovora. Pokazuje nam kako je to dospjelo.
I možda je to prava prekretnica: u svijetu koji je prepun rješenja crne kutije, LlamaV-o1 otvara poklopac.
Web izvor