Pridružite se našim dnevnim i tjednim biltenima za najnovija ažuriranja i ekskluzivni sadržaj o AI pokrivenosti vodećoj u industriji. Saznajte više
Nedavno izdanje OpenAI o1 skrenulo je veliku pozornost na velike modele rasuđivanja (LRM) i nadahnjuje nove modele usmjerene na rješavanje složenih problema s kojima se klasični jezični modeli često bore. Nadovezujući se na uspjeh o1 i koncepta LRM-ova, istraživači u Alibabi predstavili su Marko-o1koji poboljšava sposobnosti rasuđivanja i rješava probleme s otvorenim rješenjima gdje nema jasnih standarda i mjerljivih nagrada.
OpenAI o1 koristi “skaliranje vremena zaključivanja” kako bi poboljšao sposobnost razmišljanja modela dajući mu “vremena za razmišljanje”. U osnovi, model koristi više računskih ciklusa tijekom zaključivanja kako bi generirao više tokena i pregledao svoje odgovore, što poboljšava njegovu izvedbu na zadacima koji zahtijevaju razmišljanje. o1 je poznat po svojim impresivnim sposobnostima zaključivanja, posebno u zadacima sa standardnim odgovorima kao što su matematika, fizika i kodiranje.
Međutim, mnoge primjene uključuju otvorene probleme kojima nedostaju jasna rješenja i mjerljive nagrade. “Namjeravali smo još više pomaknuti granice LLM-a, poboljšavajući njihove sposobnosti razmišljanja kako bi se uhvatili u koštac sa složenim izazovima iz stvarnog svijeta”, pišu istraživači Alibabe.
Marco-o1 je fino podešena verzija Alibabine Qwen2-7B-Instruct koja integrira napredne tehnike kao što su fino podešavanje lanca misli (CoT), Pretraga stabla u Monte Carlu (MCTS) i strategije razmišljanja.
Istraživači su trenirali Marco-o1 na kombinaciji skupova podataka, uključujući Otvori-O1 CoT skup podataka; skup podataka Marco-o1 CoT, sintetički skup podataka generiran pomoću MCTS-a; i skup podataka Marco-o1 Instruction, zbirka prilagođenih podataka za praćenje uputa za zadatke zaključivanja.
MCTS je algoritam pretraživanja koji se pokazao učinkovitim u složenim scenarijima rješavanja problema. Inteligentno istražuje različite putove rješenja uzastopnim uzorkovanjem mogućnosti, simuliranjem ishoda i postupnom izgradnjom stabla odlučivanja. Pokazao se vrlo učinkovitim u složenim problemima umjetne inteligencije, kao što je pobjeda nad igrom Go.
Marco-o1 koristi MCTS za istraživanje višestrukih putova razmišljanja dok generira tokene odgovora. Model koristi rezultate pouzdanosti tokena odgovora kandidata za izgradnju stabla odlučivanja i istraživanje različitih grana. To omogućuje modelu da razmotri širi raspon mogućnosti i dođe do informiranijih i nijansiranih zaključaka, posebno u scenarijima s otvorenim rješenjima. Istraživači su također predstavili fleksibilnu akcijsku strategiju razmišljanja koja im omogućuje prilagodbu granularnosti MCTS koraka definiranjem broja tokena generiranih na svakom čvoru u stablu. To omogućuje kompromis između točnosti i troškova računanja, dajući korisnicima fleksibilnost da uravnoteže performanse i učinkovitost.
Još jedna ključna inovacija u Marco-o1 je uvođenje mehanizma refleksije. Tijekom procesa razmišljanja, model se povremeno poziva rečenicom: “Čekaj! Možda sam pogriješio! Moram ponovno razmisliti ispočetka.” To uzrokuje da model ponovno procijeni svoje korake razmišljanja, identificira potencijalne pogreške i pročisti svoj misaoni proces.
“Ovaj pristup omogućuje modelu da djeluje kao vlastiti kritičar, identificirajući potencijalne pogreške u svom razmišljanju”, pišu istraživači. “Izričitim poticanjem modela da preispita svoje početne zaključke, potičemo ga da ponovno izrazi i pročisti svoj misaoni proces.”
Kako bi procijenili izvedbu Marco-o1, istraživači su proveli eksperimente na nekoliko zadataka, uključujući MGSM benchmark, skup podataka za matematičke probleme u višejezičnim razredima. Marco-o1 značajno je nadmašio osnovni model Qwen2-7B, osobito kada je MCTS komponenta prilagođena granularnosti jednog tokena.
Međutim, primarni cilj Marco-o1 bio je riješiti izazove zaključivanja u otvorenim scenarijima. U tu svrhu, istraživači su testirali model na prevođenju kolokvijalnih i žargonskih izraza, zadatku koji zahtijeva razumijevanje suptilnih nijansi jezika, kulture i konteksta. Eksperimenti su pokazali da je Marco-o1 uspio uhvatiti i prevesti te izraze učinkovitije od tradicionalnih prevoditeljskih alata. Na primjer, model je ispravno preveo kolokvijalni izraz na kineskom, koji doslovno znači “Ova cipela pruža osjećaj gaženja po kakici”, u engleski ekvivalent, “Ova cipela ima udoban potplat”. Lanac razmišljanja modela pokazuje kako procjenjuje različita potencijalna značenja i dolazi do ispravnog prijevoda.
Ova se paradigma može pokazati korisnom za zadatke kao što su dizajn i strategija proizvoda, koji zahtijevaju duboko i kontekstualno razumijevanje i nemaju dobro definirana mjerila i metriku.
Sadržaj objave
Novi val modela rasuđivanja
Od izdavanja o1, AI laboratoriji se utrkuju u objavljivanju modela razmišljanja. Prošli tjedan, kineski AI laboratorij DeepSeek objavio je R1-Lite-Preview, svog o1 konkurenta, koji je trenutno dostupan samo putem mrežnog chat sučelja tvrtke. R1-Lite-Preview navodno je bolji od o1 na nekoliko ključnih mjerila.
Zajednica otvorenog koda također sustiže tržište privatnih modela, izdajući modele i skupove podataka koji iskorištavaju zakone skaliranja vremena zaključivanja. Alibabin tim objavio Marko-o1 na Hugging Face zajedno s a skup podataka o djelomičnom obrazloženju koje istraživači mogu koristiti za treniranje vlastitih modela razmišljanja. Još jedan nedavno objavljeni model je LLaVA-o1, koji su razvili istraživači s više sveučilišta u Kini, a koji donosi paradigmu zaključivanja vremena zaključivanja u modele jezika vizije otvorenog koda (VLM).
Objavljivanje ovih modela dolazi usred neizvjesnosti o budućnosti zakona o skaliranju modela. Različita izvješća pokazuju da se povrati od treniranja većih modela smanjuju i da bi mogli doći do zida. Ali ono što je sigurno jest da tek počinjemo istraživati mogućnosti skaliranja vremena zaključivanja.
Web izvor

