Oblak Znanja

  • Home
  • Novosti
  • Učionica
    • Informatika 5
    • Informatika 6
    • Informatika 7
    • Informatika 8
    • Logo jezik
    • WordPress
    • Microsoft Office
  • Vodiči
    • Online vodiči
    • Kratki savjeti
    • Korisne aplikacije
    • Društvene mreže
    • Multimedija
    • Zanimljivosti
✕

Istraživači Alibabe otkrivaju Marco-o1, LLM s naprednim sposobnostima zaključivanja

Novosti

Istraživači Alibabe otkrivaju Marco-o1, LLM s naprednim sposobnostima zaključivanja

Tomšić Damjan 28. studenoga 2024


Pridružite se našim dnevnim i tjednim biltenima za najnovija ažuriranja i ekskluzivni sadržaj o AI pokrivenosti vodećoj u industriji. Saznajte više


Nedavno izdanje OpenAI o1 skrenulo je veliku pozornost na velike modele rasuđivanja (LRM) i nadahnjuje nove modele usmjerene na rješavanje složenih problema s kojima se klasični jezični modeli često bore. Nadovezujući se na uspjeh o1 i koncepta LRM-ova, istraživači u Alibabi predstavili su Marko-o1koji poboljšava sposobnosti rasuđivanja i rješava probleme s otvorenim rješenjima gdje nema jasnih standarda i mjerljivih nagrada.

OpenAI o1 koristi “skaliranje vremena zaključivanja” kako bi poboljšao sposobnost razmišljanja modela dajući mu “vremena za razmišljanje”. U osnovi, model koristi više računskih ciklusa tijekom zaključivanja kako bi generirao više tokena i pregledao svoje odgovore, što poboljšava njegovu izvedbu na zadacima koji zahtijevaju razmišljanje. o1 je poznat po svojim impresivnim sposobnostima zaključivanja, posebno u zadacima sa standardnim odgovorima kao što su matematika, fizika i kodiranje.

Međutim, mnoge primjene uključuju otvorene probleme kojima nedostaju jasna rješenja i mjerljive nagrade. “Namjeravali smo još više pomaknuti granice LLM-a, poboljšavajući njihove sposobnosti razmišljanja kako bi se uhvatili u koštac sa složenim izazovima iz stvarnog svijeta”, pišu istraživači Alibabe.

Marco-o1 je fino podešena verzija Alibabine Qwen2-7B-Instruct koja integrira napredne tehnike kao što su fino podešavanje lanca misli (CoT), Pretraga stabla u Monte Carlu (MCTS) i strategije razmišljanja.

Istraživači su trenirali Marco-o1 na kombinaciji skupova podataka, uključujući Otvori-O1 CoT skup podataka; skup podataka Marco-o1 CoT, sintetički skup podataka generiran pomoću MCTS-a; i skup podataka Marco-o1 Instruction, zbirka prilagođenih podataka za praćenje uputa za zadatke zaključivanja.

Marco-o1 koristi CoT i MCTS za razmišljanje o zadacima (izvor: arXiv)

MCTS je algoritam pretraživanja koji se pokazao učinkovitim u složenim scenarijima rješavanja problema. Inteligentno istražuje različite putove rješenja uzastopnim uzorkovanjem mogućnosti, simuliranjem ishoda i postupnom izgradnjom stabla odlučivanja. Pokazao se vrlo učinkovitim u složenim problemima umjetne inteligencije, kao što je pobjeda nad igrom Go.

Marco-o1 koristi MCTS za istraživanje višestrukih putova razmišljanja dok generira tokene odgovora. Model koristi rezultate pouzdanosti tokena odgovora kandidata za izgradnju stabla odlučivanja i istraživanje različitih grana. To omogućuje modelu da razmotri širi raspon mogućnosti i dođe do informiranijih i nijansiranih zaključaka, posebno u scenarijima s otvorenim rješenjima. Istraživači su također predstavili fleksibilnu akcijsku strategiju razmišljanja koja im omogućuje prilagodbu granularnosti MCTS koraka definiranjem broja tokena generiranih na svakom čvoru u stablu. To omogućuje kompromis između točnosti i troškova računanja, dajući korisnicima fleksibilnost da uravnoteže performanse i učinkovitost.

Još jedna ključna inovacija u Marco-o1 je uvođenje mehanizma refleksije. Tijekom procesa razmišljanja, model se povremeno poziva rečenicom: “Čekaj! Možda sam pogriješio! Moram ponovno razmisliti ispočetka.” To uzrokuje da model ponovno procijeni svoje korake razmišljanja, identificira potencijalne pogreške i pročisti svoj misaoni proces.

“Ovaj pristup omogućuje modelu da djeluje kao vlastiti kritičar, identificirajući potencijalne pogreške u svom razmišljanju”, pišu istraživači. “Izričitim poticanjem modela da preispita svoje početne zaključke, potičemo ga da ponovno izrazi i pročisti svoj misaoni proces.”

Kako bi procijenili izvedbu Marco-o1, istraživači su proveli eksperimente na nekoliko zadataka, uključujući MGSM benchmark, skup podataka za matematičke probleme u višejezičnim razredima. Marco-o1 značajno je nadmašio osnovni model Qwen2-7B, osobito kada je MCTS komponenta prilagođena granularnosti jednog tokena.

Različite verzije Marco-o1 u odnosu na osnovni model (izvor: arXiv)

Međutim, primarni cilj Marco-o1 bio je riješiti izazove zaključivanja u otvorenim scenarijima. U tu svrhu, istraživači su testirali model na prevođenju kolokvijalnih i žargonskih izraza, zadatku koji zahtijeva razumijevanje suptilnih nijansi jezika, kulture i konteksta. Eksperimenti su pokazali da je Marco-o1 uspio uhvatiti i prevesti te izraze učinkovitije od tradicionalnih prevoditeljskih alata. Na primjer, model je ispravno preveo kolokvijalni izraz na kineskom, koji doslovno znači “Ova cipela pruža osjećaj gaženja po kakici”, u engleski ekvivalent, “Ova cipela ima udoban potplat”. Lanac razmišljanja modela pokazuje kako procjenjuje različita potencijalna značenja i dolazi do ispravnog prijevoda.

Ova se paradigma može pokazati korisnom za zadatke kao što su dizajn i strategija proizvoda, koji zahtijevaju duboko i kontekstualno razumijevanje i nemaju dobro definirana mjerila i metriku.

Primjer lanca razmišljanja za zadatak prevođenja (izvor: arXiv)

Sadržaj objave

  • 1 Novi val modela rasuđivanja
    • 1.1 Povezani sadržaji

Novi val modela rasuđivanja

Od izdavanja o1, AI laboratoriji se utrkuju u objavljivanju modela razmišljanja. Prošli tjedan, kineski AI laboratorij DeepSeek objavio je R1-Lite-Preview, svog o1 konkurenta, koji je trenutno dostupan samo putem mrežnog chat sučelja tvrtke. R1-Lite-Preview navodno je bolji od o1 na nekoliko ključnih mjerila.

Zajednica otvorenog koda također sustiže tržište privatnih modela, izdajući modele i skupove podataka koji iskorištavaju zakone skaliranja vremena zaključivanja. Alibabin tim objavio Marko-o1 na Hugging Face zajedno s a skup podataka o djelomičnom obrazloženju koje istraživači mogu koristiti za treniranje vlastitih modela razmišljanja. Još jedan nedavno objavljeni model je LLaVA-o1, koji su razvili istraživači s više sveučilišta u Kini, a koji donosi paradigmu zaključivanja vremena zaključivanja u modele jezika vizije otvorenog koda (VLM).

Objavljivanje ovih modela dolazi usred neizvjesnosti o budućnosti zakona o skaliranju modela. Različita izvješća pokazuju da se povrati od treniranja većih modela smanjuju i da bi mogli doći do zida. Ali ono što je sigurno jest da tek počinjemo istraživati ​​mogućnosti skaliranja vremena zaključivanja.

VB Dnevnik

Budite u toku! Svakodnevno primajte najnovije vijesti u svoju pristiglu poštu

Pretplatom se slažete s Uvjetima pružanja usluge VentureBeata.

Hvala što ste se pretplatili. Više VB biltena pogledajte ovdje.

Došlo je do pogreške.



Web izvor

Povezani sadržaji

  • Automatski nizovi podataka u Excelu
  • Zašto treba LA toliko dugo za obnovu nakon divljih požaraZašto treba LA toliko dugo za obnovu nakon divljih požara
  • 7 novih Windows laptopa koji su nas oduševili i iznenadili na CES-u7 novih Windows laptopa koji su nas oduševili i iznenadili na CES-u
  • 5 načina na koji koristim regex u Linuxu (i zašto su tako bitni)5 načina na koji koristim regex u Linuxu (i zašto su tako bitni)
  • EPA želi povratak kontrola emisija na elektraneEPA želi povratak kontrola emisija na elektrane
  • Prijavljujete se kao root na Linux? Evo zašto se ta katastrofa čeka da se dogodiPrijavljujete se kao root na Linux? Evo zašto se ta katastrofa čeka da se dogodi

Previous Article

Fizika balona Macy's Parade za Dan zahvalnosti

Next Article

Žestoka konkurencija i konsolidacija uzrokuju probleme FTTP alternativnim mrežama

Posljednje objave

Teksaški sudac odbacuje drugu tužbu zbog prekida rada CrowdStrikea

Teksaški sudac odbacuje drugu tužbu zbog prekida rada CrowdStrikea

Z.ai GLM-Image otvorenog koda pobjeđuje Googleov Nano Banana Pro u složenom prikazivanju teksta, ali ne i u estetici

Z.ai GLM-Image otvorenog koda pobjeđuje Googleov Nano Banana Pro u složenom prikazivanju teksta, ali ne i u estetici

Neuroznanstvenici dešifriraju odugovlačenje: moždani mehanizam objašnjava zašto ljudi ostavljaju određene zadatke za kasnije

Neuroznanstvenici dešifriraju odugovlačenje: moždani mehanizam objašnjava zašto ljudi ostavljaju određene zadatke za kasnije

Novosti

  • Teksaški sudac odbacuje drugu tužbu zbog prekida rada CrowdStrikea 15. siječnja 2026
  • Z.ai GLM-Image otvorenog koda pobjeđuje Googleov Nano Banana Pro u složenom prikazivanju teksta, ali ne i u estetici 15. siječnja 2026
  • Neuroznanstvenici dešifriraju odugovlačenje: moždani mehanizam objašnjava zašto ljudi ostavljaju određene zadatke za kasnije 15. siječnja 2026
  • Ovaj popularni Bose zvučnik izgubit će softversku podršku 2026. – ali sada ima spas 14. siječnja 2026
  • Google Photos “Ask” pretraga još uvijek ima puno mrzitelja 14. siječnja 2026
  • Battlefield 6, 2. sezona odgođena je za veljaču, ali još sadržaja za 1. sezonu i događaja je na putu 14. siječnja 2026
  • Širokopojasna revolucija u Velikoj Britaniji ne pokazuje znakove usporavanja 14. siječnja 2026
  • Zašto Egnyte nastavlja zapošljavati mlađe inženjere unatoč porastu AI alata za kodiranje 14. siječnja 2026
  • Microsoft popušta pod pritiskom: Podatkovni centri trebali bi plaćati skuplju struju 14. siječnja 2026
  • Top 10 PowerShell naredbi za korištenje u 2026 13. siječnja 2026

O nama

Oblak Znanja je blog edukativnog karaktera i namijenjen je svima koji žele unaprijediti svoje znanje iz područja računala i interneta.

Naš cilj je edukacija i pisanje zanimljivih objava kojima ćemo zajedno učiti i informirati se o svijetu informatike.

Na ovom blogu zabranjeno je svako kopiranje sadržaja bez dozvole autora.

Oblak Znanja

Oznake

besplatni powerpoint predlošci društvene mreže excel facebook firefox gmail google+ Google Chrome halloween halloween walpapers internet kartice linkedin profil linux microsoft Mozilla Firefox ms powerpoint oblak znanja office 2007 office savjeti online kupovina pick powerpoint powerpoint predložak powerpoint savjeti rastući niz savjet slike za radnu površinu spremanje datoteka strani jezik tipkovnicke kratice twitter twitter alati uređivanje slika wallpaper clock web preglednik windows windows 7 windows aplikacije windows vista word word 2007 word savjeti youtube savjeti youtube tipkovničke kratice