Sakana Ai’s Treequest: Rasporedite multi-model timove koji nadmašuju pojedinačne LLM-ove za 30%

Želite pametnije uvide u vašu pristiglu poštu? Prijavite se za naše tjedne biltene kako biste dobili samo ono što je važno za vođe AI, podataka i sigurnosti. Pretplatite se sada

Japanski AI laboratorij Sakana ai uveo je novu tehniku koja omogućava višestrukim jezičnim modelima (LLMS) za suradnju na jednom zadatku, učinkovito stvarajući “tim iz snova” AI agenata. Metoda, nazvana Multi-llm ab-mctsomogućava modelima da izvode probno i pogrešku i kombiniraju svoje jedinstvene snage za rješavanje problema koji su previše složeni za bilo koji pojedinačni model.

Za poduzeća, ovaj pristup pruža sredstva za razvoj robusnijih i sposobnijih AI sustava. Umjesto da budu zaključane u jednog davatelja ili modela, tvrtke bi mogle dinamički iskoristiti najbolje aspekte različitih graničnih modela, dodjeljujući pravi AI za pravi dio zadatka za postizanje superiornih rezultata.

Sadržaj objave

1 Moć kolektivne inteligencije
2 Razmišljajući duže u vrijeme zaključivanja
3 Kako funkcionira prilagodljivo pretraživanje grananja
4 Stavljajući AI ‘tim iz snova’ na test
5 Od istraživanja do aplikacija u stvarnom svijetu
- 5.1 Povezani sadržaji

Moć kolektivne inteligencije

Frontier AI modeli razvijaju se brzo. Međutim, svaki model ima svoje različite snage i slabosti dobivene iz njegovih jedinstvenih podataka i arhitekture treninga. Moglo bi se istaknuti u kodiranju, dok se drugi odlikuje kreativnom pisanjem. Istraživači Sakana AI tvrde da te razlike nisu greška, već značajka.

“Vidimo ove pristranosti i različite sklonosti ne kao ograničenja, već kao dragocjeni resursi za stvaranje kolektivne inteligencije”, navode istraživači u svom blog blog. Oni vjeruju da baš kao što najveća dostignuća čovječanstva dolaze iz različitih timova, AI sustavi također mogu postići više radeći zajedno. “Odruživanjem njihove inteligencije, AI sustavi mogu riješiti probleme koji su nepremostivi za bilo koji pojedinačni model.”

Razmišljajući duže u vrijeme zaključivanja

Novi algoritam Sakana AI je tehnika “skaliranja” (koja se također naziva “skaliranje vremena vremena”), područje istraživanja koje je postalo vrlo popularno u prošloj godini. Iako je većina fokusa u AI bila na „skaliranju vremena treninga“ (povećanje modela i treniranje ih na većim skupovima podataka), skaliranje zaključivanja poboljšava performanse dodjeljivanjem više računalnih resursa nakon što je model već obučen.

Jedan uobičajeni pristup uključuje korištenje učenje ojačanja za ubrzanje modela za stvaranje dužih, detaljnijih sekvenci lanaca (COT), kao što se vidi u popularnim modelima kao što su Openai O3 i DeepSeek-R1. Druga, jednostavnija metoda je ponovljeno uzorkovanje, gdje je modelu više puta dat istim brzim da bi se stvorilo razna potencijalna rješenja, slično kao sesija brainstorminga. Rad Sakana AI kombinira i napreduje ove ideje.

“Naš okvir nudi pametniju, stratešku verziju Best-Of-N (aka ponovljeno uzorkovanje)”, za VentureBeat je Takuya Akiba, znanstvena znanstvenica u Sakana AI i koautor rada. “Dopunjava tehnike razmišljanja poput Long COT -a kroz RL. Dinamičkim odabirom strategije pretraživanja i odgovarajućeg LLM -a, ovaj pristup maksimizira performanse unutar ograničenog broja LLM poziva, pružajući bolje rezultate na složenim zadacima.”

Kako funkcionira prilagodljivo pretraživanje grananja

Jezgra nove metode je algoritam nazvan Adaptive Branching Monte Carlo Tree Search (AB-MCTS). Omogućuje LLM-u da učinkovito izvodi pokušaj i pogrešaka inteligentno uravnotežujući dvije različite strategije pretraživanja: “pretraživanje dublje” i “traženje šire”. Pretraživanje dublje uključuje uzimanje obećavajućeg odgovora i više puta usavršavanje, dok tražite šire znači generiranje potpuno novih rješenja ispočetka. AB-MCTS kombinira ove pristupe, omogućavajući sustavu da poboljšava dobru ideju, ali i da se okrene i isproba nešto novo ako pogodi mrtvu ulaz ili otkrije drugi obećavajući smjer.

Da bi to postigao, sustav koristi Pretraživanje stabla Monte Carlo (MCTS), algoritam za donošenje odluka koji je poznavao DeepMind’s Alphago. U svakom koraku, AB-MCTS koristi modele vjerojatnosti kako bi odlučilo je li strateški za pročišćavanje postojećeg rješenja ili generirati novo.

Različite strategije skaliranja vremena vremena: Sakana AI

Istraživači su to napravili korak dalje s Multi-Lllm AB-MCT-om, koji ne samo da odlučuju “što” učiniti (usavršiti u odnosu na generiranje), već i “koji” LLM bi to trebao učiniti. Na početku zadatka, sustav ne zna koji model je najprikladniji za problem. Započinje isprobavanjem uravnotežene mješavine dostupnih LLM -ova i kako napreduje, saznaje koji su modeli učinkovitiji, dodjeljujući im više radnog opterećenja s vremenom.

Stavljajući AI ‘tim iz snova’ na test

Istraživači su testirali svoj sustav AB-MCTS s više llija na ARC-AGI-2 mjerila. ARC (apstrakcija i rasuđivanje Corpus) dizajniran je za testiranje ljudske sposobnosti za rješavanje novih problema vizualnog rasuđivanja, što ga čini notorno teškim za AI.

Tim je koristio kombinaciju graničnih modela, uključujući O4-Mini, Blizanci 2.5 Pro i DeepSeek-R1.

Kolektiv modela uspio je pronaći ispravna rješenja za preko 30% od 120 testnih problema, što je rezultat koji je značajno nadmašio bilo koji od modela koji rade sami. Sustav je pokazao sposobnost dinamičkog dodjele najboljeg modela za određeni problem. Na zadacima gdje je postojao jasan put do otopine, algoritam je brzo identificirao najučinkovitiji LLM i češće ga koristio.

AB-MCTS VS pojedinačni modeli Izvor: Sakana AI

Još impresivnije, tim je promatrao slučajeve u kojima su modeli riješili probleme koji su prethodno bili nemogući za bilo koji od njih. U jednom slučaju, rješenje generirano modelom O4-Mini bilo je netočno. Međutim, sustav je prošao ovaj pogrešan pokušaj DeepSeek-R1 i Gemini-2.5 Pro, koji su uspjeli analizirati pogrešku, ispraviti je i na kraju dati pravi odgovor.

“To pokazuje da multi-LLM AB-MCT može fleksibilno kombinirati granične modele kako bi riješili prethodno nerešive probleme, gurajući granice onoga što je moguće koristiti pomoću LLM-a kao kolektivne inteligencije”, pišu istraživači.

AB-MTC-ovi mogu odabrati različite modele u različitim fazama rješavanja izvora problema: Sakana AI

“Osim pojedinačnih prednosti i nedostataka svakog modela, tendencija halucinata može se značajno razlikovati među njima”, rekao je Akiba. “Stvaranjem ansambla s modelom koji manje vjerojatno halucinira, moglo bi biti moguće postići najbolje iz oba svijeta: snažne logičke sposobnosti i snažna utemenovanost. Budući da je halucinacija glavno pitanje u poslovnom kontekstu, ovaj bi pristup mogao biti koristan za njegovo ublažavanje.”

Od istraživanja do aplikacija u stvarnom svijetu

Kako bi pomogli programerima i tvrtkama da primijene ovu tehniku, Sakana AI objavila je temeljni algoritam kao okvir otvorenog koda pod nazivom Treequestdostupno pod licencom Apache 2.0 (upotrebljiva u komercijalne svrhe). TreeQuest pruža fleksibilan API, omogućavajući korisnicima da implementiraju multi-llm AB-MCT za svoje zadatke s prilagođenim bodovanjem i logikom.

“Iako smo u ranoj fazi primjene AB-MCT-a na određene poslovno orijentirane probleme, naše istraživanje otkriva značajan potencijal u nekoliko područja”, rekao je Akiba.

Osim referentne vrijednosti Arc-AGI-2, tim je uspio uspješno primijeniti AB-MCT na zadatke poput složenog algoritamskog kodiranja i poboljšanja točnosti modela strojnog učenja.

“AB-MCT-ovi bi također mogli biti vrlo učinkoviti za probleme koji zahtijevaju iterativni pokušaj i pogreške, poput optimizacije metrika performansi postojećeg softvera”, rekao je Akiba. “Na primjer, moglo bi se koristiti za automatsko pronalaženje načina za poboljšanje kašnjenja odgovora web usluge.”

Oslobađanje praktičnog alata s otvorenim kodom moglo bi otvoriti put novoj klasi moćnijih i pouzdanijih AI aplikacija za poduzetnike.

Dnevni uvidi u slučajeve poslovne uporabe s VB dnevno

Ako želite impresionirati svog šefa, VB Daily vas je pokrivao. Dajemo vam unutarnju lopaticu o tome što tvrtke rade s generativnim AI, od regulatornih pomaka do praktičnih razmještaja, tako da možete dijeliti uvide za maksimalni ROI.

Pročitajte našu politiku privatnosti

Hvala na pretplati. Pogledajte više VB biltena ovdje.

Došlo je do pogreške.

Web izvor