Kako je Sakana uvježbao model 7B da orkestrira GPT-5, Claude Sonnet 4 i Gemini 2.5 Pro

Svaki LangChain cjevovod koji tvrdo kodira vaš tim počinje se prekidati u trenutku kada se distribucija upita promijeni — a ona se uvijek mijenja. To usko grlo je ono što je Sakana AI namjeravao ukloniti.

Istraživači u Sakana AI predstavili su "RL dirigent," mali jezični model obučen putem učenja s pojačanjem za automatsko orkestriranje raznolikog skupa radnika LLM-a. Dirigent dinamički analizira ulaze, raspodjeljuje rad među radnicima i koordinira među agentima.

Ova automatizirana koordinacija postiže najsuvremenije rezultate na teškim rezonantnim i referentnim vrijednostima kodiranja, nadmašujući individualne granične modele kao što su GPT-5 i Claude Sonnet 4, kao i skupe cjevovode s više agenata koje je dizajnirao čovjek. Ovu izvedbu postiže uz djelić cijene i s manje API poziva od konkurencije. RL Conductor okosnica je Fugua, Sakana AI komercijalne usluge orkestracije s više agenata.

Sadržaj objave

1 Ograničenja ručnih agentskih okvira
2 Dirigiranje orkestrom agenata
3 Dirigent na djelu
4 Uvođenje orkestracije u poduzeće: Sakana Fugu

Ograničenja ručnih agentskih okvira

Veliki jezični modeli imaju jake latentne mogućnosti. Ali iskoristiti te mogućnosti do kraja velik je izazov. Izdvajanje ove razine performansi uvelike se oslanja na ručno dizajnirane agentske tijekove rada, koji služe kao kritične komponente u komercijalnim AI proizvodima.

Međutim, ti okviri nisu uspješni jer su sami po sebi kruti i ograničeni. U komentarima za VentureBeat, Yujin Tang, koautor rada, objasnio je točnu prijelomnu točku trenutnih sustava: "Iako korištenje okvira s tvrdo kodiranim cjevovodima kao što su LangChain i Mixture-of-Agents može dobro funkcionirati za specifične slučajeve upotrebe… U proizvodnji se javlja inherentno usko grlo kada se ciljaju domene s velikim korisničkim bazama s vrlo heterogenim zahtjevima."

Tang je primijetio da je postizanje "generalizacija u stvarnom svijetu u takvim heterogenim primjenama inherentno zahtijeva nadilaženje dizajna kodiranih ljudima."

Još jedno usko grlo za izgradnju robusnih agentskih sustava je to što niti jedan model nije optimalan za sve zadatke. Različiti modeli su fino podešeni da se specijaliziraju za različite domene. Jedan model može briljirati u znanstvenom razmišljanju, dok je drugi superioran u generiranju koda, matematičkoj logici ili planiranju na visokoj razini.

Budući da modeli imaju te različite karakteristike i komplementarne vještine, ručno predviđanje i tvrdo kodiranje idealne kombinacije modela za svaki upit praktički je nemoguće. Optimalni agentski okvir trebao bi moći analizirati problem i delegirati podzadatke najprikladnijem stručnjaku u skupu.

Dirigiranje orkestrom agenata

RL Conductor dizajniran je za prevladavanje ograničenja krutih okvira koje je dizajnirao čovjek. Kao što naziv implicira, dirigira orkestrom agenata tako što dijeli izazovne probleme, delegira ciljane podzadatke i dizajnira komunikacijske topologije za skup LLM-ova radnika.

Umjesto da se oslanja na fiksni kod ili statičko usmjeravanje, Conductor orkestrira ove modele generiranjem prilagođenog tijeka rada. Za svaki korak u tijeku rada, model generira upute na prirodnom jeziku za određeni aspekt zadatka, dodjeljuje agenta da ga izvrši i definira "popis pristupa" koji diktira koji su prošli podzadaci i odgovori drugih agenata uključeni u kontekst tog agenta.

Definirajući sve prirodnim jezikom, Conductor gradi fleksibilne tijekove rada prilagođene svakom unosu. Može konstruirati jednostavne sekvencijalne lance, paralelne strukture stabla ili čak rekurzivne petlje, ovisno o zahtjevima problema.

Važno je da model ne uči te strategije prema ljudskom dizajnu, već kroz učenje s potkrepljenjem (RL) i maksimiziranje nagrade. Tijekom obuke model dobiva zadatak, skupinu radnika i signal nagrade na temelju toga jesu li njegov odgovor i izlazni format točni.

Kroz jednostavan RL algoritam pokušaja i pogrešaka, model organski otkriva koje kombinacije uputa i komunikacijskih struktura donose najveću nagradu. Kao rezultat toga, automatski usvaja napredne strategije orkestracije kao što su ciljani promptni inženjering, iterativno usavršavanje i meta-promptna optimizacija.

Model uči dinamički prilagođavati svoje strategije i iskoristiti različite prednosti svojih radnih agenata, a da ljudski programer ne mora kodirati proces.

Dirigent na djelu

Kako bi testirali RL Conductor na djelu, istraživači su fino podesili parametar od 7 milijardi Qwen2.5-7B koristeći okvir. Tijekom obuke, dirigent je dobio zadatak osmisliti agencijske tijekove rada do pet koraka. Dobio je pristup skupu radnika koji sadrži sedam različitih modela: tri diva zatvorenog koda (Gemini 2.5 Pro, Claude-Sonnet-4 i GPT-5) i četiri modela otvorenog koda (uključujući DeepSeek-R1-Distill-Qwen-32B, Gemma3-27B i Qwen3-32B).

Tim je procijenio Conductor kroz niz vrlo izazovnih referentnih vrijednosti, uspoređujući ga s individualnim graničnim modelima koji djeluju sami, agentima za samorefleksiju koji su iterativno pozvani da poboljšaju vlastite odgovore i najsuvremenijim višeagentnim okvirima za usmjeravanje kao što su MASRouter, Mixture-of-Agents (MoA), RouterDC i Smoothie. Mali 7B Conductor postavlja nova mjerila u cijelom području. Postigao je prosječnu ocjenu od 77,27% u svim zadacima, postigavši 93,3% na matematičkom mjerilu AIME25, 87,5% na GPQA-Diamondu i 83,93% na LiveCodeBenchu, prema istraživačima.

Nevjerojatno, postigao je te ocjene, a da je ostao vrlo učinkovit. Dok su osnovni modeli poput MoA trošili 11 203 tokena po pitanju, Conductor je u prosjeku koristio samo 1 820 tokena, poduzimajući u prosjeku samo tri koraka po tijeku rada.

Pažljiviji pogled na eksperimentalne detalje pokazuje točno zašto je okvir tako učinkovit. Dirigent je automatski naučio mjeriti težinu zadatka. Za jednostavna pitanja prisjećanja činjenica često je rješavao problem u jednom koraku ili je koristio osnovnu postavku s dva agenta. Međutim, za složene probleme kodiranja izgradio je opsežne tijekove rada koji uključuju do četiri agenta s namjenskim fazama planiranja, implementacije i verifikacije.

Dirigent je također naučio da granični modeli imaju različite snage. Kako bi postigao rekordne rezultate na referentnim vrijednostima kodiranja, Conductor je često dodjeljivao Gemini 2.5 Pro i Claude Sonnet 4 da djeluju kao planeri visoke razine, a GPT-5 je doveo tek na samom kraju da napiše konačni optimizirani kod. U posebno pametnom prikazu prilagodljivosti, dirigent bi ponekad potpuno odustao od vlastite uloge, predajući cijeli proces planiranja Geminiju 2.5 Pro i dopuštajući mu da diktira podzadatke za ostatak grupe.

Osim matematičkih i referentnih vrijednosti kodiranja, Sakana AI već stavlja temeljnu arhitekturu u rad u uslužnom programu za prednje urede. "Interno smo koristili naše Fugu modele temeljene na Conductor tehnologiji za razne praktične poslovne aplikacije: razvoj softvera, dubinsko istraživanje, razvoj strategije, pa čak i vizualne zadatke kao što su generiranje slajdova," rekao je Tang.

Uvođenje orkestracije u poduzeće: Sakana Fugu

Dok je model 7B opisan u istraživačkom radu bio istraživački nacrt i nije javno dostupan, Sakana AI je proizvela okvir Conductor u svoj glavni komercijalni AI proizvod, Sakana Fugu. Sada u svojoj beta fazi, Fugu služi kao višeagentni orkestracijski sustav kojem se može pristupiti putem standardnog OpenAI-kompatibilnog API-ja.

Tang je primijetio Fugu ciljeve "veliko tržište industrija u kojima usvajanje umjetne inteligencije tek treba donijeti velike dobitke u produktivnosti zbog ograničenja generalizacije trenutačnih tvrdo kodiranih cjevovoda, kao što su financije i obrana."

Programerima u poduzećima ovo omogućuje besprijekornu integraciju u postojeće aplikacije bez glavobolje upravljanja višestrukim API ključevima ili ručnog usmjeravanja zadataka preko različitih dobavljača. Iza API sučelja, Fugu automatizira složene topologije suradnje i dodjele uloga u skupu modela. Kako bi podržao različite poslovne potrebe, Sakana je izdala dvije varijante: Fugu Mini, napravljenu za rad s niskom latencijom, i Fugu Ultra, dizajniranu za maksimalne performanse pri zahtjevnim radnim opterećenjima.

Govoreći o problemima upravljanja oko autonomnih agenata koji vrte nevidljive tijekove rada, Tang je istaknuo da su rizici interpretacije funkcionalno slični tragovima skrivenog razmišljanja trenutnih vrhunskih zatvorenih API-ja, a sustavom se upravlja s uspostavljenim zaštitnim ogradama kako bi se halucinacije svele na minimum.

Za poslovne arhitekte koji važu kada primijeniti RL-orkestraciju u odnosu na tradicionalno usmjeravanje, odluka se često svodi na inženjerske resurse. "Vjerujemo da je apsolutna slatka točka kad god korisnici i njihovi timovi osjećaju da troše nesrazmjernu količinu vremena vodeći svoje temeljne agente," rekao je Tang. Međutim, upozorio je da okvir nije potreban za sve, napominjući da "teško je nadmašiti ekonomsku ponudu lokalnog modela koji radi izravno na korisnikovom stroju za jednostavne upite."

Kako raznolikost specijaliziranih AI modela otvorenog i zatvorenog koda nastavlja rasti, statički tvrdo kodirani cjevovodi neizbježno će postati zastarjeli. Gledajući unaprijed, ova će se dinamička orkestracija vjerojatno proširiti izvan okruženja teksta i koda. "Doista postoji veliki potencijal za popunjavanje ove praznine međumodalnim okvirima Conductor koji postaju temelj za autonomnije, samokoordinirajuće fizičke AI sustave," rekao je Tang.

Web izvor

Kako je Sakana uvježbao model 7B da orkestrira GPT-5, Claude Sonnet 4 i Gemini 2.5 Pro

ByTomšić Damjan

Ograničenja ručnih agentskih okvira

Dirigiranje orkestrom agenata

Dirigent na djelu

Uvođenje orkestracije u poduzeće: Sakana Fugu

By Tomšić Damjan

Suizvršni direktor CD Projekt Reda priznaje da je “na neodređeno vrijeme” “izgubio vjeru” nekih obožavatelja nakon Cyberpunk 2077

F1 Japan Grand Prix postolja s 5G SA i mmWave slučajevima upotrebe

Anthropicovo ažuriranje Claude Code Artifacts donosi žive, zajedničke nadzorne ploče i interaktivne radne prostore u poduzeća

You missed

Suizvršni direktor CD Projekt Reda priznaje da je “na neodređeno vrijeme” “izgubio vjeru” nekih obožavatelja nakon Cyberpunk 2077

F1 Japan Grand Prix postolja s 5G SA i mmWave slučajevima upotrebe

Anthropicovo ažuriranje Claude Code Artifacts donosi žive, zajedničke nadzorne ploče i interaktivne radne prostore u poduzeća

Pseudoznanstveno ‘liječenje’ raka uključuje izbjeljivanje golih ljudi u plastičnim vrećicama

Kako je Sakana uvježbao model 7B da orkestrira GPT-5, Claude Sonnet 4 i Gemini 2.5 Pro

ByTomšić Damjan

Ograničenja ručnih agentskih okvira

Dirigiranje orkestrom agenata

Dirigent na djelu

Uvođenje orkestracije u poduzeće: Sakana Fugu

By Tomšić Damjan

Related Post

Suizvršni direktor CD Projekt Reda priznaje da je “na neodređeno vrijeme” “izgubio vjeru” nekih obožavatelja nakon Cyberpunk 2077

F1 Japan Grand Prix postolja s 5G SA i mmWave slučajevima upotrebe

Anthropicovo ažuriranje Claude Code Artifacts donosi žive, zajedničke nadzorne ploče i interaktivne radne prostore u poduzeća

You missed

Suizvršni direktor CD Projekt Reda priznaje da je “na neodređeno vrijeme” “izgubio vjeru” nekih obožavatelja nakon Cyberpunk 2077

F1 Japan Grand Prix postolja s 5G SA i mmWave slučajevima upotrebe

Anthropicovo ažuriranje Claude Code Artifacts donosi žive, zajedničke nadzorne ploče i interaktivne radne prostore u poduzeća

Pseudoznanstveno ‘liječenje’ raka uključuje izbjeljivanje golih ljudi u plastičnim vrećicama