“Više agenata” nije pouzdan put do boljih sustava umjetne inteligencije u poduzećima, pokazuju istraživanja

Istraživači s Googlea i MIT-a proveli su a sveobuhvatna analiza agentskih sustava i dinamike između broja agenata, koordinacijske strukture, sposobnosti modela i svojstava zadatka. Dok je prevladavajući osjećaj u industriji bio "više agenata je sve što trebate," istraživanje sugerira da skaliranje timova agenata nije zajamčeni put do boljih performansi.

Na temelju svojih otkrića, istraživači su definirali kvantitativni model koji može predvidjeti izvedbu agentskog sustava na nevidljivom zadatku. Njihov rad otkriva da dodavanje više agenata i alata djeluje kao mač s dvije oštrice: iako može otključati izvedbu na određenim problemima, često uvodi nepotrebne režijske troškove i smanjuje povrat na druge.

Ovi nalazi nude kritičnu mapu puta za programere i donositelje odluka u poduzećima koji pokušavaju odrediti kada primijeniti složene višeagentne arhitekture naspram jednostavnijih, isplativijih rješenja s jednim agentom.

Sadržaj objave

1 Stanje agentskih sustava
2 Testiranje granica suradnje
3 Djelotvorni uvidi za implementaciju poduzeća
4 Gledajući unaprijed: Probijanje ograničenja propusnosti

Stanje agentskih sustava

Da bismo razumjeli implikacije studije, potrebno je razlikovati dvije primarne arhitekture koje se danas koriste. Sustavi s jednim agentom (SAS) imaju usamljeno mjesto razmišljanja. U ovoj postavci, sva percepcija, planiranje i djelovanje odvijaju se unutar jedne sekvencijalne petlje koju kontrolira jedna instanca LLM-a, čak i kada sustav koristi alate, samorefleksiju ili razmišljanje lancem misli (CoT). Nasuprot tome, sustav s više agenata (MAS) sastoji se od više agenata podržanih od LLM-a koji komuniciraju putem strukturiranog slanja poruka, zajedničke memorije ili orkestriranih protokola.

Sektor poduzeća je vidio a porast interesa u vezi s MAS-omvođen premisom da specijalizirana suradnja može dosljedno nadmašiti sustave s jednim agentom. Kako zadaci postaju sve složeniji i zahtijevaju stalnu interakciju s okruženjima (npr. pomoćnicima kodiranja ili robotima za financijsku analizu), programeri često pretpostavljaju da je podjela posla između "specijalista" agenti su superiorniji pristup.

Međutim, istraživači tvrde da unatoč ovom brzom usvajanju, ne postoji načelni kvantitativni okvir za predviđanje kada dodavanje agenasa pojačava učinak, a kada ga narušava.

Ključni doprinos rada je razlika između "statički" i "agentski" zadaci. Istraživači su primijenili an "Agentic Benchmark kontrolni popis" razlikovati zadatke koji zahtijevaju trajnu interakciju u više koraka, iterativno prikupljanje informacija i usavršavanje adaptivne strategije od onih koji to ne zahtijevaju. Ova je razlika vitalna jer strategije koje rade za statičko rješavanje problema (poput glasanja u kvizu o kodiranju) često ne uspijevaju kada se primjenjuju na stvarne agentske zadatke gdje "dodatni troškovi koordinacije” i “propagacija pogreške” mogu se proširiti kroz proces rješavanja problema.

Testiranje granica suradnje

Kako bi izolirali specifične učinke arhitekture sustava, istraživači su dizajnirali rigorozan eksperimentalni okvir. Testirali su 180 jedinstvenih konfiguracija koje uključuju pet različitih arhitektura, tri LLM obitelji (OpenAI, Google i Anthropic) i četiri agentska mjerila. Arhitekture su uključivale kontrolnu skupinu s jednim agentom i četiri varijante s više agenata: neovisnu (paralelni agenti bez komunikacije), centraliziranu (agenti podnose izvještaje orkestratoru), decentraliziranu (peer-to-peer debatu) i hibridnu (mješavina hijerarhije i peer komunikacije).

Studija je osmišljena da eliminira "implementacija zbunjuje" standardiziranjem alata, brzih struktura i proračuna tokena. Ovo je osiguralo da se dobitak može pripisati strukturi koordinacije, a ne pristupu boljim alatima ili većem broju računala, ako sustav s više agenata nadmaši jednog agenta.

Rezultati izazivaju "više je bolje" pripovijesti. Evaluacija otkriva da se učinkovitost višeagentnih sustava upravlja prema "mjerljivi kompromisi između arhitektonskih svojstava i karakteristika zadatka." Istraživači su identificirali tri dominantna obrasca koji pokreću ove rezultate:

Kompromis koordinacije alata: Pod fiksnim računalnim proračunima, višeagentni sustavi pate od fragmentacije konteksta. Kada se računalni proračun podijeli na više agenata, svaki agent nema dovoljno kapaciteta za orkestraciju alata u usporedbi s jednim agentom koji održava jedinstveni tok memorije.

Posljedično, u okruženjima s više od 10 alata, učinkovitost multi-agentskih sustava naglo opada. Istraživač je otkrio da zadaci koji zahtijevaju mnogo alata trpe 2-6 puta manju učinkovitost kada se koriste sustavi s više agenata u usporedbi s pojedinačnim agentima. Jednostavnije arhitekture paradoksalno postaju učinkovitije jer izbjegavaju dodatne troškove koordinacije koji se kombiniraju sa složenošću okoliša.

Zasićenost sposobnosti: Podaci su uspostavili empirijski prag od približno 45% točnosti za performanse jednog agenta. Jednom kada osnovna vrijednost jednog agenta prijeđe ovu razinu, dodavanje više agenata obično daje smanjene ili negativne povrate.

Međutim, koautor Xin Liu, istraživač u Googleu i koautor rada, primijetio je ključnu nijansu za poslovne korisnike. "Poduzeća bi trebala ulagati u oboje [single- and multi-agent systems]”, rekao je za VentureBeat. “Bolji osnovni modeli podižu osnovnu liniju, ali za zadatke s prirodnom raščlanjivošću i potencijalom paralelizacije (kao što je naša referentna vrijednost financijskog agenta s +80,9% poboljšanja), koordinacija više agenata nastavlja pružati značajnu vrijednost bez obzira na sposobnost modela."

Greška ovisna o topologiji: Struktura agentskog tima određuje hoće li se pogreške ispravljati ili umnožavati. U "nezavisna" sustavima u kojima agenti rade paralelno bez komunikacije, pogreške su povećane 17,2 puta u usporedbi s osnovnim stanjem s jednim agentom. Nasuprot tome, centralizirane arhitekture sadržavale su ovo pojačanje do 4,4 puta.

"Ključna razlika je namjensko usko grlo za provjeru valjanosti koje presreće pogreške prije nego što se prošire do konačnog izlaza," rekao je glavni autor Yubin Kim, doktorant na MIT-u. "Za logičke kontradikcije, ‘centralizirano’ smanjuje osnovnu stopu… [by] 36,4% … Za pogreške izostavljanja konteksta, ‘centralizirano’ smanjuje … [by] 66,8 posto."

Djelotvorni uvidi za implementaciju poduzeća

Za programere i voditelje poduzeća, ovi nalazi nude posebne smjernice za izgradnju učinkovitijih AI sustava.

The "sekvencijalnost" pravilo: Prije izgradnje tima agenata, analizirajte strukturu ovisnosti vašeg zadatka. Najjači prediktor neuspjeha više agenata su striktno sekvencijalni zadaci. Ako se korak B u potpunosti oslanja na savršeno izvršenje koraka A, sustav s jednim agentom vjerojatno je bolji izbor. U ovim scenarijima, pogreške se slijevaju, a ne poništavaju. Nasuprot tome, ako je zadatak paralelan ili rastavljiv (npr. analiza tri različita financijska izvješća istovremeno), sustavi s više agenata nude ogromne dobitke.
Ne popravljaj ono što nije pokvareno: Poduzeća bi se uvijek trebala prvo mjeriti s jednim agentom. Ako sustav s jednim agentom postigne stopu uspješnosti veću od 45% na određenom zadatku koji se ne može lako raščlaniti, dodavanje više agenata vjerojatno će pogoršati performanse i povećati troškove bez isporuke vrijednosti.
Prebrojite svoje API-je: Budite iznimno oprezni pri primjeni sustava s više agenata na zadatke koji zahtijevaju mnogo različitih alata. Podjela proračuna tokena među više agenata fragmentira njihovu memoriju i kontekst. "Za integracije s više od otprilike 10 alata, sustavi s jednim agentom vjerojatno su poželjniji," Kim je rekla, ističući da je studija promatrala a "2 do 6x kazna učinkovitosti" za varijante s više agenata u ovim scenarijima.
Uskladi topologiju s ciljem: Ako je neophodan sustav s više agenata, topologija mora odgovarati specifičnom cilju. Za zadatke koji zahtijevaju visoku točnost i preciznost, kao što su financije ili kodiranje, centralizirana koordinacija je bolja jer orkestrator osigurava potreban sloj provjere. Za zadatke koji zahtijevaju istraživanje, kao što je dinamičko pregledavanje weba, decentralizirana koordinacija se ističe dopuštajući agentima da istražuju različite putove istovremeno.
The "Pravilo 4": Iako bi moglo biti primamljivo izgraditi masivne rojeve, studija je otkrila da su efektivne veličine tima trenutno ograničene na otprilike tri ili četiri agenta. "Ograničenje od tri do četiri agenta koje identificiramo proizlazi iz mjerljivih ograničenja resursa," rekla je Kim. Osim toga, troškovi komunikacije rastu super-linearno (točnije, s eksponentom od 1,724), što znači da trošak koordinacije brzo nadmašuje vrijednost dodanog razmišljanja.

Gledajući unaprijed: Probijanje ograničenja propusnosti

Iako trenutne arhitekture dostižu gornju granicu u malim timovima, to je vjerojatno ograničenje trenutnih protokola, a ne temeljno ograničenje umjetne inteligencije. Učinkovito ograničenje sustava s više agenata proizlazi iz činjenice da agenti trenutno komuniciraju na gust način koji zahtijeva velike resurse.

“Vjerujemo da je ovo trenutno ograničenje, a ne trajna gornja granica”, rekao je Kim, ukazujući na nekoliko ključnih inovacija koje mogu otključati potencijal velike suradnje agenata:

Rijetki komunikacijski protokoli: “Naši podaci pokazuju da gustoća poruka postaje zasićena na približno 0,39 poruka po potezu, nakon čega dodatne poruke dodaju redundanciju, a ne nove informacije. Pametnije usmjeravanje moglo bi smanjiti troškove”, rekao je.

Hijerarhijska dekompozicija: Umjesto ravnih rojeva od 100 agenata, ugniježđene koordinacijske strukture mogle bi podijeliti komunikacijski graf.

Asinkrona koordinacija: “Naši eksperimenti koristili su sinkrone protokole, a asinkroni dizajni mogu smanjiti troškove blokiranja”, rekao je.

Usmjeravanje s obzirom na mogućnosti: “Naši eksperimenti heterogenosti sugeriraju da strateško miješanje mogućnosti modela može poboljšati učinkovitost”, rekao je Kim

Ovo je nešto čemu se treba radovati 2026. Do tada, za poslovne arhitekte podaci su jasni: manji, pametniji i strukturiraniji timovi pobjeđuju.

Web izvor

“Više agenata” nije pouzdan put do boljih sustava umjetne inteligencije u poduzećima, pokazuju istraživanja

ByTomšić Damjan

Stanje agentskih sustava

Testiranje granica suradnje

Djelotvorni uvidi za implementaciju poduzeća

Gledajući unaprijed: Probijanje ograničenja propusnosti

By Tomšić Damjan

Pronašao sam 4 Bluetooth naprava koja su vrlo funkcionalna – i jeftina

Ništa s originalnog telefona nije gotovo s primanjem ažuriranja

Ono što smo igrali – “Kao rezultat toga, izgubio sam svu svoju najbolju odjeću i svoj Switch 2”

You missed

Pronašao sam 4 Bluetooth naprava koja su vrlo funkcionalna – i jeftina

Ništa s originalnog telefona nije gotovo s primanjem ažuriranja

Ono što smo igrali – “Kao rezultat toga, izgubio sam svu svoju najbolju odjeću i svoj Switch 2”

AI će revolucionirati industrijski internet na tržištima nafte i plina

“Više agenata” nije pouzdan put do boljih sustava umjetne inteligencije u poduzećima, pokazuju istraživanja

ByTomšić Damjan

Stanje agentskih sustava

Testiranje granica suradnje

Djelotvorni uvidi za implementaciju poduzeća

Gledajući unaprijed: Probijanje ograničenja propusnosti

By Tomšić Damjan

Related Post

Pronašao sam 4 Bluetooth naprava koja su vrlo funkcionalna – i jeftina

Ništa s originalnog telefona nije gotovo s primanjem ažuriranja

Ono što smo igrali – “Kao rezultat toga, izgubio sam svu svoju najbolju odjeću i svoj Switch 2”

You missed

Pronašao sam 4 Bluetooth naprava koja su vrlo funkcionalna – i jeftina

Ništa s originalnog telefona nije gotovo s primanjem ažuriranja

Ono što smo igrali – “Kao rezultat toga, izgubio sam svu svoju najbolju odjeću i svoj Switch 2”

AI će revolucionirati industrijski internet na tržištima nafte i plina