Agenti izgrađeni na temelju današnjih modela često se kvare jednostavnim promjenama — novom knjižnicom, modifikacijom tijeka rada — i zahtijevaju ljudskog inženjera da to popravi. To je jedan od najupornijih izazova u implementaciji AI za poduzeća: stvaranje agenata koji se mogu prilagoditi dinamičnim okruženjima bez stalnog držanja za ruke. Iako su današnji modeli moćni, oni su uglavnom statični.
Kako bi to riješili, istraživači sa Sveučilišta Kalifornija u Santa Barbari razvili su Agenti koji se razvijaju u grupi (GEA), novi okvir koji omogućuje skupinama AI agenata da se razvijaju zajedno, razmjenjuju iskustva i ponovno koriste svoje inovacije za autonomno poboljšanje tijekom vremena.
U eksperimentima na složenim zadacima kodiranja i softverskog inženjeringa, GEA je znatno nadmašio postojeće okvire koji se sami poboljšavaju. Možda najznačajnije za donositelje odluka u poduzećima, sustav je autonomno razvio agente koji su odgovarali ili premašivali performanse okvira koje su mukotrpno dizajnirali ljudski stručnjaci.
Sadržaj objave
Ograničenja evolucije ‘vuka samotnjaka’
Većina postojećih agentski AI sustavi oslanjaju se na fiksne arhitekture koje su dizajnirali inženjeri. Ovi se sustavi često bore da prijeđu granice mogućnosti koje nameće njihov početni dizajn.
Kako bi to riješili, istraživači su dugo pokušavali stvoriti samorazvijajuće agente koji mogu autonomno modificirati vlastiti kod i strukturu kako bi prevladali svoja početna ograničenja. Ova sposobnost je neophodna za rukovanje otvorenim okruženjima u kojima agent mora neprestano istraživati nova rješenja.
Međutim, trenutni pristupi samoevoluciji imaju veliku strukturnu grešku. Kao što istraživači navode u svom radu, većina sustava inspirirana je biološkom evolucijom i dizajnirana je oko nje "individualno-centričan" procesima. Ove metode obično koriste stablo-strukturirani pristup: jedan "roditelj" agent je odabran za proizvodnju potomaka, stvarajući različite evolucijske grane koje ostaju strogo izolirane jedna od druge.
Ova izolacija stvara efekt silosa. Agent u jednoj grani ne može pristupiti podacima, alatima ili tijekovima rada koje je otkrio agent u paralelnoj grani. Ako se određena linija ne uspije odabrati za sljedeću generaciju, svako vrijedno otkriće koje je napravio taj agent, poput novog alata za otklanjanje pogrešaka ili učinkovitijeg tijeka testiranja, nestaje s njim.
U svom radu istraživači dovode u pitanje nužnost pridržavanja ove biološke metafore. "AI agenti nisu biološki pojedinci," oni se svađaju. "Zašto bi njihova evolucija trebala ostati ograničena biološkim paradigmama?"
Kolektivna inteligencija agenata koji se razvijaju u grupi
GEA mijenja paradigmu tretirajući grupu agenata, a ne pojedinca, kao temeljnu jedinicu evolucije.
Proces počinje odabirom grupe nadređenih agenata iz postojeće arhive. Kako bi osigurao zdravu kombinaciju stabilnosti i inovativnosti, GEA odabire ove agente na temelju kombiniranog rezultata izvedbe (kompetentnost u rješavanju zadataka) i novosti (koliko se njihove sposobnosti razlikuju od drugih).
Za razliku od tradicionalnih sustava u kojima agent uči samo od svog izravnog roditelja, GEA stvara zajednički skup kolektivnog iskustva. Ovaj skup sadrži evolucijske tragove svih članova nadređene grupe, uključujući modifikacije koda, uspješna rješenja zadataka i povijest pozivanja alata. Svaki agent u grupi dobiva pristup ovoj kolektivnoj povijesti, što im omogućuje da uče iz otkrića i pogrešaka svojih kolega.
“Modul refleksije”, pokretan velikim jezičnim modelom, analizira ovu kolektivnu povijest kako bi identificirao obrasce na razini cijele grupe. Na primjer, ako jedan agent otkrije visokoučinkoviti alat za otklanjanje pogrešaka dok drugi usavršava tijek rada testiranja, sustav izdvaja oba uvida. Na temelju te analize sustav generira visoku razinu "evolucijske direktive" koji vode stvaranje dječje grupe. To osigurava da sljedeća generacija posjeduje kombinirane snage svih svojih roditelja, a ne samo osobine jedne loze.
Međutim, ovaj pristup uma u košnici najbolje funkcionira kada je uspjeh objektivan, poput zadataka kodiranja. "Za manje determinističke domene (npr. kreativna generacija), signali procjene su slabiji," Zhaotian Weng i Xin Eric Wang, koautori rada, rekli su za VentureBeat u pisanim komentarima. "Slijepo dijeljenje rezultata i iskustava može uvesti iskustva niske kvalitete koja djeluju kao šum. To sugerira potrebu za snažnijim mehanizmima filtriranja iskustva" za subjektivne zadatke.
GEA na djelu
Istraživači su testirali GEA u odnosu na trenutnu najsuvremeniju samorazvijajuću osnovnu liniju, the Stroj Darwin Godel (DGM), na dva rigorozna mjerila. Rezultati su pokazali veliki skok u sposobnostima bez povećanja broja korištenih sredstava.
Ovaj kolaborativni pristup također čini sustav otpornijim na kvarove. U svojim eksperimentima, istraživači su namjerno pokvarili agente ručnim ubacivanjem grešaka u njihove implementacije. GEA je uspjela popraviti ove kritične greške u prosjeku od 1,4 iteracije, dok je za osnovnu liniju bilo potrebno 5 iteracija. Sustav učinkovito iskorištava "zdrav" članovima grupe za dijagnosticiranje i zakrpanje kompromitiranih.
Na SWE-bench Verified, mjerilu koje se sastoji od stvarnih GitHub problema uključujući bugove i zahtjeve za značajkama, GEA je postigla stopu uspješnosti od 71,0%, u usporedbi s početnih 56,7%. To znači značajno povećanje propusnosti autonomnog inženjeringa, što znači da su agenti daleko sposobniji nositi se s održavanjem softvera u stvarnom svijetu. Slično tome, na Polyglotu, koji testira generiranje koda na različitim programskim jezicima, GEA je postigao 88,3% u odnosu na osnovnih 68,3%, što ukazuje na visoku prilagodljivost različitim tehnološkim skupovima.
Za timove za istraživanje i razvoj u poduzećima, najkritičnije otkriće je da GEA omogućuje umjetnoj inteligenciji da se dizajnira jednako učinkovito kao i ljudski inženjeri. Na SWE-bench-u, GEA-ina stopa uspješnosti od 71,0% učinkovito odgovara performansama Otvorene rukevrhunski okvir otvorenog koda koji su dizajnirali ljudi. Na Polyglotu, GEA je znatno nadmašio Aidera, popularnog pomoćnika kodiranja, koji je postigao 52,0%. Ovo sugerira da bi organizacije mogle na kraju smanjiti svoje oslanjanje na velike timove brzih inženjera za podešavanje okvira agenata, budući da agenti mogu samostalno metanaučiti te optimizacije.
Ova se učinkovitost proteže i na upravljanje troškovima. "GEA je eksplicitno dvostupanjski sustav: (1) evolucija agenta, zatim (2) zaključivanje/uvođenje," rekli su istraživači. "Nakon evolucije, implementirate jednog razvijenog agenta… tako da je trošak zaključivanja poduzeća u biti nepromijenjen u odnosu na standardnu postavku s jednim agentom."
Uspjeh GEA-e uvelike proizlazi iz njegove sposobnosti da konsolidira poboljšanja. Istraživači su pratili specifične inovacije koje su izumili agenti tijekom evolucijskog procesa. U osnovnom pristupu, vrijedni alati često su se pojavljivali u izoliranim granama, ali se nisu uspjeli širiti jer su te specifične loze završile. U GEA-i, model zajedničkog iskustva osigurao je da te alate prihvate agenti s najboljim učinkom. Najbolji agent GEA integrirao je osobine 17 jedinstvenih predaka (što predstavlja 28% populacije), dok je najbolji agent integrirao svojstva samo 9. GEA zapravo stvara "super-zaposlenik" koji posjeduje kombinirane najbolje prakse cijele grupe.
"Tijek rada inspiriran GEA-om u proizvodnji omogućio bi agentima da prvo pokušaju nekoliko neovisnih popravaka kada dođe do kvarova," objasnili su istraživači u vezi ove sposobnosti samoizlječenja. "Agent za refleksiju (obično pokretan snažnim temeljnim modelom) zatim može sažeti rezultate… i voditi sveobuhvatnije ažuriranje sustava."
Nadalje, poboljšanja koja je otkrio GEA nisu povezana s određenim temeljnim modelom. Agenti koji su evoluirali korištenjem jednog modela, kao što je Claude, zadržali su svoje poboljšane performanse čak i kada je temeljni motor zamijenjen drugom obitelji modela, kao što je GPT-5.1 ili GPT-o3-mini. Ova mogućnost prijenosa nudi poduzećima fleksibilnost za promjenu pružatelja modela bez gubitka prilagođenih arhitektonskih optimizacija koje su njihovi agenti naučili.
Za industrije sa strogim zahtjevima sukladnosti, ideja o samomodificirajućem kodu mogla bi zvučati riskantno. Kako bi to riješili, autori su rekli: "Očekujemo da će implementacije u poduzećima uključivati zaštitne ograde koje se ne mogu razvijati, kao što je izvođenje u sandboxu, ograničenja politike i slojevi verifikacije."
Iako istraživači planiraju uskoro objaviti službeni kod, programeri već mogu početi konceptualno implementirati GEA arhitekturu povrh postojećih agentskih okvira. Sustav zahtijeva tri ključna dodatka standardnom skupu agenata: “arhivu iskustva” za pohranjivanje evolucijskih tragova, “modul refleksije” za analizu grupnih obrazaca i “modul za ažuriranje” koji agentu omogućuje modificiranje vlastitog koda na temelju tih uvida.
Gledajući unaprijed, okvir bi mogao demokratizirati razvoj naprednih agenata. "Jedan obećavajući smjer su hibridni razvojni cjevovodi," istraživači su rekli, "gdje manji modeli rano istražuju kako bi akumulirali različita iskustva, a jači modeli kasnije vode evoluciju koristeći ta iskustva."



