Želite pametnije uvide u vašu pristiglu poštu? Prijavite se za naše tjedne biltene kako biste dobili samo ono što je važno za vođe AI, podataka i sigurnosti. Pretplatite se sada
Nova tehnika iz Sveučilište Zhejiang i Grupa alibaba Omogućuje agensu velikog jezičnog modela (LLM) dinamičnu memoriju, što ih čini učinkovitijim i učinkovitijim u složenim zadacima. Tehnika, nazvana Zategnutipruža agentima “proceduralnu memoriju” koja se kontinuirano ažurira dok stječu iskustvo, slično kako ljudi uče iz prakse.
Memp stvara okvir za cjeloživotno učenje u kojem agenti ne moraju početi ispočetka za svaki novi zadatak. Umjesto toga, oni postaju progresivno bolji i učinkovitiji jer nailaze na nove situacije u stvarnom okruženju, što je ključni zahtjev za pouzdanu automatizaciju poduzeća.
Sadržaj objave
Slučaj proceduralne memorije kod agenata AI
Agenti LLM-a obećavaju automatizaciju složenih, više koračnih poslovnih procesa. U praksi, međutim, ovi dugotrajni zadaci mogu biti krhki. Istraživači ističu da nepredvidivi događaji poput mrežnih propusta, promjena korisničkog sučelja ili premještanja shema podataka mogu uništiti cijeli postupak. Za trenutne agense to često znači početak svaki put, što može biti dugotrajno i skupo.
U međuvremenu, mnogi složeni zadaci, usprkos površinskim razlikama, dijele duboke strukturne zajednice. Umjesto da se svaki put ponovi ove obrasce, agent bi trebao biti u stanju izvući i ponovo upotrijebiti svoje iskustvo iz prošlih uspjeha i neuspjeha, ističu istraživači. To zahtijeva određenu “proceduralnu memoriju”, koja je kod ljudi dugoročna memorija odgovorna za vještine poput tipkanja ili vožnje bicikla, koje postaju automatsko s praksom.
AI skaliranje pogađa svoje granice
Power ograničenja, rastući troškovi tokena i kašnjenja zaključivanja preoblikovaju Enterprise AI. Pridružite se našem ekskluzivnom salonu kako biste otkrili kako su vrhunski timovi:
- Pretvaranje energije u stratešku prednost
- Arhitekturiste učinkovite zaključke za stvarne propusne dobitke
- Otključavanje natjecateljskog ROI -a s održivim AI sustavima
Osigurajte svoje mjesto da ostanete naprijed:: https://bit.ly/4mwgngo
Trenutnim sustavima agensa često nedostaje ta sposobnost. Njihovo proceduralno znanje obično izrađuju programeri, pohranjeni u krutim brzim predlošcima ili ugrađeni u parametre modela, koji su skup i spori za ažuriranje. Čak i postojeći okviri koji su usmjereni na memoriju pružaju samo grube apstrakcije i ne odgovaraju na odgovarajući način kako se vještine trebaju graditi, indeksirati, ispraviti i na kraju obrezati tijekom životnog ciklusa agenta.
Slijedom toga, istraživači primjećuju u Njihov rad“Ne postoji principijelan način kvantificiranja koliko učinkovito agent razvija svoj proceduralni repertoar ili zajamčiti da se nova iskustva poboljšavaju, a ne erodiraju performanse.”
Kako Memp funkcionira
MEMP je okvir agnostički zadatak koji proceduralnu memoriju tretira kao temeljnu komponentu koja se optimizira. Sastoji se od tri ključne faze koje djeluju u kontinuiranoj petlji: izgradnja, dohvaćanje i ažuriranje memorije.
Sjećanja su izgrađena iz prošlih iskustava agenta ili “putanja”. Istraživači su istraživali pohranu ovih sjećanja u dva formata: doslovno, korak po korak; ili destiliranje ovih radnji u višu razinu apstrakcije poput skripte. Za pretraživanje, agent pretražuje svoje pamćenje za najrelevantnije prošlo iskustvo kada je dobio novi zadatak. Tim je eksperimentirao s različitim metodama, takvim pretraživanjem vektora, kako bi uskladio opis novog zadatka s prošlim upitima ili izvlačenjem ključnih riječi kako bi pronašao najbolje odgovarajuće.
Najkritičnija komponenta je mehanizam za ažuriranje. MEMP uvodi nekoliko strategija kako bi se osiguralo da se memorija agenta razvija. Kako agent dovršava više zadataka, njegova memorija se može ažurirati jednostavnim dodavanjem novog iskustva, filtriranjem samo uspješnih ishoda ili, najučinkovitije, odražavajući se na neuspjehe za ispravljanje i reviziju izvorne memorije.
Ovaj fokus na dinamičnoj, evoluirajućoj memoriji postavlja Memp u rastućem području istraživanja s ciljem da AI agenti budu pouzdaniji za dugoročne zadatke. Rad paralelno s drugim naporima, poput MEM0, koji objedinjuje ključne informacije iz dugih razgovora u strukturirane činjenice i grafikone znanja kako bi se osigurala dosljednost. Slično tome, A-MEM omogućuje agentima da autonomno stvaraju i povezuju “memorijske bilješke” iz svojih interakcija, formirajući složenu strukturu znanja tijekom vremena.
Međutim, koautor Runnan Fang naglašava kritičku razliku između Memp i drugih okvira.
„MEM0 i A-Mem su izvrsna djela … ali usredotočeni su na pamćenje vidljivog sadržaja unutar Jedna putanja ili razgovor, “Fang je komentirao VentureBeat. U osnovi, oni pomažu agentima da se sjeti” što se dogodilo “.” Memp, nasuprot tome, cilja na proceduralnu memoriju cross-trajektora. ” Usredotočuje se na znanje o „načinu rada“ koje se može generalizirati u sličnim zadacima, sprečavajući da se agent svaki put ponovi od nule.
“Destilacijom prošlih uspješnih tijekova rada u proceduralne priore za višekratnu upotrebu, MEMP povećava stope uspjeha i skraćuje korake”, dodao je Fang. “Ono što je presudno, također uvodimo mehanizam za ažuriranje tako da se ova proceduralna memorija neprestano poboljšava – na kraju krajeva, praksa je savršena i za agente.”
Prevladavanje problema ‘hladnog starta’
Iako je koncept učenja iz prošlih putanja moćan, postavlja praktično pitanje: Kako agent gradi svoje početno pamćenje kada nema savršenih primjera za učenje? Istraživači se bave ovim “hladnim pokretanjem” problemom pragmatičnim pristupom.
Fang je objasnio da Devs mogu prvo definirati snažnu metriku za procjenu, umjesto da zahtijeva savršenu “zlatnu” putanju unaprijed. Ova metrika, koja se može temeljiti na pravilima ili čak i drugi LLM, postiže kvalitetu performansi agenta. “Jednom kada je ta metrika uspostavljena, puštamo vrhunski modeli da istražuju u tijeku rada i zadržavaju putanja koje postižu najviše rezultate”, rekao je Fang. Ovaj postupak brzo pokreće početni skup korisnih sjećanja, omogućujući novom agentu da se ubrza bez opsežnog ručnog programiranja.
Memp u akciji
Da bi testirao okvir, tim je implementirao Memp na vrhu moćnih LLM-ova poput GPT-4O, CLAUDE 3.5 Sonnet i QWEN2.5, ocjenjujući ih na složenim zadacima poput kućanskih poslova u ALFWorld Benchmarku i traženja informacija u TravelPlanneru. Rezultati su pokazali da je izgradnja i preuzimanje proceduralne memorije omogućilo da agentu učinkovito destilira i ponovno koristi svoje prethodno iskustvo.
Tijekom testiranja, agenti opremljeni Memp -om nisu samo postigli veće stope uspjeha, već su postali i mnogo učinkovitiji. Eliminirali su besplodno istraživanje i pokušaj i pogreške, što je dovelo do značajnog smanjenja i broja koraka i potrošnje tokena potrebnih za ispunjavanje zadatka.
Jedan od najznačajnijih nalaza za poslovne aplikacije je da se proceduralna memorija prenosi. U jednom eksperimentu, proceduralna memorija koju je generirao moćni GPT-4O dodijeljen je mnogo manjem modelu, QWEN2.5-14B. Manji model zabilježio je značajno poticaj performansi, poboljšavajući stopu uspjeha i smanjujući korake potrebne za ispunjavanje zadataka.
Prema Fang-u, ovo djeluje zato što manji modeli često dobro obrađuju jednostavne, jednostepene akcije, ali se propadaju kada je u pitanju planiranje i rasuđivanje dugog horizona. Proceduralna memorija iz većeg modela učinkovito ispunjava ovaj jaz u mogućnosti. Ovo sugerira da se znanje može steći pomoću najsuvremenijeg modela, a zatim implementirati na manje, ekonomičnije modele bez gubitka prednosti tog iskustva.
Prema doista autonomnim agentima
Opremanjem agensa mehanizmima memorijske mehanizme, okvir Memp omogućava im da kontinuirano grade i pročišćavaju svoje proceduralno znanje dok rade u živom okruženju. Istraživači su to otkrili agenta “neprestanim, gotovo linearnim majstorstvom zadatka”.
Međutim, put do potpune autonomije zahtijeva prevladavanje još jedne prepreke: mnogim stvarnim zadacima, poput izrade izvješća o istraživanju, nedostaje jednostavan signal uspjeha. Da bi se kontinuirano poboljšao, agent mora znati je li to dobro obavio. Fang kaže da budućnost leži u korištenju samog LLMS -a kao sudaca.
“Danas često kombiniramo moćne modele s ručno izrađenim pravilima za izračunavanje rezultata završetka”, napominje. “To djeluje, ali ručno napisana pravila su krhka i teško je generalizirati.”
LLM-as sucds mogao bi pružiti nijansirane, nadzorne povratne informacije potrebne da se agent samokori o složenim, subjektivnim zadacima. To bi cijelu petlju za učenje učinilo skalabilnijom i robusnijom, što bi označilo kritični korak prema izgradnji otpornih, prilagodljivih i uistinu autonomnih AI radnika potrebnih za sofisticiranu automatizaciju poduzeća.
Web izvor