Omogućavanje LLM-ima da steknu nova znanja nakon obuke i dalje je glavna prepreka za AI u poduzećima — trenutna rješenja su ili preskupa, prespora ili ograničena ograničenjima prozora konteksta.
MeMookvir istraživača s više sveučilišta, kodira novo znanje u namjenski manji memorijski model koji radi odvojeno od glavnog LLM-a.
Modularna arhitektura radi s modelima otvorenog i zatvorenog koda i zaobilazi složenost RAG cjevovoda i pune ponovne obuke modela.
Eksperimenti pokazuju da MeMo pouzdano obrađuje složene upite čak i kada su cjevovodi za dohvaćanje bučni. Izbjegava katastrofalno zaboravljanje povezano s izravnim finim podešavanjem i pruža troškovno učinkovit put za kontinuirano ažuriranje znanja.
Sadržaj objave
Izazov ažuriranja LLM memorije
Veliki jezični modeli se zamrzavaju nakon obuke i njihovo interno znanje ostaje statično sve dok ne prođu naknadna, računalno masivna ažuriranja.
Trenutno se programeri oslanjaju na tri glavna pristupa za integraciju vanjskog znanja u LLM, od kojih svaki ima različite nedostatke:
Neparametarske metodekao što je generiranje proširenog dohvaćanja (RAG) i učenje u kontekstudohvatite relevantne dokumente iz vanjske baze podataka i umetnite ih izravno u odzivnik modela. Iako su popularne, ove su metode ograničene veličinama kontekstnog prozora.
Kao što je Armando Solar-Lezama, koautor rada, rekao za VentureBeat, “Vektorske baze podataka imaju suštinski težak posao kodiranja pune semantike dijela teksta u jednom vektoru, a zatim povezivanja tog vektora s upitom, čak i kada je relevantnost dijela… možda očita samo u kontekstu drugih dijelova.”
Istraživači primjećuju da semantička sličnost ugrađivanja često ne odgovara onome što korisnikov upit zapravo zahtijeva. Obrada tisuća dohvaćenih tokena također stvara značajne računalne troškove i kašnjenje zaključivanja. Što je najveći problem, RAG sustavi su vrlo osjetljivi na buku. Nevažni ili loše pronađeni odlomci često degradiraju konačni odgovor modela.
Parametarske metodepoput kontinuirane predosposobljavanja ili nadziranog finog podešavanja, pokušavaju internalizirati novo znanje izravno u težine LLM-a. Ažuriranje modernih, masivnih LLM-ova pretjerano je skupo i obično nemoguće za vlasničke modele zatvorenog koda skrivene iza API-ja. Fino ugađanje također je sklono uzrokovati katastrofalni zaborav. Prisiljavanje modela da se prilagodi novim korporativnim podacima često nagriza njegove prethodno stečene sposobnosti razmišljanja i sigurnosne ograde.
Metode latentnog pamćenjakao što je kompresija konteksta, nude sredinu. Sažimaju znanje u kompaktno "meki znakovi" ili reprezentacije koje se dodaju kontekstu modela tijekom zaključivanja. Kobna mana ovdje je "reprezentacija spojnica." Komprimirana memorija je strogo vezana uz arhitekturu modela koja ju je proizvela; ne možete prenijeti latentnu memoriju obučenu na modelu otvorenog koda u model zatvorenog koda.
Kako MeMo radi
Okvir MeMo (Memory as a Model) predstavlja modularnu arhitekturu koja sadrži dvije odvojene komponente. Model MEMORY je mali jezični model posebno obučen za kodiranje novog znanja u svoje parametre. Model EXECUTIVE zamrznuti je, gotov LLM koji funkcionira kao pokretač rasuđivanja. Kada korisnik postavi pitanje, EXECUTIVE model tretira MEMORY model kao vanjsko proročište, izdajući ciljane podupite za prikupljanje činjenica i sintetizirajući te činjenice u konačni odgovor.
Temeljno načelo dizajna koje pokreće MeMo je koncept "refleksije." Refleksije su ciljani parovi pitanje-odgovor (QA) dizajnirani da zahvate svaki mogući kut korpusa znanja. Umjesto da tjera umjetnu inteligenciju da obradi masivni, nestrukturirani korpus dokumenata tijekom obuke, MeMo koristi model GENERATOR za destilaciju neobrađenog teksta u tisuće ciljanih QA parova. Model MEMORY se zatim fino podešava na ovom skupu podataka kako bi odgovorio na pitanja koristeći samo svoje parametarsko znanje bez potrebe za čitanjem dohvaćenog konteksta.
U trenutku zaključivanja, interakcija između dva modela slijedi strukturirani protokol u tri faze:
1. EXECUTIVE model rastavlja složeni upit korisnika u skup atomskih potpitanja. Model MEMORY odgovara svakom zasebno kako bi utvrdio osnovne činjenice.
2. Koristeći te početne natuknice, EXECUTIVE model izdaje naknadne upite kako bi suzio izbor entiteta kandidata sve dok pouzdano ne konvergira prema određenom cilju.
3. Konačno, IZVRŠNI model postavlja upit modelu MEMORY za potkrijepljenje činjenica o tom ciljnom entitetu i sintetizira dohvaćene isječke u kohezivni odgovor.
Ova arhitektura spaja prednosti tri postojeće paradigme AI memorije dok zaobilazi njihove zamke. Iskorištava gotove granične modele držeći pohranu memorije odvojenom od razmišljanja, jamčeći kompatibilnost s otvorenim i zatvorenim API modelima. Internalizira znanje izravno u parametre, ali izolira ažuriranja na manji, namjenski model MEMORIJE kako bi zaštitio mehanizam za zaključivanje. Konačno, stvara memorijski artefakt za upit koji nije vezan ni za jedan specifični model i može se koristiti s različitim LLM obiteljima.
Rukovanje stalnim ažuriranjem znanja
Upravljanje memorijom umjetne inteligencije zahtijeva stalna ažuriranja kako se politike tvrtke mijenjaju i objavljuju nova izvješća. Uobičajeno, ažuriranje parametara modela zahtijeva njegovo ponovno uvježbavanje od nule na kombinaciji starih i novih podataka. Kako baza znanja raste, ovim kumulativnim troškom prekvalifikacije postaje nemoguće upravljati.
Za učinkovito rukovanje stalnim ažuriranjima, MeMo se oslanja na tehniku tzv "spajanje modela." Umjesto velike zajedničke faze ponovne obuke, MeMo trenira novi, neovisni model MEMORY isključivo na novododanim dokumentima. Sustav izvodi a "vektor zadatka" predstavljaju promjene parametara naučene iz svježih podataka. Ta se ažuriranja zatim matematički spajaju u težine originalnog MEMORY modela.
Ovaj pristup smanjuje računalne sate potrebne za održavanje sustava ažurnim, a istovremeno izbjegava smetnje koje uzrokuju katastrofalno zaboravljanje.
Ova učinkovitost dolazi s kompromisom: spajanje modela uzrokuje pad točnosti od 11% do 19% u usporedbi s potpunom ponovnom obukom, ovisno o korištenom modelu rezoniranja.
MeMo u akciji
Kako bi izmjerio učinkovitost u stvarnom svijetu, istraživački tim je procijenio MeMo u odnosu na nekoliko industrijskih mjerila koja zahtijevaju složeno razmišljanje s više skokova u više dokumenata.
Istraživači su koristili Qwen2.5-32B-Instruct kao GENERATOR model za destilaciju sirovog teksta u refleksije. Za primarni model MEMORY, postavili su Qwen2.5-14B-Instruct. Također su potvrdili pristup na manjim modelima parametara 1-2B u različitim arhitekturama, uključujući Gemma3-1B.
Za model razmišljanja EXECUTIVE testirali su Qwen2.5-32B otvorene težine i Googleov vlasnički Gemini 3 Flash.
Usporedili su MeMo s a "Savršeno vraćanje" gornja granica (gdje se točni ispravni dokumenti daju ručno) i nekoliko naprednih sustava za pretraživanje, uključujući tradicionalno BM25 pretraživanje, gusto vektorsko pretraživanje i najsuvremeniji RAG temeljen na grafovima (HippoRAG2). Također su testirali "patrone," nedavna metoda koja učitava a obučeni KV-cache na model tijekom zaključivanja.
MeMo je dominirao u obrazloženju dugog dokumenta. Na NarrativeQA benchmarku, MeMo je postigao 53,58% točnosti u kombinaciji s Gemini 3 Flashom, prema istraživačima. HippoRAG2 je dostigao maksimum od 23,21%.
Poslovni sustavi često trebaju sintetizirati složene odgovore, kao što je prolaženje preklapajućih regulatornih okvira koje su neovisno napisala različita tijela ili konsolidiranje uvida kroz ogromnu bazu kodova i vanjsku dokumentaciju. Tradicionalni RAG sustavi ovdje posustaju jer pogađaju ograničenja prozora konteksta i ne uspijevaju povezati koncepte koji obuhvaćaju stotine stranica. MeMo uspijeva jer se te veze mapiraju i internaliziraju unutar modela MEMORY tijekom treninga. jeste "poput posjedovanja vlastitog Malcolma Gladwella koji može povezati priču o Beatlesima s pričom o Billu Gatesu kako bi iznio argument o prirodi stručnosti," rekao je Solar-Lezama.
Eksperimenti su otkrili još jednu veliku prednost: nadogradnja mehanizma za zaključivanje ne zahtijeva ponovnu obuku. Jednostavno prebacivanje modela EXECUTIVE s otvorenog koda Qwen na vlasnički Gemini 3 Flash povećalo je izvedbu MeMo-a za 26,73% na NarrativeQA i 11,90% na mjerilu MuSiQue. Za praktičare to znači da možete sigurno trenirati MEMORY model na svojim privatnim podacima i trenutno ga uključiti u najnovije komercijalne API-je, kontinuirano nadograđujući inteligenciju sustava bez novih troškova obuke.
Istraživački tim opisao je integraciju kao nepotrebnu dodatnu postavku: "Osnovni (ili izvršni) LLM koji timovi već koriste u RAG-u može se konfigurirati za izravno postavljanje upita modelu memorije. Ovi se upiti izvode na prirodnom jeziku, slično slanju zahtjeva za poruku API-ju, bez potrebe za dodatnim postavljanjem."
MeMo također izuzetno dobro obrađuje podatke s šumom. Kada su istraživači namjerno preplavili skup podataka nerelevantnim dokumentima (do dvostruko više od količine korisnih informacija), izvedba HippoRAG2 pala je za 11,55%. Učinak MeMo-a ostao je relativno stabilan, pavši za manje od 2%. Baze znanja poduzeća obično su neuredne, pune dvostrukih dokumenata i zastarjelih pravila. Standardni RAG sustavi bore se s tom bukom, povlačeći netočne odlomke u prompt i izazivajući halucinacije. Budući da MeMo-ov model EXECUTIVE stupa u interakciju sa sintetiziranim proročištem, a ne s neobrađenim dijelovima dokumenta, ostaje vrlo otporan na neorganizirane korporativne podatke.
Ograničenja i kompromisi
Za inženjerske timove koji žele implementirati MeMo, postoji nekoliko ključnih ograničenja koja treba uzeti u obzir.
Za razliku od tradicionalnih RAG sustava koji brzo indeksiraju sirove dokumente u vektorsku bazu podataka, MeMo zahtijeva unaprijed troškove obuke za svaki novi korpus. Cjevovod za generiranje podataka koji se koristi za sintetiziranje refleksija obuke računalno je skup. Na primjer, tim je primijetio da "generiranje QA skupa podataka pune refleksije trajalo je približno 240 GPU sati na NVIDIA H200s," dok trenirate 14B parametar MEMORIJE model "trebalo je otprilike 180 H200 GPU sati." Kao što je Solar-Lezama rekao, "Smanjenje troškova obuke jedan je od najznačajnijih otvorenih istraživačkih problema kako bi se ovo učinilo tehnikom radnog konja."
Budući da je model MEMORY neuronska mreža fiksne veličine, njegova sposobnost da internalizira znanje ograničena je njegovim reprezentativnim kapacitetom. Iako istraživači nisu dosegnuli strogu granicu tijekom svojeg benchmarkinga, oni pretpostavljaju da će “dovoljno veliki korpusi ili korpusi bogati informacijama premašiti ono što MEMORY model fiksne veličine može ispravno komprimirati i prikazati.”
Konačno, budući da MeMo sintetizira odgovore iz parametarske memorije umjesto da dohvaća točne tekstualne isječke, zamagljuje porijeklo informacija. To otežava pripisivanje određenih tvrdnji originalnim izvornim dokumentima, što predstavlja kritičan problem usklađenosti za poslovne aplikacije koje zahtijevaju stroge revizijske tragove.
Odlučivanje između MeMo-a i tradicionalnog RAG-a svodi se na heuristiku "pretraživanje nasuprot sintezi," uz volatilnost podataka. Istraživači savjetuju da "tradicionalni RAG bi bio poželjan kada se odgovori nalaze u jednom dokumentu ili kada postoji dobro definiran izvor… MeMo bi bio poželjan kada se zadatak pomiče s traženja na sintetiziranje odgovora iz informacija razbacanih u više dijelova." Ako se vaš korpus znanja brzo mijenja (npr. dnevni feedovi) i zahtijevate točne citate izvora, RAG ostaje bolja opcija zbog troškova obuke za MeMo unaprijed. Ako se vaš korpus sastoji od generaliziranog znanja o domeni koje se sporo razvija u odnosu na svoj obujam, MeMo nudi znatno superiornije zaključivanje. Timovi također mogu usvojiti hibridnu arhitekturu usmjeravanja u proizvodnji: slanje "traženje" upite prema standardnoj vektorskoj bazi podataka i "sinteza" upite prema modelu MEMORY.
"Gledajući dalje, očekivao bih da memorijski modeli postanu standardna arhitektonska komponenta uz dohvaćanje," Daniela Rus, koautorica rada i direktorica MIT Computer Science and Artificial Intelligence Lab (CSAIL), rekla je za VentureBeat, "na isti način na koji su predmemorija i indeksiranje standardne komponente svakog ozbiljnog podatkovnog sustava danas."
