Novi ‘rekurzivni’ okvir MIT-a omogućuje LLM-ima da obrade 10 milijuna tokena bez kvarenja konteksta

Rekurzivni jezični modeli (RLM) su tehnika zaključivanja koju su razvili istraživači s MIT CSAIL-a koja duge upite tretira kao vanjsko okruženje za model. Umjesto da tjera cijeli upit u kontekstni prozor modela, okvir omogućuje LLM-u da programski ispita, dekomponira i rekurzivno pozove sam sebe preko isječaka teksta.

Umjesto proširenja prozora konteksta ili sažimanja starih informacija, tim MIT-a preoblikuje rezoniranje dugog konteksta kao problem sustava. Dopuštajući modelima da tretiraju upite kao nešto što mogu pregledati kodom, rekurzivni jezični modeli dopuštaju LLM-ima da razmišljaju o milijunima tokena bez ponovne obuke. Ovo poduzećima nudi praktičan put do dugoročnih zadataka kao što su analiza baze koda, pravni pregled i razmišljanje u više koraka koji rutinski ruše današnje modele.

Budući da je okvir dizajniran kao omotač oko postojećih modela, može poslužiti kao zamjena za aplikacije koje upućuju izravne pozive LLM-u.

Sadržaj objave

1 Problem konteksta LLM-a
2 Kako rade RLM-ovi
3 RLM-ovi na djelu
- 3.1 Povezani sadržaji

Problem konteksta LLM-a

Dok granični modeli postaju sve sofisticiraniji u zaključivanju, njihova sposobnost obrade golemih količina informacija ne skalira se istom brzinom. Ovo usko grlo pokreću dva različita ograničenja: čvrsto fizičko ograničenje koliko teksta model može obraditi odjednom (duljina konteksta) i "truljenje konteksta."

Izazov je, tvrde istraživači, je li moguće skalirati efektivnu veličinu konteksta LLM-ova opće namjene po redovima veličina bez njihove ponovne obuke. Ova sposobnost postaje sve važnija za poslovne aplikacije, gdje se LLM-ovi usvajaju za dugoročne zadatke koji zahtijevaju obradu milijuna tokena — izazov za koji Zhang tvrdi da se ne može riješiti jednostavnim proširenjem kontekstnih prozora.

"Postoji entropijski argument koji implicira da trebate eksponencijalno više uzoraka podataka kako povećavate efektivnu veličinu prozora konteksta," Alex Zhang, koautor rada, rekao je za VentureBeat.

Trenutačni pristupi proširenju konteksta često se oslanjaju na zbijanje, gdje model sažima starije dijelove razgovora kako bi oslobodio prostor. Međutim, ova metoda nije uspješna za zadatke koji zahtijevaju nasumični pristup određenim detaljima koji se nalaze u ranijim dijelovima upita.

Kako rade RLM-ovi

Koncept iza RLM-a je izvučen iz "izvan jezgre" algoritmi koji se koriste u klasičnom računarstvu. Ovi su algoritmi dizajnirani za obradu prevelikih skupova podataka da stanu u glavnu memoriju računala čuvanjem podataka na tvrdom disku i dohvaćanjem samo potrebnih dijelova prema potrebi.

RLM-ovi primjenjuju ovu logiku na generativni AI. Umjesto ubacivanja dugog prompta izravno u neuronsku mrežu, okvir učitava tekst kao string varijablu unutar okruženja za kodiranje Pythona. LLM dobiva opći kontekst o podacima (kao što je ukupan broj znakova), ali ne "vidjeti" tekst u početku.

Nakon što je prompt pohranjen kao varijabla, LLM djeluje kao programer. Piše Python kod za interakciju s vanjskom varijablom, koristeći standardne naredbe da zaviri u podatke. Na primjer, model može koristiti regularne izraze za traženje određenih ključnih riječi kao što su "Poglavlje 1" ili "financijski rezultati."

Kada izvršavanje koda pronađe relevantan isječak, RLM povlači samo taj određeni dio u svoj aktivni kontekstni prozor za analizu.

Na primjer, ako je upit ogromna knjiga, LLM bi mogao napisati petlju koja identificira granice poglavlja i zatim pokrenuti podpoziv za sažetak svakog poglavlja pojedinačno.

Arhitektura obično uključuje dva agenta. A "model korijenskog jezika," često model s velikim mogućnostima poput GPT-5 djeluje kao orkestrator. Planira pristup, piše kod i upravlja protokom podataka unutar REPL okruženja. A "rekurzivni jezični model," često brži i jeftiniji model, djeluje kao radnik. Korijenski LM poziva ovog radnika da obradi specifične isječke teksta koje je izdvojio kod.

Budući da se prompt nalazi u memoriji okruženja, a ne u kontekstualnom prozoru modela, sustav može obraditi unose daleko veće od ograničenja modela za obuku. Važno je da se krajnjem korisniku RLM ponaša točno kao standardni model: prihvaća niz i vraća odgovor. To omogućuje poslovnim timovima da zamijene standardne API pozive za RLM-ove.

Za programere koji žele eksperimentirati, RLM kod trenutno je dostupan na GitHub.

"Ključni argument za RLM-ove je da se većina složenih zadataka može rastaviti na manje, ‘lokalne’ podzadatke," rekao je Zhang. "Međutim, kako izvesti ovu dekompoziciju konteksta/problema nije trivijalno, a model mora biti sposoban to izvesti."

RLM-ovi na djelu

Kako bi potvrdili okvir, istraživači su testirali RLM-ove u odnosu na osnovne modele i druge agentske pristupe kao što su CodeAct i sumarni agenti u nizu zadataka dugog konteksta, uključujući dohvaćanje i odgovaranje na pitanja s više skokova.

Rezultati su pokazali snažna poboljšanja performansi na razini od 10 milijuna+ tokena. Na BrowseComp-Plusreferentna vrijednost koja uključuje unose od 6 do 11 milijuna tokena, standardni osnovni modeli potpuno su podbacili, postigavši 0%. Nasuprot tome, RLM powered by GPT-5 postigao rezultat od 91,33%, značajno nadmašujući Summary Agent (70,47%) i CodeAct (51%).

Okvir je također briljirao u zadacima s visokom računskom složenošću. Na OOLONG-Pairs, mjerilu rasuđivanja bogatog informacijama gdje se težina kvadratno mjeri s duljinom unosa, osnovni GPT-5 modeli katastrofalno su podbacili s rezultatom od samo 0,04%. RLM je postigao rezultat F1 (uravnotežena mjera preciznosti i prisjećanja) od 58%, demonstrirajući nove sposobnosti za rješavanje gustih zadataka koji paraliziraju standardne modele. Slično, na zadacima razumijevanja koda (CodeQA benchmark), RLM je više nego udvostručio izvedbu osnovnog modela GPT-5, skočivši s 24% na 62%.

Što se tiče problema truljenja konteksta, podaci su pokazali da, dok izvedba osnovnog GPT-5 brzo degradira kako se složenost zadatka povećava, izvedba RLM-a ostaje stabilna, dosljedno nadmašujući osnovni model na kontekstima duljim od 16.000 tokena.

Unatoč povećanoj složenosti tijeka rada, RLM-ovi su često održavali usporedive ili niže prosječne troškove od osnovnih. Na mjerilu BrowseComp-Plus, RLM je bio do tri puta jeftiniji od osnovne vrijednosti sažimanja.

Međutim, istraživači su primijetili da iako su srednji troškovi niski, putanje RLM-a jesu "dugorepi." Ekstremna izvođenja mogu postati skupa ako model zapne u petljama ili izvrši suvišne provjere. Dok je GPT-5 bio konzervativan u svojim podpozivima, open-source Qwen3-koder model je ponekad pokušavao tisuće podpoziva za jednostavne zadatke.

"Danas ćete vjerojatno morati implementirati vlastite zaštitne ograde i logiku za kontrolu ponašanja RLM-a," rekao je Zhang. Međutim, on pretpostavlja da bi se budući modeli mogli uvježbati da učinkovitije upravljaju vlastitim računalnim proračunima. Tvrtke poput Prime Intellecta planiraju integrirati RLM u proces obuke modela, po mogućnosti rješavajući rubne slučajeve u kojima proračun za zaključivanje modela raste.

Za poslovne arhitekte koji odlučuju gdje će se kladiti, RLM framework nudi novi alat za rješavanje problema prenatrpanih informacijama.

"Mislim da su RLM-ovi još uvijek iznimno korisni za chatbotove (mislite na duge povijesti razgovora), ali u konačnici oni zagovaraju alternativni način korištenja LM-ova," rekao je Zhang. "Mislim da RLM rade u tandemu sa standardnim metodama dohvaćanja kao što je RAG; ne služe kao zamjena i mogu se koristiti u različitim postavkama ili zajedno."

Web izvor