Pridružite se našim dnevnim i tjednim biltenima za najnovija ažuriranja i ekskluzivni sadržaj na vodećim AI pokrivenosti. Saznati više
Utrka za širenje velikih jezičnih modela (LLMS) izvan praga od milijun-tokena zapalila je žestoku raspravu u zajednici AI. Modeli poput Minimax-tekst-01 pohvaliti kapacitetom od 4 milijuna toka, i Blizanci 1.5 Pro može istovremeno obraditi do 2 milijuna tokena. Sada obećavaju aplikacije koje mijenjaju igre i mogu analizirati čitave baze kodova, pravne ugovore ili istraživačke radove u jednom pozivu zaključivanja.
U srži ove rasprave je dužina konteksta – količina teksta koji AI model može obraditi i također zapamtiti odjednom. Duži kontekstni prozor omogućava strojnom učenju (ML) modelu da obrađuje mnogo više informacija u jednom zahtjevu i smanjuje potrebu za ubacivanjem dokumenata u pod-dokumente ili razdvajanja razgovora. Za kontekst, model s 4 milijuna kapaciteta mogao bi u jednom potezu probaviti 10 000 stranica knjiga.
Teoretski, to bi trebalo značiti bolje razumijevanje i sofisticiranije obrazloženje. No, da li ovi masivni kontekstni prozori prevode u stvarnu vrijednost poslovanja?
Budući da poduzeća odmjere troškove skaliranja infrastrukture u odnosu na potencijalne dobitke u produktivnosti i točnosti, ostaje pitanje: otključavamo li nove granice u AI rezoniranju ili jednostavno istezanje granica token memorije bez značajnih poboljšanja? Ovaj članak ispituje tehničke i ekonomske kompromise, uspoređujući izazovi i razvijajući se poslovne tokove radnog tijeka oblikovanja budućnosti LLM-ova velikog konteksta.
Sadržaj objave
Uspon velikih kontekstnih modela prozora: hype ili stvarna vrijednost?
Zašto tvrtke AI trkuju kako bi proširile dužine konteksta
Čelnici AI -ja poput OpenAi, Google DeepMind i Minimax nalaze se u utrci oružja kako bi proširili duljinu konteksta, što izjednačava s količinom teksta koju AI model može obraditi u jednom potezu. Obećanje? Dublje razumijevanje, manje halucinacije i više bešavnih interakcija.
Za poduzeća to znači AI koji može analizirati čitave ugovore, uklanjanje pogrešaka velikih baza kodova ili sažeti dugotrajna izvješća bez probijanja konteksta. Nada je da bi uklanjanje zaobilaznih rješavanja poput pucanja ili generacije usmjerene na pretraživanje (RAP) mogao učiniti da se tijekovi rada AI glatkije i učinkovitije.
Rješavanje problema ‘igle-in-a-haystack’
Problem s iglom u-haystack odnosi se na AI-ove poteškoće u identificiranju kritičnih podataka (igla) skrivenih u masivnim skupovima podataka (sijeno). LLM -ovi često propuštaju ključne detalje, što dovodi do neučinkovitosti u:
- Pretraživanje i pretraživanje znanja: AI pomoćnici bore se za izvlačenje najrelevantnijih činjenica iz ogromnih skladišta dokumenata.
- Pravni i poštivanje: Pravnici moraju pratiti ovisnosti o klauzuli kroz duge ugovore.
- Analitika Enterprise: Financijski analitičari rizikuju nedostaju ključni uvidi pokopani u izvješćima.
Široki kontekstni prozori pomažu modelima da zadržavaju više informacija i potencijalno smanjuju halucinacije. Pomažu u poboljšanju točnosti i omogućuju:
- Provjere usklađenosti unakrsnih dokumenata: Jedini prompt od 256K-toka može analizirati cjelokupni priručnik za politiku protiv novog zakonodavstva.
- Sinteza medicinske literature: istraživači Koristite 128K+ token Windows za usporedbu rezultata ispitivanja lijekova tijekom desetljeća studija.
- Razvoj softvera: uklanjanje pogrešaka poboljšava se kada AI može skenirati milijune redaka koda bez gubitka ovisnosti.
- Financijska istraživanja: Analitičari mogu analizirati izvještaje o potpunom zaradi i tržišne podatke u jednom upitu.
- Korisnička podrška: Chatboti s dužom memorijom pružaju više interakcija svjesnih konteksta.
Povećanje prozora konteksta također pomaže modelu da bolje referencira relevantne detalje i smanjuje vjerojatnost generiranja pogrešnih ili proizvedenih informacija. Studija u Stanfordu 2024. godine otkrili su da modeli 128K-tokena smanjuju stopu halucinacije za 18% u usporedbi s RAP sustavima prilikom analize sporazuma o spajanju.
Međutim, rani usvojitelji izvijestili su o nekim izazovima: Istraživanje JPMorgan Chase Pokazuje kako modeli loše djeluju na otprilike 75% svog konteksta, pri čemu se uspješnost na složenim financijskim zadacima srušila na gotovo nulu iznad 32K tokena. Modeli se još uvijek široko bore s dugoročnim opozivom, često prioritetno prioritet nedavnim podacima tijekom dubljih uvida.
To postavlja pitanja: Da li prozor od 4 milijuna toka uistinu poboljšava obrazloženje ili je to samo skupo širenje memorije? Koliki dio ovog ogromnog ulaza model zapravo koristi? I da li koristi nadmašuju sve veće računske troškove?
Trošak nasuprot performansama: RAG vs. Veliki uputi: Koja opcija pobjeđuje?
Ekonomski kompromis korištenja krpe
RAG kombinira moć LLMS -a s sustavom za pretraživanje kako bi dohvatio relevantne informacije iz vanjske baze podataka ili trgovine dokumenata. To omogućava modelu da generira odgovore na temelju već postojećeg znanja i dinamički dohvaćenih podataka.
Dok tvrtke usvajaju AI za složene zadatke, suočavaju se s ključnom odlukom: Koristite ogromne upute s velikim kontekstnim prozorima ili se oslanjaju na RAG kako bi dinamički dobili relevantne informacije.
- Veliki uputi: Modeli s velikim tokenskim prozorima obrađuju sve u jednom prolazu i smanjuju potrebu za održavanjem vanjskih sustava za pretraživanje i snimanjem uvida u međusokument. Međutim, ovaj je pristup računski skup, s većim troškovima zaključivanja i zahtjevima memorije.
- RAG: Umjesto obrade cijelog dokumenta odjednom, Rag dohvaća samo najrelevantnije dijelove prije nego što generira odgovor. To smanjuje uporabu i troškove tokena, što ga čini skalabilnijim za aplikacije u stvarnom svijetu.
Usporedba troškova zaključivanja AI: Pretraživanje u više koraka u odnosu na velike pojedinačne upute
Iako veliki upita pojednostavljuju tijekove rada, potrebna su više snage i memorije GPU -a, što ih čini skupo u razmjeru. Pristupi temeljeni na krpi, iako zahtijevaju višestruke korake pretraživanja, često smanjuju ukupnu potrošnju tokena, što dovodi do nižih troškova zaključivanja bez žrtvovanja točnosti.
Za većinu poduzeća najbolji pristup ovisi o slučaju upotrebe:
- Trebate duboku analizu dokumenata? Veliki kontekstni modeli mogu bolje funkcionirati.
- Trebate skalabilan, ekonomičan AI za dinamične upite? Krga je vjerojatno pametniji izbor.
Veliki prozor konteksta je vrijedan kada:
- Cijeli tekst mora se analizirati odjednom (ex: pregledi ugovora, revizije koda).
- Minimiziranje pogrešaka u pronalaženju je kritično (npr. Usklađenost s regulacijom).
- Latencija je manje zabrinjavajuća od točnosti (npr.: Strateško istraživanje).
Prema Googleovim istraživanjima, modeli predviđanja zaliha koji koriste 128K-tok Windows koji analizira 10 godina transkripta zarade nadmašena krpa za 29%. S druge strane, unutarnje testiranje Github Copilota pokazalo je to 2.3x Brži zadatak Završetak nasuprot krpe za Monorepo migracije.
Srušenje smanjenih povrata
Ograničenja velikih kontekstnih modela: kašnjenje, troškovi i upotrebljivost
Iako veliki kontekstni modeli nude impresivne mogućnosti, postoje ograničenja koliko je dodatnog konteksta uistinu korisno. Kako se kontekst prozora šire, u igru se pojavljuju tri ključna faktora:
- Latencija: Što više tokena model obrađuje, to je sporiji zaključak. Široki kontekstni prozori mogu dovesti do značajnih kašnjenja, posebno kada su potrebni odgovori u stvarnom vremenu.
- Troškovi: Sa svakim dodatnim obrađenim tokenom, računski troškovi rastu. Skaliranje infrastrukture za obradu ovih većih modela može postati nevjerojatno skupo, posebno za poduzeća s velikim opterećenjima.
- Upotrebljivost: Kako kontekst raste, sposobnost modela da se učinkovito “usredotoči” na najrelevantnije informacije se smanjuje. To može dovesti do neučinkovitog obrade gdje manje relevantni podaci utječu na performanse modela, što rezultira smanjenjem prinosa i za točnost i za učinkovitost.
Googleov Tehnika infinike nastoji nadoknaditi ove kompromise pohranjivanjem komprimiranih prikaza proizvoljnog konteksta s ograničenom memorijom. Međutim, kompresija dovodi do gubitka informacija, a modeli se bore za uravnoteženje neposrednih i povijesnih podataka. To dovodi do degradacije performansi i povećanja troškova u usporedbi s tradicionalnim krpom.
Kontekst utrci u prozoru treba smjer
Iako su modeli s 4M-tokom impresivni, poduzeća bi ih trebala koristiti kao specijalizirane alate, a ne univerzalna rješenja. Budućnost leži u hibridnim sustavima koji adaptivno biraju između krpe i velikih uputa.
Poduzeća bi trebala birati između velikih kontekstnih modela i krpe na temelju složenosti obrazloženja, troškova i kašnjenja. Veliki kontekstni prozori idealni su za zadatke koji zahtijevaju duboko razumijevanje, dok je RAP ekonomičniji i učinkovitiji za jednostavnije, činjenične zadatke. Poduzeća bi trebala postaviti jasna ograničenja troškova, poput 0,50 USD po zadatku, jer veliki modeli mogu postati skupi. Uz to, velike su upute prikladnije za izvanmrežne zadatke, dok se RAP sustavi izvrsno snalaze u aplikacijama u stvarnom vremenu koji zahtijevaju brze reakcije.
Inovacije u nastajanju poput Grafički Može dodatno poboljšati ove adaptivne sustave integrirajući grafikone znanja s tradicionalnim metodama pronalaska vektora koje bolje hvataju složene odnose, poboljšavajući nijansirano obrazloženje i odgovaranje preciznosti do 35% u usporedbi s pristupima samo za vektor. Nedavne implementacije tvrtki poput Lettria pokazale su dramatična poboljšanja točnosti od 50% s tradicionalnim RAG -om do više od 80% koristeći graphRag unutar hibridnih sustava za pronalaženje.
Kao Jurij Kuratov upozorava: “Proširenje konteksta bez poboljšanja obrazloženja je poput izgradnje širih autocesta za automobile koji se ne mogu upravljati.“Budućnost AI leži u modelima koji uistinu razumiju odnose u bilo kojoj veličini konteksta.
Rahul Raja je inženjer softvera za osoblje u LinkedInu.
Advitya Gemawat je inženjer strojnog učenja (ML) u Microsoftu.
Web izvor