Većina RAG sustava ne razumije sofisticirane dokumente — oni ih uništavaju

Do sada su mnoga poduzeća primijenila neki oblik RAG-a. Obećanje je zavodljivo: indeksirajte svoje PDF-ove, povežite LLM i odmah demokratizirajte svoje korporativno znanje.

Ali za industrije koje ovise o teškom strojarstvu, stvarnost je bila porazna. Inženjeri postavljaju konkretna pitanja o infrastrukturi, a bot halucinira.

Neuspjeh nije u LLM-u. Greška je u pretprocesiranju.

Standardni RAG cjevovod tretira dokumente kao ravne nizove teksta. Oni koriste "usitnjavanje fiksne veličine" (rezanje dokumenta svakih 500 znakova). Ovo radi za prozu, ali uništava logiku tehničkih priručnika. Reže tablice na pola, odvaja naslove od slika i zanemaruje vizualnu hijerarhiju stranice.

japoboljšanje pouzdanosti RAG-a nije kupnja većeg modela; radi se o popravljanju "mračni podaci" problem kroz semantičko usitnjavanje i multimodalnu tekstualizaciju.

Ovdje je arhitektonski okvir za izgradnju RAG sustava koji zapravo može čitati priručnik.

Sadržaj objave

1 Zabluda dijeljenja fiksne veličine
- 1.1 Rješenje: Semantičko usitnjavanje
2 Otključavanje vizualnih tamnih podataka
- 2.1 Rješenje: Multimodalna tekstualizacija
3 Sloj povjerenja: korisničko sučelje temeljeno na dokazima
4 Otpornost na budućnost: Izvorna multimodalna ugrađivanja
5 Zaključak
- 5.1 Povezani sadržaji

Zabluda dijeljenja fiksne veličine

U standardnom Python RAG vodiču dijelite tekst prema broju znakova. U poslovnom PDF-u to je katastrofalno.

Ako tablica sigurnosnih specifikacija obuhvaća 1000 tokena, a veličina vašeg dijela je 500, upravo ste podijelili "granica napona" zaglavlje iz "240V" vrijednost. Vektorska baza podataka pohranjuje ih odvojeno. Kada korisnik pita, "Koja je granica napona?"sustav za dohvaćanje pronalazi zaglavlje, ali ne i vrijednost. LLM, prisiljen odgovarati, često pogađa.

Rješenje: Semantičko usitnjavanje

Prvi korak u popravljanju proizvodnog RAG-a je napuštanje proizvoljnog brojanja znakova u korist inteligencije dokumenta.

Korištenjem alata za raščlanjivanje koji su svjesni izgleda (kao što je Azure Document Intelligence), možemo segmentirati podatke na temelju strukture dokumenta kao što su poglavlja, odjeljci i paragrafi, a ne broja tokena.

Logička kohezija: Odjeljak koji opisuje određeni strojni dio čuva se kao jedan vektor, čak i ako varira u duljini.
Očuvanje stola: Parser identificira granicu tablice i prisiljava cijelu rešetku u jedan komad, čuvajući odnose reda i stupca koji su vitalni za točno dohvaćanje.

U našim internim kvalitativnim mjerilima, prelazak s fiksnog na semantičko grupiranje značajno je poboljšao točnost dohvaćanja tabelarnih podataka, učinkovito zaustavljajući fragmentaciju tehničkih specifikacija.

Otključavanje vizualnih tamnih podataka

Drugi način kvara poslovnog RAG-a je sljepoća. Ogromna količina korporativnog IP-a ne postoji u tekstu, već u dijagramima toka, shemama i dijagramima arhitekture sustava. Standardni modeli ugrađivanja (kao što je text-embedding-3-small) ne mogu "vidjeti" ove slike. Preskaču se tijekom indeksiranja.

Ako je vaš odgovor u dijagramu toka, vaš RAG sustav će reći, "ne znam"

Rješenje: Multimodalna tekstualizacija

Kako bismo dijagrame učinili pretraživima, implementirali smo korak multimodalne predprocesiranja pomoću modela sposobnih za vid (posebno GPT-4o) prije nego što podaci dospiju u vektorsku pohranu.

OCR ekstrakcija: Visokoprecizno optičko prepoznavanje znakova izvlači tekstualne oznake unutar slike.
Generativno titlovanje: Model vizije analizira sliku i generira detaljan opis prirodnog jezika ("Dijagram toka koji pokazuje da proces A vodi do procesa B ako temperatura prijeđe 50 stupnjeva").
Hibridno ugrađivanje: Ovaj generirani opis je ugrađen i pohranjen kao metapodatak povezan s izvornom slikom.

Sada, kada korisnik traži "temperaturni tijek procesa," vektorska pretraga odgovara opisiako je izvorni izvor bila PNG datoteka.

Sloj povjerenja: korisničko sučelje temeljeno na dokazima

Za prihvaćanje poduzeća, točnost je samo pola uspjeha. Druga polovica je provjerljivost.

U standardnom RAG sučelju chatbot daje tekstualni odgovor i navodi naziv datoteke. To prisiljava korisnika da preuzme PDF i potraži stranicu kako bi potvrdio tvrdnju. Za upite s visokim ulozima ("Je li ova kemikalija zapaljiva?"), korisnici jednostavno neće vjerovati botu.

The arhitektura bi trebala implementirati vizualno citiranje. Budući da smo sačuvali vezu između tekstualnog dijela i njegove nadređene slike tijekom faze pretprocesiranja, korisničko sučelje može prikazati točan grafikon ili tablicu korištenu za generiranje odgovora uz tekstualni odgovor.

Ovaj "pokazati svoj rad" mehanizam omogućuje ljudima da trenutačno provjeravaju razmišljanje umjetne inteligencije, premošćujući jaz u povjerenju koji ubija toliko internih projekata umjetne inteligencije.

Otpornost na budućnost: Izvorna multimodalna ugrađivanja

Dok je "tekstualizacija" Metoda (pretvaranje slika u tekstualne opise) praktično je rješenje za danas, arhitektura se ubrzano razvija.

Već vidimo pojavu izvorna multimodalna ugrađivanja (kao što je Cohereov Embed 4). Ovi modeli mogu mapirati tekst i slike u isti vektorski prostor bez međukoraka dodavanja naslova. Iako trenutno koristimo višefazni cjevovod za maksimalnu kontrolu, budućnost podatkovne infrastrukture vjerojatno će uključivati "s kraja na kraj" vektorizacija gdje je izgled stranice izravno ugrađen.

Nadalje, kao dugi kontekst LLMs postane isplativo, potreba za usitnjavanjem može se smanjiti. Uskoro bismo mogli prenijeti cijele priručnike u kontekstni prozor. Međutim, sve dok latencija i cijena za pozive s milijunskim tokenima značajno ne padnu, semantička predobrada ostaje ekonomski najodrživija strategija za sustave u stvarnom vremenu.

Zaključak

Razlika između RAG demo i proizvodnog sustava je u tome kako se nosi s neurednom stvarnošću poslovnih podataka.

Prestanite tretirati svoje dokumente kao jednostavne nizove teksta. Ako želite da vaša umjetna inteligencija razumije vaše poslovanje, morate poštovati strukturu svojih dokumenata. Implementacijom semantičkog dijeljenja i otključavanjem vizualnih podataka unutar vaših grafikona, transformirate svoj RAG sustav iz "pretraživač ključnih riječi" u istinski "asistent znanja."

Dippu Kumar Singh je AI arhitekt i inženjer podataka.

Web izvor