Oblak Znanja

  • Home
  • Novosti
  • Učionica
    • Informatika 5
    • Informatika 6
    • Informatika 7
    • Informatika 8
    • Logo jezik
    • WordPress
    • Microsoft Office
  • Vodiči
    • Online vodiči
    • Kratki savjeti
    • Korisne aplikacije
    • Društvene mreže
    • Multimedija
    • Zanimljivosti
✕

Većina RAG sustava ne razumije sofisticirane dokumente — oni ih uništavaju

Novosti

Većina RAG sustava ne razumije sofisticirane dokumente — oni ih uništavaju

Tomšić Damjan 2. veljače 2026

Do sada su mnoga poduzeća primijenila neki oblik RAG-a. Obećanje je zavodljivo: indeksirajte svoje PDF-ove, povežite LLM i odmah demokratizirajte svoje korporativno znanje.

Ali za industrije koje ovise o teškom strojarstvu, stvarnost je bila porazna. Inženjeri postavljaju konkretna pitanja o infrastrukturi, a bot halucinira.

Neuspjeh nije u LLM-u. Greška je u pretprocesiranju.

Standardni RAG cjevovod tretira dokumente kao ravne nizove teksta. Oni koriste "usitnjavanje fiksne veličine" (rezanje dokumenta svakih 500 znakova). Ovo radi za prozu, ali uništava logiku tehničkih priručnika. Reže tablice na pola, odvaja naslove od slika i zanemaruje vizualnu hijerarhiju stranice.

japoboljšanje pouzdanosti RAG-a nije kupnja većeg modela; radi se o popravljanju "mračni podaci" problem kroz semantičko usitnjavanje i multimodalnu tekstualizaciju.

Ovdje je arhitektonski okvir za izgradnju RAG sustava koji zapravo može čitati priručnik.

Sadržaj objave

  • 1 Zabluda dijeljenja fiksne veličine
    • 1.1 Rješenje: Semantičko usitnjavanje
  • 2 Otključavanje vizualnih tamnih podataka
    • 2.1 Rješenje: Multimodalna tekstualizacija
  • 3 Sloj povjerenja: korisničko sučelje temeljeno na dokazima
  • 4 Otpornost na budućnost: Izvorna multimodalna ugrađivanja
  • 5 Zaključak
    • 5.1 Povezani sadržaji

Zabluda dijeljenja fiksne veličine

U standardnom Python RAG vodiču dijelite tekst prema broju znakova. U poslovnom PDF-u to je katastrofalno.

Ako tablica sigurnosnih specifikacija obuhvaća 1000 tokena, a veličina vašeg dijela je 500, upravo ste podijelili "granica napona" zaglavlje iz "240V" vrijednost. Vektorska baza podataka pohranjuje ih odvojeno. Kada korisnik pita, "Koja je granica napona?"sustav za dohvaćanje pronalazi zaglavlje, ali ne i vrijednost. LLM, prisiljen odgovarati, često pogađa.

Rješenje: Semantičko usitnjavanje

Prvi korak u popravljanju proizvodnog RAG-a je napuštanje proizvoljnog brojanja znakova u korist inteligencije dokumenta.

Korištenjem alata za raščlanjivanje koji su svjesni izgleda (kao što je Azure Document Intelligence), možemo segmentirati podatke na temelju strukture dokumenta kao što su poglavlja, odjeljci i paragrafi, a ne broja tokena.

  • Logička kohezija: Odjeljak koji opisuje određeni strojni dio čuva se kao jedan vektor, čak i ako varira u duljini.

  • Očuvanje stola: Parser identificira granicu tablice i prisiljava cijelu rešetku u jedan komad, čuvajući odnose reda i stupca koji su vitalni za točno dohvaćanje.

U našim internim kvalitativnim mjerilima, prelazak s fiksnog na semantičko grupiranje značajno je poboljšao točnost dohvaćanja tabelarnih podataka, učinkovito zaustavljajući fragmentaciju tehničkih specifikacija.

Otključavanje vizualnih tamnih podataka

Drugi način kvara poslovnog RAG-a je sljepoća. Ogromna količina korporativnog IP-a ne postoji u tekstu, već u dijagramima toka, shemama i dijagramima arhitekture sustava. Standardni modeli ugrađivanja (kao što je text-embedding-3-small) ne mogu "vidjeti" ove slike. Preskaču se tijekom indeksiranja.

Ako je vaš odgovor u dijagramu toka, vaš RAG sustav će reći, "ne znam"

Rješenje: Multimodalna tekstualizacija

Kako bismo dijagrame učinili pretraživima, implementirali smo korak multimodalne predprocesiranja pomoću modela sposobnih za vid (posebno GPT-4o) prije nego što podaci dospiju u vektorsku pohranu.

  1. OCR ekstrakcija: Visokoprecizno optičko prepoznavanje znakova izvlači tekstualne oznake unutar slike.

  2. Generativno titlovanje: Model vizije analizira sliku i generira detaljan opis prirodnog jezika ("Dijagram toka koji pokazuje da proces A vodi do procesa B ako temperatura prijeđe 50 stupnjeva").

  3. Hibridno ugrađivanje: Ovaj generirani opis je ugrađen i pohranjen kao metapodatak povezan s izvornom slikom.

Sada, kada korisnik traži "temperaturni tijek procesa," vektorska pretraga odgovara opisiako je izvorni izvor bila PNG datoteka.

Sloj povjerenja: korisničko sučelje temeljeno na dokazima

Za prihvaćanje poduzeća, točnost je samo pola uspjeha. Druga polovica je provjerljivost.

U standardnom RAG sučelju chatbot daje tekstualni odgovor i navodi naziv datoteke. To prisiljava korisnika da preuzme PDF i potraži stranicu kako bi potvrdio tvrdnju. Za upite s visokim ulozima ("Je li ova kemikalija zapaljiva?"), korisnici jednostavno neće vjerovati botu.

The arhitektura bi trebala implementirati vizualno citiranje. Budući da smo sačuvali vezu između tekstualnog dijela i njegove nadređene slike tijekom faze pretprocesiranja, korisničko sučelje može prikazati točan grafikon ili tablicu korištenu za generiranje odgovora uz tekstualni odgovor.

Ovaj "pokazati svoj rad" mehanizam omogućuje ljudima da trenutačno provjeravaju razmišljanje umjetne inteligencije, premošćujući jaz u povjerenju koji ubija toliko internih projekata umjetne inteligencije.

Otpornost na budućnost: Izvorna multimodalna ugrađivanja

Dok je "tekstualizacija" Metoda (pretvaranje slika u tekstualne opise) praktično je rješenje za danas, arhitektura se ubrzano razvija.

Već vidimo pojavu izvorna multimodalna ugrađivanja (kao što je Cohereov Embed 4). Ovi modeli mogu mapirati tekst i slike u isti vektorski prostor bez međukoraka dodavanja naslova. Iako trenutno koristimo višefazni cjevovod za maksimalnu kontrolu, budućnost podatkovne infrastrukture vjerojatno će uključivati "s kraja na kraj" vektorizacija gdje je izgled stranice izravno ugrađen.

Nadalje, kao dugi kontekst LLMs postane isplativo, potreba za usitnjavanjem može se smanjiti. Uskoro bismo mogli prenijeti cijele priručnike u kontekstni prozor. Međutim, sve dok latencija i cijena za pozive s milijunskim tokenima značajno ne padnu, semantička predobrada ostaje ekonomski najodrživija strategija za sustave u stvarnom vremenu.

Zaključak

Razlika između RAG demo i proizvodnog sustava je u tome kako se nosi s neurednom stvarnošću poslovnih podataka.

Prestanite tretirati svoje dokumente kao jednostavne nizove teksta. Ako želite da vaša umjetna inteligencija razumije vaše poslovanje, morate poštovati strukturu svojih dokumenata. Implementacijom semantičkog dijeljenja i otključavanjem vizualnih podataka unutar vaših grafikona, transformirate svoj RAG sustav iz "pretraživač ključnih riječi" u istinski "asistent znanja."

Dippu Kumar Singh je AI arhitekt i inženjer podataka.

Web izvor

Povezani sadržaji

  • Znanstvenici preslikavaju granice onoga što je poznato i nepoznatoZnanstvenici preslikavaju granice onoga što je poznato i nepoznato
  • Velika igra velike moćiVelika igra velike moći
  • Unatoč intenzivnoj utrci u naoružanju umjetne inteligencije, očekuje nas multimodalna budućnostUnatoč intenzivnoj utrci u naoružanju umjetne inteligencije, očekuje nas multimodalna budućnost
  • Kako onesposobiti oglase na YouTubeu i drugim web stranicama?
  • Era agentske umjetne inteligencije zahtijeva strukturu podataka, a ne bolje upute
  • Sada možete pretvoriti goleme PDF-ove u probavljive audio preglede na Google disku – evo kakoSada možete pretvoriti goleme PDF-ove u probavljive audio preglede na Google disku – evo kako

Previous Article

Comcast će platiti 117 milijuna dolara u nagodbi za kršenje sigurnosti

Posljednje objave

Većina RAG sustava ne razumije sofisticirane dokumente — oni ih uništavaju

Većina RAG sustava ne razumije sofisticirane dokumente — oni ih uništavaju

Comcast će platiti 117 milijuna dolara u nagodbi za kršenje sigurnosti

Comcast će platiti 117 milijuna dolara u nagodbi za kršenje sigurnosti

Kako koristiti fiziku za bijeg iz ledene zdjele

Kako koristiti fiziku za bijeg iz ledene zdjele

Sadržaj

  • 1 Zabluda dijeljenja fiksne veličine
    • 1.1 Rješenje: Semantičko usitnjavanje
  • 2 Otključavanje vizualnih tamnih podataka
    • 2.1 Rješenje: Multimodalna tekstualizacija
  • 3 Sloj povjerenja: korisničko sučelje temeljeno na dokazima
  • 4 Otpornost na budućnost: Izvorna multimodalna ugrađivanja
  • 5 Zaključak

Novosti

  • Većina RAG sustava ne razumije sofisticirane dokumente — oni ih uništavaju 2. veljače 2026
  • Comcast će platiti 117 milijuna dolara u nagodbi za kršenje sigurnosti 1. veljače 2026
  • Kako koristiti fiziku za bijeg iz ledene zdjele 1. veljače 2026
  • 7 aplikacija otvorenog koda koje bih rado platio – jer su tako dobre 1. veljače 2026
  • 5 Windows aplikacija koje uvijek instaliram na nova računala i zašto ih ne mogu dovoljno preporučiti 1. veljače 2026
  • Verizonova luda rasprodaja dodatne opreme nudi navlake za Pixel 10 i iPhone za 5 USD 1. veljače 2026
  • Plan puta Phasmophobia za 2026. potvrđuje 4 događaja, 3 mape i to izdanje 1.0 i reviziju likova igrača 1. veljače 2026
  • Bivši direktori tvrtke povezane s varalicom Satoshijem Nakamotom tuže se zbog tvrdnji o odmazdi za zviždače 31. siječnja 2026
  • OpenClaw dokazuje da AI radi. Također dokazuje da vaš sigurnosni model nije. 180 000 programera upravo je to učinilo vašim problemom. 31. siječnja 2026
  • Može li se web spasiti? Njegov tvorac tako misli 31. siječnja 2026

O nama

Oblak Znanja je blog edukativnog karaktera i namijenjen je svima koji žele unaprijediti svoje znanje iz područja računala i interneta.

Naš cilj je edukacija i pisanje zanimljivih objava kojima ćemo zajedno učiti i informirati se o svijetu informatike.

Na ovom blogu zabranjeno je svako kopiranje sadržaja bez dozvole autora.

Oblak Znanja

Oznake

besplatni powerpoint predlošci društvene mreže excel facebook firefox gmail google+ Google Chrome halloween halloween walpapers internet kartice linkedin profil linux microsoft Mozilla Firefox ms powerpoint oblak znanja office 2007 office savjeti online kupovina pick powerpoint powerpoint predložak powerpoint savjeti rastući niz savjet slike za radnu površinu spremanje datoteka strani jezik tipkovnicke kratice twitter twitter alati uređivanje slika wallpaper clock web preglednik windows windows 7 windows aplikacije windows vista word word 2007 word savjeti youtube savjeti youtube tipkovničke kratice