Oblak Znanja

  • Home
  • Novosti
  • Učionica
    • Informatika 5
    • Informatika 6
    • Informatika 7
    • Informatika 8
    • Logo jezik
    • WordPress
    • Microsoft Office
  • Vodiči
    • Online vodiči
    • Kratki savjeti
    • Korisne aplikacije
    • Društvene mreže
    • Multimedija
    • Zanimljivosti
✕

Većina RAG sustava ne razumije sofisticirane dokumente — oni ih uništavaju

Novosti

Većina RAG sustava ne razumije sofisticirane dokumente — oni ih uništavaju

Tomšić Damjan 2. veljače 2026

Do sada su mnoga poduzeća primijenila neki oblik RAG-a. Obećanje je zavodljivo: indeksirajte svoje PDF-ove, povežite LLM i odmah demokratizirajte svoje korporativno znanje.

Ali za industrije koje ovise o teškom strojarstvu, stvarnost je bila porazna. Inženjeri postavljaju konkretna pitanja o infrastrukturi, a bot halucinira.

Neuspjeh nije u LLM-u. Greška je u pretprocesiranju.

Standardni RAG cjevovod tretira dokumente kao ravne nizove teksta. Oni koriste "usitnjavanje fiksne veličine" (rezanje dokumenta svakih 500 znakova). Ovo radi za prozu, ali uništava logiku tehničkih priručnika. Reže tablice na pola, odvaja naslove od slika i zanemaruje vizualnu hijerarhiju stranice.

japoboljšanje pouzdanosti RAG-a nije kupnja većeg modela; radi se o popravljanju "mračni podaci" problem kroz semantičko usitnjavanje i multimodalnu tekstualizaciju.

Ovdje je arhitektonski okvir za izgradnju RAG sustava koji zapravo može čitati priručnik.

Sadržaj objave

  • 1 Zabluda dijeljenja fiksne veličine
    • 1.1 Rješenje: Semantičko usitnjavanje
  • 2 Otključavanje vizualnih tamnih podataka
    • 2.1 Rješenje: Multimodalna tekstualizacija
  • 3 Sloj povjerenja: korisničko sučelje temeljeno na dokazima
  • 4 Otpornost na budućnost: Izvorna multimodalna ugrađivanja
  • 5 Zaključak
    • 5.1 Povezani sadržaji

Zabluda dijeljenja fiksne veličine

U standardnom Python RAG vodiču dijelite tekst prema broju znakova. U poslovnom PDF-u to je katastrofalno.

Ako tablica sigurnosnih specifikacija obuhvaća 1000 tokena, a veličina vašeg dijela je 500, upravo ste podijelili "granica napona" zaglavlje iz "240V" vrijednost. Vektorska baza podataka pohranjuje ih odvojeno. Kada korisnik pita, "Koja je granica napona?"sustav za dohvaćanje pronalazi zaglavlje, ali ne i vrijednost. LLM, prisiljen odgovarati, često pogađa.

Rješenje: Semantičko usitnjavanje

Prvi korak u popravljanju proizvodnog RAG-a je napuštanje proizvoljnog brojanja znakova u korist inteligencije dokumenta.

Korištenjem alata za raščlanjivanje koji su svjesni izgleda (kao što je Azure Document Intelligence), možemo segmentirati podatke na temelju strukture dokumenta kao što su poglavlja, odjeljci i paragrafi, a ne broja tokena.

  • Logička kohezija: Odjeljak koji opisuje određeni strojni dio čuva se kao jedan vektor, čak i ako varira u duljini.

  • Očuvanje stola: Parser identificira granicu tablice i prisiljava cijelu rešetku u jedan komad, čuvajući odnose reda i stupca koji su vitalni za točno dohvaćanje.

U našim internim kvalitativnim mjerilima, prelazak s fiksnog na semantičko grupiranje značajno je poboljšao točnost dohvaćanja tabelarnih podataka, učinkovito zaustavljajući fragmentaciju tehničkih specifikacija.

Otključavanje vizualnih tamnih podataka

Drugi način kvara poslovnog RAG-a je sljepoća. Ogromna količina korporativnog IP-a ne postoji u tekstu, već u dijagramima toka, shemama i dijagramima arhitekture sustava. Standardni modeli ugrađivanja (kao što je text-embedding-3-small) ne mogu "vidjeti" ove slike. Preskaču se tijekom indeksiranja.

Ako je vaš odgovor u dijagramu toka, vaš RAG sustav će reći, "ne znam"

Rješenje: Multimodalna tekstualizacija

Kako bismo dijagrame učinili pretraživima, implementirali smo korak multimodalne predprocesiranja pomoću modela sposobnih za vid (posebno GPT-4o) prije nego što podaci dospiju u vektorsku pohranu.

  1. OCR ekstrakcija: Visokoprecizno optičko prepoznavanje znakova izvlači tekstualne oznake unutar slike.

  2. Generativno titlovanje: Model vizije analizira sliku i generira detaljan opis prirodnog jezika ("Dijagram toka koji pokazuje da proces A vodi do procesa B ako temperatura prijeđe 50 stupnjeva").

  3. Hibridno ugrađivanje: Ovaj generirani opis je ugrađen i pohranjen kao metapodatak povezan s izvornom slikom.

Sada, kada korisnik traži "temperaturni tijek procesa," vektorska pretraga odgovara opisiako je izvorni izvor bila PNG datoteka.

Sloj povjerenja: korisničko sučelje temeljeno na dokazima

Za prihvaćanje poduzeća, točnost je samo pola uspjeha. Druga polovica je provjerljivost.

U standardnom RAG sučelju chatbot daje tekstualni odgovor i navodi naziv datoteke. To prisiljava korisnika da preuzme PDF i potraži stranicu kako bi potvrdio tvrdnju. Za upite s visokim ulozima ("Je li ova kemikalija zapaljiva?"), korisnici jednostavno neće vjerovati botu.

The arhitektura bi trebala implementirati vizualno citiranje. Budući da smo sačuvali vezu između tekstualnog dijela i njegove nadređene slike tijekom faze pretprocesiranja, korisničko sučelje može prikazati točan grafikon ili tablicu korištenu za generiranje odgovora uz tekstualni odgovor.

Ovaj "pokazati svoj rad" mehanizam omogućuje ljudima da trenutačno provjeravaju razmišljanje umjetne inteligencije, premošćujući jaz u povjerenju koji ubija toliko internih projekata umjetne inteligencije.

Otpornost na budućnost: Izvorna multimodalna ugrađivanja

Dok je "tekstualizacija" Metoda (pretvaranje slika u tekstualne opise) praktično je rješenje za danas, arhitektura se ubrzano razvija.

Već vidimo pojavu izvorna multimodalna ugrađivanja (kao što je Cohereov Embed 4). Ovi modeli mogu mapirati tekst i slike u isti vektorski prostor bez međukoraka dodavanja naslova. Iako trenutno koristimo višefazni cjevovod za maksimalnu kontrolu, budućnost podatkovne infrastrukture vjerojatno će uključivati "s kraja na kraj" vektorizacija gdje je izgled stranice izravno ugrađen.

Nadalje, kao dugi kontekst LLMs postane isplativo, potreba za usitnjavanjem može se smanjiti. Uskoro bismo mogli prenijeti cijele priručnike u kontekstni prozor. Međutim, sve dok latencija i cijena za pozive s milijunskim tokenima značajno ne padnu, semantička predobrada ostaje ekonomski najodrživija strategija za sustave u stvarnom vremenu.

Zaključak

Razlika između RAG demo i proizvodnog sustava je u tome kako se nosi s neurednom stvarnošću poslovnih podataka.

Prestanite tretirati svoje dokumente kao jednostavne nizove teksta. Ako želite da vaša umjetna inteligencija razumije vaše poslovanje, morate poštovati strukturu svojih dokumenata. Implementacijom semantičkog dijeljenja i otključavanjem vizualnih podataka unutar vaših grafikona, transformirate svoj RAG sustav iz "pretraživač ključnih riječi" u istinski "asistent znanja."

Dippu Kumar Singh je AI arhitekt i inženjer podataka.

Web izvor

Povezani sadržaji

  • SAD su imale veliki procvat baterija prošle godineSAD su imale veliki procvat baterija prošle godine
  • SUSE Linux Enterprise Server 16 dolazi – s ugrađenom AI i EU podrškomSUSE Linux Enterprise Server 16 dolazi – s ugrađenom AI i EU podrškom
  • Fanovi Silent Hill 2 Remakea žele znati kada će igra ispravno raditi na PS5 ProFanovi Silent Hill 2 Remakea žele znati kada će igra ispravno raditi na PS5 Pro
  • Kako prevariti Windows 11 da vam dopusti prikvačivanje web stranica na programsku trakuKako prevariti Windows 11 da vam dopusti prikvačivanje web stranica na programsku traku
  • Rekordno niske razine snijega na zapadu značit će manje vode, više požara i politički kaosRekordno niske razine snijega na zapadu značit će manje vode, više požara i politički kaos
  • Merkurska vlakna do povećanja učinkovitosti komunalnih uslugaMerkurska vlakna do povećanja učinkovitosti komunalnih usluga

Previous Article

Comcast će platiti 117 milijuna dolara u nagodbi za kršenje sigurnosti

Next Article

Saudijskoj Arabiji naloženo da plati 3 milijuna funti disidentu iz Ujedinjenog Kraljevstva napadnutom špijunskim softverom Pegasus

Posljednje objave

Best Buy već prodaje MacBook Neo po sniženju – a kvaka i nije tako loša

AT&T lansira novu aplikaciju s AI podrškom koju stalno tražite

AT&T lansira novu aplikaciju s AI podrškom koju stalno tražite

Igra obrane tornja Tangy TD zaradila je više od 250 tisuća dolara od lansiranja početkom ožujka na Steamu, zbog čega je njen solo razvijač već dva puta briznuo u plač

Igra obrane tornja Tangy TD zaradila je više od 250 tisuća dolara od lansiranja početkom ožujka na Steamu, zbog čega je njen solo razvijač već dva puta briznuo u plač

Sadržaj

  • 1 Zabluda dijeljenja fiksne veličine
    • 1.1 Rješenje: Semantičko usitnjavanje
  • 2 Otključavanje vizualnih tamnih podataka
    • 2.1 Rješenje: Multimodalna tekstualizacija
  • 3 Sloj povjerenja: korisničko sučelje temeljeno na dokazima
  • 4 Otpornost na budućnost: Izvorna multimodalna ugrađivanja
  • 5 Zaključak

Novosti

  • Best Buy već prodaje MacBook Neo po sniženju – a kvaka i nije tako loša 19. ožujka 2026
  • AT&T lansira novu aplikaciju s AI podrškom koju stalno tražite 19. ožujka 2026
  • Igra obrane tornja Tangy TD zaradila je više od 250 tisuća dolara od lansiranja početkom ožujka na Steamu, zbog čega je njen solo razvijač već dva puta briznuo u plač 19. ožujka 2026
  • Ofcom postavlja propise za guranje gigabitnog širokopojasnog interneta u Velikoj Britaniji u ‘završnu fazu’ 19. ožujka 2026
  • Novi MiniMax M2.7 vlasnički AI model se ‘samorazvija’ i može izvesti 30-50% tijeka istraživanja učenja za potkrepljivanje 18. ožujka 2026
  • Kvantni skok za Turingovu nagradu 18. ožujka 2026
  • Oupes Mega 1 recenzija: Napokon sam pronašao prijenosnu električnu stanicu koju mogu spremiti u svoj kamion 18. ožujka 2026
  • RIP, Galaxy Z TriFold 18. ožujka 2026
  • “Stvarno smo obavili dobar posao… sa Starfieldom smo se mučili” – šef Bethesde Todd Howard nudi kratko ažuriranje The Elder Scrolls 6, ovaj put nagovještavajući učinkovitiji razvoj 18. ožujka 2026
  • Tehnologija koja ubrzava kriminal, povećava slučajeve za nacionalnu policijsku službu, kaže šef NCA-a 18. ožujka 2026

O nama

Oblak Znanja je blog edukativnog karaktera i namijenjen je svima koji žele unaprijediti svoje znanje iz područja računala i interneta.

Naš cilj je edukacija i pisanje zanimljivih objava kojima ćemo zajedno učiti i informirati se o svijetu informatike.

Na ovom blogu zabranjeno je svako kopiranje sadržaja bez dozvole autora.

Oblak Znanja

Oznake

besplatni powerpoint predlošci društvene mreže excel facebook firefox gmail google+ Google Chrome halloween halloween walpapers internet kartice linkedin profil linux microsoft Mozilla Firefox ms powerpoint oblak znanja office 2007 office savjeti online kupovina pick powerpoint powerpoint predložak powerpoint savjeti rastući niz savjet slike za radnu površinu spremanje datoteka strani jezik tipkovnicke kratice twitter twitter alati uređivanje slika wallpaper clock web preglednik windows windows 7 windows aplikacije windows vista word word 2007 word savjeti youtube savjeti youtube tipkovničke kratice