Puno je poslovnih podataka zarobljeno u PDF dokumentima. Istini za volju, gen alati umjetne inteligencije uspjeli su unijeti i analizirati PDF-ove, ali točnost, vrijeme i cijena nisu bili idealni. Nova tehnologija tvrtke Databricks mogla bi to promijeniti.
Tvrtka je ovaj tjedan detaljno opisala svoje "ai_parse_document" tehnologija, sada integrirana s platformom Agent Bricks tvrtke Databricks. Tehnologija rješava kritično usko grlo u usvajanju umjetne inteligencije u poduzećima: Otprilike 80% znanja poduzeća ostaje zaključano u PDF-ovima, izvješćima i dijagramima koje sustavi umjetne inteligencije teško mogu precizno obraditi i razumjeti.
"Uobičajena je pretpostavka da je raščlanjivanje PDF-ova riješen problem, ali u stvarnosti nije," Erich Elsen, glavni istraživač u Databricksu, rekao je za VentureBeat. "Izazov nije samo u tome što su dokumenti nestrukturirani; to je da su poslovni PDF-ovi sami po sebi složeni. Oni miješaju izvorni digitalni sadržaj sa skeniranim stranicama i fotografijama fizičkih dokumenata, uz tablice, grafikone i nepravilne izglede, a većina postojećih alata ne uspijeva točno uhvatiti te informacije."
Sadržaj objave
Skrivena složenost iza analize dokumenta
Dok optičko prepoznavanje znakova (OCR) postoji već desetljećima, Elsen tvrdi da izvlačenje upotrebljivih, strukturiranih podataka iz poslovnih dokumenata stvarnog svijeta ostaje u osnovi neriješeno.
Ključne elemente kao što su tablice sa spojenim ćelijama, naslove slika i prostorne odnose između elemenata dokumenta postojeći alati rutinski ispuštaju ili pogrešno čitaju, čineći nizvodne AI aplikacije, sustave generiranja s proširenim dohvaćanjem (RAG) ili nadzorne ploče poslovne inteligencije nepouzdanima.
Tipično poslovno rješenje bilo je slaganje više nesavršenih alata zajedno: jedna usluga za otkrivanje izgleda, druga za OCR, treća za izdvajanje tablice, kao i dodatni API-ji za analizu slika. Ovaj pristup zahtijeva mjesece prilagođenog inženjeringa podataka i tekućeg održavanja kako se formati dokumenata razvijaju.
"Da bi to kompenzirali, timovi su morali složiti više nesavršenih alata ili izgraditi opsežne prilagođene cjevovode, trošeći mjesece na podatkovni inženjering umjesto na inovacije," rekao je Elsen. "ai_parse_document to rješava izvlačenjem potpunih, strukturiranih podataka iz dokumenata stvarnog svijeta — tako da organizacije konačno mogu vjerovati i postavljati upite nestrukturiranim podacima izravno unutar Databricks."
Tehnički pristup: obuka od kraja do kraja u odnosu na slaganje cjevovoda
Danas na tržištu postoji više usluga za analizu PDF-ova, uključujući AWS Texttract, Google Document AI i Azure Document Intelligence, između ostalih. Elsen je tvrdio da umjesto samo čitanja teksta, alat koristi sustav modernih komponenti umjetne inteligencije obučenih od kraja do kraja za izdvajanje strukturiranog konteksta s najsuvremenijom kvalitetom.
Funkcija nadilazi osnovnu ekstrakciju za snimanje:
-
Tablice sačuvane točno onako kako se pojavljuju, uključujući spojene ćelije i ugniježđene strukture
-
Slike i dijagrami s natpisima i opisima koje je generirala umjetna inteligencija
-
Prostorni metapodaci i granični okviri za preciznu lokaciju elementa
-
Izborni izlaz slike za multimodalne aplikacije pretraživanja
Svi rezultati pohranjuju se izravno u Databricks Unity Catalog kao Delta tablice, što znači da raščlanjeni dokumenti postaju strukturirani podaci za upite bez napuštanja Databricks okruženja. Ovo je ključna razlika od usluga u oblaku koje zahtijevaju izvoz podataka za obradu.
"Kroz obuku usmjerenu na podatke i optimizirano zaključivanje, postigli smo 3-5 puta nižu cijenu dok smo se podudarali ili premašili vodeće sustave kao što su Texttract, Document AI i Azure Document Intelligence," rekao je Elsen.
Rano prihvaćanje poduzeća u proizvodnim i industrijskim sektorima
Nekoliko većih poduzeća već je implementiralo ai_parse_document u proizvodnju sa slučajevima korištenja koji obuhvaćaju optimizaciju tijeka rada podataka, demokratizaciju obrade dokumenata i razvoj RAG aplikacija.
Na primjer, Elsen je primijetio da Rockwell Automation koristi ai_parse_document za smanjenje opterećenja konfiguracije za svoje znanstvenike podataka.
"Ono što je nekada zahtijevalo značajne postavke za podršku složenim rješenjima sada je pojednostavljeno, dopuštajući njihovim timovima da provode više vremena na inovacijama, a manje vremena na upravljanju infrastrukturom," rekao je.
TE Connectivity, u međuvremenu, koristi ai_parse_document za demokratizaciju obrade nestrukturiranih podataka.
"Prethodno je izdvajanje tablica, teksta i metapodataka iz dokumenata zahtijevalo složene tijekove rada s kodovima," rekao je Elsen. "Uz Databricks, sve su to kondenzirali u jednu SQL funkciju, čineći naprednu obradu dokumenata dostupnom svakom timu za podatke, a ne samo znanstvenicima koji se bave podacima."
Emerson Electric još je jedan rani usvojitelj. Tvrtka koristi ai_parse_document za RAG slučaj upotrebe. Elsen je objasnio da je omogućavanjem paralelnog parsiranja dokumenata izravno unutar Delta tablica Emerson napravio izradu RAG aplikacija i brzom i jednostavnom, a sve unutar svog postojećeg okruženja Databricks.
Igra integracije platforme
Iako Databricks ima dugu povijest s otvorenim kodom, tehnologija ai_parse_document vlasnička je komponenta platforme Databricks.
Za razliku od samostalnih API-ja za inteligenciju dokumenata, ai_parse_document duboko je integriran s Databricksovom platformom Agent Bricks, koja je zbirka AI funkcija i mogućnosti orkestracije za izgradnju proizvodnih AI agenata.
Funkcija radi s Databricksovom širom podatkovnom infrastrukturom, uključujući:
-
Spark deklarativni cjevovodi: Osigurajte automatsku inkrementalnu obradu, što znači da se novi dokumenti koji stižu u SharePoint, S3 ili Azure Data Lake Storage analiziraju automatski bez ručne orkestracije.
-
Jedinstveni katalog: Upravlja dopuštenjima, revizijskim stazama i poretkom podataka za raščlanjeni sadržaj točno kao što to čini za strukturirane podatke.
-
Pretraživanje vektora: Indeksira raščlanjene elemente dokumenta uključujući tekst, tablice i slike s opisima za multimodalne RAG aplikacije.
-
Ulančavanje funkcija umjetne inteligencije: Omogućuje programerima slanje ai_parse_document izlaza izravno u ai_extract (ekstrakcija entiteta), ai_classify (kategorizacija dokumenta) i ai_summarize (sažimanje sadržaja) unutar jednog SQL upita.
-
Supervizor više agenata: Koordinira agente za obradu dokumenata s drugim specijaliziranim agentima za složene tijekove rada.
"Raščlanjivanje je samo početak i rijetko kraj za sebe," rekao je Elsen. "Cilj je omogućiti klijentima da u lancu povežu naše ai_functions, kao što su ai_extract i ai_classify, zajedno s ai_parse_documentom kako bi svoje dokumente pretvorili u podatke i uvide koji mogu djelovati. Također nam je cilj učiniti besprijekornim pretvaranje korpusa dokumenata u bazu podataka znanja za korištenje u RAG-u ili drugim agentima za pronalaženje informacija."
Što to znači za strategiju umjetne inteligencije poduzeća
Za poduzeća koja grade agentske sustave AI, ključno je razumjeti kako se PDF dokumenti zapravo koriste i razumiju u sustavima.
Pristup Databricks baca novo svjetlo na problem koji su mnogi mogli smatrati riješenim problemom. Izaziva postojeća očekivanja s novom arhitekturom koja bi mogla koristiti više vrsta radnih procesa. Međutim, ovo je mogućnost specifična za platformu koja zahtijeva pažljivu procjenu za organizacije koje već ne koriste Databricks.
Za donositelje tehničkih odluka koji procjenjuju platforme AI agenata, ključni zaključak je da se inteligencija dokumenata pomiče sa specijalizirane vanjske usluge na sposobnost integrirane platforme.



