Databricksov OfficeQA otkriva prekid veze: AI agenti uspješno izvode apstraktne testove, ali se zadržavaju na 45% na dokumentima poduzeća

Danas na tržištu nema manjka AI mjerila, s popularnim opcijama poput Posljednji ispit čovječanstva (HLE), ARC-AGI-2 i GDPval, među brojnim drugima.

Agenti umjetne inteligencije izvrsni su u rješavanju apstraktnih matematičkih problema i polaganju doktorskih ispita na kojima se temelji većina mjerila, ali Databricks ima pitanje za poduzeće: mogu li se oni zapravo nositi s poslom opterećenim dokumentima koji većina poduzeća treba od njih?

Odgovor je, prema novom istraživanju tvrtke za podatkovnu i AI platformu, otrežnjujući. Čak i AI agenti s najboljim performansama postižu manje od 45% točnosti na zadacima koji odražavaju stvarna radna opterećenja poduzeća, otkrivajući kritični jaz između akademskih mjerila i poslovne stvarnosti.

"Ako svoje istraživačke napore usmjerimo na poboljšanje [existing benchmarks]onda vjerojatno ne rješavamo prave probleme kako bismo Databricks učinili boljom platformom," Erich Elsen, glavni istraživač u Databricksu, objasnio je za VentureBeat. "Zato smo tražili okolo. Kako možemo stvoriti mjerilo da, ako postanemo bolji u tome, zapravo postajemo bolji u rješavanju problema koje imaju naši klijenti?"

Rezultat je OfficeQA, referentna vrijednost dizajnirana za testiranje agenata umjetne inteligencije na temelju utemeljenog razmišljanja: odgovaranje na pitanja temeljena na složenim vlasničkim skupovima podataka koji sadrže nestrukturirane dokumente i tablične podatke. Za razliku od postojećih mjerila koja se fokusiraju na apstraktne sposobnosti, OfficeQA predstavlja zamjenu za ekonomski vrijedne zadatke koje poduzeća stvarno obavljaju.

Sadržaj objave

1 Zašto akademska mjerila promašuju oznaku poduzeća
2 Izgradnja referentne vrijednosti koja odražava složenost dokumenata poduzeća
3 Trenutačna izvedba otkriva temeljne nedostatke
4 Tri nalaza koja su važna za implementaciju poduzeća
5 Kako poduzeća mogu koristiti OfficeQA
6 Što to znači za implementacije umjetne inteligencije u poduzećima
- 6.1 Povezani sadržaji

Zašto akademska mjerila promašuju oznaku poduzeća

Postoje brojni nedostaci popularnih AI benchmarkova iz perspektive poduzeća, prema Elsenu.

HLE sadrži pitanja koja zahtijevaju stručnost na doktorskoj razini u različitim područjima. ARC-AGI procjenjuje apstraktno razmišljanje kroz vizualnu manipulaciju rešetkama u boji. Oba pomiču granice AI mogućnosti, ali ne odražavaju svakodnevni rad poduzeća. Čak i GDPval, koji je posebno stvoren za procjenu ekonomski korisnih zadataka, promašuje cilj.

"Dolazimo iz prilično teške znanosti ili inženjerstva, a ponekad stvaramo ocjene koje odražavaju to," rekao je Elsen. " Dakle, ili su izuzetno zahtjevni za matematiku, što je izvrstan, koristan zadatak, ali unaprjeđenje granica ljudske matematike nije ono što kupci pokušavaju učiniti s Databrickom."

Dok se AI obično koristi za korisničku podršku i aplikacije za kodiranje, Databricksova baza korisnika ima širi skup zahtjeva. Elsen je primijetio da je odgovaranje na pitanja o dokumentima ili korpusu dokumenata uobičajen zadatak poduzeća. Oni zahtijevaju raščlanjivanje složenih tablica s ugniježđenim zaglavljima, dohvaćanje informacija u desecima ili stotinama dokumenata i izvođenje izračuna gdje jednoznamenkasta pogreška može dovesti do toga da organizacije donose netočne poslovne odluke.

Izgradnja referentne vrijednosti koja odražava složenost dokumenata poduzeća

Za stvaranje smislenog testa sposobnosti utemeljenog zaključivanja, Databricks je trebao skup podataka koji približno odgovara neurednoj stvarnosti vlasničkih korpusa dokumenata poduzeća, a da pritom ostane slobodno dostupan za istraživanje. Tim je došao do biltena Državne riznice SAD-a, koji su se objavljivali mjesečno tijekom pet desetljeća počevši od 1939., a nakon toga kvartalno.

Bilteni Trezora provjeravaju svaki okvir za složenost poslovnih dokumenata. Svaki bilten ima 100 do 200 stranica i sastoji se od proze, složenih tablica, dijagrama i slika koje opisuju operacije Ministarstva financija: odakle je savezni novac došao, kamo je otišao i kako je financirao vladine operacije. Korpus se proteže na približno 89 000 stranica kroz osam desetljeća. Do 1996. bilteni su bili skenovi fizičkih dokumenata; nakon toga su digitalno izrađeni PDF-ovi. USAFacts, organizacija čija je misija "kako bi državni podaci bili lakši za pristup i razumijevanje," u partnerstvu s tvrtkom Databricks radi razvoja referentne vrijednosti, identificirajući Treasury Bulletins kao idealne i osiguravajući da pitanja odražavaju realne slučajeve upotrebe.

246 pitanja zahtijevaju od agenata da se nose s neurednim dokumentima iz stvarnog svijeta: skenirane slike, hijerarhijske strukture tablica, vremenski podaci koji obuhvaćaju više izvješća i potreba za vanjskim znanjem poput prilagodbi inflacije. Pitanja se kreću od jednostavnih traženja vrijednosti do analize u više koraka koja zahtijeva statističke izračune i međugodišnje usporedbe.

Kako bi se osiguralo da referentna vrijednost zahtijeva stvarno pronalaženje temeljeno na dokumentima, Databricks je filtrirao pitanja na koja bi doktori LLM-a mogli odgovoriti korištenjem parametarskog znanja ili samo pretraživanja weba. Ovo je uklonilo jednostavnija pitanja i neka iznenađujuće složena u kojima su modeli koristili povijesne financijske podatke zapamćene tijekom prethodne obuke.

Svako pitanje ima potvrđen temeljni istinit odgovor (obično broj, ponekad datume ili male popise), što omogućuje automatiziranu procjenu bez ljudskog prosuđivanja. Ovaj izbor dizajna je bitan: omogućuje pristupe učenju s pojačanjem (RL) koji zahtijevaju provjerljive nagrade, slično načinu na koji se modeli vježbaju na problemima kodiranja.

Trenutačna izvedba otkriva temeljne nedostatke

Databricks je testirao Claude Opus 4.5 Agent (koristeći Claudeov SDK) i GPT-5.1 Agent (koristeći OpenAI File Search API). Rezultati bi trebali zaustaviti svako poduzeće koje se snažno kladi na trenutne sposobnosti agenata.

Kada se isporučuju neobrađeni PDF dokumenti:

Claude Opus 4.5 Agent (sa zadanim razmišljanjem = visoko) postigao je 37,4% točnosti.
GPT-5.1 agent (s reasoning_effort=high) postigao je 43,5% točnosti.

Međutim, izvedba se primjetno poboljšala kada je uz prethodno raščlanjene verzije stranica pomoću Databricks ai_parse_documentšto ukazuje da loša izvedba sirovog PDF-a proizlazi iz LLM API-ja koji se bore s raščlanjivanjem, a ne s obrazloženjem. Čak i s analiziranim dokumentima, eksperimenti pokazuju prostor za poboljšanje.

Kada se dobiju dokumenti raščlanjeni pomoću Databricksovog ai_parse_documenta:

Claude Opus 4.5 Agent postigao je točnost od 67,8% (poboljšanje od +30,4 postotna boda)
GPT-5.1 Agent postigao je točnost od 52,8% (poboljšanje od +9,3 postotna boda)

Tri nalaza koja su važna za implementaciju poduzeća

Testiranje je identificiralo kritične uvide za praktičare:

Raščlanjivanje ostaje temeljni bloker: Složene tablice s ugniježđenim zaglavljima, spojenim ćelijama i neobičnim oblikovanjem često proizvode neusklađene vrijednosti. Čak i kada su im dane točne stranice oraclea, agenti su se mučili prvenstveno zbog pogrešaka u raščlanjivanju, iako se izvedba otprilike udvostručila s unaprijed raščlanjenim dokumentima.

Verzija dokumenta stvara dvosmislenost: Financijski i regulatorni dokumenti se revidiraju i ponovno izdaju, što znači da postoji više valjanih odgovora ovisno o datumu objave. Agenti često prestaju tražiti nakon što pronađu uvjerljiv odgovor, propuštajući autoritativnije izvore.

Vizualno rasuđivanje je praznina: Oko 3% pitanja zahtijevaju tumačenje dijagrama ili grafikona, pri čemu trenutni agenti stalno ne uspijevaju. Za poduzeća u kojima vizualizacije podataka komuniciraju kritične uvide, ovo predstavlja značajno ograničenje mogućnosti.

Kako poduzeća mogu koristiti OfficeQA

Dizajn mjerila omogućuje specifične putove poboljšanja izvan jednostavnog bodovanja.

"Budući da možete pogledati točan odgovor, lako je reći dolazi li pogreška od analize," objasnio je Elsen.

Ova automatizirana procjena omogućuje brzu iteraciju na cjevovodima parsiranja. Verificirani odgovori temeljene istine također omogućuju RL obuku sličnu mjerilima kodiranja, budući da nije potrebna ljudska prosudba.

Elsen je rekao da mjerilo pruža "stvarno jak povratni signal" za programere koji rade na rješenjima za pretraživanje. Međutim, upozorio je da se to ne tretira kao podaci o obuci.

"Barem u mojoj mašti, cilj objavljivanja ovog je više kao procjena, a ne kao izvor sirovih podataka o obuci," rekao je. "Ako se previše specifično prilagodite ovom okruženju, tada nije jasno koliko bi rezultati vašeg agenta bili generalizirajući."

Što to znači za implementacije umjetne inteligencije u poduzećima

Za poduzeća koja trenutno postavljaju ili planiraju agentske sustave s velikim brojem dokumenata, OfficeQA pruža otrežnjujuću provjeru stvarnosti. Čak i najnoviji granični modeli postižu samo 43% točnosti na neobrađenim PDF-ovima i zaostaju za 70% točnosti čak i uz optimalnu analizu dokumenta. Uspješnost na najtežim pitanjima iznosi 40%, što ukazuje na značajan prostor za poboljšanje.

Tri neposredne implikacije:

Procijenite složenost svog dokumenta: Ako vaši dokumenti sliče profilu složenosti Biltena riznice (skenirane slike, ugniježđene strukture tablica, unakrsne reference dokumenata), očekujte točnost daleko ispod marketinških tvrdnji dobavljača. Testirajte na svojim stvarnim dokumentima prije postavljanja u proizvodnju.

Plan za usko grlo analize: Rezultati testa pokazuju da parsiranje ostaje temeljni blokator. Predvidite vrijeme i resurse za prilagođena rješenja za raščlanjivanje umjesto pretpostavke da će OCR biti dovoljan.

Planirajte načine neuspjeha teških pitanja: Čak i uz optimalno analiziranje, agenti se zadržavaju na 40% na složenim pitanjima u više koraka. Za tijekove rada s dokumentima koji su kritični za misiju i koji zahtijevaju analizu više dokumenata, statističke izračune ili vizualno razmišljanje, trenutne sposobnosti agenta možda neće biti spremne bez značajnog ljudskog nadzora.

Za poduzeća koja žele biti vodeći u inteligenciji dokumenata temeljenoj na umjetnoj inteligenciji, ovo mjerilo pruža konkretan okvir za procjenu i identificira specifične nedostatke u sposobnostima koje je potrebno riješiti.

Web izvor