Oblak Znanja

  • Home
  • Novosti
  • Učionica
    • Informatika 5
    • Informatika 6
    • Informatika 7
    • Informatika 8
    • Logo jezik
    • WordPress
    • Microsoft Office
  • Vodiči
    • Online vodiči
    • Kratki savjeti
    • Korisne aplikacije
    • Društvene mreže
    • Multimedija
    • Zanimljivosti
✕

Databricksov OfficeQA otkriva prekid veze: AI agenti uspješno izvode apstraktne testove, ali se zadržavaju na 45% na dokumentima poduzeća

Novosti

Databricksov OfficeQA otkriva prekid veze: AI agenti uspješno izvode apstraktne testove, ali se zadržavaju na 45% na dokumentima poduzeća

Tomšić Damjan 9. prosinca 2025

Danas na tržištu nema manjka AI mjerila, s popularnim opcijama poput Posljednji ispit čovječanstva (HLE), ARC-AGI-2 i GDPval, među brojnim drugima.

Agenti umjetne inteligencije izvrsni su u rješavanju apstraktnih matematičkih problema i polaganju doktorskih ispita na kojima se temelji većina mjerila, ali Databricks ima pitanje za poduzeće: mogu li se oni zapravo nositi s poslom opterećenim dokumentima koji većina poduzeća treba od njih?

Odgovor je, prema novom istraživanju tvrtke za podatkovnu i AI platformu, otrežnjujući. Čak i AI agenti s najboljim performansama postižu manje od 45% točnosti na zadacima koji odražavaju stvarna radna opterećenja poduzeća, otkrivajući kritični jaz između akademskih mjerila i poslovne stvarnosti.

"Ako svoje istraživačke napore usmjerimo na poboljšanje [existing benchmarks]onda vjerojatno ne rješavamo prave probleme kako bismo Databricks učinili boljom platformom," Erich Elsen, glavni istraživač u Databricksu, objasnio je za VentureBeat. "Zato smo tražili okolo. Kako možemo stvoriti mjerilo da, ako postanemo bolji u tome, zapravo postajemo bolji u rješavanju problema koje imaju naši klijenti?"

Rezultat je OfficeQA, referentna vrijednost dizajnirana za testiranje agenata umjetne inteligencije na temelju utemeljenog razmišljanja: odgovaranje na pitanja temeljena na složenim vlasničkim skupovima podataka koji sadrže nestrukturirane dokumente i tablične podatke. Za razliku od postojećih mjerila koja se fokusiraju na apstraktne sposobnosti, OfficeQA predstavlja zamjenu za ekonomski vrijedne zadatke koje poduzeća stvarno obavljaju.

Sadržaj objave

  • 1 Zašto akademska mjerila promašuju oznaku poduzeća
  • 2 Izgradnja referentne vrijednosti koja odražava složenost dokumenata poduzeća
  • 3 Trenutačna izvedba otkriva temeljne nedostatke
  • 4 Tri nalaza koja su važna za implementaciju poduzeća
  • 5 Kako poduzeća mogu koristiti OfficeQA
  • 6 Što to znači za implementacije umjetne inteligencije u poduzećima
    • 6.1 Povezani sadržaji

Zašto akademska mjerila promašuju oznaku poduzeća

Postoje brojni nedostaci popularnih AI benchmarkova iz perspektive poduzeća, prema Elsenu.

HLE sadrži pitanja koja zahtijevaju stručnost na doktorskoj razini u različitim područjima. ARC-AGI procjenjuje apstraktno razmišljanje kroz vizualnu manipulaciju rešetkama u boji. Oba pomiču granice AI mogućnosti, ali ne odražavaju svakodnevni rad poduzeća. Čak i GDPval, koji je posebno stvoren za procjenu ekonomski korisnih zadataka, promašuje cilj.

"Dolazimo iz prilično teške znanosti ili inženjerstva, a ponekad stvaramo ocjene koje odražavaju to," rekao je Elsen. " Dakle, ili su izuzetno zahtjevni za matematiku, što je izvrstan, koristan zadatak, ali unaprjeđenje granica ljudske matematike nije ono što kupci pokušavaju učiniti s Databrickom."

Dok se AI obično koristi za korisničku podršku i aplikacije za kodiranje, Databricksova baza korisnika ima širi skup zahtjeva. Elsen je primijetio da je odgovaranje na pitanja o dokumentima ili korpusu dokumenata uobičajen zadatak poduzeća. Oni zahtijevaju raščlanjivanje složenih tablica s ugniježđenim zaglavljima, dohvaćanje informacija u desecima ili stotinama dokumenata i izvođenje izračuna gdje jednoznamenkasta pogreška može dovesti do toga da organizacije donose netočne poslovne odluke.

Izgradnja referentne vrijednosti koja odražava složenost dokumenata poduzeća

Za stvaranje smislenog testa sposobnosti utemeljenog zaključivanja, Databricks je trebao skup podataka koji približno odgovara neurednoj stvarnosti vlasničkih korpusa dokumenata poduzeća, a da pritom ostane slobodno dostupan za istraživanje. Tim je došao do biltena Državne riznice SAD-a, koji su se objavljivali mjesečno tijekom pet desetljeća počevši od 1939., a nakon toga kvartalno.

Bilteni Trezora provjeravaju svaki okvir za složenost poslovnih dokumenata. Svaki bilten ima 100 do 200 stranica i sastoji se od proze, složenih tablica, dijagrama i slika koje opisuju operacije Ministarstva financija: odakle je savezni novac došao, kamo je otišao i kako je financirao vladine operacije. Korpus se proteže na približno 89 000 stranica kroz osam desetljeća. Do 1996. bilteni su bili skenovi fizičkih dokumenata; nakon toga su digitalno izrađeni PDF-ovi. USAFacts, organizacija čija je misija "kako bi državni podaci bili lakši za pristup i razumijevanje," u partnerstvu s tvrtkom Databricks radi razvoja referentne vrijednosti, identificirajući Treasury Bulletins kao idealne i osiguravajući da pitanja odražavaju realne slučajeve upotrebe.

246 pitanja zahtijevaju od agenata da se nose s neurednim dokumentima iz stvarnog svijeta: skenirane slike, hijerarhijske strukture tablica, vremenski podaci koji obuhvaćaju više izvješća i potreba za vanjskim znanjem poput prilagodbi inflacije. Pitanja se kreću od jednostavnih traženja vrijednosti do analize u više koraka koja zahtijeva statističke izračune i međugodišnje usporedbe.

Kako bi se osiguralo da referentna vrijednost zahtijeva stvarno pronalaženje temeljeno na dokumentima, Databricks je filtrirao pitanja na koja bi doktori LLM-a mogli odgovoriti korištenjem parametarskog znanja ili samo pretraživanja weba. Ovo je uklonilo jednostavnija pitanja i neka iznenađujuće složena u kojima su modeli koristili povijesne financijske podatke zapamćene tijekom prethodne obuke.

Svako pitanje ima potvrđen temeljni istinit odgovor (obično broj, ponekad datume ili male popise), što omogućuje automatiziranu procjenu bez ljudskog prosuđivanja. Ovaj izbor dizajna je bitan: omogućuje pristupe učenju s pojačanjem (RL) koji zahtijevaju provjerljive nagrade, slično načinu na koji se modeli vježbaju na problemima kodiranja.

Trenutačna izvedba otkriva temeljne nedostatke

Databricks je testirao Claude Opus 4.5 Agent (koristeći Claudeov SDK) i GPT-5.1 Agent (koristeći OpenAI File Search API). Rezultati bi trebali zaustaviti svako poduzeće koje se snažno kladi na trenutne sposobnosti agenata.

Kada se isporučuju neobrađeni PDF dokumenti:

  • Claude Opus 4.5 Agent (sa zadanim razmišljanjem = visoko) postigao je 37,4% točnosti.

  • GPT-5.1 agent (s reasoning_effort=high) postigao je 43,5% točnosti.

Međutim, izvedba se primjetno poboljšala kada je uz prethodno raščlanjene verzije stranica pomoću Databricks ai_parse_documentšto ukazuje da loša izvedba sirovog PDF-a proizlazi iz LLM API-ja koji se bore s raščlanjivanjem, a ne s obrazloženjem. Čak i s analiziranim dokumentima, eksperimenti pokazuju prostor za poboljšanje.

Kada se dobiju dokumenti raščlanjeni pomoću Databricksovog ai_parse_documenta:

  • Claude Opus 4.5 Agent postigao je točnost od 67,8% (poboljšanje od +30,4 postotna boda)

  • GPT-5.1 Agent postigao je točnost od 52,8% (poboljšanje od +9,3 postotna boda)

Tri nalaza koja su važna za implementaciju poduzeća

Testiranje je identificiralo kritične uvide za praktičare:

Raščlanjivanje ostaje temeljni bloker: Složene tablice s ugniježđenim zaglavljima, spojenim ćelijama i neobičnim oblikovanjem često proizvode neusklađene vrijednosti. Čak i kada su im dane točne stranice oraclea, agenti su se mučili prvenstveno zbog pogrešaka u raščlanjivanju, iako se izvedba otprilike udvostručila s unaprijed raščlanjenim dokumentima.

Verzija dokumenta stvara dvosmislenost: Financijski i regulatorni dokumenti se revidiraju i ponovno izdaju, što znači da postoji više valjanih odgovora ovisno o datumu objave. Agenti često prestaju tražiti nakon što pronađu uvjerljiv odgovor, propuštajući autoritativnije izvore.

Vizualno rasuđivanje je praznina: Oko 3% pitanja zahtijevaju tumačenje dijagrama ili grafikona, pri čemu trenutni agenti stalno ne uspijevaju. Za poduzeća u kojima vizualizacije podataka komuniciraju kritične uvide, ovo predstavlja značajno ograničenje mogućnosti.

Kako poduzeća mogu koristiti OfficeQA

Dizajn mjerila omogućuje specifične putove poboljšanja izvan jednostavnog bodovanja.

"Budući da možete pogledati točan odgovor, lako je reći dolazi li pogreška od analize," objasnio je Elsen.

Ova automatizirana procjena omogućuje brzu iteraciju na cjevovodima parsiranja. Verificirani odgovori temeljene istine također omogućuju RL obuku sličnu mjerilima kodiranja, budući da nije potrebna ljudska prosudba.

Elsen je rekao da mjerilo pruža "stvarno jak povratni signal" za programere koji rade na rješenjima za pretraživanje. Međutim, upozorio je da se to ne tretira kao podaci o obuci.

"Barem u mojoj mašti, cilj objavljivanja ovog je više kao procjena, a ne kao izvor sirovih podataka o obuci," rekao je. "Ako se previše specifično prilagodite ovom okruženju, tada nije jasno koliko bi rezultati vašeg agenta bili generalizirajući."

Što to znači za implementacije umjetne inteligencije u poduzećima

Za poduzeća koja trenutno postavljaju ili planiraju agentske sustave s velikim brojem dokumenata, OfficeQA pruža otrežnjujuću provjeru stvarnosti. Čak i najnoviji granični modeli postižu samo 43% točnosti na neobrađenim PDF-ovima i zaostaju za 70% točnosti čak i uz optimalnu analizu dokumenta. Uspješnost na najtežim pitanjima iznosi 40%, što ukazuje na značajan prostor za poboljšanje.

Tri neposredne implikacije:

Procijenite složenost svog dokumenta: Ako vaši dokumenti sliče profilu složenosti Biltena riznice (skenirane slike, ugniježđene strukture tablica, unakrsne reference dokumenata), očekujte točnost daleko ispod marketinških tvrdnji dobavljača. Testirajte na svojim stvarnim dokumentima prije postavljanja u proizvodnju.

Plan za usko grlo analize: Rezultati testa pokazuju da parsiranje ostaje temeljni blokator. Predvidite vrijeme i resurse za prilagođena rješenja za raščlanjivanje umjesto pretpostavke da će OCR biti dovoljan.

Planirajte načine neuspjeha teških pitanja: Čak i uz optimalno analiziranje, agenti se zadržavaju na 40% na složenim pitanjima u više koraka. Za tijekove rada s dokumentima koji su kritični za misiju i koji zahtijevaju analizu više dokumenata, statističke izračune ili vizualno razmišljanje, trenutne sposobnosti agenta možda neće biti spremne bez značajnog ljudskog nadzora.

Za poduzeća koja žele biti vodeći u inteligenciji dokumenata temeljenoj na umjetnoj inteligenciji, ovo mjerilo pruža konkretan okvir za procjenu i identificira specifične nedostatke u sposobnostima koje je potrebno riješiti.

Web izvor

Povezani sadržaji

  • Besplatni VPN servisi za zaštitu vaše privatnosti
  • Pristupite svim Google računima uz višestruku prijavu
  • Online kupovina iz inozemstva i stranice slične eBayuOnline kupovina iz inozemstva i stranice slične eBayu
  • Kako skenirati IP adrese na vašoj mreži s LinuxomKako skenirati IP adrese na vašoj mreži s Linuxom
  • FEMA sada zahtijeva da žrtve katastrofe imaju adresu e -pošteFEMA sada zahtijeva da žrtve katastrofe imaju adresu e -pošte
  • Kako instalirati najnoviji Linux kernel na Ubuntu: 2 načinaKako instalirati najnoviji Linux kernel na Ubuntu: 2 načina

Previous Article

Po prvi put su mutacije u jednom genu povezane s mentalnom bolešću

Next Article

Cloudflare skrušen nakon najgoreg prekida rada od 2019

Posljednje objave

Želite spasiti svoje staro računalo? Isprobajte jednu od ovih 9 Linux distribucija – besplatno

T-Mobile će vam dati besplatan iPhone 17, nije potrebna zamjena – evo kako ga dobiti

Kako isključiti Googleov novi Pixel Notification Organizer

Kako isključiti Googleov novi Pixel Notification Organizer

Sadržaj

  • 1 Zašto akademska mjerila promašuju oznaku poduzeća
  • 2 Izgradnja referentne vrijednosti koja odražava složenost dokumenata poduzeća
  • 3 Trenutačna izvedba otkriva temeljne nedostatke
  • 4 Tri nalaza koja su važna za implementaciju poduzeća
  • 5 Kako poduzeća mogu koristiti OfficeQA
  • 6 Što to znači za implementacije umjetne inteligencije u poduzećima

Novosti

  • Želite spasiti svoje staro računalo? Isprobajte jednu od ovih 9 Linux distribucija – besplatno 10. prosinca 2025
  • T-Mobile će vam dati besplatan iPhone 17, nije potrebna zamjena – evo kako ga dobiti 10. prosinca 2025
  • Kako isključiti Googleov novi Pixel Notification Organizer 10. prosinca 2025
  • Ažuriranje Indiane Jonesa i Velikog kruga dodaje odjeću prikladnu za jesti ohlađeni majmunski mozak 10. prosinca 2025
  • Cloudflare skrušen nakon najgoreg prekida rada od 2019 10. prosinca 2025
  • Databricksov OfficeQA otkriva prekid veze: AI agenti uspješno izvode apstraktne testove, ali se zadržavaju na 45% na dokumentima poduzeća 9. prosinca 2025
  • Po prvi put su mutacije u jednom genu povezane s mentalnom bolešću 9. prosinca 2025
  • Snap naspram Flatpak-a: Kako odlučiti koji je Linux upravitelj paketa pravi za vas 9. prosinca 2025
  • Vidio sam budućnost Android XR pametnih naočala, a Google iza toga ima genijalan plan 9. prosinca 2025
  • Pixel 10 Pro kupujete samo ako je snižen 300 USD 9. prosinca 2025

O nama

Oblak Znanja je blog edukativnog karaktera i namijenjen je svima koji žele unaprijediti svoje znanje iz područja računala i interneta.

Naš cilj je edukacija i pisanje zanimljivih objava kojima ćemo zajedno učiti i informirati se o svijetu informatike.

Na ovom blogu zabranjeno je svako kopiranje sadržaja bez dozvole autora.

Oblak Znanja

Oznake

besplatni powerpoint predlošci društvene mreže excel facebook firefox gmail google+ Google Chrome halloween halloween walpapers internet kartice linkedin profil linux microsoft Mozilla Firefox ms powerpoint oblak znanja office 2007 office savjeti online kupovina pick powerpoint powerpoint predložak powerpoint savjeti rastući niz savjet slike za radnu površinu spremanje datoteka strani jezik tipkovnicke kratice twitter twitter alati uređivanje slika wallpaper clock web preglednik windows windows 7 windows aplikacije windows vista word word 2007 word savjeti youtube savjeti youtube tipkovničke kratice