Databricksov OfficeQA otkriva prekid veze: AI agenti uspješno izvode apstraktne testove, ali se zadržavaju na 45% na dokumentima poduzeća
Danas na tržištu nema manjka AI mjerila, s popularnim opcijama poput Posljednji ispit čovječanstva (HLE), ARC-AGI-2 i GDPval, među brojnim drugima. Agenti umjetne inteligencije izvrsni su u rješavanju apstraktnih matematičkih…