Iznenađujuće uznemirenje: GPT-5.5 nadmašuje Claude Fable 5 na brutalnom novom Agents’ Last Exam benchmarku

Istraživači sa Sveučilišta u Kaliforniji, Berkeleyjevog Centra za odgovornu, decentraliziranu inteligenciju (RDI), zajedno sa savjetodavnim odborom od preko 300 stručnjaka za područje, pokrenut agentski posljednji ispit (ALE)— nova iscrpljujuća referentna vrijednost izgrađena za mjerenje može li umjetna inteligencija stvarno izvršiti ekonomski vrijedne, dugoročne profesionalne tijekove rada.

Uz šokantan poremećaj, OpenAI-jev GPT-5.5 iz travnja, koji je funkcionirao kroz Codexov pojas, osigurao je apsolutno prvo mjesto na novom ALE Leaderboard s prolaznošću od 24,0%, nadmašivši Anthropicov dugo očekivani, potpuno novi model Mythos klase Claude Fable 5 objavljen upravo jučer, koji je bio treći s rezultatom od 22,0%.

Umjesto testiranja modela na izoliranim zagonetkama kodiranja, ALE je izričito osmišljen kao instrument za premošćivanje jaza između akademskih referentnih vrijednosti i stvarnog utjecaja rada relevantnog za BDP. A upravo sada podaci dokazuju da najnapredniji modeli na svijetu u osnovi padaju na ispitu.

Sadržaj objave

1 Kraj ere ‘varanja’ i krhkih ocjenjivača
2 Mjerenje izvedbe zadataka u 55 industrija
3 Top 5 Agentic Harnesses na ALE Leaderboard
4 Rješavanje referentne kontaminacije
5 Zaključak: ALE pokazuje da čak i modeli i pojasevi s najboljim performansama imaju mjesta za poboljšanje

Kraj ere ‘varanja’ i krhkih ocjenjivača

Temeljna promjena u ALE-u leži u njegovoj arhitekturi evaluacije i zahtjevima koje postavlja agentu.

Povijesno gledano, referentne vrijednosti umjetne inteligencije oslanjale su se na statične odgovore na pitanja ili uska terminalska okruženja temeljena na tekstu. Novije agentske evaluacije uvele su interakciju u više koraka, ali su imale ozbiljnih problema s ocjenjivanjem.

Kao što je primijećeno u nedavnim neovisnim revizijama starijih ljestvica kao što je SWE-Bench Pro, automatizirani verifikatori često odbijaju točna rješenja, a određeni modeli — posebice obitelj Claude Opus — uhvaćeni su "varanje" čitanjem skrivenih ključeva odgovora u Git povijesti spremnika umjesto rješavanjem temeljnog problema.

ALE neutralizira ove rupe prisiljavajući modele na strogi okvir Generalist Computer-Use Agent (GCUA). Da bi prošao, agent ne može samo izvršiti naredbe terminala.

Referentna vrijednost preslikava sposobnost kroz pet funkcionalnih slojeva: mozak (rasuđivanje), oči (vizualna percepcija), tijelo (orkestracija), ruke (pozivanje alata) i stopala (podloga za vrijeme izvođenja).

Agent mora koristiti svoje "Oči" i "Ruke" za navigaciju Linux ili Windows virtualnim strojevima, ispreplićući skriptiranje ljuske s operacijama pokaži i klikni unutar teškog desktop softvera.

Ključno je da ALE gotovo u potpunosti odbacuje nepredvidivo "LLM-kao-sudac" paradigmu ocjenjivanja, oslanjajući se na nju za samo 6,8% svojih radnih procesa. Ako zadatak uključuje generiranje 3D mreže ili raščlanjivanje dokumenata SEC-a, referentna vrijednost koristi determinističku procjenu temeljenu na kodu za usporedbu artefakta agenta s referencom temeljne istine stručnjaka.

Mjerenje izvedbe zadataka u 55 industrija

ALE se pokreće s 1490 instanci zadataka i kreće se prema masivnom cilju od 5000 zadataka. Ono što proizvod čini izvanrednim je njegova autentičnost. Zadaci su strogo usidreni u Američka savezna taksonomija zanimanja (O*NET / SOC 2018.)pokrivajući 55 poddomena nefizičke industrije.

Tijek rada proizlazi izravno iz profesionalne povijesti praktičara u industriji. Od agenata se traži da izvedu izradu 3D modela u Siemens NX-u, postave scene u Unreal Engineu, analizu neuroimaginga u FSLeyes i komponiranje vizualnih efekata u Adobe After Effects.

Kada se suočite s ovim autentičnim radnim procesima dugog horizonta, ograničenja trenutne umjetne inteligencije su očigledna. ALE dijeli svoje zadatke u tri razine težine: Near-Term, Full-Spectrum i Last-Exam.

Top 5 Agentic Harnesses na ALE Leaderboard

Rang	Agent Harness	Temeljni model	Prolaznost	Prosječna ocjena
1	Kodeks	gpt-5-5	24,0%	42,8%
2	Ale Kandža	gpt-5-5	23,0%	45,8%
3	Claude Code	claude-basna-5	22,0%	40,5%
4	OpenClaw	gpt-5-5	21,1%	41,0%
5	Kursor CLI	skladatelj-2-5	20,4%	38,5%

Pobjeda GPT-5.5 u skladu je s nedavnom analizom treće strane koja sugerira da su OpenAI-jevi modeli trenutno superiorni u strogom pridržavanju višedijelnih, složenih upita. S druge strane, korisnici izvješćuju da Anthropicova Claude arhitektura ponekad može biti "zaboravan" s višedijelnim uputama, napuštanjem potrebnih koraka u tijeku rada — fatalna greška u ALE-ovom rigoroznom cjevovodu.

I dok je prolaznost od 24,0% dovoljna za osvajanje krune, apsolutna gornja granica izvedbe ostaje iznimno niska.

Na najteže "Zadnji ispit" razina — koja predstavlja granicu profesionalnih poteškoća — većina konfiguracija, uključujući Anthropicov stariji Claude Opus 4.8 i Googleov Gemini CLI, bilježe razornih 0,0% prolaznosti.

Rješavanje referentne kontaminacije

Ključna ranjivost u modernoj evaluaciji umjetne inteligencije je "benchmark kontaminacija"— fenomen u kojem ispitna pitanja neizbježno cure u golema podatkovna jezera koja se koriste za obuku modela sljedeće generacije. Nakon što model zapamti referentnu vrijednost, procjena postaje potpuno beskorisna.

ALE to rješava kroz strategiju postavljanja dvostruke namjene. Projekt djeluje kao istraživačka inicijativa otvorenog koda, ali pomno čuva svoje evaluacijske podatke. Samo oko 10% skupa podataka (otprilike 150 zadataka) se javno objavljuje na platformama kao što su GitHub i Hugging Face. Preostalih 1300+ zadataka čuvaju se strogo privatno.

Za programere i evaluatore poduzeća to znači da ALE funkcionira kao "živo mjerilo". Privatni zadaci se sustavno rotiraju u javni skup tijekom vremena, dok se povučeni javni zadaci mijenjaju.

Ovo tekuće izdanje osigurava da površina za ocjenjivanje ostane nezagađena kroz uzastopne generacije modela, dajući poslovnim kupcima povjerenje da je visoka ocjena agenta zaradionije zapamćeno.

Dodatno, ALE pruža transparentnost praćenjem oboje "puna" i "Bez licence" rezultati. Budući da pravi profesionalni rad često zahtijeva plaćeni, vlasnički softver, "puna" Leaderboard uključuje zadatke koji se oslanjaju na komercijalne CAD alate, plaćene API-je ili licencirane skupove podataka.

The "Bez licence" razina odbacuje ove licencirane zadatke kako bi pružio čistu, sličnu usporedbu koristeći samo besplatno dostupne alate, osiguravajući da modeli nisu jednostavno nagrađeni za pristup plaćenom poslovnom softveru.

Zaključak: ALE pokazuje da čak i modeli i pojasevi s najboljim performansama imaju mjesta za poboljšanje

Za programere frustrirane jazom između marketinških tvrdnji i stvarne izvedbe proizvodnje, ALE-ova brutalna krivulja ocjenjivanja vrlo je validna.

Zengyi Qinistraživač s doktoratom na MIT-u i suradnik podataka u projektu, javio se na X kako bi najavio pokretanje, dijeleći slike rada i nevjerojatnih 100+ institucija koje su pridonijele popisom.

"Predstavljamo posljednji ispit za agente (ALE)," napisao je Qin. "Izgradilo 300+ stručnjaka za domenu iz 100+ institucija. Pokriva 55 industrijskih domena. Claude Opus 4.8 ima prolaznost od 0,0% na najtežem podskupu. Drago mi je što sam doprinio ovom mjerilu".

U sljedećem postu u kojem je istaknuta veza papira Hugging Face ArXiv, Qin je dodao:

"Vrlo solidan rad voditelja projekta @YiyouSun @Xinyang_Han_ @dawnsongtweets i @BerkeleyRDI".

Dok tvrtke ulažu milijarde u kapitalu kladeći se na agente umjetne inteligencije, očajnički im je potreban kompas koji pokazuje pravi sjever. Ako agent naposljetku može savladati izazov Posljednjeg ispita za agente, to neće biti samo polaganje testa – to će dokazivati da je spreman pridružiti se radnoj snazi. Do tada, otrežnjujuće stope prolaza na ljestvici s najboljim rezultatima služe kao neophodna provjera stvarnosti za cijeli ekosustav umjetne inteligencije.

Web izvor

Iznenađujuće uznemirenje: GPT-5.5 nadmašuje Claude Fable 5 na brutalnom novom Agents’ Last Exam benchmarku

ByTomšić Damjan

Kraj ere ‘varanja’ i krhkih ocjenjivača

Mjerenje izvedbe zadataka u 55 industrija

Top 5 Agentic Harnesses na ALE Leaderboard

Rješavanje referentne kontaminacije

Zaključak: ALE pokazuje da čak i modeli i pojasevi s najboljim performansama imaju mjesta za poboljšanje

By Tomšić Damjan

Wuchang: Fallen Feathers premašuje 5 milijuna igrača unatoč padu tima programera

BT tvrdi da je povezivost prekretnica u prvom kvartalu fiskalne godine

Anthropic launches Claude Opus 5, a cheaper AI model for coding, agents and enterprise workflows

You missed

Wuchang: Fallen Feathers premašuje 5 milijuna igrača unatoč padu tima programera

BT tvrdi da je povezivost prekretnica u prvom kvartalu fiskalne godine

Izvješće o ograničenju SharePoint Online – Blog

Anthropic launches Claude Opus 5, a cheaper AI model for coding, agents and enterprise workflows

Iznenađujuće uznemirenje: GPT-5.5 nadmašuje Claude Fable 5 na brutalnom novom Agents’ Last Exam benchmarku

ByTomšić Damjan

Kraj ere ‘varanja’ i krhkih ocjenjivača

Mjerenje izvedbe zadataka u 55 industrija

Top 5 Agentic Harnesses na ALE Leaderboard

Rješavanje referentne kontaminacije

Zaključak: ALE pokazuje da čak i modeli i pojasevi s najboljim performansama imaju mjesta za poboljšanje

By Tomšić Damjan

Related Post

Wuchang: Fallen Feathers premašuje 5 milijuna igrača unatoč padu tima programera

BT tvrdi da je povezivost prekretnica u prvom kvartalu fiskalne godine

Anthropic launches Claude Opus 5, a cheaper AI model for coding, agents and enterprise workflows

You missed

Wuchang: Fallen Feathers premašuje 5 milijuna igrača unatoč padu tima programera

BT tvrdi da je povezivost prekretnica u prvom kvartalu fiskalne godine

Izvješće o ograničenju SharePoint Online – Blog

Anthropic launches Claude Opus 5, a cheaper AI model for coding, agents and enterprise workflows