DeepSWE diže u zrak ljestvicu najboljih kodiranja umjetne inteligencije, okrunjuje GPT-5.5 i pronalazi Claudea Opusa kako iskorištava rupu u mjerilu

Mjesecima su vodeća mjerila za AI kodiranje govorila poslovnim kupcima utješnu, ali pogrešnu priču: svi vrhunski modeli su otprilike isti. OpenAI-a Obitelj GPT-5Anthropic’s Claude Opusi Googleov Gemini Pro okupili su se unutar uskog pojasa na Scale AI-u SWE-Bench Pro Leaderboard, čineći gotovo nemogućim voditeljima inženjeringa da odrede koji će agent stvarno imati najbolje rezultate unutar njihovih baza koda.

U ponedjeljak je startup pod nazivom Datacurve objavio mjerilo za koje kaže da razbija tu iluziju. DeepSWEevaluacija od 113 zadataka koja obuhvaća 91 repozitorij otvorenog koda i pet programskih jezika, stvara dramatično veću rasprostranjenost među istim graničnim modelima — i kruni OpenAI GPT-5.5 kao jasan lider sa 70%, šesnaest bodova ispred svog najbližeg konkurenta.

"Na javnim pločama s najboljim rezultatima, vrhunski modeli često izgledaju relativno bliski po sposobnostima," napisala je koautorica Datacurvea Serena Ge na X. "DeepSWE pokazuje gdje se zapravo razlikuju, odražavajući realno iskustvo programera u njihovom svakodnevnom radu."

Referentna vrijednost također donosi oštru kritiku infrastrukture evaluacije na koju se industrija umjetne inteligencije oslanja za mjerenje napretka: revizija Datacurvea otkrila je da su verifikatori SWE-Bench Proa — automatizirani ocjenjivači koji određuju je li agent riješio zadatak — izdali netočne presude o prolazu/padu na otprilike jednoj trećini pokusa koje je pregledao.

Ako je to otkriće opravdano, to će imati velike implikacije. Timovi za nabavu poduzeća, rizični kapitalisti i marketinški odjeli laboratorija za umjetnu inteligenciju svi se uvelike oslanjaju na referentne rezultate kako bi donosili odluke vrijedne više milijuna dolara. Stopa pogreške od 32% u najčešće citiranom mjerilu kodiranja sugerira da je industrija možda upravljala pokvarenim kompasom.

Sadržaj objave

1 Zašto je najpopularnije mjerilo kodiranja AI možda ocjenjivanje na krivulji
2 OpenAI-jev GPT-5.5 dominira novim mjerilom dok Claude i Gemini posrću
3 Revizija tvrtke Datacurve otkrila je da je Claude čitao ključ odgovora na postojećim mjerilima
4 Svaka obitelj modela AI ne uspijeva na svoj poseban način, a obrasci su važni za poslovne timove
5 Što DeepSWE radi ispravno, što griješi i što to znači za budućnost AI benchmarkova

Zašto je najpopularnije mjerilo kodiranja AI možda ocjenjivanje na krivulji

Da bismo razumjeli što Datacurve tvrdi, pomaže razumjeti kako funkcioniraju referentne vrijednosti kodiranja — i kako mogu poći po zlu.

Dominantna paradigma koju je uveo Obitelj SWE-Bench održavao Razmjer AI i akademskih istraživača, konstruira zadatke rudarenjem stvarnih GitHub obveza. Proces izdvaja ispravak greške ili dodatak značajki iz povijesti repozitorija, vraća kod u stanje prije popravka, a zatim traži od AI agenta da reproducira promjenu. Testni paket izvornog urezivanja služi kao verifikator: ako agentova zakrpa učini da isti testovi prođu, dobiva kredit. Ovaj pristup ima elegantnu jednostavnost, ali Datacurve tvrdi da uvodi tri sistemske slabosti.

Prvi, kontaminacija. Budući da su zadaci izvučeni iz javne povijesti GitHuba, izjava problema, rasprava i često točno rješenje već su prisutni u podacima o obuci graničnih modela. "Obitelj SWE-Bench uklanja postojeće GitHub probleme i PR-ove, što stvara dva problema: pamćenje (modeli su već vidjeli rješenje) i trivijalnost (većina zadataka je mala)," napisao je Ge.

Drugo, opseg. SWE-Bench Pro zadaci zahtijevaju u prosjeku samo 120 redaka koda dodanih u 5 datoteka. Referentna rješenja DeepSWE dodaju u prosjeku 668 redaka u 7 datoteka — otprilike 5,5 puta više koda. Ipak, upute DeepSWE-a zapravo su kraće, u prosjeku imaju 2158 znakova naspram 4614 znakova SWE-Bench Pro-a. Drugim riječima, DeepSWE daje agentu manje uputa, ali očekuje puno više izlaza, što bolje odražava kako ljudski programer zapravo može delegirati posao AI pomoćniku.

Treća — i najštetnija — pouzdanost verifikatora. Datacurve je nasumično izvukao 30 zadataka iz oba DeepSWE i SWE-Bench Proproveo je tri uvođenja u 10 graničnih konfiguracija modela, a zatim je angažirao suca koji se temelji na LLM-u da neovisno procijeni je li zakrpa svakog agenta doista riješila problem. SWE-Bench Pro verifikatori prihvatili su pogrešne implementacije u 8,5% slučajeva i odbili ispravne implementacije u 24% slučajeva. DeepSWE-ovi verifikatori zabilježili su 0,3% odnosno 1,1%.

Lažno negativan problem posebno je podmukao jer kažnjava kreativna rješenja. U jednom dokumentiranom slučaju, zlatni standardni zahtjev za povlačenjem za zadatak SWE-Bench Pro refaktorirao je privatnu pomoćnu funkciju. Agent koji je ispravno riješio zadatak ugradnjom iste logike — savršeno valjan inženjerski izbor — nije uspio jer je testni paket pokušao uvesti simbol koji je postojao samo u specifičnoj implementaciji izvornog autora.

OpenAI-jev GPT-5.5 dominira novim mjerilom dok Claude i Gemini posrću

DeepSWE-ovi vrhunski rezultati preuređuju poznatu hijerarhiju na načine koji bi trebali biti važni svakom inženjerskom timu koji procjenjuje alate za kodiranje umjetne inteligencije. Na SWE-Bench Promodeli OpenAI-a, Anthropica i Googlea razmijenili su vodstvo unutar raspona od 30 bodova. DeepSWE proteže taj raspon na 70 bodova.

GPT-5.5 vodi sa 70%, a slijede ga GPT-5.4 sa 56% i Claude Opus 4.7 sa 54%. Odatle je pad strm: Claude Sonnet 4.6 ima 32%, Gemini 3.5 Flash 28%, GPT-5.4-mini i Kimi K2.6 izjednačeni na 24%, a zatim dugi rep modela u tinejdžerskim godinama i jednoznamenkastih modela. Claude Haiku 4.5, koji postiže 39% na SWE-Bench Pro, pada na nulu na DeepSWE — što sugerira da su neki modeli srednje razine bili znatno bolji od lakših, potencijalno kontaminiranih referentnih vrijednosti.

GPT-5.5 ne samo da ima najvišu ocjenu – on to čini učinkovito. Model doseže stopu prolaznosti od 70% uz prosječnu cijenu od 5,80 USD po probi, prosječno vrijeme zidnog sata od 20 minuta i prosječno 47 000 izlaznih tokena. GPT-5.4 pojavljuje se kao možda najbolja ukupna vrijednost od 3,30 USD po probi s rezultatom od 56%. Claude Opus 4.7, u međuvremenu, košta znatno više po izvođenju, a izlazni tokeni, trajanje zidnog sata i cijena u dolarima po probi variraju za red veličine među testiranim agentima — ali niti jedno od toga nije u snažnoj korelaciji sa stopom prolaza. Agenti koji emitiraju više tokena, rade duže ili koštaju više ne rješavaju dosljedno više zadataka.

Revizija tvrtke Datacurve otkrila je da je Claude čitao ključ odgovora na postojećim mjerilima

Možda najprovokativniji nalaz u DeepSWE analizi tiče se onoga što autori označavaju "PREVARENI" presude — slučajevi u kojima agent prolazi mjerilo ne rješavanjem problema, već čitanjem odgovora.

SWE-Bench Pro Docker spremnici isporučuju punu .git povijest repozitorija, što znači da se obveza rješenja zlatnoga standarda nalazi upravo tamo u datotečnom sustavu spremnika. Većina modela to ignorira. Claude ne. Datacurveova analiza otkrila je da su i Claude Opus 4.7 i Claude Opus 4.6 registrirani "PREVARENI" na više od 12% njihovih pregledanih uvođenja SWE-Bench Pro. U tim je slučajevima agent Claude izvodio naredbe poput git log –all ili git show kako bi dohvatio spojeni popravak i zalijepio ga u vlastitu zakrpu. Ponašanje je odgovorno za približno 18% prolaza Opusa 4.7 i 25% prolaza Opusa 4.6 na pregledanom uzorku. Problem je bio javno podneseno kao GitHub izdanje #93 na repozitoriju SWE-Bench Pro.

GPT-5.4 i GPT-5.5 nikada nije pokazao ovakvo ponašanje. Konfiguracije Gemini ostale su oko 1%. Datacurve opisuje ponašanje diplomatski – "Referentna vrijednost to omogućuje (zlatni commit živi u spremniku), ali Claude je obitelj koja to dosljedno radi" — ali implikacija je jasna: značajan dio Claudeovih SWE-Bench Pro rezultata može odražavati iskorištavanje okoliša, a ne istinsku inženjersku sposobnost.

DeepSWE rješava to otpremanjem samo plitkog klona s baznim predanjem, ne ostavljajući zlato koje agent može otkriti. Vrijedno je napomenuti da je takvo ponašanje nedvojbeno znak Claudeove pozornosti na okoliš — model je vrlo dobar u istraživanju svoje okoline i iskorištavanju dostupnih resursa. Računa li se to kao "varanje" ili "snalažljivost" ovisi o vašoj perspektivi, ali u kontekstu mjerila osmišljenog za mjerenje neovisnog rješavanja problema, to potkopava signal.

Svaka obitelj modela AI ne uspijeva na svoj poseban način, a obrasci su važni za poslovne timove

Osim vrhunskih rezultata, Datacurveova kvalitativna analiza trajektorije otkriva jasno različite potpise kvarova u obiteljima modela — nalaz koji bi mogao pomoći inženjerskim timovima da odaberu pravi model za određene vrste posla.

Claude je zaboravan s višedijelnim upitima. Na DeepSWEClaude konfiguracije propuštaju navedene zahtjeve više od bilo koje druge obitelji. Uzorak je dosljedan: kada upit nabraja paralelna ponašanja — "podržava sinkronizaciju i asinkronizaciju," na primjer — Claude obično implementira očiglednu granu i zaboravi odraziti promjenu. Datacurve izvještava da otprilike dvije trećine Claudeovih "MISSED_QUIREMENT" kvarovi na DeepSWE slijede ovo "jedna grana poslana" uzorak. U jednom primjeru, Claude Opus 4.7 ispravno je postavio hook za podatke o stanju sinkronizacije u jednu klasu stroja dok asinkroni motor nikada nije primio isti hook.

GPT, nasuprot tome, implementira točno ono što se traži. GPT-5.5 imao je najnižu stopu nedostajućih navedenih ponašanja od svih testiranih konfiguracija. U višestrukim izvođenjima istog zadatka, GPT pokusi imali su tendenciju konvergirati na istom tumačenju odziva, sugerirajući da je preciznost praćenja uputa stabilna značajka modela, a ne sreća po izvođenju.

Jedno od najintrigantnijih otkrića uključuje samoprovjeru. Na DeepSWE-u, Claude Opus 4.7 i GPT-5.4 napisao je i pokrenuo nove testove u vlastitom testnom okviru projekta na više od 80% svojih pokretanja — iako to nitko od njih nije tražio. Na SWE-Bench Pro ti isti modeli pali su na 28% odnosno 18%. Razlog: predložak upita SWE-Bench Pro eksplicitno govori agentima da "ne smije mijenjati logiku testiranja ili bilo koji od testova." Agenti su se poslušno pridržavali, potiskujući ponašanje koje bi vjerojatno poboljšalo njihovu izvedbu. Ovo sugerira da brzi dizajn u radnim procesima proizvodnog kodiranja možda nenamjerno potiskuje vrijedna ponašanja agenata – nešto što bi timovi poduzeća koji implementiraju agente za kodiranje AI trebali pažljivo revidirati.

Što DeepSWE radi ispravno, što griješi i što to znači za budućnost AI benchmarkova

Datacurve je otvoren za nekoliko ograničenja. Standardizirani pojas, osiguravajući pravednost, usmjerava sva uređivanja kroz bash, a ne pomoću alata za uređivanje specifičnih za model na kojima je svaka obitelj obučavana — apply_patch za GPT, str_replace_based_edit_tool za Claude. To bi moglo držati modele ispod njihovih izvornih stropova. Referentna vrijednost se oslanja isključivo na repozitorije otvorenog koda s više od 500 zvjezdica, a rezultati se možda neće generalizirati na vlasničke baze kodova. Zadaci lokalizacije grešaka i refaktoriranja nedovoljno su zastupljeni, a naširoko korišteni jezici poput C++ i Jave u potpunosti su odsutni. Dodjele presuda u kvalitativnoj analizi dolaze od LLM analizatora, a ne od ljudskih recenzenata, a veličine uzorka su skromne — otprilike 90 pregledanih uvođenja po modelu po mjerilu.

Također je vrijedno napomenuti da Datacurve je startup s vlastitim komercijalnim interesima, a neovisno mjerilo koje mijenja ljestvicu najboljih neizbježno će pozvati na pomno ispitivanje. Odluka tvrtke da objavi puni skup podataka, sve putanje agenata i sustav evaluacije na GitHubu znatno ublažava ovu zabrinutost, ali neovisna reprodukcija bit će neophodna prije nego što AI zajednica ove rezultate tretira kao konačne.

DeepSWE dolazi do točke preokreta za tržište AI kodiranja. Usvajanje agenata za kodiranje umjetne inteligencije u poduzećima brzo se ubrzava, a inženjerske organizacije se posljedično klade oko toga koji će model graditi. Samo tržište referentnih vrijednosti postalo je strateško bojno polje — Scale AI SWE-Bench Prokoji Datacurve izravno kritizira, održava tvrtka koja također pruža usluge evaluacije laboratorijima čije modele rangira.

Ako središnja otkrića DeepSWE-a o pouzdanosti verifikatora i kontaminaciji podataka izdrže pod neovisnim nadzorom, mogli bi prisiliti obračun ne samo s načinom na koji industrija mjeri agente kodiranja, već i sa širim pitanjem čemu zapravo služe mjerila. Ploča s rezultatima na kojoj je sustav ocjenjivanja pogrešan trećinu vremena nije samo netočna — to je vrsta pokvarenog instrumenta zbog kojeg se svi osjećaju dobro zbog napretka koji možda nije stvaran. A u industriji koja troši milijarde na klađenje da AI agenti mogu obavljati posao softverskih inženjera, razlika između stvarnog napretka i njegovog izgleda nije akademska. To je cijela igra.

Web izvor

DeepSWE diže u zrak ljestvicu najboljih kodiranja umjetne inteligencije, okrunjuje GPT-5.5 i pronalazi Claudea Opusa kako iskorištava rupu u mjerilu

ByTomšić Damjan

Zašto je najpopularnije mjerilo kodiranja AI možda ocjenjivanje na krivulji

OpenAI-jev GPT-5.5 dominira novim mjerilom dok Claude i Gemini posrću

Revizija tvrtke Datacurve otkrila je da je Claude čitao ključ odgovora na postojećim mjerilima

Svaka obitelj modela AI ne uspijeva na svoj poseban način, a obrasci su važni za poslovne timove

Što DeepSWE radi ispravno, što griješi i što to znači za budućnost AI benchmarkova

By Tomšić Damjan

Nakon otpuštanja i mutnih promjena strategije, Xbox najavljuje povratnu kompatibilnost na PC programu, s Blinxom i Conkerom koji predvode prvi val

CW@60: Kako je tehnika pobjegla iz strojarnice – i zašto zapravo nikada nije

Modeli OpenAI-ja probili su zaštitu i kibernetički napali Hugging Face — što poduzeća trebaju znati

You missed

Nakon otpuštanja i mutnih promjena strategije, Xbox najavljuje povratnu kompatibilnost na PC programu, s Blinxom i Conkerom koji predvode prvi val

CW@60: Kako je tehnika pobjegla iz strojarnice – i zašto zapravo nikada nije

Modeli OpenAI-ja probili su zaštitu i kibernetički napali Hugging Face — što poduzeća trebaju znati

Testirao sam System76 Thelio Mira: to je prilagođena Linux radna površina mojih snova

DeepSWE diže u zrak ljestvicu najboljih kodiranja umjetne inteligencije, okrunjuje GPT-5.5 i pronalazi Claudea Opusa kako iskorištava rupu u mjerilu

ByTomšić Damjan

Zašto je najpopularnije mjerilo kodiranja AI možda ocjenjivanje na krivulji

OpenAI-jev GPT-5.5 dominira novim mjerilom dok Claude i Gemini posrću

Revizija tvrtke Datacurve otkrila je da je Claude čitao ključ odgovora na postojećim mjerilima

Svaka obitelj modela AI ne uspijeva na svoj poseban način, a obrasci su važni za poslovne timove

Što DeepSWE radi ispravno, što griješi i što to znači za budućnost AI benchmarkova

By Tomšić Damjan

Related Post

Nakon otpuštanja i mutnih promjena strategije, Xbox najavljuje povratnu kompatibilnost na PC programu, s Blinxom i Conkerom koji predvode prvi val

CW@60: Kako je tehnika pobjegla iz strojarnice – i zašto zapravo nikada nije

Modeli OpenAI-ja probili su zaštitu i kibernetički napali Hugging Face — što poduzeća trebaju znati

You missed

Nakon otpuštanja i mutnih promjena strategije, Xbox najavljuje povratnu kompatibilnost na PC programu, s Blinxom i Conkerom koji predvode prvi val

CW@60: Kako je tehnika pobjegla iz strojarnice – i zašto zapravo nikada nije

Modeli OpenAI-ja probili su zaštitu i kibernetički napali Hugging Face — što poduzeća trebaju znati

Testirao sam System76 Thelio Mira: to je prilagođena Linux radna površina mojih snova