OpenAI debitira s modelom kodiranja GPT‑5.1-Codex-Max i već je izvršio 24-satni zadatak interno

OpenAI ima predstavio GPT‑5.1-Codex-Maxnovi granični agentski model kodiranja koji je sada dostupan u okruženju za razvojne programere Codexa. Ovo izdanje označava značajan korak naprijed u softverskom inženjerstvu potpomognutom umjetnom inteligencijom, nudeći poboljšano razmišljanje dugog horizonta, učinkovitost i interaktivne mogućnosti u stvarnom vremenu. GPT‑5.1-Codex-Max sada će zamijeniti GPT‑5.1-Codex kao zadani model na svim površinama integriranim u Codex.

Novi model dizajniran je da služi kao postojan, visokokontekstualni agent za razvoj softvera, sposoban za upravljanje složenim refaktorima, otklanjanje pogrešaka u radnim tokovima i zadatke na razini projekta u više kontekstnih prozora.

Dolazi nakon što je Google jučer predstavio svoj moćni novi model Gemini 3 Pro, ali ga još uvijek nadmašuje ili se slaže s njim na ključnim mjerilima kodiranja:

Na SWE-Bench potvrđeno, GPT‑5.1-Codex-Max postigao je 77,9% točnosti uz iznimno veliki napor zaključivanja, nadmašujući Gemini 3 Pro 76,2%.

To je također vodilo dalje Terminal-Bench 2.0, s 58,1% točnosti naspram Geminijevih 54,2%, i izjednačio se s Geminijevim rezultatom od 2439 na LiveCodeBench Pro, kompetitivnom Elo mjerilu kodiranja.

Kad se mjeri u odnosu na najnapredniju konfiguraciju Gemini 3 Pro — njegov model Deep Thinking — Codex-Max također ima malu prednost u referentnim vrijednostima agentskog kodiranja.

Sadržaj objave

1 Referentne vrijednosti izvedbe: inkrementalni dobici u ključnim zadacima
2 Tehnička arhitektura: Rezoniranje dugog horizonta putem sažimanja
3 Integracija platforme i slučajevi korištenja
4 Kibernetička sigurnost i sigurnosna ograničenja
5 Kontekst implementacije i korištenje programera
6 Outlook
7 Povezani sadržaji

Referentne vrijednosti izvedbe: inkrementalni dobici u ključnim zadacima

GPT‑5.1-Codex-Max pokazuje mjerljiva poboljšanja u odnosu na GPT‑5.1-Codex u nizu standardnih referentnih vrijednosti softverskog inženjeringa.

Na SWE-Lancer IC SWE postigao je 79,9% točnosti, značajno povećanje u odnosu na GPT‑5.1-Codex 66,3%. U SWE-Bench Verified (n=500), dosegao je 77,9% točnosti uz iznimno veliki napor zaključivanja, nadmašivši GPT-5.1-Codex 73,7%.

Performanse na Terminal Bench 2.0 (n=89) pokazale su skromnija poboljšanja, s GPT‑5.1-Codex-Max koji je postigao 58,1% točnosti u usporedbi s 52,8% za GPT‑5.1-Codex.

Sve evaluacije su pokrenute s omogućenim sažimanjem i iznimno velikim naporom obrazloženja.

Ovi rezultati ukazuju na to da novi model nudi višu gornju granicu ispravnosti i upotrebljivosti u stvarnom svijetu pod proširenim opterećenjima razmišljanja.

Tehnička arhitektura: Rezoniranje dugog horizonta putem sažimanja

Veliko arhitektonsko poboljšanje u GPT‑5.1-Codex-Max je njegova sposobnost učinkovitog rasuđivanja tijekom proširenih ulazno-izlaznih sesija pomoću mehanizma tzv. zbijanje.

To omogućuje modelu da zadrži ključne kontekstualne informacije dok odbacuje nebitne detalje kako se približava ograničenju kontekstnog prozora — što učinkovito omogućuje kontinuirani rad na milijunima tokena bez degradacije performansi.

Interno je promatrano da model dovršava zadatke koji traju više od 24 sata, uključujući refaktore u više koraka, iteracije vođene testovima i autonomno uklanjanje pogrešaka.

Sabijanje također poboljšava učinkovitost žetona. Pri srednjem naporu razmišljanja, GPT‑5.1-Codex-Max upotrijebio je približno 30% manje tokena razmišljanja od GPT-5.1-Codexa za usporedivu ili bolju točnost, što ima implikacije i na trošak i na kašnjenje.

Integracija platforme i slučajevi korištenja

GPT‑5.1-Codex-Max trenutno je dostupan u više okruženja temeljenih na Codexu, koja se odnose na OpenAI-jeve vlastite integrirane alate i sučelja izgrađena posebno za AI agente usmjerene na kod. To uključuje:

Codex CLIOpenAI-jev službeni alat naredbenog retka (@openai/codex), gdje je GPT‑5.1-Codex-Max već aktivan.
IDE proširenjakoji je vjerojatno razvio ili održavao OpenAI, iako nisu navedene specifične IDE integracije treće strane.
Interaktivna okruženja kodiranjapoput onih koji se koriste za demonstraciju aplikacija za simulaciju sučelja kao što su CartPole ili Snell’s Law Explorer.
Alat za interni pregled kodakoju koriste inženjerski timovi OpenAI-ja.

Za sada GPT‑5.1-Codex-Max još nije dostupan putem javnog API-ja, iako OpenAI navodi da će to uskoro biti dostupno. Korisnici koji danas žele raditi s modelom u terminalskim okruženjima mogu to učiniti instaliranjem i korištenjem Codex CLI.

Trenutačno nije potvrđeno hoće li se i kako model integrirati u IDE treće strane osim ako nisu izgrađeni na CLI ili budućem API-ju.

Model je sposoban za interakciju sa živim alatima i simulacijama. Primjeri prikazani u izdanju uključuju:

Interaktivni simulator gradijenta pravila CartPole, koji vizualizira obuku i aktivacije učenja za potkrepljenje.
Optički istraživač Snellova zakona, podržava dinamičko praćenje zraka preko indeksa loma.

Ova sučelja predstavljaju primjer sposobnosti modela da razmišlja u stvarnom vremenu dok održava interaktivnu razvojnu sesiju — učinkovito premošćujući računanje, vizualizaciju i implementaciju unutar jedne petlje.

Kibernetička sigurnost i sigurnosna ograničenja

Iako GPT‑5.1-Codex-Max ne zadovoljava OpenAI-jev “visoki” prag sposobnosti za kibernetičku sigurnost u okviru okvira pripravnosti, to je trenutačno najsposobniji model kibernetičke sigurnosti koji je OpenAI primijenio. Podržava slučajeve upotrebe kao što je automatsko otkrivanje ranjivosti i sanacija, ali sa strogim sandboxingom i onemogućenim pristupom mreži prema zadanim postavkama.

OpenAI ne izvješćuje o povećanju zlonamjerne upotrebe, ali je uveo poboljšane sustave nadzora, uključujući usmjeravanje aktivnosti i mehanizme prekida za sumnjivo ponašanje. Codex ostaje izoliran od lokalnog radnog prostora osim ako programeri ne odaberu širi pristup, čime se smanjuju rizici poput brzog ubacivanja nepouzdanog sadržaja.

Kontekst implementacije i korištenje programera

GPT‑5.1-Codex-Max trenutno je dostupan korisnicima na ChatGPT Plus, Pro, Business, Edu i Enterprise planovi. Također će postati nova zadana vrijednost u okruženjima temeljenim na Codexu, zamjenjujući GPT‑5.1-Codex, koji je bio model općenitije namjene.

OpenAI navodi da 95% njegovih internih inženjera koristi Codex tjedno, a od usvajanja ti inženjeri su u prosjeku poslali oko 70% više zahtjeva za povlačenjem — ističući utjecaj alata na brzinu internog razvoja.

Unatoč svojoj autonomiji i postojanosti, OpenAI naglašava da Codex-Max treba tretirati kao pomoćnika kodiranja, a ne kao zamjenu za ljudski pregled. Model proizvodi zapisnike terminala, citate testova i izlaze poziva alata za podršku transparentnosti u generiranom kodu.

Outlook

GPT‑5.1-Codex-Max predstavlja značajnu evoluciju u strategiji OpenAI-ja prema agentskim razvojnim alatima, nudeći veću dubinu razmišljanja, učinkovitost tokena i interaktivne mogućnosti u svim zadacima softverskog inženjeringa. Proširujući svoje strategije upravljanja kontekstom i sažimanja, model je pozicioniran za rukovanje zadacima na razini punih repozitorija, umjesto pojedinačnih datoteka ili isječaka.

S stalnim naglaskom na agencijske tijekove rada, sigurne sandboxove i metrike procjene u stvarnom svijetu, Codex-Max postavlja pozornicu za sljedeću generaciju programskih okruženja potpomognutih umjetnom inteligencijom — istovremeno naglašavajući važnost nadzora u sve autonomnijim sustavima.

Web izvor