OpenAI ima predstavio GPT‑5.1-Codex-Maxnovi granični agentski model kodiranja koji je sada dostupan u okruženju za razvojne programere Codexa. Ovo izdanje označava značajan korak naprijed u softverskom inženjerstvu potpomognutom umjetnom inteligencijom, nudeći poboljšano razmišljanje dugog horizonta, učinkovitost i interaktivne mogućnosti u stvarnom vremenu. GPT‑5.1-Codex-Max sada će zamijeniti GPT‑5.1-Codex kao zadani model na svim površinama integriranim u Codex.
Novi model dizajniran je da služi kao postojan, visokokontekstualni agent za razvoj softvera, sposoban za upravljanje složenim refaktorima, otklanjanje pogrešaka u radnim tokovima i zadatke na razini projekta u više kontekstnih prozora.
Dolazi nakon što je Google jučer predstavio svoj moćni novi model Gemini 3 Pro, ali ga još uvijek nadmašuje ili se slaže s njim na ključnim mjerilima kodiranja:
Na SWE-Bench potvrđeno, GPT‑5.1-Codex-Max postigao je 77,9% točnosti uz iznimno veliki napor zaključivanja, nadmašujući Gemini 3 Pro 76,2%.
To je također vodilo dalje Terminal-Bench 2.0, s 58,1% točnosti naspram Geminijevih 54,2%, i izjednačio se s Geminijevim rezultatom od 2439 na LiveCodeBench Pro, kompetitivnom Elo mjerilu kodiranja.
Kad se mjeri u odnosu na najnapredniju konfiguraciju Gemini 3 Pro — njegov model Deep Thinking — Codex-Max također ima malu prednost u referentnim vrijednostima agentskog kodiranja.
Sadržaj objave
- 1 Referentne vrijednosti izvedbe: inkrementalni dobici u ključnim zadacima
- 2 Tehnička arhitektura: Rezoniranje dugog horizonta putem sažimanja
- 3 Integracija platforme i slučajevi korištenja
- 4 Kibernetička sigurnost i sigurnosna ograničenja
- 5 Kontekst implementacije i korištenje programera
- 6 Outlook
- 7 Povezani sadržaji
Referentne vrijednosti izvedbe: inkrementalni dobici u ključnim zadacima
GPT‑5.1-Codex-Max pokazuje mjerljiva poboljšanja u odnosu na GPT‑5.1-Codex u nizu standardnih referentnih vrijednosti softverskog inženjeringa.
Na SWE-Lancer IC SWE postigao je 79,9% točnosti, značajno povećanje u odnosu na GPT‑5.1-Codex 66,3%. U SWE-Bench Verified (n=500), dosegao je 77,9% točnosti uz iznimno veliki napor zaključivanja, nadmašivši GPT-5.1-Codex 73,7%.
Performanse na Terminal Bench 2.0 (n=89) pokazale su skromnija poboljšanja, s GPT‑5.1-Codex-Max koji je postigao 58,1% točnosti u usporedbi s 52,8% za GPT‑5.1-Codex.
Sve evaluacije su pokrenute s omogućenim sažimanjem i iznimno velikim naporom obrazloženja.
Ovi rezultati ukazuju na to da novi model nudi višu gornju granicu ispravnosti i upotrebljivosti u stvarnom svijetu pod proširenim opterećenjima razmišljanja.
Tehnička arhitektura: Rezoniranje dugog horizonta putem sažimanja
Veliko arhitektonsko poboljšanje u GPT‑5.1-Codex-Max je njegova sposobnost učinkovitog rasuđivanja tijekom proširenih ulazno-izlaznih sesija pomoću mehanizma tzv. zbijanje.
To omogućuje modelu da zadrži ključne kontekstualne informacije dok odbacuje nebitne detalje kako se približava ograničenju kontekstnog prozora — što učinkovito omogućuje kontinuirani rad na milijunima tokena bez degradacije performansi.
Interno je promatrano da model dovršava zadatke koji traju više od 24 sata, uključujući refaktore u više koraka, iteracije vođene testovima i autonomno uklanjanje pogrešaka.
Sabijanje također poboljšava učinkovitost žetona. Pri srednjem naporu razmišljanja, GPT‑5.1-Codex-Max upotrijebio je približno 30% manje tokena razmišljanja od GPT-5.1-Codexa za usporedivu ili bolju točnost, što ima implikacije i na trošak i na kašnjenje.
Integracija platforme i slučajevi korištenja
GPT‑5.1-Codex-Max trenutno je dostupan u više okruženja temeljenih na Codexu, koja se odnose na OpenAI-jeve vlastite integrirane alate i sučelja izgrađena posebno za AI agente usmjerene na kod. To uključuje:
-
Codex CLIOpenAI-jev službeni alat naredbenog retka (@openai/codex), gdje je GPT‑5.1-Codex-Max već aktivan.
-
IDE proširenjakoji je vjerojatno razvio ili održavao OpenAI, iako nisu navedene specifične IDE integracije treće strane.
-
Interaktivna okruženja kodiranjapoput onih koji se koriste za demonstraciju aplikacija za simulaciju sučelja kao što su CartPole ili Snell’s Law Explorer.
-
Alat za interni pregled kodakoju koriste inženjerski timovi OpenAI-ja.
Za sada GPT‑5.1-Codex-Max još nije dostupan putem javnog API-ja, iako OpenAI navodi da će to uskoro biti dostupno. Korisnici koji danas žele raditi s modelom u terminalskim okruženjima mogu to učiniti instaliranjem i korištenjem Codex CLI.
Trenutačno nije potvrđeno hoće li se i kako model integrirati u IDE treće strane osim ako nisu izgrađeni na CLI ili budućem API-ju.
Model je sposoban za interakciju sa živim alatima i simulacijama. Primjeri prikazani u izdanju uključuju:
-
Interaktivni simulator gradijenta pravila CartPole, koji vizualizira obuku i aktivacije učenja za potkrepljenje.
-
Optički istraživač Snellova zakona, podržava dinamičko praćenje zraka preko indeksa loma.
Ova sučelja predstavljaju primjer sposobnosti modela da razmišlja u stvarnom vremenu dok održava interaktivnu razvojnu sesiju — učinkovito premošćujući računanje, vizualizaciju i implementaciju unutar jedne petlje.
Kibernetička sigurnost i sigurnosna ograničenja
Iako GPT‑5.1-Codex-Max ne zadovoljava OpenAI-jev “visoki” prag sposobnosti za kibernetičku sigurnost u okviru okvira pripravnosti, to je trenutačno najsposobniji model kibernetičke sigurnosti koji je OpenAI primijenio. Podržava slučajeve upotrebe kao što je automatsko otkrivanje ranjivosti i sanacija, ali sa strogim sandboxingom i onemogućenim pristupom mreži prema zadanim postavkama.
OpenAI ne izvješćuje o povećanju zlonamjerne upotrebe, ali je uveo poboljšane sustave nadzora, uključujući usmjeravanje aktivnosti i mehanizme prekida za sumnjivo ponašanje. Codex ostaje izoliran od lokalnog radnog prostora osim ako programeri ne odaberu širi pristup, čime se smanjuju rizici poput brzog ubacivanja nepouzdanog sadržaja.
Kontekst implementacije i korištenje programera
GPT‑5.1-Codex-Max trenutno je dostupan korisnicima na ChatGPT Plus, Pro, Business, Edu i Enterprise planovi. Također će postati nova zadana vrijednost u okruženjima temeljenim na Codexu, zamjenjujući GPT‑5.1-Codex, koji je bio model općenitije namjene.
OpenAI navodi da 95% njegovih internih inženjera koristi Codex tjedno, a od usvajanja ti inženjeri su u prosjeku poslali oko 70% više zahtjeva za povlačenjem — ističući utjecaj alata na brzinu internog razvoja.
Unatoč svojoj autonomiji i postojanosti, OpenAI naglašava da Codex-Max treba tretirati kao pomoćnika kodiranja, a ne kao zamjenu za ljudski pregled. Model proizvodi zapisnike terminala, citate testova i izlaze poziva alata za podršku transparentnosti u generiranom kodu.
Outlook
GPT‑5.1-Codex-Max predstavlja značajnu evoluciju u strategiji OpenAI-ja prema agentskim razvojnim alatima, nudeći veću dubinu razmišljanja, učinkovitost tokena i interaktivne mogućnosti u svim zadacima softverskog inženjeringa. Proširujući svoje strategije upravljanja kontekstom i sažimanja, model je pozicioniran za rukovanje zadacima na razini punih repozitorija, umjesto pojedinačnih datoteka ili isječaka.
S stalnim naglaskom na agencijske tijekove rada, sigurne sandboxove i metrike procjene u stvarnom svijetu, Codex-Max postavlja pozornicu za sljedeću generaciju programskih okruženja potpomognutih umjetnom inteligencijom — istovremeno naglašavajući važnost nadzora u sve autonomnijim sustavima.



