• Čet. svi 14th, 2026

Oblak Znanja

informatička edukacija i vijesti

OpenAI debitira s modelom kodiranja GPT‑5.1-Codex-Max i već je izvršio 24-satni zadatak interno

ByTomšić Damjan

stu 20, 2025

OpenAI ima predstavio GPT‑5.1-Codex-Maxnovi granični agentski model kodiranja koji je sada dostupan u okruženju za razvojne programere Codexa. Ovo izdanje označava značajan korak naprijed u softverskom inženjerstvu potpomognutom umjetnom inteligencijom, nudeći poboljšano razmišljanje dugog horizonta, učinkovitost i interaktivne mogućnosti u stvarnom vremenu. GPT‑5.1-Codex-Max sada će zamijeniti GPT‑5.1-Codex kao zadani model na svim površinama integriranim u Codex.

Novi model dizajniran je da služi kao postojan, visokokontekstualni agent za razvoj softvera, sposoban za upravljanje složenim refaktorima, otklanjanje pogrešaka u radnim tokovima i zadatke na razini projekta u više kontekstnih prozora.

Dolazi nakon što je Google jučer predstavio svoj moćni novi model Gemini 3 Pro, ali ga još uvijek nadmašuje ili se slaže s njim na ključnim mjerilima kodiranja:

Na SWE-Bench potvrđeno, GPT‑5.1-Codex-Max postigao je 77,9% točnosti uz iznimno veliki napor zaključivanja, nadmašujući Gemini 3 Pro 76,2%.

To je također vodilo dalje Terminal-Bench 2.0, s 58,1% točnosti naspram Geminijevih 54,2%, i izjednačio se s Geminijevim rezultatom od 2439 na LiveCodeBench Pro, kompetitivnom Elo mjerilu kodiranja.

Kad se mjeri u odnosu na najnapredniju konfiguraciju Gemini 3 Pro — njegov model Deep Thinking — Codex-Max također ima malu prednost u referentnim vrijednostima agentskog kodiranja.

Referentne vrijednosti izvedbe: inkrementalni dobici u ključnim zadacima

GPT‑5.1-Codex-Max pokazuje mjerljiva poboljšanja u odnosu na GPT‑5.1-Codex u nizu standardnih referentnih vrijednosti softverskog inženjeringa.

Na SWE-Lancer IC SWE postigao je 79,9% točnosti, značajno povećanje u odnosu na GPT‑5.1-Codex 66,3%. U SWE-Bench Verified (n=500), dosegao je 77,9% točnosti uz iznimno veliki napor zaključivanja, nadmašivši GPT-5.1-Codex 73,7%.

Performanse na Terminal Bench 2.0 (n=89) pokazale su skromnija poboljšanja, s GPT‑5.1-Codex-Max koji je postigao 58,1% točnosti u usporedbi s 52,8% za GPT‑5.1-Codex.

Sve evaluacije su pokrenute s omogućenim sažimanjem i iznimno velikim naporom obrazloženja.

Ovi rezultati ukazuju na to da novi model nudi višu gornju granicu ispravnosti i upotrebljivosti u stvarnom svijetu pod proširenim opterećenjima razmišljanja.

Tehnička arhitektura: Rezoniranje dugog horizonta putem sažimanja

Veliko arhitektonsko poboljšanje u GPT‑5.1-Codex-Max je njegova sposobnost učinkovitog rasuđivanja tijekom proširenih ulazno-izlaznih sesija pomoću mehanizma tzv. zbijanje.

To omogućuje modelu da zadrži ključne kontekstualne informacije dok odbacuje nebitne detalje kako se približava ograničenju kontekstnog prozora — što učinkovito omogućuje kontinuirani rad na milijunima tokena bez degradacije performansi.

Interno je promatrano da model dovršava zadatke koji traju više od 24 sata, uključujući refaktore u više koraka, iteracije vođene testovima i autonomno uklanjanje pogrešaka.

Sabijanje također poboljšava učinkovitost žetona. Pri srednjem naporu razmišljanja, GPT‑5.1-Codex-Max upotrijebio je približno 30% manje tokena razmišljanja od GPT-5.1-Codexa za usporedivu ili bolju točnost, što ima implikacije i na trošak i na kašnjenje.

Integracija platforme i slučajevi korištenja

GPT‑5.1-Codex-Max trenutno je dostupan u više okruženja temeljenih na Codexu, koja se odnose na OpenAI-jeve vlastite integrirane alate i sučelja izgrađena posebno za AI agente usmjerene na kod. To uključuje:

  • Codex CLIOpenAI-jev službeni alat naredbenog retka (@openai/codex), gdje je GPT‑5.1-Codex-Max već aktivan.

  • IDE proširenjakoji je vjerojatno razvio ili održavao OpenAI, iako nisu navedene specifične IDE integracije treće strane.

  • Interaktivna okruženja kodiranjapoput onih koji se koriste za demonstraciju aplikacija za simulaciju sučelja kao što su CartPole ili Snell’s Law Explorer.

  • Alat za interni pregled kodakoju koriste inženjerski timovi OpenAI-ja.

Za sada GPT‑5.1-Codex-Max još nije dostupan putem javnog API-ja, iako OpenAI navodi da će to uskoro biti dostupno. Korisnici koji danas žele raditi s modelom u terminalskim okruženjima mogu to učiniti instaliranjem i korištenjem Codex CLI.

Trenutačno nije potvrđeno hoće li se i kako model integrirati u IDE treće strane osim ako nisu izgrađeni na CLI ili budućem API-ju.

Model je sposoban za interakciju sa živim alatima i simulacijama. Primjeri prikazani u izdanju uključuju:

  • Interaktivni simulator gradijenta pravila CartPole, koji vizualizira obuku i aktivacije učenja za potkrepljenje.

  • Optički istraživač Snellova zakona, podržava dinamičko praćenje zraka preko indeksa loma.

Ova sučelja predstavljaju primjer sposobnosti modela da razmišlja u stvarnom vremenu dok održava interaktivnu razvojnu sesiju — učinkovito premošćujući računanje, vizualizaciju i implementaciju unutar jedne petlje.

Kibernetička sigurnost i sigurnosna ograničenja

Iako GPT‑5.1-Codex-Max ne zadovoljava OpenAI-jev “visoki” prag sposobnosti za kibernetičku sigurnost u okviru okvira pripravnosti, to je trenutačno najsposobniji model kibernetičke sigurnosti koji je OpenAI primijenio. Podržava slučajeve upotrebe kao što je automatsko otkrivanje ranjivosti i sanacija, ali sa strogim sandboxingom i onemogućenim pristupom mreži prema zadanim postavkama.

OpenAI ne izvješćuje o povećanju zlonamjerne upotrebe, ali je uveo poboljšane sustave nadzora, uključujući usmjeravanje aktivnosti i mehanizme prekida za sumnjivo ponašanje. Codex ostaje izoliran od lokalnog radnog prostora osim ako programeri ne odaberu širi pristup, čime se smanjuju rizici poput brzog ubacivanja nepouzdanog sadržaja.

Kontekst implementacije i korištenje programera

GPT‑5.1-Codex-Max trenutno je dostupan korisnicima na ChatGPT Plus, Pro, Business, Edu i Enterprise planovi. Također će postati nova zadana vrijednost u okruženjima temeljenim na Codexu, zamjenjujući GPT‑5.1-Codex, koji je bio model općenitije namjene.

OpenAI navodi da 95% njegovih internih inženjera koristi Codex tjedno, a od usvajanja ti inženjeri su u prosjeku poslali oko 70% više zahtjeva za povlačenjem — ističući utjecaj alata na brzinu internog razvoja.

Unatoč svojoj autonomiji i postojanosti, OpenAI naglašava da Codex-Max treba tretirati kao pomoćnika kodiranja, a ne kao zamjenu za ljudski pregled. Model proizvodi zapisnike terminala, citate testova i izlaze poziva alata za podršku transparentnosti u generiranom kodu.

Outlook

GPT‑5.1-Codex-Max predstavlja značajnu evoluciju u strategiji OpenAI-ja prema agentskim razvojnim alatima, nudeći veću dubinu razmišljanja, učinkovitost tokena i interaktivne mogućnosti u svim zadacima softverskog inženjeringa. Proširujući svoje strategije upravljanja kontekstom i sažimanja, model je pozicioniran za rukovanje zadacima na razini punih repozitorija, umjesto pojedinačnih datoteka ili isječaka.

S stalnim naglaskom na agencijske tijekove rada, sigurne sandboxove i metrike procjene u stvarnom svijetu, Codex-Max postavlja pozornicu za sljedeću generaciju programskih okruženja potpomognutih umjetnom inteligencijom — istovremeno naglašavajući važnost nadzora u sve autonomnijim sustavima.

Web izvor

By Tomšić Damjan

Pozdrav, ja sam Damjan Tomšić, osnivatelj i urednik informatičko edukativnog bloga Oblak Znanja. Za Vas ću se potruditi da dobijete edukativne članke, savjete i recenzije vezane uz osnovno i napredno korištenje računala i interneta. Kontak: Google+, Gmail.