Oblak Znanja

  • Home
  • Novosti
  • Učionica
    • Informatika 5
    • Informatika 6
    • Informatika 7
    • Informatika 8
    • Logo jezik
    • WordPress
    • Microsoft Office
  • Vodiči
    • Online vodiči
    • Kratki savjeti
    • Korisne aplikacije
    • Društvene mreže
    • Multimedija
    • Zanimljivosti
✕

OpenAI debitira s modelom kodiranja GPT‑5.1-Codex-Max i već je izvršio 24-satni zadatak interno

Novosti

OpenAI debitira s modelom kodiranja GPT‑5.1-Codex-Max i već je izvršio 24-satni zadatak interno

Tomšić Damjan 20. studenoga 2025

OpenAI ima predstavio GPT‑5.1-Codex-Maxnovi granični agentski model kodiranja koji je sada dostupan u okruženju za razvojne programere Codexa. Ovo izdanje označava značajan korak naprijed u softverskom inženjerstvu potpomognutom umjetnom inteligencijom, nudeći poboljšano razmišljanje dugog horizonta, učinkovitost i interaktivne mogućnosti u stvarnom vremenu. GPT‑5.1-Codex-Max sada će zamijeniti GPT‑5.1-Codex kao zadani model na svim površinama integriranim u Codex.

Novi model dizajniran je da služi kao postojan, visokokontekstualni agent za razvoj softvera, sposoban za upravljanje složenim refaktorima, otklanjanje pogrešaka u radnim tokovima i zadatke na razini projekta u više kontekstnih prozora.

Dolazi nakon što je Google jučer predstavio svoj moćni novi model Gemini 3 Pro, ali ga još uvijek nadmašuje ili se slaže s njim na ključnim mjerilima kodiranja:

Na SWE-Bench potvrđeno, GPT‑5.1-Codex-Max postigao je 77,9% točnosti uz iznimno veliki napor zaključivanja, nadmašujući Gemini 3 Pro 76,2%.

To je također vodilo dalje Terminal-Bench 2.0, s 58,1% točnosti naspram Geminijevih 54,2%, i izjednačio se s Geminijevim rezultatom od 2439 na LiveCodeBench Pro, kompetitivnom Elo mjerilu kodiranja.

Kad se mjeri u odnosu na najnapredniju konfiguraciju Gemini 3 Pro — njegov model Deep Thinking — Codex-Max također ima malu prednost u referentnim vrijednostima agentskog kodiranja.

Sadržaj objave

  • 1 Referentne vrijednosti izvedbe: inkrementalni dobici u ključnim zadacima
  • 2 Tehnička arhitektura: Rezoniranje dugog horizonta putem sažimanja
  • 3 Integracija platforme i slučajevi korištenja
  • 4 Kibernetička sigurnost i sigurnosna ograničenja
  • 5 Kontekst implementacije i korištenje programera
  • 6 Outlook
  • 7 Povezani sadržaji

Referentne vrijednosti izvedbe: inkrementalni dobici u ključnim zadacima

GPT‑5.1-Codex-Max pokazuje mjerljiva poboljšanja u odnosu na GPT‑5.1-Codex u nizu standardnih referentnih vrijednosti softverskog inženjeringa.

Na SWE-Lancer IC SWE postigao je 79,9% točnosti, značajno povećanje u odnosu na GPT‑5.1-Codex 66,3%. U SWE-Bench Verified (n=500), dosegao je 77,9% točnosti uz iznimno veliki napor zaključivanja, nadmašivši GPT-5.1-Codex 73,7%.

Performanse na Terminal Bench 2.0 (n=89) pokazale su skromnija poboljšanja, s GPT‑5.1-Codex-Max koji je postigao 58,1% točnosti u usporedbi s 52,8% za GPT‑5.1-Codex.

Sve evaluacije su pokrenute s omogućenim sažimanjem i iznimno velikim naporom obrazloženja.

Ovi rezultati ukazuju na to da novi model nudi višu gornju granicu ispravnosti i upotrebljivosti u stvarnom svijetu pod proširenim opterećenjima razmišljanja.

Tehnička arhitektura: Rezoniranje dugog horizonta putem sažimanja

Veliko arhitektonsko poboljšanje u GPT‑5.1-Codex-Max je njegova sposobnost učinkovitog rasuđivanja tijekom proširenih ulazno-izlaznih sesija pomoću mehanizma tzv. zbijanje.

To omogućuje modelu da zadrži ključne kontekstualne informacije dok odbacuje nebitne detalje kako se približava ograničenju kontekstnog prozora — što učinkovito omogućuje kontinuirani rad na milijunima tokena bez degradacije performansi.

Interno je promatrano da model dovršava zadatke koji traju više od 24 sata, uključujući refaktore u više koraka, iteracije vođene testovima i autonomno uklanjanje pogrešaka.

Sabijanje također poboljšava učinkovitost žetona. Pri srednjem naporu razmišljanja, GPT‑5.1-Codex-Max upotrijebio je približno 30% manje tokena razmišljanja od GPT-5.1-Codexa za usporedivu ili bolju točnost, što ima implikacije i na trošak i na kašnjenje.

Integracija platforme i slučajevi korištenja

GPT‑5.1-Codex-Max trenutno je dostupan u više okruženja temeljenih na Codexu, koja se odnose na OpenAI-jeve vlastite integrirane alate i sučelja izgrađena posebno za AI agente usmjerene na kod. To uključuje:

  • Codex CLIOpenAI-jev službeni alat naredbenog retka (@openai/codex), gdje je GPT‑5.1-Codex-Max već aktivan.

  • IDE proširenjakoji je vjerojatno razvio ili održavao OpenAI, iako nisu navedene specifične IDE integracije treće strane.

  • Interaktivna okruženja kodiranjapoput onih koji se koriste za demonstraciju aplikacija za simulaciju sučelja kao što su CartPole ili Snell’s Law Explorer.

  • Alat za interni pregled kodakoju koriste inženjerski timovi OpenAI-ja.

Za sada GPT‑5.1-Codex-Max još nije dostupan putem javnog API-ja, iako OpenAI navodi da će to uskoro biti dostupno. Korisnici koji danas žele raditi s modelom u terminalskim okruženjima mogu to učiniti instaliranjem i korištenjem Codex CLI.

Trenutačno nije potvrđeno hoće li se i kako model integrirati u IDE treće strane osim ako nisu izgrađeni na CLI ili budućem API-ju.

Model je sposoban za interakciju sa živim alatima i simulacijama. Primjeri prikazani u izdanju uključuju:

  • Interaktivni simulator gradijenta pravila CartPole, koji vizualizira obuku i aktivacije učenja za potkrepljenje.

  • Optički istraživač Snellova zakona, podržava dinamičko praćenje zraka preko indeksa loma.

Ova sučelja predstavljaju primjer sposobnosti modela da razmišlja u stvarnom vremenu dok održava interaktivnu razvojnu sesiju — učinkovito premošćujući računanje, vizualizaciju i implementaciju unutar jedne petlje.

Kibernetička sigurnost i sigurnosna ograničenja

Iako GPT‑5.1-Codex-Max ne zadovoljava OpenAI-jev “visoki” prag sposobnosti za kibernetičku sigurnost u okviru okvira pripravnosti, to je trenutačno najsposobniji model kibernetičke sigurnosti koji je OpenAI primijenio. Podržava slučajeve upotrebe kao što je automatsko otkrivanje ranjivosti i sanacija, ali sa strogim sandboxingom i onemogućenim pristupom mreži prema zadanim postavkama.

OpenAI ne izvješćuje o povećanju zlonamjerne upotrebe, ali je uveo poboljšane sustave nadzora, uključujući usmjeravanje aktivnosti i mehanizme prekida za sumnjivo ponašanje. Codex ostaje izoliran od lokalnog radnog prostora osim ako programeri ne odaberu širi pristup, čime se smanjuju rizici poput brzog ubacivanja nepouzdanog sadržaja.

Kontekst implementacije i korištenje programera

GPT‑5.1-Codex-Max trenutno je dostupan korisnicima na ChatGPT Plus, Pro, Business, Edu i Enterprise planovi. Također će postati nova zadana vrijednost u okruženjima temeljenim na Codexu, zamjenjujući GPT‑5.1-Codex, koji je bio model općenitije namjene.

OpenAI navodi da 95% njegovih internih inženjera koristi Codex tjedno, a od usvajanja ti inženjeri su u prosjeku poslali oko 70% više zahtjeva za povlačenjem — ističući utjecaj alata na brzinu internog razvoja.

Unatoč svojoj autonomiji i postojanosti, OpenAI naglašava da Codex-Max treba tretirati kao pomoćnika kodiranja, a ne kao zamjenu za ljudski pregled. Model proizvodi zapisnike terminala, citate testova i izlaze poziva alata za podršku transparentnosti u generiranom kodu.

Outlook

GPT‑5.1-Codex-Max predstavlja značajnu evoluciju u strategiji OpenAI-ja prema agentskim razvojnim alatima, nudeći veću dubinu razmišljanja, učinkovitost tokena i interaktivne mogućnosti u svim zadacima softverskog inženjeringa. Proširujući svoje strategije upravljanja kontekstom i sažimanja, model je pozicioniran za rukovanje zadacima na razini punih repozitorija, umjesto pojedinačnih datoteka ili isječaka.

S stalnim naglaskom na agencijske tijekove rada, sigurne sandboxove i metrike procjene u stvarnom svijetu, Codex-Max postavlja pozornicu za sljedeću generaciju programskih okruženja potpomognutih umjetnom inteligencijom — istovremeno naglašavajući važnost nadzora u sve autonomnijim sustavima.

Web izvor

Povezani sadržaji

  • Zašto je Nicholas Thompson napravio prilagođeni GPT za brži radZašto je Nicholas Thompson napravio prilagođeni GPT za brži rad
  • Pokémon Presents prijenos uživo izgleda spreman za sljedeći mjesecPokémon Presents prijenos uživo izgleda spreman za sljedeći mjesec
  • CES 2025 tips and tricks: A guide to tech’s biggest trade showCES 2025 tips and tricks: A guide to tech’s biggest trade show
  • Kako instalirati i koristiti Microsoftov PowerShell na Linuxu (i zašto biste trebali)Kako instalirati i koristiti Microsoftov PowerShell na Linuxu (i zašto biste trebali)
  • T-Mobile Starlink Beta poziva na uvođenje na Android i iOS uređajeT-Mobile Starlink Beta poziva na uvođenje na Android i iOS uređaje
  • Sto je InternetŠto je Internet?

Previous Article

NASA je konačno odlučila o podrijetlu 3I/ATLAS-a

Next Article

VMO2 nadograđuje 4G, 5G pokrivenost na britanskim autocestama, cestama A

Posljednje objave

Procjena agenta umjetne inteligencije zamjenjuje označavanje podataka kao ključni put do implementacije proizvodnje

Procjena agenta umjetne inteligencije zamjenjuje označavanje podataka kao ključni put do implementacije proizvodnje

Paradromics dobiva odobrenje FDA za ispitivanje svog moždanog implantata na ljudima

Paradromics dobiva odobrenje FDA za ispitivanje svog moždanog implantata na ljudima

Što Linus Torvalds stvarno misli o umjetnoj inteligenciji i razvoju softvera moglo bi vas iznenaditi

Sadržaj

  • 1 Referentne vrijednosti izvedbe: inkrementalni dobici u ključnim zadacima
  • 2 Tehnička arhitektura: Rezoniranje dugog horizonta putem sažimanja
  • 3 Integracija platforme i slučajevi korištenja
  • 4 Kibernetička sigurnost i sigurnosna ograničenja
  • 5 Kontekst implementacije i korištenje programera
  • 6 Outlook

Novosti

  • Procjena agenta umjetne inteligencije zamjenjuje označavanje podataka kao ključni put do implementacije proizvodnje 21. studenoga 2025
  • Paradromics dobiva odobrenje FDA za ispitivanje svog moždanog implantata na ljudima 21. studenoga 2025
  • Što Linus Torvalds stvarno misli o umjetnoj inteligenciji i razvoju softvera moglo bi vas iznenaditi 21. studenoga 2025
  • Nemojte da vas duhovi prisluškuju: 5 načina da spriječite lopove da skeniraju vaš novčanik 21. studenoga 2025
  • Kako AirDrop na Androidu 21. studenoga 2025
  • Tides of Annihilation nastavlja izgledati sjajno u igrivosti koja razbija novu dimenziju 20. studenoga 2025
  • VMO2 nadograđuje 4G, 5G pokrivenost na britanskim autocestama, cestama A 20. studenoga 2025
  • OpenAI debitira s modelom kodiranja GPT‑5.1-Codex-Max i već je izvršio 24-satni zadatak interno 20. studenoga 2025
  • NASA je konačno odlučila o podrijetlu 3I/ATLAS-a 20. studenoga 2025
  • Linus Torvalds iznenađujuće je optimističan u pogledu vibe kodiranja – osim ove jedne ‘užasne’ upotrebe 20. studenoga 2025

O nama

Oblak Znanja je blog edukativnog karaktera i namijenjen je svima koji žele unaprijediti svoje znanje iz područja računala i interneta.

Naš cilj je edukacija i pisanje zanimljivih objava kojima ćemo zajedno učiti i informirati se o svijetu informatike.

Na ovom blogu zabranjeno je svako kopiranje sadržaja bez dozvole autora.

Oblak Znanja

Oznake

besplatni powerpoint predlošci društvene mreže excel facebook firefox gmail google+ Google Chrome halloween halloween walpapers internet kartice linkedin profil linux microsoft Mozilla Firefox ms powerpoint oblak znanja office 2007 office savjeti online kupovina pick powerpoint powerpoint predložak powerpoint savjeti rastući niz savjet slike za radnu površinu spremanje datoteka strani jezik tipkovnicke kratice twitter twitter alati uređivanje slika wallpaper clock web preglednik windows windows 7 windows aplikacije windows vista word word 2007 word savjeti youtube savjeti youtube tipkovničke kratice