antropski u utorak pušten Claude Sonet 4.6model koji predstavlja seizmičko ponovno određivanje cijena za AI industriju. Pruža gotovo glavnu inteligenciju po cijeni srednje razine i nalazi se točno usred neviđene korporativne žurbe za uvođenjem AI agenata i automatiziranih alata za kodiranje.
Model je potpuna nadogradnja kodiranja, korištenja računala, razmišljanja dugog konteksta, agentskog planiranja, rada znanja i dizajna. Sadrži 1M kontekstni prozor tokena u beta verziji. Sada je zadani model u claude.ai i Claude Coworka cijena je stabilna na 3 USD/15 USD za milijun tokena — isto kao i njegov prethodnik, Sonnet 4.5.
Taj detalj o cijeni je naslov koji je najvažniji. Anthropicov vodeći brod Opus modeli koštaju 15 USD/75 USD po milijunu tokena — pet puta više od cijene Soneta. Ipak, izvedba koja bi prije zahtijevala posezanje za modelom klase Opus — uključujući stvarne, ekonomski vrijedne uredske zadatke — sada je dostupna sa Sonnetom 4.6. Za tisuće poduzeća koja sada postavljaju agente umjetne inteligencije koji ostvaruju milijune API poziva dnevno, ta matematika mijenja sve.
Sadržaj objave
- 1 Zašto su troškovi rada AI agenata u velikom broju upravo dramatično pali
- 2 Kako su Claudeove sposobnosti korištenja računala postale gotovo ljudske u 16 mjeseci od ‘eksperimentalnih’
- 3 Poslovni korisnici kažu da model smanjuje jaz između cjenovnih razina Sonneta i Opusa
- 4 Simulirano poslovno natjecanje otkriva kako AI agenti planiraju mjesecima, a ne minutama
- 5 Anthropicov Sonnet 4.6 stiže dok se tvrtka širi na poduzeća i obranu
Zašto su troškovi rada AI agenata u velikom broju upravo dramatično pali
Da biste razumjeli značaj ovog izdanja, morate razumjeti trenutak u kojem je stiglo. Proteklom godinom dominirao je dvostruki fenomen "vibe kodiranje" i agentska umjetna inteligencija. Claude Code — Anthropicov terminalski alat namijenjen razvojnim programerima — postao je kulturna sila u Silicijskoj dolini, s inženjerima koji grade cijele aplikacije kroz razgovor na prirodnom jeziku. New York Times profilirao je njegov meteorski uspon u siječnju. Verge je nedavno objavio da Claude Code ima originalni "trenutak." OpenAI je u međuvremenu vodio vlastitu ofenzivu s Codex desktop aplikacijama i bržim čipovima za zaključivanje.
Rezultat je industrija u kojoj se AI modeli više ne ocjenjuju izolirano. Procijenjeni su kao motori unutar autonomnih agenata — sustava koji rade satima, čine tisuće poziva alatima, pišu i izvršavaju kod, kreću se preglednicima i komuniciraju s poslovnim softverom. Svaki dolar potrošen na milijun žetona množi se u tim tisućama poziva. U razmjeru, razlika između 15 i 3 USD po milijunu ulaznih tokena nije inkrementalna. To je transformacijski.
Tablica mjerila koju je objavio Anthropic daje upečatljivu sliku. Na SWE-klupa Provjerenoindustrijskom standardnom testu za softversko kodiranje u stvarnom svijetu, Sonnet 4.6 postigao je 79,6% — gotovo jednak rezultatu od 80,8% Opusa 4.6. O agentskoj uporabi računala (OSWorld-Verified), Sonet 4.6 postigao je 72,5%, u biti izjednačen s Opusom 4.6 72,7%. Na uredskim poslovima (GDPval-AA Elo), Sonnet 4.6 zapravo je postigao 1633, nadmašivši Opus 4.6 1606. Prema agenturnoj financijskoj analizi, Sonnet 4.6 postigao je 63,3%, pobijedivši sve modele u usporedbi, uključujući Opus 4.6 sa 60,1%.
To nisu marginalne razlike. U mnogim kategorijama do kojih je poduzećima najviše stalo, Sonet 4,6 odgovara ili pobjeđuje modele čije pokretanje košta pet puta više. Poduzeće koje pokreće AI agenta koji obrađuje 10 milijuna tokena dnevno prethodno je bilo prisiljeno birati između lošijih rezultata po nižoj cijeni ili superiornih rezultata uz brzo rastuće troškove. Sonet 4.6 uvelike uklanja taj kompromis.
U Claude Coderano testiranje pokazalo je da korisnici preferiraju Sonet 4,6 preko soneta 4.5 otprilike 70% vremena. Korisnici su čak preferirali Sonnet 4.6 u odnosu na Opus 4.5, Anthropicov granični model iz studenog, u 59% slučajeva. Ocijenili su Sonnet 4.6 kao značajno manje sklon pretjeranom inženjeringu i "lijenost," i značajno bolji u praćenju uputa. Zabilježili su manje lažnih tvrdnji o uspjehu, manje halucinacija i dosljednije izvršavanje zadataka u više koraka.
Kako su Claudeove sposobnosti korištenja računala postale gotovo ljudske u 16 mjeseci od ‘eksperimentalnih’
Jedna od najdramatičnijih priča u izdanju je Anthropicov napredak u korištenju računala — sposobnost umjetne inteligencije da upravlja računalom na način na koji to radi čovjek, klikajući mišem, tipkajući na tipkovnici i navigirajući softver koji nema moderne API-je.
Kada je Anthropic prvi put predstavio ovu mogućnost u listopadu 2024., tvrtka je priznala da je "još uvijek eksperimentalno — ponekad glomazno i sklono pogreškama." Brojke od tada govore nevjerojatnu priču: na OSWorldClaude Sonnet 3.5 postigao je 14,9% u listopadu 2024. Sonnet 3.7 dosegao je 28,0% u veljači 2025. Sonnet 4 postigao je 42,2% do lipnja. Sonnet 4.5 popeo se na 61,4% u listopadu. Sada je Sonnet 4.6 dosegao 72,5% — gotovo peterostruko poboljšanje u 16 mjeseci.
Ovo je važno jer je korištenje računala sposobnost koja otključava najširi skup poslovnih aplikacija za AI agente. Gotovo svaka organizacija ima naslijeđeni softver – portale osiguranja, državne baze podataka, ERP sustave, alate za bolničko planiranje – koji je izgrađen prije nego što su API-ji postojali. Model koji može jednostavno gledati u zaslon i komunicirati s njim otvara sve to automatizaciji bez izgradnje prilagođenih konektora.
Jamie Cuffe, glavni izvršni direktor tvrtke Pace, rekao je da je Sonnet 4.6 dostigao 94% na njihovoj referentnoj točki korištenja računala za osiguranje složenog osiguranja, što je najviše od svih testiranih modela Claude. "Razuđuje kroz neuspjehe i samoispravlja se na načine koje dosad nismo vidjeli," Cuffe je rekao u izjavi poslanoj VentureBeatu. Will Harvey, suosnivač Conveya, nazvao je to "jasno poboljšanje u odnosu na bilo što drugo što smo testirali u našim procjenama."
Sigurnosna dimenzija korištenja računala također je privukla pozornost. Anthropic je primijetio da korištenje računala predstavlja rizici brzog ubrizgavanja — zlonamjerni akteri skrivaju upute na web stranicama za otimanje modela — i rekao je da njegove procjene pokazuju da je Sonnet 4.6 veliko poboljšanje u odnosu na Sonnet 4.5 u otpornosti na takve napade. Za poduzeća koja postavljaju agente koji pretražuju web i komuniciraju s vanjskim sustavima, to ojačavanje nije izborno.
Poslovni korisnici kažu da model smanjuje jaz između cjenovnih razina Sonneta i Opusa
Reakcija kupaca bila je neobično specifična u pogledu dinamike cijene i učinka. Više ranih testera eksplicitno je opisalo Sonnet 4.6 kao eliminirajući potrebu za posezanjem za skupljom Opus razinom.
Caitlin Colgrove, tehnička direktorica tvrtke Hex Technologies, rekla je da tvrtka premješta većinu svog prometa na Sonet 4,6napominjući da uz prilagodljivo razmišljanje i velik napor, "vidimo performanse na razini Opusa na svim osim našim najtežim analitičkim zadacima uz učinkovitiji i fleksibilniji profil. Po cijenama Sonneta, to je jednostavan poziv za naše radno opterećenje."
Ben Kus, tehnički direktor Boxa, rekao je da je model nadmašio Sonnet 4.5 u zahtjevnim pitanjima i odgovorima za 15 postotnih bodova u stvarnim poslovnim dokumentima. Michele Catasta, predsjednik Replita, nazvao je omjer performansi i troškova "izvanredno." Ryan Wiggins iz Mercury Bankinga je to izrazio otvorenije: "Claude Sonnet 4.6 je brži, jeftiniji i vjerojatnije je da će uspjeti u prvom pokušaju. Ta je kombinacija bila iznenađujuća kombinacija poboljšanja i nismo očekivali da ćemo je vidjeti po ovoj cijeni."
Poboljšanja kodiranja posebno odjekuju s obzirom na dominaciju Claudea Codea na tržištu razvojnih alata. David Loker, potpredsjednik AI-a u CodeRabbitu, rekao je model "daleko iznad svoje težine za veliku većinu PR-ova u stvarnom svijetu." Leo Tchourakov iz Factory AI rekao je da tim jest "prebacujući naš Sonnet promet na ovaj model." GitHubov potpredsjednik za proizvode, Joe Binder, potvrdio je da model jest "već se ističe u složenim popravcima koda, posebno kada je ključno pretraživanje velikih baza koda."
Brendan Falk, osnivač i izvršni direktor Herculesa, otišao je dalje: "Claude Sonnet 4.6 je najbolji model koji smo do sada vidjeli. Ima Opus 4.6 razinu točnosti, praćenje uputa i korisničko sučelje, a sve to po znatno nižoj cijeni."
Simulirano poslovno natjecanje otkriva kako AI agenti planiraju mjesecima, a ne minutama
Zakopana u tehničkim detaljima je sposobnost koja nagovještava kamo autonomni AI agenti idu. Kontekstni prozor 1M tokena Sonneta 4.6 može sadržavati cijele baze kodova, dugotrajne ugovore ili desetke istraživačkih radova u jednom zahtjevu. Anthropic kaže da model učinkovito obrazlaže u cijelom tom kontekstu – što je tvrtka pokazala kroz neobičnu procjenu.
The Vending-Bench Arena testira koliko dobro model može voditi simulirano poslovanje tijekom vremena, s različitim AI modelima koji se međusobno natječu za najveću zaradu. Bez ljudskog poticaja, Sonet 4,6 razvio je novu strategiju: uložio je velika sredstva u kapacitete prvih deset simuliranih mjeseci, trošeći značajno više od svojih konkurenata, a zatim se oštro okrenuo kako bi se usredotočio na profitabilnost u posljednjem dijelu. Model je završio svoju 365-dnevnu simulaciju s približno 5.700 USD u saldu, u usporedbi sa otprilike 2.100 USD za Sonnet 4.5.
Ova vrsta višemjesečnog strateškog planiranja, koje se izvodi autonomno, predstavlja kvalitativno drugačiju sposobnost od odgovaranja na pitanja ili generiranja isječaka koda. To je tip rezoniranja dugog horizonta koji agente umjetne inteligencije čini održivima za stvarne poslovne operacije — i pomaže objasniti zašto Anthropic pozicionira Sonnet 4.6 ne samo kao nadogradnju chatbota, već kao motor za novu generaciju autonomnih sustava.
Anthropicov Sonnet 4.6 stiže dok se tvrtka širi na poduzeća i obranu
Ovo izdanje ne dolazi u vakuumu. Anthropic je usred najuspješnijeg niza u svojoj povijesti, a natjecateljski krajolik se zaoštrava na svim frontama.
Istog dana kada je ovo lansiranje, TechCrunch je izvijestio o tom indijskom IT divu Infosys je najavio partnerstvo s tvrtkom Anthropic za izgradnju AI agenata poslovne razine, integrirajući Claude modele u Infosysovu Topaz AI platformu za bankarstvo, telekomunikacije i proizvodnju. Izvršni direktor Anthropica Dario Amodei rekao je za TechCrunch da postoji "veliki jaz između AI modela koji radi u demo verziji i onog koji radi u reguliranoj industriji," i da ga Infosys pomaže premostiti. TechCrunch je također izvijestio da je Anthropic otvorio svoj prvi indijski ured u Bengaluruu te da Indija sada čini oko 6% globalne upotrebe Claudea, odmah iza SAD-a. Tvrtka, za koju je CNBC izvijestio, procijenjena je na 183 milijarde dolarabrzo širi svoje poslovanje.
U međuvremenu, predsjednica Anthropica Daniela Amodei rekla je za ABC News prošli tjedan da će umjetna inteligencija postati glavni predmet humanističkih znanosti "važniji nego ikada," tvrdeći da će vještine kritičkog mišljenja postati vrjednije kako veliki jezični modeli budu svladavali tehnički rad. To je vrsta izjave koju tvrtka daje kada vjeruje da će njena tehnologija preoblikovati cijele kategorije zapošljavanja bijelih ovratnika.
Natjecateljska slika za Sonet 4,6 je također značajan. Model nadmašuje Googleov Gemini 3 Pro i OpenAI GPT-5.2 na više mjerila. GPT-5.2 zaostaje za agentičkom uporabom računala (38,2% naspram 72,5%), agentičkim pretraživanjem (77,9% naspram 74,7% za ne-pro ocjenu Sonneta 4.6) i agentičkom financijskom analizom (59,0% naspram 63,3%). Gemini 3 Pro pokazuje konkurentne performanse na vizualnom razmišljanju i višejezičnim mjerilima, ali zaostaje u kategorijama agenata u kojima ulaganja poduzeća rastu.
Širi zaključak možda se ne odnosi ni na jedan model. Radi se o tome što se događa kada inteligencija klase Opus postane dostupna za nekoliko dolara po milijun tokena umjesto za nekoliko desetaka dolara. Tvrtke koje su oprezno isprobavale agente umjetne inteligencije s malim primjenama sada se suočavaju s bitno drugačijom računicom troškova. Agenti koji su bili preskupi za neprekinuti rad u siječnju odjednom su pristupačni u veljači.
Claude Sonet 4.6 sada je dostupan na svim Claude planovima, Claude Cowork, Claude Code, API-ju i svim glavnim platformama u oblaku. Anthropic je također unaprijedio svoju besplatnu razinu na Sonnet 4.6 prema zadanim postavkama. Programeri mu mogu pristupiti odmah koristeći claude-sonnet-4-6 putem Claude API-ja.