Muskov xAI lansira Grok 4.1 s nižom stopom halucinacija na webu i u aplikacijama — bez API pristupa (za sada)

U nečemu što se činilo kao pokušaj da se upije nešto od Googleovog svjetla u centru pažnje prije lansiranja njegovog novog Gemini 3 vodećeg AI modela — koji je sada zabilježen kao najmoćniji LLM na svijetu od strane brojnih neovisnih evaluatora — konkurentska AI startup Elona Muska xAI sinoć je predstavila svoj najnoviji veliki jezični model, Grok 4.1.

Model je sada aktivan za potrošačku upotrebu na Grok.com, društvenoj mreži X (bivši Twitter) i tvrtkinim mobilnim aplikacijama za iOS i Android, a dolazi s velikim arhitektonskim i upotrebljivim poboljšanjima, među kojima su: brže zaključivanje, poboljšana emocionalna inteligencija i značajno smanjene stope halucinacija. xAI je također pohvalno objavio bijelu knjigu o svojim evaluacijama, uključujući mali dio o procesu obuke ovdje.

U javnim mjerilima, Grok 4.1 je dospio na vrh ljestvice, nadmašujući konkurentske modele iz Anthropica, OpenAI-a i Googlea – barem Googleov model prije Gemini 3 (Gemini 2.5 Pro). Nadovezuje se na uspjeh Grok-4 Fast tvrtke xAI, koji je VentureBeat povoljno pokrio nedugo nakon njegovog izdavanja u rujnu 2025.

Međutim, razvojni programeri poduzeća koji žele integrirati novi i poboljšani model Grok 4.1 u proizvodna okruženja naići će na jedno veliko ograničenje: još nije dostupan putem xAI-jev javni API.

Unatoč svojim visokim referentnim vrijednostima, Grok 4.1 ostaje ograničen na xAI sučelja okrenuta potrošačima, bez najavljenog vremenskog okvira za izlaganje API-ja. Trenutačno su samo stariji modeli—uključujući Grok 4 Fast (varijante s obrazloženjem i bez razmišljanja), Grok 4 0709 i naslijeđene modele kao što su Grok 3, Grok 3 Mini i Grok 2 Vision—dostupni za programsku upotrebu putem xAI developer API-ja. Oni podržavaju do 2 milijuna tokena konteksta, s cijenom tokena u rasponu od 0,20 USD do 3,00 USD po milijunu, ovisno o konfiguraciji.

Za sada, ovo ograničava Grok 4.1 korisnost u poslovnim tijekovima koji se oslanjaju na pozadinsku integraciju, fino podešene agentske cjevovode ili skalabilne interne alate. Dok uvođenje za potrošače pozicionira Grok 4.1 kao najsposobniji LLM u portfelju xAI-ja, proizvodne implementacije u poslovnim okruženjima ostaju na čekanju.

Sadržaj objave

1 Dizajn modela i strategija implementacije
2 Vodeći na području ljudske i stručne evaluacije
3 Temeljna poboljšanja u odnosu na prethodne generacije
4 Sigurnost i kontradiktorna otpornost
5 Ograničeni poslovni pristup putem API-ja
6 Prijem industrije i sljedeći koraci

Dizajn modela i strategija implementacije

Grok 4.1 dolazi u dvije konfiguracije: način rada s brzim odgovorom, niske latencije za trenutne odgovore i način rada “razmišljanja” koji se uključuje u razmišljanje u više koraka prije nego što proizvede izlaz.

Obje verzije su aktivne za krajnje korisnike i mogu se odabrati putem alata za odabir modela u xAI aplikacijama.

Dvije se konfiguracije razlikuju ne samo po kašnjenju nego i po tome koliko duboko model obrađuje upite. Grok 4.1 Thinking koristi interne mehanizme planiranja i promišljanja, dok standardna verzija daje prednost brzini. Unatoč razlici u arhitekturi, oba su postigla više rezultate od bilo kojeg konkurentskog modela u slijepom testiranju preferencija i referentnih vrijednosti.

Vodeći na području ljudske i stručne evaluacije

Na LMArena Text Arena ljestvicaGrok 4.1 Thinking kratko je držao prvo mjesto s normaliziranim Elo rezultatom od 1483 — a zatim je skinut s trona nekoliko sati kasnije Googleovim izdanjem Gemini 3 i njegovim nevjerojatnim Elo rezultatom od 1501.

Verzija Grok 4.1 koja nije za razmišljanje također dobro stoji na indeksu, međutim, na 1465.

Ovi rezultati stavljaju Grok 4.1 iznad Googleovog Gemini 2.5 Pro, Anthropicove Claude 4.5 serije i OpenAI-jevog GPT-4.5 pregleda.

U kreativnom pisanju, Grok 4.1 nalazi se na drugom mjestu nakon Polaris Alpha (rane GPT-5.1 varijante), s modelom koji “razmišlja” zaradio je rezultat od 1721,9 na mjerilu Creative Writing v3. Ovo označava poboljšanje od otprilike 600 bodova u odnosu na prethodne Grok iteracije.

Slično tome, na ljestvici Arena Expert, koja prikuplja povratne informacije od profesionalnih recenzenata, Grok 4.1 Thinking ponovno vodi na polju s rezultatom 1510.

Dobici su posebno značajni s obzirom na to da je Grok 4.1 objavljen samo dva mjeseca nakon Grok 4 Fast, naglašavajući ubrzani tempo razvoja u xAI-ju.

Temeljna poboljšanja u odnosu na prethodne generacije

Tehnički, Grok 4.1 predstavlja značajan skok u upotrebljivosti u stvarnom svijetu. Vizualne mogućnosti — prethodno ograničene u Grok 4 — nadograđene su kako bi omogućile robusno razumijevanje slika i videa, uključujući analizu grafikona i ekstrakciju teksta na razini OCR-a. Multimodalna pouzdanost bila je bolna točka u prethodnim verzijama, a sada je riješena.

Latencija na razini tokena smanjena je za približno 28 posto uz očuvanje dubine razmišljanja.

U zadacima dugog konteksta, Grok 4.1 održava koherentan izlaz do 1 milijun tokena, poboljšavajući tendenciju Grok 4 da degradira preko granice od 300.000 tokena.

xAI je također poboljšao mogućnosti orkestracije alata modela. Grok 4.1 sada može planirati i izvoditi više vanjskih alata paralelno, smanjujući broj ciklusa interakcije potrebnih za dovršavanje upita u više koraka.

Prema internim zapisnicima testiranja, neki istraživački zadaci koji su prije zahtijevali četiri koraka sada se mogu dovršiti u jednom ili dva.

Ostala poboljšanja usklađivanja uključuju bolju kalibraciju istine—smanjenje sklonosti zaštiti ili ublažavanju politički osjetljivih rezultata—i prirodniju prozodiju nalik ljudskoj u glasovnom načinu, s podrškom za različite stilove govora i naglaske.

Sigurnost i kontradiktorna otpornost

Kao dio svog okvira za upravljanje rizikom, xAI je procijenio Grok 4.1 za ponašanje odbijanja, otpornost na halucinacije, ulizicu i sigurnost dvostruke namjene.

Stopa halucinacija u načinu rada bez rasuđivanja pala je s 12,09 posto u Grok 4 Fast na samo 4,22 posto — otprilike 65% poboljšanja.

Model je također postigao 2,97 posto na FActScore, činjeničnom QA benchmarku, što je pad od 9,89 posto u ranijim verzijama.

U domeni kontradiktorne otpornosti, Grok 4.1 testiran je brzim napadima ubrizgavanjem, uputama za bjekstvo iz zatvora i osjetljivim kemijskim i biološkim upitima.

Sigurnosni filtri pokazali su niske lažno negativne stope, posebno za ograničeno kemijsko znanje (0,00 posto) i ograničene biološke upite (0,03 posto).

Sposobnost modela da se odupre manipulaciji u mjerilima uvjeravanja, kao što je MakeMeSay, također se čini snažnom – zabilježio je stopu uspjeha od 0 posto kao napadač.

Ograničeni poslovni pristup putem API-ja

Unatoč ovim dobicima, Grok 4.1 ostaje nedostupan poslovnim korisnicima putem xAI API-ja. Prema podacima tvrtke javne dokumentacijenajnoviji dostupni modeli za programere su Grok 4 Fast (i varijante s obrazloženjem i bez razmišljanja), a svaki podržava do 2 milijuna tokena konteksta po cjenovnim razinama u rasponu od 0,20 do 0,50 USD za milijun tokena. Oni su podržani ograničenjem protoka od 4 milijuna tokena po minuti i ograničenjem brzine od 480 zahtjeva po minuti (RPM).

Nasuprot tome, Grok 4.1 dostupan je samo putem xAI-jevih svojstava namijenjenih potrošačima—X, Grok.com i mobilnih aplikacija. To znači da organizacije još ne mogu implementirati Grok 4.1 putem fino podešenih internih radnih procesa, lanaca s više agenata ili integracija proizvoda u stvarnom vremenu.

Prijem industrije i sljedeći koraci

Izdanje je naišlo na snažne povratne informacije javnosti i industrije. Elon Musk, osnivač xAI-ja, objavio je kratku podršku, nazivajući ga “sjajnim modelom” i čestitajući timu. AI benchmark platforme pohvalile su skok u upotrebljivosti i lingvističkim nijansama.

Za poslovne korisnike, međutim, slika je mješovitija. Izvedba Grok 4.1 predstavlja proboj za opće namjene i kreativne zadatke, ali sve dok API pristup nije omogućen, ostat će proizvod na prvom mjestu potrošača s ograničenom poslovnom primjenom.

Kako se konkurentski modeli iz OpenAI-ja, Googlea i Anthropica nastavljaju razvijati, xAI-jev sljedeći strateški potez mogao bi ovisiti o tome kada će – i kako – otvoriti Grok 4.1 vanjskim programerima.

Web izvor

Muskov xAI lansira Grok 4.1 s nižom stopom halucinacija na webu i u aplikacijama — bez API pristupa (za sada)

ByTomšić Damjan

Dizajn modela i strategija implementacije

Vodeći na području ljudske i stručne evaluacije

Temeljna poboljšanja u odnosu na prethodne generacije

Sigurnost i kontradiktorna otpornost

Ograničeni poslovni pristup putem API-ja

Prijem industrije i sljedeći koraci

By Tomšić Damjan

Android ima tajni izbornik za ažuriranje za koji vjerojatno niste znali

Razvojni programer GTA 6 Rockstar Games ponovno je hakiran, ali inzistira na tome da je ovaj put kompromitirana samo “ograničena količina nematerijalnih informacija o tvrtki”

Starlink preoblikuje satelitske komunikacije dok industrija ulazi u terabitnu eru

You missed

Android ima tajni izbornik za ažuriranje za koji vjerojatno niste znali

Razvojni programer GTA 6 Rockstar Games ponovno je hakiran, ali inzistira na tome da je ovaj put kompromitirana samo “ograničena količina nematerijalnih informacija o tvrtki”

Starlink preoblikuje satelitske komunikacije dok industrija ulazi u terabitnu eru

Vjerodajnice agenta umjetne inteligencije nalaze se u istoj kutiji kao nepouzdani kod. Dvije nove arhitekture pokazuju gdje zapravo prestaje radijus eksplozije.

Muskov xAI lansira Grok 4.1 s nižom stopom halucinacija na webu i u aplikacijama — bez API pristupa (za sada)

ByTomšić Damjan

Dizajn modela i strategija implementacije

Vodeći na području ljudske i stručne evaluacije

Temeljna poboljšanja u odnosu na prethodne generacije

Sigurnost i kontradiktorna otpornost

Ograničeni poslovni pristup putem API-ja

Prijem industrije i sljedeći koraci

By Tomšić Damjan

Related Post

Android ima tajni izbornik za ažuriranje za koji vjerojatno niste znali

Razvojni programer GTA 6 Rockstar Games ponovno je hakiran, ali inzistira na tome da je ovaj put kompromitirana samo “ograničena količina nematerijalnih informacija o tvrtki”

Starlink preoblikuje satelitske komunikacije dok industrija ulazi u terabitnu eru

You missed

Android ima tajni izbornik za ažuriranje za koji vjerojatno niste znali

Razvojni programer GTA 6 Rockstar Games ponovno je hakiran, ali inzistira na tome da je ovaj put kompromitirana samo “ograničena količina nematerijalnih informacija o tvrtki”

Starlink preoblikuje satelitske komunikacije dok industrija ulazi u terabitnu eru

Vjerodajnice agenta umjetne inteligencije nalaze se u istoj kutiji kao nepouzdani kod. Dvije nove arhitekture pokazuju gdje zapravo prestaje radijus eksplozije.