Oblak Znanja

  • Home
  • Novosti
  • Učionica
    • Informatika 5
    • Informatika 6
    • Informatika 7
    • Informatika 8
    • Logo jezik
    • WordPress
    • Microsoft Office
  • Vodiči
    • Online vodiči
    • Kratki savjeti
    • Korisne aplikacije
    • Društvene mreže
    • Multimedija
    • Zanimljivosti
✕

Terminal-Bench 2.0 lansira se uz Harbor, novi okvir za testiranje agenata u spremnicima

Novosti

Terminal-Bench 2.0 lansira se uz Harbor, novi okvir za testiranje agenata u spremnicima

Tomšić Damjan 8. studenoga 2025

Programeri Terminal-Bench, benchmark paketa za procjenu performansi autonomnih AI agenata na stvarnim zadacima temeljenim na terminalima, objavili su verzija 2.0 uz bok Lukanovi okvir za testiranje, poboljšanje i optimiziranje AI agenata u kontejnerskim okruženjima.

Dvostruko izdanje ima za cilj rješavanje dugotrajnih bolnih točaka u testiranju i optimiziranju AI agenata, posebno onih koji su napravljeni za autonomni rad u realističnim razvojnim okruženjima.

S težim i rigoroznije provjerenim skupom zadataka, Terminal-Bench 2.0 zamjenjuje verziju 1.0 kao standard za procjenu mogućnosti graničnog modela.

Harbor, prateći runtime framework, omogućuje razvojnim programerima i istraživačima skaliranje evaluacija na tisuće spremnika u oblaku i integrira se s otvorenim i vlasničkim agentima i cjevovodima za obuku.

“Luka je paket koji smo željeli imati dok smo pravili Terminal-Bench," napisao je sukreator Alex Shaw na X. "Namijenjen je programerima i istraživačima agenata, modela i referentnih vrijednosti koji žele procijeniti i poboljšati agente i modele."

Sadržaj objave

  • 1 Viša traka, čišći podaci
  • 2 Harbor: objedinjena predstavljanja u velikom broju
  • 3 Rani rezultati: GPT-5 vodi u uspješnosti zadatka
  • 4 Podnošenje i korištenje
  • 5 Težnja ka standardizaciji
  • 6 Povezani sadržaji

Viša traka, čišći podaci

Terminal-Bench 1.0 doživio je brzo usvajanje nakon svog izlazak u svibnju 2025postavši zadano mjerilo za procjenu performansi agenata u cijelom području agenata koji pokreću AI koji rade u terminalskim okruženjima u stilu razvojnih programera. Ovi agenti komuniciraju sa sustavima putem naredbenog retka, oponašajući način na koji programeri rade iza kulisa grafičkog korisničkog sučelja.

Međutim, njegov široki opseg dolazi s nedosljednostima. Zajednica je identificirala nekoliko zadataka kao loše specificirane ili nestabilne zbog promjena vanjske usluge.

Verzija 2.0 izravno rješava te probleme. Ažurirani paket uključuje 89 zadataka, od kojih je svaki podvrgnut nekoliko sati ručne provjere uz pomoć LLM-a. Naglasak je na tome da zadaci budu rješivi, realni i jasno specificirani, podižući gornju granicu težine dok poboljšavaju pouzdanost i ponovljivost.

Značajan primjer je download-youtube zadatak, koji je uklonjen ili refaktoriran u 2.0 zbog svoje ovisnosti o nestabilnim API-jima trećih strana.

“Pronicljivi obožavatelji Terminal-Bench-a mogli bi primijetiti da su performanse SOTA-e usporedive s TB1.0 unatoč našoj tvrdnji da je TB2.0 teži”, Shaw zabilježeno na X. “Vjerujemo da je to zato što je kvaliteta zadataka znatno viša u novom mjerilu.”

Harbor: objedinjena predstavljanja u velikom broju

Uz ažuriranje referentne vrijednosti, tim je pokrenuo Lukanovi okvir za pokretanje i procjenu agenata u spremnicima postavljenim u oblaku.

Harbour podržava infrastrukturu velikih razmjera, s kompatibilnošću za glavne pružatelje usluga kao što su Daytona i Modalni.

Dizajniran za generalizaciju među arhitekturama agenata, Harbour podržava:

  • Procjena bilo kojeg agenta koji se može instalirati u spremnik

  • Skalabilni kanali nadziranog finog podešavanja (SFT) i učenja pojačanja (RL).

  • Stvaranje i implementacija prilagođene referentne vrijednosti

  • Potpuna integracija s Terminal-Bench 2.

Harbour je korišten interno za pokretanje desetaka tisuća uvođenja tijekom stvaranja novog mjerila. Sada je javno dostupan putem harborframework.coms dokumentacijom za testiranje i slanje agenata na javnu ploču s najboljim rezultatima.

Rani rezultati: GPT-5 vodi u uspješnosti zadatka

Inicijalni rezultati s ploče s najboljim rezultatima Terminal-Bench 2.0 pokazuju OpenAI-jev Codex CLI (sučelje naredbenog retka), varijantu pokretanu GPT-5, u vodstvu, sa stopom uspješnosti od 49,6% — što je najveća među svim do sada testiranim agentima.

Odmah iza njih su ostale GPT-5 varijante i agenti temeljeni na Claude Sonnetu 4.5.

5 najboljih rezultata agenata (Terminal-Bench 2.0):

  1. Codex CLI (GPT-5) — 49,6%

  2. Codex CLI (GPT-5-Codex) — 44,3%

  3. OpenHands (GPT-5) — 43,8%

  4. Terminus 2 (GPT-5-Codex) — 43,4%

  5. Terminus 2 (Claude Sonnet 4.5) — 42,8%

Blisko grupiranje među vrhunskim modelima ukazuje na aktivno natjecanje među platformama, pri čemu niti jedan agent ne rješava više od polovice zadataka.

Podnošenje i korištenje

Za testiranje ili slanje agenta, korisnici instaliraju Harbor i pokreću referentnu vrijednost pomoću jednostavnih CLI naredbi. Za prijavu na ljestvicu s najboljim rezultatima potrebno je pet testiranja, a rezultati se mogu poslati e-poštom razvojnim programerima zajedno s imenicima poslova radi provjere.

lučka staza -d terminal-bench@2.0 -m "" -a "" –n-pokušaja 5 –jobs-dir

Terminal-Bench 2.0 već se integrira u istraživačke tijekove rada usmjerene na agentsko razmišljanje, generiranje koda i korištenje alata. Prema sukreatoru Mikeu Merrillu, postdoktorskom istraživaču na Stanfordu, u tijeku je detaljan preprint koji pokriva proces verifikacije i metodologiju dizajna koja stoji iza referentne vrijednosti.

Težnja ka standardizaciji

Kombinirano izdanje Terminal-Bench 2.0 i Harbor označava korak prema dosljednijoj i skalabilnijoj infrastrukturi za procjenu agenata. Kako se LLM agenti šire u razvojnim i operativnim okruženjima, potreba za kontroliranim, ponovljivim testiranjem je rasla.

Ovi alati nude potencijalnu osnovu za objedinjeni skup evaluacije — podržavajući poboljšanje modela, simulaciju okruženja i standardizaciju referentnih vrijednosti u ekosustavu umjetne inteligencije.

Web izvor

Povezani sadržaji

  • Red Hat je upravo proširio besplatan pristup RHEL -u za poslovne programereRed Hat je upravo proširio besplatan pristup RHEL -u za poslovne programere
  • Assassin’s Creed sjene koje dolaze na Switch 2, Ubisoft nagovještajAssassin’s Creed sjene koje dolaze na Switch 2, Ubisoft nagovještaj
  • Dogeovi rezovi na USDA mogli bi uzrokovati rast američkih cijena namirnica i širenje invazivnih vrstaDogeovi rezovi na USDA mogli bi uzrokovati rast američkih cijena namirnica i širenje invazivnih vrsta
  • T-Mobile Starlink dobiva besplatnu beta verziju za koju biste se trebali prijavitiT-Mobile Starlink dobiva besplatnu beta verziju za koju biste se trebali prijaviti
  • iOS 26 je sada uživo – evo kako ga preuzeti (a koji ga iPhones podržavaju)iOS 26 je sada uživo – evo kako ga preuzeti (a koji ga iPhones podržavaju)
  • CES 2025: QNX predstavlja prvi automobilski digitalni kokpit u industrijiCES 2025: QNX predstavlja prvi automobilski digitalni kokpit u industriji

Previous Article

Kako pratiti putanju kometa 3I/Atlas

Next Article

City of London postavlja SASE na javnu infrastrukturu koja je spremna za budućnost

Posljednje objave

“Već dugo vremena imamo pun tim na Falloutu” – Todd Howard potpiruje vatre Fallouta 5 dok druga TV sezona buja u životu

“Već dugo vremena imamo pun tim na Falloutu” – Todd Howard potpiruje vatre Fallouta 5 dok druga TV sezona buja u životu

Tehnološke ambicije Ujedinjenih Arapskih Emirata i Dubaija u fokusu dok šeik Hamdan susreće Elona Muska

Tehnološke ambicije Ujedinjenih Arapskih Emirata i Dubaija u fokusu dok šeik Hamdan susreće Elona Muska

OpenAI priznaje da je brzo ubrizgavanje tu da ostane dok poduzeća kasne s obranom

OpenAI priznaje da je brzo ubrizgavanje tu da ostane dok poduzeća kasne s obranom

Sadržaj

  • 1 Viša traka, čišći podaci
  • 2 Harbor: objedinjena predstavljanja u velikom broju
  • 3 Rani rezultati: GPT-5 vodi u uspješnosti zadatka
  • 4 Podnošenje i korištenje
  • 5 Težnja ka standardizaciji

Novosti

  • “Već dugo vremena imamo pun tim na Falloutu” – Todd Howard potpiruje vatre Fallouta 5 dok druga TV sezona buja u životu 26. prosinca 2025
  • Tehnološke ambicije Ujedinjenih Arapskih Emirata i Dubaija u fokusu dok šeik Hamdan susreće Elona Muska 26. prosinca 2025
  • OpenAI priznaje da je brzo ubrizgavanje tu da ostane dok poduzeća kasne s obranom 25. prosinca 2025
  • ‘Vučja DNK’ vreba u mnogim modernim pasminama pasa 25. prosinca 2025
  • Zašto mi je draži ovaj Motorola telefon od 200 USD u odnosu na jeftinije modele Samsunga i Googlea 25. prosinca 2025
  • Samsung mrzi novac, 1000 USD popusta na Galaxy Z Fold 7 s 2x prostora za pohranu 25. prosinca 2025
  • Ekscentrična serija Battle Royale-meets-Ace Attorney Danganronpa dosegla je 10 milijuna prodanih cijena 25. prosinca 2025
  • 10 najvažnijih priča o umrežavanju 2025 25. prosinca 2025
  • Red teaming LLMs exposes a harsh truth about the AI security arms race 24. prosinca 2025
  • AlphaFold je promijenio znanost. Nakon 5 godina, još uvijek se razvija 24. prosinca 2025

O nama

Oblak Znanja je blog edukativnog karaktera i namijenjen je svima koji žele unaprijediti svoje znanje iz područja računala i interneta.

Naš cilj je edukacija i pisanje zanimljivih objava kojima ćemo zajedno učiti i informirati se o svijetu informatike.

Na ovom blogu zabranjeno je svako kopiranje sadržaja bez dozvole autora.

Oblak Znanja

Oznake

besplatni powerpoint predlošci društvene mreže excel facebook firefox gmail google+ Google Chrome halloween halloween walpapers internet kartice linkedin profil linux microsoft Mozilla Firefox ms powerpoint oblak znanja office 2007 office savjeti online kupovina pick powerpoint powerpoint predložak powerpoint savjeti rastući niz savjet slike za radnu površinu spremanje datoteka strani jezik tipkovnicke kratice twitter twitter alati uređivanje slika wallpaper clock web preglednik windows windows 7 windows aplikacije windows vista word word 2007 word savjeti youtube savjeti youtube tipkovničke kratice