Terminal-Bench 2.0 lansira se uz Harbor, novi okvir za testiranje agenata u spremnicima

Programeri Terminal-Bench, benchmark paketa za procjenu performansi autonomnih AI agenata na stvarnim zadacima temeljenim na terminalima, objavili su verzija 2.0 uz bok Lukanovi okvir za testiranje, poboljšanje i optimiziranje AI agenata u kontejnerskim okruženjima.

Dvostruko izdanje ima za cilj rješavanje dugotrajnih bolnih točaka u testiranju i optimiziranju AI agenata, posebno onih koji su napravljeni za autonomni rad u realističnim razvojnim okruženjima.

S težim i rigoroznije provjerenim skupom zadataka, Terminal-Bench 2.0 zamjenjuje verziju 1.0 kao standard za procjenu mogućnosti graničnog modela.

Harbor, prateći runtime framework, omogućuje razvojnim programerima i istraživačima skaliranje evaluacija na tisuće spremnika u oblaku i integrira se s otvorenim i vlasničkim agentima i cjevovodima za obuku.

“Luka je paket koji smo željeli imati dok smo pravili Terminal-Bench," napisao je sukreator Alex Shaw na X. "Namijenjen je programerima i istraživačima agenata, modela i referentnih vrijednosti koji žele procijeniti i poboljšati agente i modele."

Sadržaj objave

1 Viša traka, čišći podaci
2 Harbor: objedinjena predstavljanja u velikom broju
3 Rani rezultati: GPT-5 vodi u uspješnosti zadatka
4 Podnošenje i korištenje
5 Težnja ka standardizaciji
6 Povezani sadržaji

Viša traka, čišći podaci

Terminal-Bench 1.0 doživio je brzo usvajanje nakon svog izlazak u svibnju 2025postavši zadano mjerilo za procjenu performansi agenata u cijelom području agenata koji pokreću AI koji rade u terminalskim okruženjima u stilu razvojnih programera. Ovi agenti komuniciraju sa sustavima putem naredbenog retka, oponašajući način na koji programeri rade iza kulisa grafičkog korisničkog sučelja.

Međutim, njegov široki opseg dolazi s nedosljednostima. Zajednica je identificirala nekoliko zadataka kao loše specificirane ili nestabilne zbog promjena vanjske usluge.

Verzija 2.0 izravno rješava te probleme. Ažurirani paket uključuje 89 zadataka, od kojih je svaki podvrgnut nekoliko sati ručne provjere uz pomoć LLM-a. Naglasak je na tome da zadaci budu rješivi, realni i jasno specificirani, podižući gornju granicu težine dok poboljšavaju pouzdanost i ponovljivost.

Značajan primjer je download-youtube zadatak, koji je uklonjen ili refaktoriran u 2.0 zbog svoje ovisnosti o nestabilnim API-jima trećih strana.

“Pronicljivi obožavatelji Terminal-Bench-a mogli bi primijetiti da su performanse SOTA-e usporedive s TB1.0 unatoč našoj tvrdnji da je TB2.0 teži”, Shaw zabilježeno na X. “Vjerujemo da je to zato što je kvaliteta zadataka znatno viša u novom mjerilu.”

Harbor: objedinjena predstavljanja u velikom broju

Uz ažuriranje referentne vrijednosti, tim je pokrenuo Lukanovi okvir za pokretanje i procjenu agenata u spremnicima postavljenim u oblaku.

Harbour podržava infrastrukturu velikih razmjera, s kompatibilnošću za glavne pružatelje usluga kao što su Daytona i Modalni.

Dizajniran za generalizaciju među arhitekturama agenata, Harbour podržava:

Procjena bilo kojeg agenta koji se može instalirati u spremnik
Skalabilni kanali nadziranog finog podešavanja (SFT) i učenja pojačanja (RL).
Stvaranje i implementacija prilagođene referentne vrijednosti
Potpuna integracija s Terminal-Bench 2.

Harbour je korišten interno za pokretanje desetaka tisuća uvođenja tijekom stvaranja novog mjerila. Sada je javno dostupan putem harborframework.coms dokumentacijom za testiranje i slanje agenata na javnu ploču s najboljim rezultatima.

Rani rezultati: GPT-5 vodi u uspješnosti zadatka

Inicijalni rezultati s ploče s najboljim rezultatima Terminal-Bench 2.0 pokazuju OpenAI-jev Codex CLI (sučelje naredbenog retka), varijantu pokretanu GPT-5, u vodstvu, sa stopom uspješnosti od 49,6% — što je najveća među svim do sada testiranim agentima.

Odmah iza njih su ostale GPT-5 varijante i agenti temeljeni na Claude Sonnetu 4.5.

5 najboljih rezultata agenata (Terminal-Bench 2.0):

Codex CLI (GPT-5) — 49,6%
Codex CLI (GPT-5-Codex) — 44,3%
OpenHands (GPT-5) — 43,8%
Terminus 2 (GPT-5-Codex) — 43,4%
Terminus 2 (Claude Sonnet 4.5) — 42,8%

Blisko grupiranje među vrhunskim modelima ukazuje na aktivno natjecanje među platformama, pri čemu niti jedan agent ne rješava više od polovice zadataka.

Podnošenje i korištenje

Za testiranje ili slanje agenta, korisnici instaliraju Harbor i pokreću referentnu vrijednost pomoću jednostavnih CLI naredbi. Za prijavu na ljestvicu s najboljim rezultatima potrebno je pet testiranja, a rezultati se mogu poslati e-poštom razvojnim programerima zajedno s imenicima poslova radi provjere.

lučka staza -d terminal-bench@2.0 -m "" -a "" –n-pokušaja 5 –jobs-dir

Terminal-Bench 2.0 već se integrira u istraživačke tijekove rada usmjerene na agentsko razmišljanje, generiranje koda i korištenje alata. Prema sukreatoru Mikeu Merrillu, postdoktorskom istraživaču na Stanfordu, u tijeku je detaljan preprint koji pokriva proces verifikacije i metodologiju dizajna koja stoji iza referentne vrijednosti.

Težnja ka standardizaciji

Kombinirano izdanje Terminal-Bench 2.0 i Harbor označava korak prema dosljednijoj i skalabilnijoj infrastrukturi za procjenu agenata. Kako se LLM agenti šire u razvojnim i operativnim okruženjima, potreba za kontroliranim, ponovljivim testiranjem je rasla.

Ovi alati nude potencijalnu osnovu za objedinjeni skup evaluacije — podržavajući poboljšanje modela, simulaciju okruženja i standardizaciju referentnih vrijednosti u ekosustavu umjetne inteligencije.

Web izvor