Oblak Znanja

  • Home
  • Novosti
  • Učionica
    • Informatika 5
    • Informatika 6
    • Informatika 7
    • Informatika 8
    • Logo jezik
    • WordPress
    • Microsoft Office
  • Vodiči
    • Online vodiči
    • Kratki savjeti
    • Korisne aplikacije
    • Društvene mreže
    • Multimedija
    • Zanimljivosti
✕

Terminal-Bench 2.0 lansira se uz Harbor, novi okvir za testiranje agenata u spremnicima

Novosti

Terminal-Bench 2.0 lansira se uz Harbor, novi okvir za testiranje agenata u spremnicima

Tomšić Damjan 8. studenoga 2025

Programeri Terminal-Bench, benchmark paketa za procjenu performansi autonomnih AI agenata na stvarnim zadacima temeljenim na terminalima, objavili su verzija 2.0 uz bok Lukanovi okvir za testiranje, poboljšanje i optimiziranje AI agenata u kontejnerskim okruženjima.

Dvostruko izdanje ima za cilj rješavanje dugotrajnih bolnih točaka u testiranju i optimiziranju AI agenata, posebno onih koji su napravljeni za autonomni rad u realističnim razvojnim okruženjima.

S težim i rigoroznije provjerenim skupom zadataka, Terminal-Bench 2.0 zamjenjuje verziju 1.0 kao standard za procjenu mogućnosti graničnog modela.

Harbor, prateći runtime framework, omogućuje razvojnim programerima i istraživačima skaliranje evaluacija na tisuće spremnika u oblaku i integrira se s otvorenim i vlasničkim agentima i cjevovodima za obuku.

“Luka je paket koji smo željeli imati dok smo pravili Terminal-Bench," napisao je sukreator Alex Shaw na X. "Namijenjen je programerima i istraživačima agenata, modela i referentnih vrijednosti koji žele procijeniti i poboljšati agente i modele."

Sadržaj objave

  • 1 Viša traka, čišći podaci
  • 2 Harbor: objedinjena predstavljanja u velikom broju
  • 3 Rani rezultati: GPT-5 vodi u uspješnosti zadatka
  • 4 Podnošenje i korištenje
  • 5 Težnja ka standardizaciji

Viša traka, čišći podaci

Terminal-Bench 1.0 doživio je brzo usvajanje nakon svog izlazak u svibnju 2025postavši zadano mjerilo za procjenu performansi agenata u cijelom području agenata koji pokreću AI koji rade u terminalskim okruženjima u stilu razvojnih programera. Ovi agenti komuniciraju sa sustavima putem naredbenog retka, oponašajući način na koji programeri rade iza kulisa grafičkog korisničkog sučelja.

Međutim, njegov široki opseg dolazi s nedosljednostima. Zajednica je identificirala nekoliko zadataka kao loše specificirane ili nestabilne zbog promjena vanjske usluge.

Verzija 2.0 izravno rješava te probleme. Ažurirani paket uključuje 89 zadataka, od kojih je svaki podvrgnut nekoliko sati ručne provjere uz pomoć LLM-a. Naglasak je na tome da zadaci budu rješivi, realni i jasno specificirani, podižući gornju granicu težine dok poboljšavaju pouzdanost i ponovljivost.

Značajan primjer je download-youtube zadatak, koji je uklonjen ili refaktoriran u 2.0 zbog svoje ovisnosti o nestabilnim API-jima trećih strana.

“Pronicljivi obožavatelji Terminal-Bench-a mogli bi primijetiti da su performanse SOTA-e usporedive s TB1.0 unatoč našoj tvrdnji da je TB2.0 teži”, Shaw zabilježeno na X. “Vjerujemo da je to zato što je kvaliteta zadataka znatno viša u novom mjerilu.”

Harbor: objedinjena predstavljanja u velikom broju

Uz ažuriranje referentne vrijednosti, tim je pokrenuo Lukanovi okvir za pokretanje i procjenu agenata u spremnicima postavljenim u oblaku.

Harbour podržava infrastrukturu velikih razmjera, s kompatibilnošću za glavne pružatelje usluga kao što su Daytona i Modalni.

Dizajniran za generalizaciju među arhitekturama agenata, Harbour podržava:

  • Procjena bilo kojeg agenta koji se može instalirati u spremnik

  • Skalabilni kanali nadziranog finog podešavanja (SFT) i učenja pojačanja (RL).

  • Stvaranje i implementacija prilagođene referentne vrijednosti

  • Potpuna integracija s Terminal-Bench 2.

Harbour je korišten interno za pokretanje desetaka tisuća uvođenja tijekom stvaranja novog mjerila. Sada je javno dostupan putem harborframework.coms dokumentacijom za testiranje i slanje agenata na javnu ploču s najboljim rezultatima.

Rani rezultati: GPT-5 vodi u uspješnosti zadatka

Inicijalni rezultati s ploče s najboljim rezultatima Terminal-Bench 2.0 pokazuju OpenAI-jev Codex CLI (sučelje naredbenog retka), varijantu pokretanu GPT-5, u vodstvu, sa stopom uspješnosti od 49,6% — što je najveća među svim do sada testiranim agentima.

Odmah iza njih su ostale GPT-5 varijante i agenti temeljeni na Claude Sonnetu 4.5.

5 najboljih rezultata agenata (Terminal-Bench 2.0):

  1. Codex CLI (GPT-5) — 49,6%

  2. Codex CLI (GPT-5-Codex) — 44,3%

  3. OpenHands (GPT-5) — 43,8%

  4. Terminus 2 (GPT-5-Codex) — 43,4%

  5. Terminus 2 (Claude Sonnet 4.5) — 42,8%

Blisko grupiranje među vrhunskim modelima ukazuje na aktivno natjecanje među platformama, pri čemu niti jedan agent ne rješava više od polovice zadataka.

Podnošenje i korištenje

Za testiranje ili slanje agenta, korisnici instaliraju Harbor i pokreću referentnu vrijednost pomoću jednostavnih CLI naredbi. Za prijavu na ljestvicu s najboljim rezultatima potrebno je pet testiranja, a rezultati se mogu poslati e-poštom razvojnim programerima zajedno s imenicima poslova radi provjere.

lučka staza -d terminal-bench@2.0 -m "" -a "" –n-pokušaja 5 –jobs-dir

Terminal-Bench 2.0 već se integrira u istraživačke tijekove rada usmjerene na agentsko razmišljanje, generiranje koda i korištenje alata. Prema sukreatoru Mikeu Merrillu, postdoktorskom istraživaču na Stanfordu, u tijeku je detaljan preprint koji pokriva proces verifikacije i metodologiju dizajna koja stoji iza referentne vrijednosti.

Težnja ka standardizaciji

Kombinirano izdanje Terminal-Bench 2.0 i Harbor označava korak prema dosljednijoj i skalabilnijoj infrastrukturi za procjenu agenata. Kako se LLM agenti šire u razvojnim i operativnim okruženjima, potreba za kontroliranim, ponovljivim testiranjem je rasla.

Ovi alati nude potencijalnu osnovu za objedinjeni skup evaluacije — podržavajući poboljšanje modela, simulaciju okruženja i standardizaciju referentnih vrijednosti u ekosustavu umjetne inteligencije.

Web izvor

Previous Article

Kako pratiti putanju kometa 3I/Atlas

Next Article

City of London postavlja SASE na javnu infrastrukturu koja je spremna za budućnost

Posljednje objave

Don’t Starve se vratio za još mračnije hirovito zajedničko preživljavanje u Don’t Starve Elsewhere

Don’t Starve se vratio za još mračnije hirovito zajedničko preživljavanje u Don’t Starve Elsewhere

Mornarica UK-a odvraća ruske podmornice u blizini kritičnih podmorskih kablova

Claude, OpenClaw i nova stvarnost: AI agenti su ovdje — kao i kaos

Claude, OpenClaw i nova stvarnost: AI agenti su ovdje — kao i kaos

Sadržaj

  • 1 Viša traka, čišći podaci
  • 2 Harbor: objedinjena predstavljanja u velikom broju
  • 3 Rani rezultati: GPT-5 vodi u uspješnosti zadatka
  • 4 Podnošenje i korištenje
  • 5 Težnja ka standardizaciji

Novosti

  • Don’t Starve se vratio za još mračnije hirovito zajedničko preživljavanje u Don’t Starve Elsewhere 10. travnja 2026
  • Mornarica UK-a odvraća ruske podmornice u blizini kritičnih podmorskih kablova 9. travnja 2026
  • Claude, OpenClaw i nova stvarnost: AI agenti su ovdje — kao i kaos 9. travnja 2026
  • Astronauti Artemide II svjedočili su sudaru 6 meteorita s Mjesecom 9. travnja 2026
  • Zašto sam prestao koristiti ‘Modern Standby’ na svom Windows prijenosnom računalu kako bih uštedio bateriju preko noći 9. travnja 2026
  • Najbolja alternativa Samsung porukama 9. travnja 2026
  • Split Fiction studio Hazelight dosegao je veliku prodajnu prekretnicu 9. travnja 2026
  • Cisco: Spremnost mreže odlučujući faktor za uspjeh umjetne inteligencije 8. travnja 2026
  • Promet upućen s LLM-a pretvara se u 30-40% — a većina poduzeća to ne optimizira 8. travnja 2026
  • Zadivljujući pogled Artemide II na suprotnu stranu Mjeseca 8. travnja 2026

O nama

Oblak Znanja je blog edukativnog karaktera i namijenjen je svima koji žele unaprijediti svoje znanje iz područja računala i interneta.

Naš cilj je edukacija i pisanje zanimljivih objava kojima ćemo zajedno učiti i informirati se o svijetu informatike.

Na ovom blogu zabranjeno je svako kopiranje sadržaja bez dozvole autora.

Oblak Znanja

Oznake

besplatni powerpoint predlošci društvene mreže excel facebook facebook profil firefox gmail google+ Google Chrome halloween halloween walpapers internet kartice linkedin profil linux microsoft Mozilla Firefox ms powerpoint oblak znanja office 2007 office savjeti online kupovina pick powerpoint powerpoint predložak powerpoint savjeti rastući niz savjet slike za radnu površinu spremanje datoteka tipkovnicke kratice twitter twitter alati uređivanje slika wallpaper clock web preglednik windows windows 7 windows aplikacije windows vista word word 2007 word savjeti youtube savjeti youtube tipkovničke kratice