Oblak Znanja

  • Home
  • Novosti
  • Učionica
    • Informatika 5
    • Informatika 6
    • Informatika 7
    • Informatika 8
    • Logo jezik
    • WordPress
    • Microsoft Office
  • Vodiči
    • Online vodiči
    • Kratki savjeti
    • Korisne aplikacije
    • Društvene mreže
    • Multimedija
    • Zanimljivosti
✕

Terminal-Bench 2.0 lansira se uz Harbor, novi okvir za testiranje agenata u spremnicima

Novosti

Terminal-Bench 2.0 lansira se uz Harbor, novi okvir za testiranje agenata u spremnicima

Tomšić Damjan 8. studenoga 2025

Programeri Terminal-Bench, benchmark paketa za procjenu performansi autonomnih AI agenata na stvarnim zadacima temeljenim na terminalima, objavili su verzija 2.0 uz bok Lukanovi okvir za testiranje, poboljšanje i optimiziranje AI agenata u kontejnerskim okruženjima.

Dvostruko izdanje ima za cilj rješavanje dugotrajnih bolnih točaka u testiranju i optimiziranju AI agenata, posebno onih koji su napravljeni za autonomni rad u realističnim razvojnim okruženjima.

S težim i rigoroznije provjerenim skupom zadataka, Terminal-Bench 2.0 zamjenjuje verziju 1.0 kao standard za procjenu mogućnosti graničnog modela.

Harbor, prateći runtime framework, omogućuje razvojnim programerima i istraživačima skaliranje evaluacija na tisuće spremnika u oblaku i integrira se s otvorenim i vlasničkim agentima i cjevovodima za obuku.

“Luka je paket koji smo željeli imati dok smo pravili Terminal-Bench," napisao je sukreator Alex Shaw na X. "Namijenjen je programerima i istraživačima agenata, modela i referentnih vrijednosti koji žele procijeniti i poboljšati agente i modele."

Sadržaj objave

  • 1 Viša traka, čišći podaci
  • 2 Harbor: objedinjena predstavljanja u velikom broju
  • 3 Rani rezultati: GPT-5 vodi u uspješnosti zadatka
  • 4 Podnošenje i korištenje
  • 5 Težnja ka standardizaciji
  • 6 Povezani sadržaji

Viša traka, čišći podaci

Terminal-Bench 1.0 doživio je brzo usvajanje nakon svog izlazak u svibnju 2025postavši zadano mjerilo za procjenu performansi agenata u cijelom području agenata koji pokreću AI koji rade u terminalskim okruženjima u stilu razvojnih programera. Ovi agenti komuniciraju sa sustavima putem naredbenog retka, oponašajući način na koji programeri rade iza kulisa grafičkog korisničkog sučelja.

Međutim, njegov široki opseg dolazi s nedosljednostima. Zajednica je identificirala nekoliko zadataka kao loše specificirane ili nestabilne zbog promjena vanjske usluge.

Verzija 2.0 izravno rješava te probleme. Ažurirani paket uključuje 89 zadataka, od kojih je svaki podvrgnut nekoliko sati ručne provjere uz pomoć LLM-a. Naglasak je na tome da zadaci budu rješivi, realni i jasno specificirani, podižući gornju granicu težine dok poboljšavaju pouzdanost i ponovljivost.

Značajan primjer je download-youtube zadatak, koji je uklonjen ili refaktoriran u 2.0 zbog svoje ovisnosti o nestabilnim API-jima trećih strana.

“Pronicljivi obožavatelji Terminal-Bench-a mogli bi primijetiti da su performanse SOTA-e usporedive s TB1.0 unatoč našoj tvrdnji da je TB2.0 teži”, Shaw zabilježeno na X. “Vjerujemo da je to zato što je kvaliteta zadataka znatno viša u novom mjerilu.”

Harbor: objedinjena predstavljanja u velikom broju

Uz ažuriranje referentne vrijednosti, tim je pokrenuo Lukanovi okvir za pokretanje i procjenu agenata u spremnicima postavljenim u oblaku.

Harbour podržava infrastrukturu velikih razmjera, s kompatibilnošću za glavne pružatelje usluga kao što su Daytona i Modalni.

Dizajniran za generalizaciju među arhitekturama agenata, Harbour podržava:

  • Procjena bilo kojeg agenta koji se može instalirati u spremnik

  • Skalabilni kanali nadziranog finog podešavanja (SFT) i učenja pojačanja (RL).

  • Stvaranje i implementacija prilagođene referentne vrijednosti

  • Potpuna integracija s Terminal-Bench 2.

Harbour je korišten interno za pokretanje desetaka tisuća uvođenja tijekom stvaranja novog mjerila. Sada je javno dostupan putem harborframework.coms dokumentacijom za testiranje i slanje agenata na javnu ploču s najboljim rezultatima.

Rani rezultati: GPT-5 vodi u uspješnosti zadatka

Inicijalni rezultati s ploče s najboljim rezultatima Terminal-Bench 2.0 pokazuju OpenAI-jev Codex CLI (sučelje naredbenog retka), varijantu pokretanu GPT-5, u vodstvu, sa stopom uspješnosti od 49,6% — što je najveća među svim do sada testiranim agentima.

Odmah iza njih su ostale GPT-5 varijante i agenti temeljeni na Claude Sonnetu 4.5.

5 najboljih rezultata agenata (Terminal-Bench 2.0):

  1. Codex CLI (GPT-5) — 49,6%

  2. Codex CLI (GPT-5-Codex) — 44,3%

  3. OpenHands (GPT-5) — 43,8%

  4. Terminus 2 (GPT-5-Codex) — 43,4%

  5. Terminus 2 (Claude Sonnet 4.5) — 42,8%

Blisko grupiranje među vrhunskim modelima ukazuje na aktivno natjecanje među platformama, pri čemu niti jedan agent ne rješava više od polovice zadataka.

Podnošenje i korištenje

Za testiranje ili slanje agenta, korisnici instaliraju Harbor i pokreću referentnu vrijednost pomoću jednostavnih CLI naredbi. Za prijavu na ljestvicu s najboljim rezultatima potrebno je pet testiranja, a rezultati se mogu poslati e-poštom razvojnim programerima zajedno s imenicima poslova radi provjere.

lučka staza -d terminal-bench@2.0 -m "" -a "" –n-pokušaja 5 –jobs-dir

Terminal-Bench 2.0 već se integrira u istraživačke tijekove rada usmjerene na agentsko razmišljanje, generiranje koda i korištenje alata. Prema sukreatoru Mikeu Merrillu, postdoktorskom istraživaču na Stanfordu, u tijeku je detaljan preprint koji pokriva proces verifikacije i metodologiju dizajna koja stoji iza referentne vrijednosti.

Težnja ka standardizaciji

Kombinirano izdanje Terminal-Bench 2.0 i Harbor označava korak prema dosljednijoj i skalabilnijoj infrastrukturi za procjenu agenata. Kako se LLM agenti šire u razvojnim i operativnim okruženjima, potreba za kontroliranim, ponovljivim testiranjem je rasla.

Ovi alati nude potencijalnu osnovu za objedinjeni skup evaluacije — podržavajući poboljšanje modela, simulaciju okruženja i standardizaciju referentnih vrijednosti u ekosustavu umjetne inteligencije.

Web izvor

Povezani sadržaji

  • Ured unutarnjih poslova Ujedinjenog Kraljevstva otkriva novi pristup pružanju mreže hitnih službiUred unutarnjih poslova Ujedinjenog Kraljevstva otkriva novi pristup pružanju mreže hitnih službi
  • L’Oreal Cell BioPrint analizira vašu kožu u pet minutaL’Oreal Cell BioPrint analizira vašu kožu u pet minuta
  • Canonical’s OpenJDK gradi obećanje Java Dev -a veću brzinu – i nevjerojatnih 12 godina sigurnosne podrškeCanonical’s OpenJDK gradi obećanje Java Dev -a veću brzinu – i nevjerojatnih 12 godina sigurnosne podrške
  • Igra horora u drugoj osobi Out Out of Sights lansira se 22. svibnjaIgra horora u drugoj osobi Out Out of Sights lansira se 22. svibnja
  • SEO vs. SEM: Koja je razlika?SEO vs. SEM: Koja je razlika?
  • Linux kernel upravo je dobio neke važne nadogradnje – evo što je novo u 6.17Linux kernel upravo je dobio neke važne nadogradnje – evo što je novo u 6.17

Previous Article

Kako pratiti putanju kometa 3I/Atlas

Next Article

City of London postavlja SASE na javnu infrastrukturu koja je spremna za budućnost

Posljednje objave

City of London postavlja SASE na javnu infrastrukturu koja je spremna za budućnost

Terminal-Bench 2.0 lansira se uz Harbor, novi okvir za testiranje agenata u spremnicima

Terminal-Bench 2.0 lansira se uz Harbor, novi okvir za testiranje agenata u spremnicima

Kako pratiti putanju kometa 3I/Atlas

Kako pratiti putanju kometa 3I/Atlas

Sadržaj

  • 1 Viša traka, čišći podaci
  • 2 Harbor: objedinjena predstavljanja u velikom broju
  • 3 Rani rezultati: GPT-5 vodi u uspješnosti zadatka
  • 4 Podnošenje i korištenje
  • 5 Težnja ka standardizaciji

Novosti

  • City of London postavlja SASE na javnu infrastrukturu koja je spremna za budućnost 8. studenoga 2025
  • Terminal-Bench 2.0 lansira se uz Harbor, novi okvir za testiranje agenata u spremnicima 8. studenoga 2025
  • Kako pratiti putanju kometa 3I/Atlas 8. studenoga 2025
  • Prijavljujete se kao root na Linux? Evo zašto se ta katastrofa čeka da se dogodi 8. studenoga 2025
  • Najbolje ponude PlayStationa za prvi Crni petak 2025.: 20+ rasprodaja sada 7. studenoga 2025
  • Nekima se događa Gemini u Android Autu 7. studenoga 2025
  • Take-Two krivi Borderlands 4 za “mekšu” prodaju od očekivane zbog problematičnog izdavanja računala Šef mjenjača Randy Pitchford inzistirao je da je “prokleto optimalan” 7. studenoga 2025
  • Microsoft jača AI ambicije UAE pokretanjem programa Elevate 7. studenoga 2025
  • Moonshotov Kimi K2 Thinking pojavljuje se kao vodeći AI otvorenog koda, nadmašujući GPT-5, Claude Sonnet 4.5 na ključnim mjerilima 7. studenoga 2025
  • Novo svjetlosno liječenje raka ubija tumorske stanice i štedi zdrave 7. studenoga 2025

O nama

Oblak Znanja je blog edukativnog karaktera i namijenjen je svima koji žele unaprijediti svoje znanje iz područja računala i interneta.

Naš cilj je edukacija i pisanje zanimljivih objava kojima ćemo zajedno učiti i informirati se o svijetu informatike.

Na ovom blogu zabranjeno je svako kopiranje sadržaja bez dozvole autora.

Oblak Znanja

Oznake

besplatni powerpoint predlošci društvene mreže excel facebook firefox gmail google+ Google Chrome halloween halloween walpapers internet kartice linkedin profil linux microsoft Mozilla Firefox ms powerpoint oblak znanja office 2007 office savjeti online kupovina pick powerpoint powerpoint predložak powerpoint savjeti rastući niz savjet slike za radnu površinu spremanje datoteka strani jezik tipkovnicke kratice twitter twitter alati uređivanje slika wallpaper clock web preglednik windows windows 7 windows aplikacije windows vista word word 2007 word savjeti youtube savjeti youtube tipkovničke kratice