Zajednička istraživačka suradnja između istraživača sa Sveučilišta Illinois u Urbana-Champaignu (UIUC), UC Berkeley i platforme vektorske baze podataka otvorenog koda AI-native Chroma predstavljen Harness-1agent za pretraživanje otvorenog koda s 20 milijardi parametara izgrađen na OpenAI-jevom modelu otvorenog koda gpt-oss-20B koji iz temelja redizajnira način na koji AI izvršava složene zadatke dohvaćanja.
Harness-1 postiže veliki skok u performansama, postižući prosječnu ocjenu od 73% za sposobnost prisjećanja relevantnih informacija ispravno iz odabranog skupa podataka, nadmašuje čak i GPT-5.4 (70,9%) i sljedeći, najprecizniji agent za pretraživanje otvorenog koda, Tongyi DeepResearch 30B, za 11,4 postotna boda. (Iako je GPT-5.5 također bio vani više od mjesec dana, istraživači nisu testirali ovaj model jer nije bio dostupan kada su gradili svoj.)
Od ključne važnosti za programere, model i njegovo okruženje dostupni su odmah pod vrlo popustljivom licencom Apache 2.0 i kod modela/težine na Hugging Face.
Harness-1 također služi kao dokaz učinkovitosti drugog pokušaja, Tinker, distribuiranog, web-baziranog AI modela za obuku i fino podešavanje API-ja koji je razvio Thinking Machines. Tinker je korišten posebno za obuku i pokretanje zaključivanja za Harness-1, ističući kako interaktivna infrastruktura aktivno omogućuje sljedeću generaciju autonomnih modela.
Dakle, kako su istraživači to učinili?
Sadržaj objave
- 1 Dekodirane referentne vrijednosti (i zašto bi Harness-1 mogao iznimno pomoći poduzećima)
- 2 Tehnologija: Obavljanje papirologije u okolišu
- 3 Training Harness-1: Masterclass in Data Efficiency
- 4 Proizvod: Poduzetnička primjenjivost i generalizacija
- 5 Licenciranje: Snaga Apachea 2.0
- 6 Reakcije zajednice: Iznimna potvrda
Dekodirane referentne vrijednosti (i zašto bi Harness-1 mogao iznimno pomoći poduzećima)
Kako bi zapravo stavili ove modele na test, istraživači su ocijenili Harness-1 i njegove konkurente kroz osam vrlo složenih referentnih vrijednosti pretraživanja. Umjesto postavljanja jednostavnih trivijalnih pitanja, ovi testovi zahtijevali su od umjetne inteligencije da se ponaša poput pravog istraživača koji prebira po različitim, gustim izvorima podataka.
Referentne vrijednosti obuhvatile su nekoliko različitih domena, uključujući otvorena web pretraživanja, složene financijske prijave SEC-a, baze podataka tehničkih patenata USPTO-a i "multi-hop" zadatke odgovaranja na pitanja gdje je umjetna inteligencija morala logično sastaviti razbacane tragove iz više različitih dokumenata kako bi došla do točnog odgovora.
Kada su rezultati stigli, Harness-1 dominirao je nadmetanjem otvorenog koda u svojoj sposobnosti da uspješno pronađe i prikupi prave činjenice. Što je još impresivnije, ovaj relativno mali model od 20 milijardi parametara išao je uz masivne, skupe vlasničke AI sustave. Zapravo je nadmašio teškaše kao što su GPT-5.4, Sonnet-4.6 i Kimi-K2.5 — za koje se smatra da su stotine milijardi ili trilijuna parametara. Samo ga je jedan divovski granični model – Opus-4.6 – uspio za dlaku nadmašiti u ukupnim prosječnim performansama.
Harness-1 postiže povećanje performansi oslobađanjem iscrpljenosti "knjigovodstvo" sesije pretraživanja iz radne memorije modela u strukturirano softversko okruženje.
Kako slučajevi korištenja u poduzećima postaju sve sofisticiraniji, zahtijevajući da modeli autonomno pregledaju tisuće korporativnih dokumenata ili financijskih dokumenata, ti sustavi često podlegnu "traženje amnezije"—zaboravljaju svoje izvorne upite, prelaze preko odbijenih dokumenata ili gube trag o određenim tvrdnjama koje pokušavaju provjeriti.
Do sada je prevladavajuće rješenje za ovu amneziju bila gruba sila. Inženjeri obično tjeraju modele da stalno iznova čitaju transkript vlastitih radnji koji se stalno proširuje, samo za dodavanje, gomilajući svaku pretragu, čitanje i misao natrag u golemi kontekstni prozor.
Harness-1 uvodi promjenu paradigme od ove metode, dokazujući da usko grlo za pravu umjetnu autonomiju nije nužno veličina modela, već koliko učinkovito njegovo radno okruženje upravlja stanjem. Još jednom naglašava, kao što je to učinio i Anthropicov Claude Code, da je sirovi model nedvojbeno manje važan od pojasa – ili skupa uvjeta – kroz koje prolazi.
Tehnologija: Obavljanje papirologije u okolišu
Da biste razumjeli tehnički skok Harness-1, razmislite o analogiji iz stvarnog svijeta.
Zamislite da zaposlite briljantnog asistenta u istraživanju i smjestite ga u praznu sobu bez stola, blokova za bilježnice ili ormara za dokumente. Tražite od njih da napišu sveobuhvatno izvješće o vrlo složenoj temi, koja od njih zahtijeva da pročitaju desetke knjiga dok svaki pojedini citat, navod i slijepu ulicu drže savršeno upamćenim u vlastitoj glavi. Na kraju, koliko god asistent bio inteligentan, njegovo kognitivno opterećenje će se maksimalno povećati i počet će ispuštati činjenice ili gubiti nit zadatka.
Upravo tako danas rade tradicionalni agenti za pretraživanje. Oni su uvježbani kao pravila nad rastućim transkriptima, što znači da model pretražuje, čita, ponovno pretražuje i dodaje sve u vlastiti kontekstni prozor.
Kao glavni istraživač Patrick (Pengcheng) Jiang sa Sveučilišta Illinois zabilježio je na X: "U jednom trenutku model više ne samo ‘traži’. Od njega se također traži da bude sustav pamćenja, bilježnik, verifikator i knjižničar."
Harness-1 to rješava dajući umjetnoj inteligenciji stol i ormarić za dokumente – što istraživački tim naziva "državni eksternalizirajući pojas."
Ovo snop je aktivno, okolno okruženje koje preuzima rutinsko knjigovodstvo, održavajući radnu memoriju koja se može obnoviti i koja uključuje skup dokumenata kandidata, odabran skup dokaza s oznakom važnosti, kompaktne veze za dokaze i zapise o provjeri.
Odvajanjem semantičkih izbora od strukturnog upravljanja stanjem, umjetna inteligencija je oslobođena da radi ono što zna najbolje.
Politika i dalje odlučuje što će pretraživati, određuje koje će dokumente čuvati i zna kada treba stati, a okoliš jednostavno drži državu.
Ovdje je pododjeljak koji razlaže metodologiju obuke i kako se ona razlikuje od prethodnih modela agentskog pretraživanja:
Training Harness-1: Masterclass in Data Efficiency
Cjevovod obuke za Harness-1 predstavlja temeljnu promjenu u pristupu industrije umjetne inteligencije agentskom učenju.
Povijesno gledano, razvojni programeri su agente pretraživanja tretirali kao politike koje djeluju na masivnim transkriptima koji stalno rastu, prisiljavajući algoritme učenja s pojačanjem (RL) da istovremeno optimiziraju i semantičko zaključivanje i sirovo pamćenje stanja pretraživanja.
Kreatori Harness-1 zauzeli su radikalno drugačiji pristup: jer njihov običaj "uprtač" upravlja svim rutinskim knjigovodstvom – poput održavanja poveznica s dokazima, skupova kandidata i evidencije verifikacije – proces obuke koji je potreban samo da nauči model kako upravljati ovim strukturiranim sučeljem.
Ova podjela rada drastično je pojednostavila ono što je temeljni model od 20 milijardi parametara zapravo trebao naučiti.
Proces je započeo s izuzetno uskom fazom nadziranog finog podešavanja (SFT). Umjesto da skuplja petabajte novih podataka o ponašanju, tim je generirao samo 899 filtriranih putanja pomoću GPT-5.4 agenta za nastavnike koji je bio priključen u potpuno isto okruženje koje bi model učenika na kraju koristio.
Cilj ove faze SFT-a nije bio ubaciti goleme količine znanja o domeni u model, već jednostavno naučiti ga mehaničkim ritmovima dobrog istraživača: kako formatirati pozive alata, kako označiti dokumente po važnosti i disciplinu provjere tvrdnje prije nego što se promakne u konačni odabrani skup.
Nakon SFT-a, model je prošao učenje pojačanja (RL) pomoću algoritma nazvanog CISPO, primijenjenog na pune epizode pretraživanja ograničene na 40 okreta.
Tim je dizajnirao vrlo specifičnu funkciju nagrađivanja terminala koja je eksplicitno odvojena otkriće iz izbor. Model je nagrađen ne samo za pronalazak relevantnog dokumenta, već i za njegovo uspješno promicanje u konačni skup odgovora, dok je bio kažnjen ako je pronašao odgovor, ali ga nije uspio urediti.
Istraživači su također pokrenuli a "raznolikost alata" bonus; bez ovog specifičnog poticaja, otkrili su da bi se politika brzo urušila u lijenu, pretražujuću strategiju u kojoj spamuje upite, ali zaobilazi teži posao čitanja i provjere teksta.
Ono što Harness-1 čini doista inovativnim u usporedbi s prethodnim radom je njegova učinkovitost podataka bez presedana. Cijeli je model treniran na otprilike 4400 jedinstvenih stavki—899 SFT putanja i 3453 RL upita.
Za razliku od toga, konkurentski modeli otvorenog koda zahtijevali su znatno veće skupove podataka kako bi postigli lošije rezultate: Context-1 koristio je više od 17.200 stavki za obuku, dok se Search-R1 oslanjao na nevjerojatnih 221.300 stavki za učenje ponašanja pretraživanja.
Dokazujući da pametnija vanjska kognitivna arhitektura može zamijeniti brutalno skaliranje podataka, Harness-1 sugerira da budućnost agentske umjetne inteligencije leži u izgradnji boljih okruženja za rad modela, a ne samo uvježbavanju većih modela na više podataka.
Proizvod: Poduzetnička primjenjivost i generalizacija
Iz perspektive proizvoda, Harness-1 isporučuje se kao vrlo sposoban 20B agent spojen u openai/gpt-oss-20b osnovna arhitektura.
Za hrpe poslovnih tehnologija, primjenjivost je ogromna jer je tvrtkama potrebna umjetna inteligencija za izvođenje istraživanja u više koraka u vlasničkim bazama podataka bez haluciniranja ili naplate pretjeranih računa za računanje.
Harness-1 upravlja svojim performansama na graničnoj razini na način na koji kreatori opisuju "Cijena i kašnjenje na razini konteksta 1." Budući da kontekstnim prozorom striktno upravlja skup koji je svjestan proračuna, a ne da se kontinuirano širi, poduzeća mogu samostalno implementirati ovog agenta bez snošenja eksponencijalnih troškova tokena koji su obično povezani s dugotrajnim AI zadacima.
Što je još impresivnije, Harness-1 dokazuje da može generalizirati i izvan svojih podataka o obuci. Prema istraživačkom timu, bilo je nevjerojatno jeftino za treniranje, koristeći samo 899 filtriranih trajektorija nadziranog finog podešavanja (SFT) i samo 3453 upita za učenje potkrepljenja (RL).
"Umjesto da obučavamo model da preživi golemi transkript samo za dodavanje, obučavamo ga da koristi strukturirano sučelje za pretraživanje: pretraži, pripremi, ponovno posjeti, potvrdi i podnesi," objasnio je Jiang.
Ova mršavost dokazuje kritičnu točku za industriju umjetne inteligencije: programerima nisu nužno potrebni petabajti novih podataka o ponašanju ako izgrade bolji kognitivni okvir unutar kojeg će model funkcionirati.
Licenciranje: Snaga Apachea 2.0
Jedan od najznačajnijih aspekata izdanja Harness-1 je njegovo licenciranje. Jednostavnim jezikom, Apache 2.0 je vrlo popustljiva softverska licenca prilagođena poduzećima koja u osnovi omogućuje komercijalizaciju.
Za razliku od "copyleft" licence (kao što je GPL) koje mogu prisiliti tvrtke da otvore izvorni kod svog vlastitog vlasničkog softvera ako integriraju kod, ili "samo za istraživanje" licence koje u potpunosti zabranjuju komercijalnu upotrebu, Apache 2.0 daje tvrtkama zeleno svjetlo za slobodnu izgradnju, modificiranje i unovčavanje tehnologije.
Za programere i startupe to znači da se Harness-1 može neprimjetno integrirati u komercijalne proizvode za pretraživanje poduzeća, interne alate za pronalaženje podataka ili AI aplikacije okrenute korisnicima bez straha od zakonske odmazde.
Jedini glavni zahtjev je da korisnici moraju uključiti izvornu obavijest o autorskim pravima i eksplicitno navesti sve značajne izmjene koje naprave na izvornom kodu, pozicionirajući Harness-1 kao vrlo održiv temeljni blok za poduzeće.
Reakcije zajednice: Iznimna potvrda
Najava je očito pogodila živac unutar zajednice programera, potvrđujući vrlo stvarne bolne točke s kojima se inženjeri susreću pri izgradnji agentskih sustava. Jiangova višedijelna najavna nit na X-u brzo je pridobila ogromnu pažnju, privukavši više od 256.1K pregleda, 3.7K lajkova, 2.9K oznaka i gotovo 300 ponovnih objava u roku od nekoliko dana.
Ovaj veliki angažman naglašava rastući konsenzus u prostoru umjetne inteligencije da je grubo forsiranje prozora konteksta izgubljena bitka.
Kada Jiang je objavio na X, "Pitao sam se: možda su agenti pretraživanja loši u pretraživanju djelomično zato što ih tjeramo da rade svu papirologiju u svojoj glavi," rezonancija je bila trenutna.
Za programere koji su proveli prošlu godinu hrvajući se s AI agentima koji samouvjereno zaborave svoje primarne upute na pola pretraživanja baze podataka, pristup Harness-1 čini se kao očajnički potrebna korekcija kursa.
U konačnici, mišljenje zajednice naglašava promjenu prioriteta u industriji. Programeri se udaljavaju od pitanja koliko veliki može biti kontekstni prozor AI modela, nego se umjesto toga pitaju koliko učinkovito okruženje AI modela može upravljati tim kontekstom. Rasterećenjem papirologije, Harness-1 dokazuje da manji, pametniji sustavi mogu nadmašiti divove—pod uvjetom da imaju pravi stol za rad.
