Agentske vještine postali su važan dio aplikacija AI-ja u stvarnom svijetu, pružajući mehanizam — skup uputa spremljenih u mapi tekstualnih markdown (.md) datoteka, obično — za prilagodbu modela specifičnim slučajevima korištenja u poduzeću i složenim tijekovima rada.
Međutim, optimizacija ovih vještina je spor proces i pogrešan proces, jer se ne mogu trenirati na isti način kao parametri temeljnog modela umjetne inteligencije. Umjesto toga, korisnici ih obično moraju ažurirati ručno ponovnim upisivanjem uputa u svaku datoteku, igrajući a "igra pogađanja" o tome koje bi promjene mogle poboljšati performanse agentske umjetne inteligencije i smanjiti pogreške.
SkillOptnovi, otvoreni izvor (Licencirano MIT-om) framework koji je razvio Microsoft čini nešto bolje: uvodi optimizator dizajniran za vještine agenta, pretvarajući .md dokument agentovih vještina u objekt koji se može obučiti i koji se razvija na temelju povratnih informacija o izvedbi.
Koristi optimizaciju u stilu dubokog učenja kako bi AI omogućio sustavno istraživanje izmjena dokumenta i pronalaženje najbolje kombinacije uputa. Ono što je najvažnije, postiže ovu proceduralnu prilagodbu bez mijenjanja težina temeljnog modela.
Na raznim referentnim vrijednostima u industriji, SkillOpt nadmašuje postojeće osnovne vrijednosti, značajno povećavajući točnost za modele kao što su GPT-5.5 i Qwen. Rezultat je skup kompaktnih, prenosivih artefakata vještina koji omogućuju AI agentima da se bez napora prilagode novim domenama.
Sadržaj objave
Izazov optimiziranja vještina agenata
Agentske vještine upakiraju proceduralno znanje u specifikacije prirodnog jezika, uključujući heuristiku domene, politike upotrebe alata, izlazna ograničenja i poznate načine kvarova. Ove vještine pružaju vanjsko sučelje za agente za prilagodbu složenim poslovnim tijekovima poduzeća. U praksi se agentske vještine pohranjuju kao tekstualni dokumenti i umeću u agentov kontekst prije izvršenja.
Jedna od ključnih prednosti vještina je da prilagođavaju ponašanje temeljnog modela bez mijenjanja njegovih težina. Međutim, sam dokument o vještinama treba prilagoditi i optimizirati kako bi agent dobio najbolje rezultate.
Dok se duboko učenje oslanja na stroge matematičke kontrole za stabilnost, ljudski brzi inženjering često se oslanja na pokušaje i pogreške. Kada se pokušava automatski ažurirati dokument o vještinama na temelju povratnih informacija, nedostatak matematičke discipline čini tekst vrlo nestabilnim.
Yifan Yang, viši istraživač SDE u Microsoft Research Asia, rekao je za VentureBeat da problem nije u promjenama, već u osiguravanju da su te promjene matematički ispravne.
"Prijelomna točka nije može li tim promijeniti vještinu, nego ne može jamčiti da je promjena poboljšanje," rekao je Yang. "Ponavljaju se tri načina neuspjeha: nema kontrole veličine koraka, pa se vještine mijenjaju; nema provjere valjanosti, tako da se popravak koji se čita kao razuman upisuje i može tiho smanjiti izvedbu; i nema negativne memorije, tako da se isto neuspjelo uređivanje stalno vraća."
Da bi ilustrirao kako lako može pasti izvedba kada uređivanja nisu matematički potvrđena, Yang je primijetio da "prepisivanje bez oznake gurnulo je GPT-5.5 na SpreadsheetBenchu s 41.8 na 41.1."
Prema Yangu, ovi načini neuspjeha pojačani su u radnim procesima u više koraka "jer tu su granični modeli najslabiji nulti udar. Ne na rasuđivanju, već na proceduralnoj disciplini: formatu, samoprovjeri, politici alata."
Prije SkillOpt-a, agentske vještine bile su primarno ručno izrađene, generirane u jednom kadru ili su se razvile kroz slabo kontrolirane sustave samorevidiranja koji se nisu mogli pouzdano poboljšati uz povratne informacije.
Metode brze optimizacije kao što su TextGrad i GEPA tretiraju jezične artefakte kao objekte koji se mogu optimizirati i koriste povratne informacije putanje za razvoj upita, ali se fokusiraju na konfiguracije s jednim odzivom, a ne na generiranje trajnih artefakata vještina koji se mogu ponovno koristiti.
U međuvremenu, metode evolucije vještina i otkrivanja kao što su EvoSkill i Trace2Skill pretvaraju iskustva izvršavanja agenta u lekcije putanje kako bi se poboljšale mape vještina, izgradile biblioteke specifične za domenu ili izvršilo evolucijsko pretraživanje.
Nitko od njih ne primjenjuje kontrole u stilu dubokog učenja, kao što su stope učenja, vrata za provjeru valjanosti i zamah, koji su nužni za kontinuirano treniranje jednog, kompaktnog dokumenta vještina.
Uvoz matematičke discipline u tekst
SkillOpt optimizira tekstualni dokument kroz iterativnu petlju predlaganja i testiranja koja odvaja model koji izvršava zadatke od modela koji optimizira vještinu. Proces se odvija u nekoliko koraka:
-
SkillOpt počinje s početnim dokumentom vještina i zamrznutim ciljnim modelom (ili pojasom), gdje ciljni model pokreće niz zadataka za generiranje putanja izvršenja koje djeluju kao dokaz za trenutni korak.
-
Izvanmrežni model optimizacije analizira te putanje, odvajajući uspjehe od neuspjeha u miniserije. Gledanje miniserije pomaže modelu identificirati sustavne proceduralne pogreške, a ne jednokratne anomalije. Na temelju ovih uzoraka, optimizator predlaže strukturno dodavanje, brisanje ili zamjenu izmjena u dokumentu vještina.
-
Predložena uređivanja se pregledavaju kako bi se filtrirali duplikati ili proturječja, a optimizator zatim rangira ta moguća uređivanja prema njihovoj očekivanoj korisnosti.
-
Umjesto primjene svih predloženih promjena, SkillOpt izrezuje popis na maksimalni proračun za uređivanje za taj korak, generirajući vještinu kandidata.
-
Vještina kandidata ocjenjuje se na dugotrajnom validacijskom skupu pomoću ciljanog modela. Ako kandidat poboljša validacijski rezultat, on se prihvaća i postaje nova trenutna vještina. Ako ne uspije, uređivanja se odbijaju i šalju u međuspremnik za odbijeno uređivanje, dajući negativne povratne informacije kako bi optimizator znao da ne treba ponoviti tu pogrešku.
SkillOpt izravno rješava problem tretiranja teksta kao objekta koji se može obučiti uvozom matematičkih koncepata iz dubokog učenja. Kreatori primjećuju da je “analogija dubokog učenja operativna, a ne dekorativna”, pomažući okviru da izbjegne probleme nestabilnosti povezane s drugim tehnikama optimizacije.
Proračun za uređivanje djeluje kao stopa učenja. Ograničavanjem broja izmjena koje se mogu primijeniti odjednom, sprječava se da se verzija vještina pomakne predaleko od svog prethodnog stanja, čuvajući kontinuitet i istovremeno dopuštajući usvajanje novih postupaka.
Baš kao i provjera gubitka valjanosti u dubokom učenju, strogi zadržani primjeri osiguravaju da se uređivanja teksta koja zvuče uvjerljivo zadrže samo ako matematički poboljšavaju stvarnu izvedbu agenta na podjeli valjanosti.
Na kraju epohe, SkillOpt izvodi sporo ažuriranje uspoređujući zadatke pod vještinama prethodne i trenutne epohe. Ovo djeluje kao zamah, prenoseći trajne proceduralne lekcije s dugim horizontom dok ih izolira od brzih uređivanja na razini koraka.
SkillOpt na djelu
Kako bi ocijenili tehniku u praksi, istraživači su testirali SkillOpt na različitim modelima, u rasponu od velikih graničnih modela poput GPT-5.5 do manjih zatvorenih i otvorenih modela uključujući GPT-5.4-mini i Qwen3.5-4B. Također su primijenili vještine unutar različitih izvedbenih pojaseva, koristeći obični chat kao i složene sustave kodiranja poput Codex CLI i Claude Code.
Evaluacija je obuhvatila različite industrijske standarde, uključujući jednokružno odgovaranje na pitanja, višestruko generiranje koda koje uključuje korištenje alata i multimodalno obrazloženje dokumenata. SkillOpt je mjeren prema višestrukim osnovnim vrijednostima u rasponu od zadane postavke bez vještina do vještina koje su napisali ljudi i vještina koje je generirao jedan pokušaj LLM-a. Također je uspoređen s naprednim metodama brze optimizacije i evolucije vještina, posebno Trace2Skill, TextGrad, GEPA i EvoSkill.
SkillOpt je dominirao posvuda, pokazavši se vrlo učinkovitim na sve 52 procijenjene kombinacije modela, mjerila i pojasa. Bio je posebno učinkovit s graničnim modelima, donoseći prosječno apsolutno poboljšanje od +23,5 bodova u odnosu na osnovnu liniju bez vještina na GPT-5,5. Nadalje, SkillOpt je nadmašio hipotetsku osnovnu vrijednost proročanstva koja odabire najbolju konkurentsku metodu za svaki problem.
Mali ciljni modeli vidjeli su ogromne relativne dobitke, dokazujući da kompaktna tekstualna datoteka može pružiti proceduralno znanje koje malim modelima nedostaje u njihovoj težini. Na primjer, GPT-5.4-nano gotovo je udvostručio svoj rezultat na multimodalnom dokumentu QA i utrostručio svoj rezultat na utjelovljenoj interakciji i sekvencijalnom donošenju odluka.
Ova akademska mjerila prikazuju kritične bolne točke poduzeća. Zero-shot modeli često haluciniraju formatiranje ili ne koriste ispravno alate u scenarijima s više koraka. Yang je objasnio da su se najveći skokovi u performansama dogodili u operacijama koje poduzeća povijesno teško mogu pouzdano automatizirati.
"Ekstrakcija podataka iz dokumenata… točne brojke iz ugovora, faktura i obrazaca — AP automatizacija, zahtjevi, usklađenost," rekao je Yang. "Ono što se poboljšava je pouzdanost: precizno formatiranje, samoprovjera, revizijski izlazi. A dobitak dolazi od postupka učenja, a ne od pamćenja odgovora."
Za poduzetnike prava vrijednost SkillOpt-a leži u njegovoj prenosivosti, učinkovitosti i kompatibilnosti s postojećom infrastrukturom. Eksperimenti potvrđuju da okvir ne ovisi o svežnjama. Uz osnovni chat, ista optimizacijska petlja uspješno je integrirana u izvršna okruženja podržana alatima kao što su Codex CLI i Claude Code sa značajnim dobicima na industrijskim referentnim vrijednostima.
Programeri mogu trenirati vještinu koristeći jednu petlju izvršenja i implementirati je u drugu. Na primjer, vještina rada s proračunskim tablicama obučena u potpunosti unutar Codexove petlje premještena je izravno u Claude Code i dovela je do povećanja od +59,7 bodova u odnosu na nativnu osnovnu liniju Claude Codea bez ikakvih daljnjih promjena.
SkillOpt artefakti također se jasno prenose preko mjerila modela. Vještina optimizirana za GPT-5.4 primijenjena je na manje modele GPT-5.4-mini i GPT-5.4-nano s pozitivnim dobicima, dokazujući da naučene procedure kodiraju tijekove rada koji se mogu višekratno koristiti, a ne samo iskorištavanje neobičnosti arhitekture određenog modela.
Konačno, okvir je vrlo učinkovit u pogledu upotrebe tokena i nekretnina kontekstnog prozora. U svim mjerilima, konačne raspoređene vještine nikada nisu premašile 2000 tokena, s prosječnom duljinom od otprilike 920 tokena. To rezultira vrlo čitljivim artefaktima koji se mogu revidirati i koje ljudski praktičar može pregledati i njima upravljati u nekoliko minuta.
Strategije implementacije i ‘kvaka’ poduzeća
Za tehnološke voditelje poduzeća usvajanje novog okvira zahtijeva razumijevanje dodatnih troškova i ograničenja. Dok istraživački rad napominje da tokeni za obuku mogu doseći i do 210 milijuna za akademske referentne vrijednosti, stvarnost za svakodnevne slučajeve korištenja u poduzećima mnogo je lakša. Veliki broj tokena u testiranju bio je uvelike posljedica ponovnog bodovanja masivnih odloženih testnih skupova.
"Pravi rad unaprijed je verifikator i reprezentativna zadržana podjela. Optimizator je lagan; evaluacijski svežanj je ono gdje ide inženjering," rekao je Yang. Dodao je da za svakodnevnu upotrebu, "u okvirima zajednice kao što je GBrain, gdje se SkillOpt ažuriranja pokreću na Claude Sonnetu, treniranje vještine za jedan zadatak u prosjeku košta samo 1-5 USD." Ovaj trošak optimizacije jednokratna je naknada koja se u potpunosti amortizira pri implementaciji.
Međutim, okvir zahtijeva specifične uvjete za učinkovit rad, naime nekoliko desetaka reprezentativnih primjera i povratni signal koji se može ocjenjivati. Timovi bi trebali izbjegavati primjenu SkillOpt-a na otvorene ili subjektivne zadatke. "Bez čistog automatskog bodovanja morate dizajnirati evaluator temeljen na ljudima ili modelu i paziti na njegovu stabilnost," rekao je Yang.
SkillOpt se također glatko integrira s postojećim nizovima orkestracije, uklanjajući veliku prepreku usvajanja. Na primjer, programeri koji već koriste prevoditelje cjevovoda mogu skladno pokrenuti oba sustava. "DSPy je drugačiji, komplementarni sloj," rekao je Yang. "Sastavlja deklarativne LM cjevovode i optimizira strukturu programa; SkillOpt optimizira vanjsko stanje vještina koje zamrznuti agent učitava. Možete ih pokrenuti zajedno."
Gledajući unaprijed, programeri otvorenog izvornog koda već planiraju povremeno pokretanje SkillOpt-a nad prošlim putanjama njihovih agenata, stvarajući mali ekosustav samooptimizirajućih dodataka kodnih agenata. Ova kontinuirana povratna sprega predstavlja značajan pomak u načinu na koji se sustavi umjetne inteligencije prilagođavaju.
"Vrijedna verzija samopoboljšanja je agent koji autonomno otkriva znanje za poboljšanje vlastitog ponašanja i korisničkog iskustva, pod provjerom i revizijom," rekao je Yang. "Vještine su najbrži, najjeftiniji, najreverzibilniji prvi korak, a isti način razmišljanja ukazuje na to da se agenti na kraju optimiziraju, sve do vlastite težine."
