Želite pametnije uvide u vašu pristiglu poštu? Prijavite se za naše tjedne biltene kako biste dobili samo ono što je važno za vođe AI, podataka i sigurnosti. Pretplatite se sada
Novi okvir istraživača na Sveučilište u Hong Kongu (HKU) i institucije za suradnju pružaju temelj otvorenog koda za stvaranje robusnih AI agenata koji mogu upravljati računalima. Okvir, nazvan Opencuauključuje alate, podatke i recepte za skaliranje razvoja računalnih sredstava (CUA).
Modeli obučeni pomoću ovog okvira snažno se izvode na CUA referentnim vrijednostima, nadmašujući postojeće modele otvorenog koda i usko se natječu s zatvorenim agentima iz vodećih AI laboratorija poput OpenAi i Anthropic.
Sadržaj objave
Izazov izgradnje agenata za računalnu upotrebu
Agenti za računalnu upotrebu dizajnirani su za autonomno izvršavanje zadataka na računalu, od navigacije web stranica do upravljanja složenim softverom. Oni također mogu pomoći u automatizaciji tijeka rada u poduzeću. Međutim, najsposobniji CuA sustavi su vlasnički, s kritičnim detaljima o njihovim podacima o treningu, arhitekturama i razvojnim procesima koji se održavaju privatnim.
„Kako nedostatak transparentnosti ograničava tehnički napredak i postavlja sigurnosne probleme, istraživačkoj zajednici trebaju uistinu otvoreni okviri CUA -e kako bi proučavali svoje mogućnosti, ograničenja i rizike“, navode u istraživačima u Njihov rad.
AI skaliranje pogađa svoje granice
Power ograničenja, rastući troškovi tokena i kašnjenja zaključivanja preoblikovaju Enterprise AI. Pridružite se našem ekskluzivnom salonu kako biste otkrili kako su vrhunski timovi:
- Pretvaranje energije u stratešku prednost
- Arhitekturiste učinkovite zaključke za stvarne propusne dobitke
- Otključavanje natjecateljskog ROI -a s održivim AI sustavima
Osigurajte svoje mjesto da ostanete naprijed:: https://bit.ly/4mwgngo
Istodobno, napori na otvorenom kolu suočeni su s vlastitim preprekama. Nije postojala skalabilna infrastruktura za prikupljanje različitih, velikih podataka potrebnih za obuku ovih agenata. Postojeći skupovi podataka otvorenog koda za grafička korisnička sučelja (GUI) imaju ograničene podatke, a mnogi istraživački projekti pružaju nedovoljne detalje o njihovim metodama, što drugima otežava ponovnu repliku svog rada.
Prema radu, “ta ograničenja kolektivno ometaju napredak u CUA-ima opće namjene i ograničavaju smisleno istraživanje njihove skalabilnosti, generalizacije i potencijalnih pristupa učenju.”
Uvođenje Opencua
Opencua je okvir otvorenog koda osmišljen za rješavanje ovih izazova skaliranjem i prikupljanja podataka i samih modela. U osnovi je AgentNET alat za snimanje ljudskih demonstracija računalnih zadataka na različitim operativnim sustavima.
Alat pojednostavljuje prikupljanje podataka pokretanjem u pozadini na osobnom računalu annotatora, snimanjem videozapisa zaslona, unosa miša i tipkovnice i temeljnom stablu pristupačnosti, koje pruža strukturirane informacije o elementima na ekranu. Ovi neobrađeni podaci zatim se obrađuju u “putanje stanja-akcije”, uparivši snimku zaslona računala (države) s odgovarajućom radnjom korisnika (klik, pritisak na tipku itd.). Anotatori tada mogu pregledati, urediti i poslati ove demonstracije.
Koristeći ovaj alat, istraživači su prikupili skup podataka AgentNET koji sadrži preko 22.600 demonstracija zadataka u sustavu Windows, MacOS i Ubuntu, obuhvaćajući više od 200 aplikacija i web stranica. “Ovaj skup podataka autentično bilježi složenost ljudskog ponašanja i dinamike okoliša iz osobnih računalnih okruženja korisnika”, navodi se u radu.
Prepoznajući da alati za snimanje zaslona izražavaju značajne brige o privatnosti podataka za poduzeća, istraživači su dizajnirali alat AgentNet sa sigurnošću. Xinyuan Wang, koautor učenika rada i doktorat na HKU-u, objasnio je da su implementirali višeslojni okvir zaštite privatnosti. “Prvo, sami annotatori mogu u potpunosti promatrati podatke koje generiraju … prije nego što odluče hoće li ih predati”, rekao je za VentureBeat. Podaci tada podvrgavaju ručnoj provjeri za pitanja privatnosti i automatizirano skeniranje velikim modelom kako bi se otkrili preostali osjetljivi sadržaj prije puštanja. “Ovaj slojeviti postupak osigurava robusnost poduzeća za okruženje koje upravljaju osjetljivim kupcima ili financijskim podacima”, dodao je Wang.
Kako bi ubrzao evaluaciju, tim je također kurirao AgentNetBench, izvanmrežnu referentnu vrijednost koja pruža više ispravnih radnji za svaki korak, nudeći učinkovitiji način za mjerenje performansi agenta.
Novi recept za agente za trening
Opencua okvir uvodi novi cjevovod za obradu podataka i obuku računalnih agenata. Prvi korak pretvara sirove ljudske demonstracije u parove čistog stanja-akcije prikladnih za trening modele jezika vida (VLMS). Međutim, istraživači su otkrili da jednostavno trening modela na tim parovima donosi ograničene uspješnosti, čak i s velikim količinama podataka.
Ključni uvid bio je povećati ove putanje s obrazloženjem lanca (COT). Ovaj postupak generira detaljan “unutarnji monolog” za svaku akciju, što uključuje planiranje, memoriju i refleksiju. Ovo strukturirano obrazloženje organizirano je u tri razine: promatranje zaslona na visokoj razini, reflektirajuće misli koje analiziraju situaciju i planiraju sljedeće korake, a na kraju i sažeti, izvršni rad. Ovaj pristup pomaže agentu da razvije dublje razumijevanje zadataka.
“Obrazloženje prirodnog jezika ključno za generalizaciju modela zaklade za računalnu upotrebu, pomažući CUA-i da internaliziraju kognitivne sposobnosti”, pišu istraživači.
Ovaj cjevovod za sintezu podataka opći je okvir koji tvrtke mogu prilagoditi za osposobljavanje agenata na vlastitim jedinstvenim unutarnjim alatima. Prema Wangu, poduzeće može zabilježiti demonstracije svojih vlasničkih tijekova rada i koristiti isti cjevovod “reflektora” i “generator” za stvaranje potrebnih podataka o obuci. “To im omogućava da pokrenete visoko djelotvorno sredstvo prilagođeno njihovim unutarnjim alatima bez potrebe da ručno ručno izrađuju tragove”, objasnio je.
Stavljanje Opencua na test
Istraživači su primijenili Opencua okvir za obuku niza VLM-a otvorenog koda, uključujući varijante Qwen i Kimi-VL, s veličinama parametara od 3 milijarde do 32 milijarde. Modeli su ocijenjeni na paketu internetskih i izvanmrežnih referentnih vrijednosti koji testiraju njihovu sposobnost obavljanja zadataka i razumijevanja GUI -a.
Model od 32 milijardi parametara, OpenCUA-32B, uspostavio je novu najsuvremeniju stopu uspjeha među modelima otvorenog koda na referentnoj vrijednosti Osworld. Također je nadmašio CUA temeljen na GPT-4o Open-4O i značajno je zatvorio jaz u izvedbi s vodećim vlasničkim modelima.
Za razvojne programere i vođe proizvoda, istraživanje nudi nekoliko ključnih nalaza. OpenCUA metoda je široko primjenjiva, poboljšavajući performanse na modelima s različitim arhitekturama (i gustim i mješavinama i preciziranja) i veličinama. Obučeni agensi također pokazuju snažnu generalizaciju, dobro se snalazi u raznovrsnom rasponu zadataka i operativnih sustava.
Prema Wang-u, okvir je posebno prikladan za automatizaciju ponavljajućih, radno intenzivnih tijekova poduzeća. “Na primjer, u skupu podataka AgentNET već snimamo nekoliko demonstracija pokretanja EC2 instanci na Amazon AWS -u i konfigurirajući parametre napomena na MTurku”, rekao je za VentureBeat. “Ovi zadaci uključuju mnoge uzastopne korake, ali slijede ponovljive uzorke.”
Međutim, Wang je napomenuo da premošćivanje razmaka za živu implementaciju zahtijeva rješavanje ključnih izazova oko sigurnosti i pouzdanosti. “Najveći izazov u stvarnom raspoređivanju je sigurnost i pouzdanost: agent mora izbjegavati pogreške koje bi mogle nenamjerno izmijeniti postavke sustava ili pokrenuti štetne nuspojave izvan predviđenog zadatka”, rekao je.
Istraživači su objavili kodirati,, skup podatakai utezi za njihove modele.
Kako agenti otvorenog koda izgrađeni na okvirima poput Opencua postaju sposobniji, mogli bi u osnovi razviti odnos između radnika znanja i njihovih računala. Wang predviđa budućnost u kojoj poznavanje složenog softvera postaje manje važna od sposobnosti da jasno artikuliraju ciljeve AI agentu.
Opisao je dva primarna načina rada: “Offline Automation, gdje agent koristi svoje šire softversko znanje za obavljanje zadatka krajnjeg do kraja” i “internetska suradnja, gdje agent reagira u stvarnom vremenu i radi rame uz rame s ljudskim, slično kao kolega.” U osnovi, ljudi će pružiti strateški “što”, dok sve sofisticiraniji AI agenti upravljaju operativnim “kako”.
Web izvor