Pridružite se našim dnevnim i tjednim biltenima za najnovija ažuriranja i ekskluzivni sadržaj o AI pokrivenosti vodećoj u industriji. Saznajte više
Sveobuhvatan nova anketa Microsoftovi istraživači i akademski partneri otkrivaju da agenti umjetne inteligencije pokretani velikim jezičnim modelima (LLM) postaju sve sposobniji kontrolirati grafička korisnička sučelja (GUI), potencijalno mijenjajući način na koji ljudi komuniciraju sa softverom.
Tehnologija u biti daje AI sustavima mogućnost da vide i manipuliraju računalnim sučeljima baš kao što to rade ljudi – klikanjem gumba, ispunjavanjem obrazaca i navigacijom između aplikacija. Umjesto da od korisnika zahtijevaju da nauče složene softverske naredbe, ovi “GUI agenti” mogu tumačiti zahtjeve prirodnog jezika i automatski izvršavati potrebne radnje.
“Ovi agenti predstavljaju promjenu paradigme, omogućujući korisnicima izvršavanje zamršenih zadataka u više koraka kroz jednostavne razgovorne naredbe”, istraživači pisati. “Njihove aplikacije obuhvaćaju navigaciju webom, interakcije s mobilnim aplikacijama i automatizaciju stolnih računala, nudeći transformativno korisničko iskustvo koje revolucionira način na koji pojedinci komuniciraju sa softverom.”
Zamislite to kao da imate visoko kvalificiranog izvršnog pomoćnika koji može upravljati bilo kojim softverskim programom u vaše ime. Pomoćniku jednostavno kažete što želite postići, a on će se pobrinuti za sve tehničke detalje kako bi to i ostvarili.
Sadržaj objave
Uspon AI pomoćnika za poduzeća mijenja sve
Velike tehnološke tvrtke već se utrkuju u ugradnji ovih mogućnosti u svoje proizvode. Microsoftova Power Automate koristi LLM-ove za pomoć korisnicima u stvaranju automatiziranih tijekova rada u aplikacijama. Poduzeće Kopilot AI asistent može izravno kontrolirati softver na temelju tekstualnih naredbi. Anthropicova funkcija Computer Use za Claudea omogućuje AI interakciju s web sučeljima i obavljanje složenih zadataka. Google se navodno razvija Projekt JarvisAI sustav koji bi koristio preglednik Chrome za izvršavanje zadataka temeljenih na webu kao što su istraživanje, kupnja i rezerviranje putovanja, iako je ova mogućnost još uvijek u razvoju i nije javno objavljena.
“Pojava velikih jezičnih modela, posebno multimodalnih modela, otvorila je novu eru GUI automatizacije”, navodi se u radu. “Pokazali su iznimne sposobnosti u razumijevanju prirodnog jezika, generiranju koda, generalizaciji zadataka i vizualnoj obradi.”
Ovo predstavlja potencijal Tržišna prilika od 68,9 milijardi dolara do 2028., prema analitičarima BCC Researcha, budući da poduzeća žele automatizirati zadatke koji se ponavljaju i učiniti svoj softver pristupačnijim netehničkim korisnicima. Predviđa se da će tržište narasti s 8,3 milijarde dolara u 2022. na ovu brojku, uz ukupnu godišnju stopu rasta (CAGR) od 43,9% tijekom predviđenog razdoblja.
Utjecaj poduzeća: Izazovi i prilike u automatizaciji umjetne inteligencije
Međutim, ostaju značajne prepreke prije nego što tehnologija doživi široku primjenu u poduzećima. Istraživači identificiraju nekoliko ključnih ograničenja, uključujući briga o privatnosti kada agenti rukuju osjetljivim podacima, ograničenja računalnih performansi i potreba za boljim jamstvima sigurnosti i pouzdanosti.
“Iako su učinkovite za unaprijed definirane tijekove rada, tim metodama nedostaje fleksibilnost i prilagodljivost koja je potrebna za dinamičke aplikacije u stvarnom svijetu”, navodi se u radu u vezi s ranijim pristupima automatizaciji.
Istraživački tim daje detaljan plan za rješavanje ovih izazova, naglašavajući važnost razvoja učinkovitijih modela koji se mogu izvoditi lokalno na uređajima, implementacije robusnih sigurnosnih mjera i stvaranja standardiziranih okvira za evaluaciju.
“Inkorporiranjem zaštitnih mjera i prilagodljivih radnji, ovi agenti osiguravaju učinkovitost i sigurnost pri rukovanju zamršenim naredbama”, primjećuju istraživači, ističući nedavni napredak u osposobljavanju tehnoloških poduzeća za rad.
Za tehnološke lidere poduzeća, pojava GUI agenata koje pokreće LLM predstavlja i priliku i strateško razmatranje. Dok tehnologija obećava značajna povećanja produktivnosti kroz automatizaciju, organizacije će morati pažljivo procijeniti sigurnosne implikacije i infrastrukturne zahtjeve implementacije ovih AI sustava.
“Područje GUI agenata kreće se prema višeagentnim arhitekturama, multimodalnim mogućnostima, raznolikim skupovima akcija i novim strategijama donošenja odluka”, objašnjava se u radu. “Ove inovacije označavaju značajne korake prema stvaranju inteligentnih, prilagodljivih agenata sposobnih za visoku učinkovitost u različitim i dinamičnim okruženjima.”
Stručnjaci iz industrije predviđaju da će barem do 2025 60% velikih poduzeća će pilotirati neki oblik agenata za automatizaciju GUI-a, što bi potencijalno moglo dovesti do velikih povećanja učinkovitosti, ali i pokrenuti važna pitanja o privatnosti podataka i premještaju poslova.
Sveobuhvatna anketa sugerira da smo na prijelomnoj točki u kojoj bi konverzacijska AI sučelja mogla iz temelja promijeniti način na koji ljudi komuniciraju sa softverom — iako će realizacija ovog potencijala zahtijevati stalan napredak u temeljnoj tehnologiji i praksama implementacije u poduzeću.
“Ovi razvoji postavljaju temelje za svestranije i snažnije agente koji su sposobni rukovati složenim, dinamičnim okruženjima”, zaključuju istraživači, ukazujući na budućnost u kojoj AI pomoćnici postaju sastavni dio našeg rada s računalima.
Web izvor


