Oblak Znanja

  • Home
  • Novosti
  • Učionica
    • Informatika 5
    • Informatika 6
    • Informatika 7
    • Informatika 8
    • Logo jezik
    • WordPress
    • Microsoft Office
  • Vodiči
    • Online vodiči
    • Kratki savjeti
    • Korisne aplikacije
    • Društvene mreže
    • Multimedija
    • Zanimljivosti
✕

Procjena agenta umjetne inteligencije zamjenjuje označavanje podataka kao ključni put do implementacije proizvodnje

Novosti

Procjena agenta umjetne inteligencije zamjenjuje označavanje podataka kao ključni put do implementacije proizvodnje

Tomšić Damjan 21. studenoga 2025

Kako su se LLM-ovi nastavili poboljšavati, došlo je do nekih rasprava u industriji o stalnoj potrebi za samostalnim alatima za označavanje podataka, jer LLM-ovi sve više mogu raditi sa svim vrstama podataka. ljudski signal, vodeći komercijalni dobavljač iza programa Label Studio otvorenog koda, ima drugačiji pogled. Umjesto da vidi manju potražnju za označavanjem podataka, tvrtka vidi više.

Ranije ovog mjeseca, HumanSignal je preuzeo Erud AI i pokrenuo svoj fizički Frontier Data Labs za prikupljanje novih podataka. Ali stvaranje podataka samo je pola izazova. Danas se tvrtka bavi onim što slijedi: dokazivanjem da AI sustavi obučeni na tim podacima stvarno rade. Nove multi-modalne mogućnosti procjene agenata omogućuju tvrtkama provjeru valjanosti složenih AI agenata koji generiraju aplikacije, slike, kod i video.

"Ako se usredotočite na poslovne segmente, tada sva rješenja umjetne inteligencije koja oni grade tek treba procijeniti, što je samo druga riječ za označavanje podataka od strane ljudi, a još više od stručnjaka," Suosnivač i izvršni direktor HumanSignala Michael Malyuk rekao je za VentureBeat u ekskluzivnom intervjuu.

Sadržaj objave

  • 1 Sjecište označavanja podataka i agentske AI evaluacije
  • 2 Procjena punog traga agenta
  • 3 Evaluacija agenata novo je bojno polje za dobavljače označavanja podataka
  • 4 Što to znači za AI graditelje
    • 4.1 Povezani sadržaji

Sjecište označavanja podataka i agentske AI evaluacije

Imati prave podatke je sjajno, ali to nije krajnji cilj poduzeća. Kamo ide moderno označavanje podataka je evaluacija.

To je temeljna promjena u onome što poduzeća trebaju potvrditi: ne je li njihov model ispravno klasificirao sliku, već je li njihov AI agent donio dobre odluke u složenom zadatku od više koraka koji uključuje razmišljanje, korištenje alata i generiranje koda.

Ako je evaluacija samo označavanje podataka za izlaze umjetne inteligencije, tada prijelaz s modela na agente predstavlja korak promjene u onome što treba označiti. Tamo gdje tradicionalno označavanje podataka može uključivati ​​označavanje slika ili kategoriziranje teksta, procjena agenta zahtijeva prosuđivanje lanaca razmišljanja u više koraka, odluka o odabiru alata i višemodalnih izlaza — sve unutar jedne interakcije.

"Postoji ta vrlo snažna potreba da više ne bude samo čovjek u petlji, već i stručnjak u petlji," rekao je Malyuk. Ukazao je na aplikacije s visokim ulozima poput zdravstvene skrbi i pravnog savjetovanja kao primjere u kojima su troškovi pogrešaka i dalje previsoki.

Veza između označavanja podataka i evaluacije umjetne inteligencije dublja je od semantike. Obje aktivnosti zahtijevaju iste temeljne sposobnosti:

  • Strukturirana sučelja za ljudsku prosudbu: Bilo da recenzenti označavaju slike za podatke za obuku ili procjenjuju je li agent ispravno orkestrirao više alata, potrebna su namjenski izrađena sučelja za sustavno bilježenje njihovih procjena.

  • Konsenzus više recenzenata: Visokokvalitetni skupovi podataka za obuku zahtijevaju više etiketera koji rješavaju nesuglasice. Visokokvalitetna evaluacija zahtijeva isto — više stručnjaka koji procjenjuju rezultate i rješavaju razlike u prosudbama.

  • Stručnost domene u velikom broju: Obuka modernih AI sustava zahtijeva stručnjake za predmet, a ne samo radnike koji klikaju gumbe. Ocjenjivanje proizvodnih rezultata umjetne inteligencije zahtijeva istu dubinu stručnosti.

  • Povratna sprega u sustave umjetne inteligencije: Označeni podaci o obuci prenose razvoj modela. Podaci evaluacije dovode do kontinuiranog poboljšanja, finog podešavanja i usporedbe.

Procjena punog traga agenta

Izazov s agentima za procjenu nije samo količina podataka, već i složenost onoga što treba procijeniti. Agenti ne proizvode jednostavne tekstualne izlaze; generiraju lance razmišljanja, odabiru alate i proizvode artefakte u više modaliteta.

Nove mogućnosti u Label Studio Enterprise zahtjevima za provjeru valjanosti agenta adrese:

  • Multimodalna inspekcija tragova: Platforma pruža objedinjena sučelja za pregled cjelovitih tragova izvršenja agenta — korake promišljanja, pozive alata i izlaze kroz modalitete. Time se rješava zajednička bolna točka gdje timovi moraju analizirati zasebne tokove dnevnika.

  • Interaktivna procjena s više okretanja: Evaluatori procjenjuju tokove razgovora gdje agenti održavaju stanje u višestrukim redovima, potvrđujući praćenje konteksta i tumačenje namjere kroz sekvencu interakcije.

  • Agent Arena: Okvir usporedne procjene za testiranje različitih konfiguracija agenata (osnovni modeli, predlošci upita, implementacije zaštitnih ograda) pod identičnim uvjetima.

  • Fleksibilne rubrike ocjenjivanja: Timovi definiraju kriterije procjene specifične za domenu programski umjesto da koriste unaprijed definirane metrike, podržavajući zahtjeve kao što su točnost razumijevanja, prikladnost odgovora ili kvaliteta izlaza za specifične slučajeve upotrebe

Evaluacija agenata novo je bojno polje za dobavljače označavanja podataka

HumanSignal nije sam u prepoznavanju da procjena agenata predstavlja sljedeću fazu tržišta označavanja podataka. Konkurenti se slično okreću kako industrija reagira na tehnološke promjene i poremećaje na tržištu.

Labelbox pokrenuo je svoj Evaluation Studio u kolovozu 2025., fokusiran na evaluacije temeljene na rubrikama. Poput HumanSignala, tvrtka se širi izvan tradicionalnog označavanja podataka u produkcijsku AI validaciju.

Sveukupno konkurentsko okruženje za označavanje podataka dramatično se promijenilo u lipnju kada je Meta uložila 14,3 milijarde dolara za 49% udjela u Scale AI-ju, prethodnom tržišnom lideru. Dogovor je izazvao egzodus nekih od Scaleovih najvećih kupaca. HumanSignal je iskoristio poremećaj, a Malyuk je tvrdio da je njegova tvrtka uspjela dobiti višestruke konkurentne poslove u prošlom kvartalu. Malyuk navodi zrelost platforme, fleksibilnost konfiguracije i korisničku podršku kao razlike, iako konkurenti iznose slične tvrdnje.

Što to znači za AI graditelje

Za poduzeća koja grade proizvodne AI sustave, konvergencija označavanja podataka i infrastrukture za procjenu ima nekoliko strateških implikacija:

Počnite s temeljnom istinom. Ulaganje u stvaranje visokokvalitetnih označenih skupova podataka s višestrukim stručnim recenzentima koji rješavaju nesuglasice donosi dividende tijekom cijelog životnog ciklusa razvoja umjetne inteligencije — od početne obuke do stalnog poboljšanja proizvodnje.

Opažljivost se pokazala potrebnom, ali nedovoljnom. Iako je praćenje onoga što sustavi umjetne inteligencije rade i dalje važno, alati za promatranje mjere aktivnost, a ne kvalitetu. Poduzećima je potrebna namjenska infrastruktura za procjenu za procjenu rezultata i poticanje poboljšanja. To su različiti problemi koji zahtijevaju različite sposobnosti.

Infrastruktura podataka za obuku služi i kao infrastruktura za evaluaciju. Organizacije koje su uložile u platforme za označavanje podataka za razvoj modela mogu proširiti tu istu infrastrukturu na evaluaciju proizvodnje. Ovo nisu zasebni problemi koji zahtijevaju zasebne alate — to je isti temeljni tijek rada koji se primjenjuje u različitim fazama životnog ciklusa.

Za poduzeća koja implementiraju AI u velikim razmjerima, usko grlo se pomaknulo s izgradnje modela na njihovu provjeru valjanosti. Organizacije koje rano prepoznaju ovu promjenu stječu prednosti u isporuci proizvodnih AI sustava.

Kritično pitanje za poduzeća je evoluiralo: ne jesu li sustavi umjetne inteligencije dovoljno sofisticirani, nego mogu li organizacije sustavno dokazati da ispunjavaju zahtjeve kvalitete specifičnih domena s visokim ulozima.

Web izvor

Povezani sadržaji

  • Znanstvenici uspostavili najbolji algoritam za kretanje zemljovidomZnanstvenici uspostavili najbolji algoritam za kretanje zemljovidom
  • EPA će vjerojatno crijevni tim koji proučava zdravstvene rizike od kemikalijaEPA će vjerojatno crijevni tim koji proučava zdravstvene rizike od kemikalija
  • Googleov Magic Cue na Pixelu smatra se “zapravo korisnim AI”Googleov Magic Cue na Pixelu smatra se “zapravo korisnim AI”
  • Bt donijeti Gigabit širokopojasnu mrežu u teško dostupan područja zaljeva SwanseaBt donijeti Gigabit širokopojasnu mrežu u teško dostupan područja zaljeva Swansea
  • CMA se savjetuje o Googleovoj dominaciji pretraživanjaCMA se savjetuje o Googleovoj dominaciji pretraživanja
  • Vlada Ujedinjenog Kraljevstva dodatno proširuje ruralnu 4G pokrivenost putem SRN-aVlada Ujedinjenog Kraljevstva dodatno proširuje ruralnu 4G pokrivenost putem SRN-a

Previous Article

Paradromics dobiva odobrenje FDA za ispitivanje svog moždanog implantata na ljudima

Next Article

Meta najavljuje završetak core 2Africa kabela

Posljednje objave

GNOME 50 je briljantno izdanje – ali morao sam dva puta pogledati zašto

Samsung Galaxy S26 Ultra naspram S24 Ultra: Kako odlučiti isplati li se dvogodišnja nadogradnja

Arc Pulse donosi svoju Crazy Case na Galaxy S26 Ultra

Arc Pulse donosi svoju Crazy Case na Galaxy S26 Ultra

Sadržaj

  • 1 Sjecište označavanja podataka i agentske AI evaluacije
  • 2 Procjena punog traga agenta
  • 3 Evaluacija agenata novo je bojno polje za dobavljače označavanja podataka
  • 4 Što to znači za AI graditelje

Novosti

  • GNOME 50 je briljantno izdanje – ali morao sam dva puta pogledati zašto 26. veljače 2026
  • Samsung Galaxy S26 Ultra naspram S24 Ultra: Kako odlučiti isplati li se dvogodišnja nadogradnja 26. veljače 2026
  • Arc Pulse donosi svoju Crazy Case na Galaxy S26 Ultra 25. veljače 2026
  • Politika privatnosti Genshin Impacta naznačila je da se glasovni podaci igrača mogu koristiti za treniranje AI modela 25. veljače 2026
  • Aeris, Verizon Business imaju za cilj pojednostaviti globalno širenje IoT-a 25. veljače 2026
  • Anthropic je upravo objavio mobilnu verziju Claude Codea pod nazivom Remote Control 25. veljače 2026
  • Posljednja misterija antarktičkih ‘krvavih slapova’ konačno je riješena 25. veljače 2026
  • Ažuriranja uživo za Samsung Unpacked 2026: Galaxy S26 Ultra specifikacije, Buds 4 Pro, Bixby, više 24. veljače 2026
  • Izvorni kreator Dark Skya napravio je još jednu aplikaciju za vremensku prognozu 24. veljače 2026
  • “Tvornica glasina radi prekovremeno” – račun na društvenim mrežama Call of Duty prekida priče o samostalnoj Zombies igrici 24. veljače 2026

O nama

Oblak Znanja je blog edukativnog karaktera i namijenjen je svima koji žele unaprijediti svoje znanje iz područja računala i interneta.

Naš cilj je edukacija i pisanje zanimljivih objava kojima ćemo zajedno učiti i informirati se o svijetu informatike.

Na ovom blogu zabranjeno je svako kopiranje sadržaja bez dozvole autora.

Oblak Znanja

Oznake

besplatni powerpoint predlošci društvene mreže excel facebook firefox gmail google+ Google Chrome halloween halloween walpapers internet kartice linkedin profil linux microsoft Mozilla Firefox ms powerpoint oblak znanja office 2007 office savjeti online kupovina pick powerpoint powerpoint predložak powerpoint savjeti rastući niz savjet slike za radnu površinu spremanje datoteka strani jezik tipkovnicke kratice twitter twitter alati uređivanje slika wallpaper clock web preglednik windows windows 7 windows aplikacije windows vista word word 2007 word savjeti youtube savjeti youtube tipkovničke kratice