Kako su se LLM-ovi nastavili poboljšavati, došlo je do nekih rasprava u industriji o stalnoj potrebi za samostalnim alatima za označavanje podataka, jer LLM-ovi sve više mogu raditi sa svim vrstama podataka. ljudski signal, vodeći komercijalni dobavljač iza programa Label Studio otvorenog koda, ima drugačiji pogled. Umjesto da vidi manju potražnju za označavanjem podataka, tvrtka vidi više.
Ranije ovog mjeseca, HumanSignal je preuzeo Erud AI i pokrenuo svoj fizički Frontier Data Labs za prikupljanje novih podataka. Ali stvaranje podataka samo je pola izazova. Danas se tvrtka bavi onim što slijedi: dokazivanjem da AI sustavi obučeni na tim podacima stvarno rade. Nove multi-modalne mogućnosti procjene agenata omogućuju tvrtkama provjeru valjanosti složenih AI agenata koji generiraju aplikacije, slike, kod i video.
"Ako se usredotočite na poslovne segmente, tada sva rješenja umjetne inteligencije koja oni grade tek treba procijeniti, što je samo druga riječ za označavanje podataka od strane ljudi, a još više od stručnjaka," Suosnivač i izvršni direktor HumanSignala Michael Malyuk rekao je za VentureBeat u ekskluzivnom intervjuu.
Sadržaj objave
Sjecište označavanja podataka i agentske AI evaluacije
Imati prave podatke je sjajno, ali to nije krajnji cilj poduzeća. Kamo ide moderno označavanje podataka je evaluacija.
To je temeljna promjena u onome što poduzeća trebaju potvrditi: ne je li njihov model ispravno klasificirao sliku, već je li njihov AI agent donio dobre odluke u složenom zadatku od više koraka koji uključuje razmišljanje, korištenje alata i generiranje koda.
Ako je evaluacija samo označavanje podataka za izlaze umjetne inteligencije, tada prijelaz s modela na agente predstavlja korak promjene u onome što treba označiti. Tamo gdje tradicionalno označavanje podataka može uključivati označavanje slika ili kategoriziranje teksta, procjena agenta zahtijeva prosuđivanje lanaca razmišljanja u više koraka, odluka o odabiru alata i višemodalnih izlaza — sve unutar jedne interakcije.
"Postoji ta vrlo snažna potreba da više ne bude samo čovjek u petlji, već i stručnjak u petlji," rekao je Malyuk. Ukazao je na aplikacije s visokim ulozima poput zdravstvene skrbi i pravnog savjetovanja kao primjere u kojima su troškovi pogrešaka i dalje previsoki.
Veza između označavanja podataka i evaluacije umjetne inteligencije dublja je od semantike. Obje aktivnosti zahtijevaju iste temeljne sposobnosti:
-
Strukturirana sučelja za ljudsku prosudbu: Bilo da recenzenti označavaju slike za podatke za obuku ili procjenjuju je li agent ispravno orkestrirao više alata, potrebna su namjenski izrađena sučelja za sustavno bilježenje njihovih procjena.
-
Konsenzus više recenzenata: Visokokvalitetni skupovi podataka za obuku zahtijevaju više etiketera koji rješavaju nesuglasice. Visokokvalitetna evaluacija zahtijeva isto — više stručnjaka koji procjenjuju rezultate i rješavaju razlike u prosudbama.
-
Stručnost domene u velikom broju: Obuka modernih AI sustava zahtijeva stručnjake za predmet, a ne samo radnike koji klikaju gumbe. Ocjenjivanje proizvodnih rezultata umjetne inteligencije zahtijeva istu dubinu stručnosti.
-
Povratna sprega u sustave umjetne inteligencije: Označeni podaci o obuci prenose razvoj modela. Podaci evaluacije dovode do kontinuiranog poboljšanja, finog podešavanja i usporedbe.
Procjena punog traga agenta
Izazov s agentima za procjenu nije samo količina podataka, već i složenost onoga što treba procijeniti. Agenti ne proizvode jednostavne tekstualne izlaze; generiraju lance razmišljanja, odabiru alate i proizvode artefakte u više modaliteta.
Nove mogućnosti u Label Studio Enterprise zahtjevima za provjeru valjanosti agenta adrese:
-
Multimodalna inspekcija tragova: Platforma pruža objedinjena sučelja za pregled cjelovitih tragova izvršenja agenta — korake promišljanja, pozive alata i izlaze kroz modalitete. Time se rješava zajednička bolna točka gdje timovi moraju analizirati zasebne tokove dnevnika.
-
Interaktivna procjena s više okretanja: Evaluatori procjenjuju tokove razgovora gdje agenti održavaju stanje u višestrukim redovima, potvrđujući praćenje konteksta i tumačenje namjere kroz sekvencu interakcije.
-
Agent Arena: Okvir usporedne procjene za testiranje različitih konfiguracija agenata (osnovni modeli, predlošci upita, implementacije zaštitnih ograda) pod identičnim uvjetima.
-
Fleksibilne rubrike ocjenjivanja: Timovi definiraju kriterije procjene specifične za domenu programski umjesto da koriste unaprijed definirane metrike, podržavajući zahtjeve kao što su točnost razumijevanja, prikladnost odgovora ili kvaliteta izlaza za specifične slučajeve upotrebe
Evaluacija agenata novo je bojno polje za dobavljače označavanja podataka
HumanSignal nije sam u prepoznavanju da procjena agenata predstavlja sljedeću fazu tržišta označavanja podataka. Konkurenti se slično okreću kako industrija reagira na tehnološke promjene i poremećaje na tržištu.
Labelbox pokrenuo je svoj Evaluation Studio u kolovozu 2025., fokusiran na evaluacije temeljene na rubrikama. Poput HumanSignala, tvrtka se širi izvan tradicionalnog označavanja podataka u produkcijsku AI validaciju.
Sveukupno konkurentsko okruženje za označavanje podataka dramatično se promijenilo u lipnju kada je Meta uložila 14,3 milijarde dolara za 49% udjela u Scale AI-ju, prethodnom tržišnom lideru. Dogovor je izazvao egzodus nekih od Scaleovih najvećih kupaca. HumanSignal je iskoristio poremećaj, a Malyuk je tvrdio da je njegova tvrtka uspjela dobiti višestruke konkurentne poslove u prošlom kvartalu. Malyuk navodi zrelost platforme, fleksibilnost konfiguracije i korisničku podršku kao razlike, iako konkurenti iznose slične tvrdnje.
Što to znači za AI graditelje
Za poduzeća koja grade proizvodne AI sustave, konvergencija označavanja podataka i infrastrukture za procjenu ima nekoliko strateških implikacija:
Počnite s temeljnom istinom. Ulaganje u stvaranje visokokvalitetnih označenih skupova podataka s višestrukim stručnim recenzentima koji rješavaju nesuglasice donosi dividende tijekom cijelog životnog ciklusa razvoja umjetne inteligencije — od početne obuke do stalnog poboljšanja proizvodnje.
Opažljivost se pokazala potrebnom, ali nedovoljnom. Iako je praćenje onoga što sustavi umjetne inteligencije rade i dalje važno, alati za promatranje mjere aktivnost, a ne kvalitetu. Poduzećima je potrebna namjenska infrastruktura za procjenu za procjenu rezultata i poticanje poboljšanja. To su različiti problemi koji zahtijevaju različite sposobnosti.
Infrastruktura podataka za obuku služi i kao infrastruktura za evaluaciju. Organizacije koje su uložile u platforme za označavanje podataka za razvoj modela mogu proširiti tu istu infrastrukturu na evaluaciju proizvodnje. Ovo nisu zasebni problemi koji zahtijevaju zasebne alate — to je isti temeljni tijek rada koji se primjenjuje u različitim fazama životnog ciklusa.
Za poduzeća koja implementiraju AI u velikim razmjerima, usko grlo se pomaknulo s izgradnje modela na njihovu provjeru valjanosti. Organizacije koje rano prepoznaju ovu promjenu stječu prednosti u isporuci proizvodnih AI sustava.
Kritično pitanje za poduzeća je evoluiralo: ne jesu li sustavi umjetne inteligencije dovoljno sofisticirani, nego mogu li organizacije sustavno dokazati da ispunjavaju zahtjeve kvalitete specifičnih domena s visokim ulozima.





