Oblak Znanja

  • Home
  • Novosti
  • Učionica
    • Informatika 5
    • Informatika 6
    • Informatika 7
    • Informatika 8
    • Logo jezik
    • WordPress
    • Microsoft Office
  • Vodiči
    • Online vodiči
    • Kratki savjeti
    • Korisne aplikacije
    • Društvene mreže
    • Multimedija
    • Zanimljivosti
✕

Procjena agenta umjetne inteligencije zamjenjuje označavanje podataka kao ključni put do implementacije proizvodnje

Novosti

Procjena agenta umjetne inteligencije zamjenjuje označavanje podataka kao ključni put do implementacije proizvodnje

Tomšić Damjan 21. studenoga 2025

Kako su se LLM-ovi nastavili poboljšavati, došlo je do nekih rasprava u industriji o stalnoj potrebi za samostalnim alatima za označavanje podataka, jer LLM-ovi sve više mogu raditi sa svim vrstama podataka. ljudski signal, vodeći komercijalni dobavljač iza programa Label Studio otvorenog koda, ima drugačiji pogled. Umjesto da vidi manju potražnju za označavanjem podataka, tvrtka vidi više.

Ranije ovog mjeseca, HumanSignal je preuzeo Erud AI i pokrenuo svoj fizički Frontier Data Labs za prikupljanje novih podataka. Ali stvaranje podataka samo je pola izazova. Danas se tvrtka bavi onim što slijedi: dokazivanjem da AI sustavi obučeni na tim podacima stvarno rade. Nove multi-modalne mogućnosti procjene agenata omogućuju tvrtkama provjeru valjanosti složenih AI agenata koji generiraju aplikacije, slike, kod i video.

"Ako se usredotočite na poslovne segmente, tada sva rješenja umjetne inteligencije koja oni grade tek treba procijeniti, što je samo druga riječ za označavanje podataka od strane ljudi, a još više od stručnjaka," Suosnivač i izvršni direktor HumanSignala Michael Malyuk rekao je za VentureBeat u ekskluzivnom intervjuu.

Sadržaj objave

  • 1 Sjecište označavanja podataka i agentske AI evaluacije
  • 2 Procjena punog traga agenta
  • 3 Evaluacija agenata novo je bojno polje za dobavljače označavanja podataka
  • 4 Što to znači za AI graditelje
    • 4.1 Povezani sadržaji

Sjecište označavanja podataka i agentske AI evaluacije

Imati prave podatke je sjajno, ali to nije krajnji cilj poduzeća. Kamo ide moderno označavanje podataka je evaluacija.

To je temeljna promjena u onome što poduzeća trebaju potvrditi: ne je li njihov model ispravno klasificirao sliku, već je li njihov AI agent donio dobre odluke u složenom zadatku od više koraka koji uključuje razmišljanje, korištenje alata i generiranje koda.

Ako je evaluacija samo označavanje podataka za izlaze umjetne inteligencije, tada prijelaz s modela na agente predstavlja korak promjene u onome što treba označiti. Tamo gdje tradicionalno označavanje podataka može uključivati ​​označavanje slika ili kategoriziranje teksta, procjena agenta zahtijeva prosuđivanje lanaca razmišljanja u više koraka, odluka o odabiru alata i višemodalnih izlaza — sve unutar jedne interakcije.

"Postoji ta vrlo snažna potreba da više ne bude samo čovjek u petlji, već i stručnjak u petlji," rekao je Malyuk. Ukazao je na aplikacije s visokim ulozima poput zdravstvene skrbi i pravnog savjetovanja kao primjere u kojima su troškovi pogrešaka i dalje previsoki.

Veza između označavanja podataka i evaluacije umjetne inteligencije dublja je od semantike. Obje aktivnosti zahtijevaju iste temeljne sposobnosti:

  • Strukturirana sučelja za ljudsku prosudbu: Bilo da recenzenti označavaju slike za podatke za obuku ili procjenjuju je li agent ispravno orkestrirao više alata, potrebna su namjenski izrađena sučelja za sustavno bilježenje njihovih procjena.

  • Konsenzus više recenzenata: Visokokvalitetni skupovi podataka za obuku zahtijevaju više etiketera koji rješavaju nesuglasice. Visokokvalitetna evaluacija zahtijeva isto — više stručnjaka koji procjenjuju rezultate i rješavaju razlike u prosudbama.

  • Stručnost domene u velikom broju: Obuka modernih AI sustava zahtijeva stručnjake za predmet, a ne samo radnike koji klikaju gumbe. Ocjenjivanje proizvodnih rezultata umjetne inteligencije zahtijeva istu dubinu stručnosti.

  • Povratna sprega u sustave umjetne inteligencije: Označeni podaci o obuci prenose razvoj modela. Podaci evaluacije dovode do kontinuiranog poboljšanja, finog podešavanja i usporedbe.

Procjena punog traga agenta

Izazov s agentima za procjenu nije samo količina podataka, već i složenost onoga što treba procijeniti. Agenti ne proizvode jednostavne tekstualne izlaze; generiraju lance razmišljanja, odabiru alate i proizvode artefakte u više modaliteta.

Nove mogućnosti u Label Studio Enterprise zahtjevima za provjeru valjanosti agenta adrese:

  • Multimodalna inspekcija tragova: Platforma pruža objedinjena sučelja za pregled cjelovitih tragova izvršenja agenta — korake promišljanja, pozive alata i izlaze kroz modalitete. Time se rješava zajednička bolna točka gdje timovi moraju analizirati zasebne tokove dnevnika.

  • Interaktivna procjena s više okretanja: Evaluatori procjenjuju tokove razgovora gdje agenti održavaju stanje u višestrukim redovima, potvrđujući praćenje konteksta i tumačenje namjere kroz sekvencu interakcije.

  • Agent Arena: Okvir usporedne procjene za testiranje različitih konfiguracija agenata (osnovni modeli, predlošci upita, implementacije zaštitnih ograda) pod identičnim uvjetima.

  • Fleksibilne rubrike ocjenjivanja: Timovi definiraju kriterije procjene specifične za domenu programski umjesto da koriste unaprijed definirane metrike, podržavajući zahtjeve kao što su točnost razumijevanja, prikladnost odgovora ili kvaliteta izlaza za specifične slučajeve upotrebe

Evaluacija agenata novo je bojno polje za dobavljače označavanja podataka

HumanSignal nije sam u prepoznavanju da procjena agenata predstavlja sljedeću fazu tržišta označavanja podataka. Konkurenti se slično okreću kako industrija reagira na tehnološke promjene i poremećaje na tržištu.

Labelbox pokrenuo je svoj Evaluation Studio u kolovozu 2025., fokusiran na evaluacije temeljene na rubrikama. Poput HumanSignala, tvrtka se širi izvan tradicionalnog označavanja podataka u produkcijsku AI validaciju.

Sveukupno konkurentsko okruženje za označavanje podataka dramatično se promijenilo u lipnju kada je Meta uložila 14,3 milijarde dolara za 49% udjela u Scale AI-ju, prethodnom tržišnom lideru. Dogovor je izazvao egzodus nekih od Scaleovih najvećih kupaca. HumanSignal je iskoristio poremećaj, a Malyuk je tvrdio da je njegova tvrtka uspjela dobiti višestruke konkurentne poslove u prošlom kvartalu. Malyuk navodi zrelost platforme, fleksibilnost konfiguracije i korisničku podršku kao razlike, iako konkurenti iznose slične tvrdnje.

Što to znači za AI graditelje

Za poduzeća koja grade proizvodne AI sustave, konvergencija označavanja podataka i infrastrukture za procjenu ima nekoliko strateških implikacija:

Počnite s temeljnom istinom. Ulaganje u stvaranje visokokvalitetnih označenih skupova podataka s višestrukim stručnim recenzentima koji rješavaju nesuglasice donosi dividende tijekom cijelog životnog ciklusa razvoja umjetne inteligencije — od početne obuke do stalnog poboljšanja proizvodnje.

Opažljivost se pokazala potrebnom, ali nedovoljnom. Iako je praćenje onoga što sustavi umjetne inteligencije rade i dalje važno, alati za promatranje mjere aktivnost, a ne kvalitetu. Poduzećima je potrebna namjenska infrastruktura za procjenu za procjenu rezultata i poticanje poboljšanja. To su različiti problemi koji zahtijevaju različite sposobnosti.

Infrastruktura podataka za obuku služi i kao infrastruktura za evaluaciju. Organizacije koje su uložile u platforme za označavanje podataka za razvoj modela mogu proširiti tu istu infrastrukturu na evaluaciju proizvodnje. Ovo nisu zasebni problemi koji zahtijevaju zasebne alate — to je isti temeljni tijek rada koji se primjenjuje u različitim fazama životnog ciklusa.

Za poduzeća koja implementiraju AI u velikim razmjerima, usko grlo se pomaknulo s izgradnje modela na njihovu provjeru valjanosti. Organizacije koje rano prepoznaju ovu promjenu stječu prednosti u isporuci proizvodnih AI sustava.

Kritično pitanje za poduzeća je evoluiralo: ne jesu li sustavi umjetne inteligencije dovoljno sofisticirani, nego mogu li organizacije sustavno dokazati da ispunjavaju zahtjeve kvalitete specifičnih domena s visokim ulozima.

Web izvor

Povezani sadržaji

  • Zaboravite označavanje podataka: Tencent’s R-Zero pokazuje kako se LLM-ovi mogu treniratiZaboravite označavanje podataka: Tencent’s R-Zero pokazuje kako se LLM-ovi mogu trenirati
  • Ploča cjepiva koju je RFK Jr. slagao RFK, preporučuje odlaganje imunizacije MMRVPloča cjepiva koju je RFK Jr. slagao RFK, preporučuje odlaganje imunizacije MMRV
  • Meta nosi pradu? Zašto su njegove naočale sljedećeg gena možda još modne od Ray-BansMeta nosi pradu? Zašto su njegove naočale sljedećeg gena možda još modne od Ray-Bans
  • Samsung udvostručuje pohranu i kriške 900 USD OFF Galaxy S25 UltraSamsung udvostručuje pohranu i kriške 900 USD OFF Galaxy S25 Ultra
  • Moj alat za pretraživanje linuxa omogućuje pronalazak onoga što vam treba lako i brzoMoj alat za pretraživanje linuxa omogućuje pronalazak onoga što vam treba lako i brzo
  • MP3-JamPronađite, slušajte i besplatno preuzmite pjesme i albume uz MP3Jam

Previous Article

Paradromics dobiva odobrenje FDA za ispitivanje svog moždanog implantata na ljudima

Posljednje objave

Procjena agenta umjetne inteligencije zamjenjuje označavanje podataka kao ključni put do implementacije proizvodnje

Procjena agenta umjetne inteligencije zamjenjuje označavanje podataka kao ključni put do implementacije proizvodnje

Paradromics dobiva odobrenje FDA za ispitivanje svog moždanog implantata na ljudima

Paradromics dobiva odobrenje FDA za ispitivanje svog moždanog implantata na ljudima

Što Linus Torvalds stvarno misli o umjetnoj inteligenciji i razvoju softvera moglo bi vas iznenaditi

Sadržaj

  • 1 Sjecište označavanja podataka i agentske AI evaluacije
  • 2 Procjena punog traga agenta
  • 3 Evaluacija agenata novo je bojno polje za dobavljače označavanja podataka
  • 4 Što to znači za AI graditelje

Novosti

  • Procjena agenta umjetne inteligencije zamjenjuje označavanje podataka kao ključni put do implementacije proizvodnje 21. studenoga 2025
  • Paradromics dobiva odobrenje FDA za ispitivanje svog moždanog implantata na ljudima 21. studenoga 2025
  • Što Linus Torvalds stvarno misli o umjetnoj inteligenciji i razvoju softvera moglo bi vas iznenaditi 21. studenoga 2025
  • Nemojte da vas duhovi prisluškuju: 5 načina da spriječite lopove da skeniraju vaš novčanik 21. studenoga 2025
  • Kako AirDrop na Androidu 21. studenoga 2025
  • Tides of Annihilation nastavlja izgledati sjajno u igrivosti koja razbija novu dimenziju 20. studenoga 2025
  • VMO2 nadograđuje 4G, 5G pokrivenost na britanskim autocestama, cestama A 20. studenoga 2025
  • OpenAI debitira s modelom kodiranja GPT‑5.1-Codex-Max i već je izvršio 24-satni zadatak interno 20. studenoga 2025
  • NASA je konačno odlučila o podrijetlu 3I/ATLAS-a 20. studenoga 2025
  • Linus Torvalds iznenađujuće je optimističan u pogledu vibe kodiranja – osim ove jedne ‘užasne’ upotrebe 20. studenoga 2025

O nama

Oblak Znanja je blog edukativnog karaktera i namijenjen je svima koji žele unaprijediti svoje znanje iz područja računala i interneta.

Naš cilj je edukacija i pisanje zanimljivih objava kojima ćemo zajedno učiti i informirati se o svijetu informatike.

Na ovom blogu zabranjeno je svako kopiranje sadržaja bez dozvole autora.

Oblak Znanja

Oznake

besplatni powerpoint predlošci društvene mreže excel facebook firefox gmail google+ Google Chrome halloween halloween walpapers internet kartice linkedin profil linux microsoft Mozilla Firefox ms powerpoint oblak znanja office 2007 office savjeti online kupovina pick powerpoint powerpoint predložak powerpoint savjeti rastući niz savjet slike za radnu površinu spremanje datoteka strani jezik tipkovnicke kratice twitter twitter alati uređivanje slika wallpaper clock web preglednik windows windows 7 windows aplikacije windows vista word word 2007 word savjeti youtube savjeti youtube tipkovničke kratice