Oblak Znanja

  • Home
  • Novosti
  • Učionica
    • Informatika 5
    • Informatika 6
    • Informatika 7
    • Informatika 8
    • Logo jezik
    • WordPress
    • Microsoft Office
  • Vodiči
    • Online vodiči
    • Kratki savjeti
    • Korisne aplikacije
    • Društvene mreže
    • Multimedija
    • Zanimljivosti
✕

Od halucinacija do hardvera: Lekcije iz stvarnog projekta računalnog vida nestale su u stranu

Novosti

Od halucinacija do hardvera: Lekcije iz stvarnog projekta računalnog vida nestale su u stranu

Tomšić Damjan 29. lipnja 2025


Pridružite se događaju kojima vjeruje čelnici poduzeća gotovo dva desetljeća. VB Transform okuplja ljude koji grade pravu strategiju Enterprise AI. Saznati više


Projekti računalnog vida rijetko idu točno onako kako je planirano, a ovaj nije bio iznimka. Ideja je bila jednostavna: izradite model koji bi mogao pogledati fotografiju laptopa i identificirati bilo kakvu fizičku štetu – stvari poput ispucanih zaslona, ​​nedostajućih ključeva ili slomljenih šarki. Činilo se kao izravna upotreba za modele slika i velike jezične modele (LLMS), ali brzo se pretvorila u nešto složenije.

Uz put smo naišli na probleme s halucinacijama, nepouzdanim izlazima i slikama koje nisu ni prijenosna računala. Da bismo ih riješili, završili smo na atipičan način primjenjujući agentic okvir – ne za automatizaciju zadataka, već poboljšati performanse modela.

U ovom ćemo postu proći kroz ono što smo pokušali, što nije uspjelo i kako nam je kombinacija pristupa na kraju pomogla u izgradnji nečeg pouzdanog.

Sadržaj objave

  • 1 Gdje smo započeli: monolitni poticaj
  • 2 Prvo popravljanje: Miješanje rezolucija slike
  • 3 Multimodalno skretanje: tekst samo za LLM ide multimodalno
  • 4 Kreativna upotreba agentičkih okvira
  • 5 Slijepe točke: kompromisi agentskog pristupa
  • 6 Hibridno rješenje: kombiniranje agensnih i monolitnih pristupa
  • 7 Što smo naučili
  • 8 Završne misli
    • 8.1 Povezani sadržaji

Gdje smo započeli: monolitni poticaj

Naš početni pristup bio je prilično standardni za multimodalni model. Koristili smo jedan, veliki prompt da bismo sliku prenijeli u LLM koji može biti u skladu s slikama i zamolili je da utvrdi vidljive oštećenja. Ova strategija monolitnog poticanja jednostavna je za implementaciju i pristojno radi za čiste, dobro definirane zadatke. No, podaci iz stvarnog svijeta rijetko igraju.

Rano smo naišli na tri glavna pitanja:

  • Halucinacije: Model bi ponekad izmislio štetu koja nije postojala ili pogrešno označila ono što je vidjelo.
  • Otkrivanje slike bezvrijedne slike: Nije imao pouzdan način za označavanje slika koje nisu čak ni prijenosna računala, poput slika stolova, zidova ili ljudi, povremeno su prolazile i dobili besmislena izvješća o šteti.
  • Nedosljedna točnost: Kombinacija ovih problema učinila je model previše nepouzdanim za operativnu upotrebu.

To je bila stvar kada je postalo jasno da ćemo morati ponoviti.

Prvo popravljanje: Miješanje rezolucija slike

Jedna stvar koju smo primijetili je koliko je kvaliteta slike utjecala na izlaz modela. Korisnici su prenijeli sve vrste slika u rasponu od oštre i visoke rezolucije do zamagljenih. To nas je navelo da se odnosimo na istraživanje Istaknujući kako razlučivost slike utječe na modele dubokog učenja.

Trenirali smo i testirali model pomoću mješavine slika visoke i male rezolucije. Ideja je bila učiniti model otpornijim na širok raspon kvaliteta slika s kojima bi se susreo u praksi. To je pomoglo u poboljšanju dosljednosti, ali temeljna pitanja halucinacije i rukovanja bezvrijednim slikama trajala su.

Multimodalno skretanje: tekst samo za LLM ide multimodalno

Ohrabreni nedavnim eksperimentima u kombiniranju natpisa slika s LLM-ovima koji su samo tekst-poput tehnike obuhvaćene u Serijagdje se natpisi generiraju iz slika, a zatim tumače jezičnim modelom, odlučili smo ga isprobati.

Evo kako to funkcionira:

  • LLM započinje generiranjem više mogućih naslova za sliku.
  • Drugi model, nazvan multimodalni model ugradnje, provjerava koliko dobro svaki natpis odgovara slici. U ovom smo slučaju koristili Siglip da bismo postigli sličnost slike i teksta.
  • Sustav zadržava prvih nekoliko naslova na temelju ovih rezultata.
  • LLM koristi te vrhunske naslove za pisanje novih, pokušavajući se približiti onome što slika zapravo pokazuje.
  • Ponavlja ovaj postupak sve dok se naslovi ne prestanu poboljšati ili ne pogodi ograničenje.

Iako je u teoriji pametan, ovaj je pristup uveo nove probleme za naš slučaj upotrebe:

  • Uporne halucinacije: Sami naslovi ponekad su uključivali imaginarnu štetu, što je LLM tada samouvjereno izvijestio.
  • Nepotpuna pokrivenost: Čak i s više natpisa, neki su problemi u potpunosti propušteni.
  • Povećana složenost, mala korist: Dodani koraci učinili su sustav složenijim bez pouzdanog nadmašivanja prethodne postavke.

Bio je to zanimljiv eksperiment, ali u konačnici nije rješenje.

Kreativna upotreba agentičkih okvira

Ovo je bila prekretnica. Iako se Agentic okviri obično koriste za orkestriranje protoka zadataka (misle da agenti koordiniraju pozivnice za kalendar ili radnje korisničke usluge), pitali smo se može li razbiti zadatak tumačenja slike na manje, specijalizirane agente.

Izgradili smo agensic okvir strukturiran ovako:

  • Agent orkestratora: Provjerila je sliku i utvrdila koje su komponente prijenosnog računala vidljive (zaslon, tipkovnica, šasija, portovi).
  • Komponentni agenti: Namjenski agensi pregledali svaku komponentu za određene vrste oštećenja; Na primjer, jedan za ispucane ekrane, drugi za ključeve koji nedostaju.
  • Sredstvo za otkrivanje smeća: Zasebni agent označio je je li slika uopće bila laptop.

Ovaj modularni pristup usmjeren na zadatak proizveo je mnogo preciznije i objašnjene rezultate. Halucinacije su dramatično pale, smeće slike su pouzdano označene, a zadatak svakog agenta bio je jednostavan i dovoljno fokusiran da dobro kontrolira kvalitetu.

Slijepe točke: kompromisi agentskog pristupa

Koliko god to bilo učinkovito, nije bilo savršeno. Pojavila su se dva glavna ograničenja:

  • Povećana kašnjenja: Pokretanje više sekvencijalnih sredstava dodanih ukupnom vremenu zaključivanja.
  • Praznine za pokriće: Agenti su mogli otkriti samo pitanja koja su izričito programirana za traženje. Ako bi slika pokazala nešto neočekivano da nijedan agent nije zadužen za prepoznavanje, to bi prošlo nezapaženo.

Trebao nam je način da uravnotežimo preciznost s pokrivanjem.

Hibridno rješenje: kombiniranje agensnih i monolitnih pristupa

Da bismo premostili praznine, stvorili smo hibridni sustav:

  1. A agentski okvir Prvo je pokrenuo precizno otkrivanje poznatih vrsta oštećenja i smeća. Ograničili smo broj agenata na najvažnije za poboljšanje kašnjenja.
  2. Onda, a Monolitska slika llm prompt Skenirali su sliku za sve ostalo što su agenti možda propustili.
  3. Napokon, mi fino podešen model Korištenje kuriranog skupa slika za slučajeve upotrebe visokog prioriteta, poput često prijavljenih scenarija oštećenja, kako bi se dodatno poboljšala točnost i pouzdanost.

Ova kombinacija dala nam je preciznost i objašnjenje postavljanja agenta, širokog pokrivanja monolitnog poticanja i povećanja samopouzdanja ciljanog finog podešavanja.

Što smo naučili

Nekoliko stvari postalo je jasno kad smo završili ovaj projekt:

  • Agentni okviri su svestraniji nego što dobivaju zasluge za: Iako su obično povezani s upravljanjem tijekom rada, otkrili smo da bi mogli smisleno povećati performanse modela kada se primjenjuju na strukturirani, modularni način.
  • Miješanje različitih pristupa, oslanjajući se na samo jedan: Kombinacija preciznog, otkrivanja temeljenog na agentima, uz široku pokrivenost LLMS-a, plus malo preciznog podešavanja tamo gdje je to najvažnije, dala nam je daleko pouzdanije ishode od bilo koje pojedinačne metode.
  • Vizualni modeli skloni su halucinacijama: Čak i naprednije postavke mogu preskočiti zaključke ili vidjeti stvari koje nema. Potreban je promišljen dizajn sustava kako bi se te pogreške provjerile.
  • Raznolikost kvalitete slike čini razliku: Obuka i testiranje s jasnim slikama visoke rezolucije i svakodnevnim, nižim kvalitetama pomogli su modelu da ostane otporan kada se suoči s nepredvidivim fotografijama u stvarnom svijetu.
  • Trebate način da uhvatite bezvrijedne slike: Posvećena provjera smeća ili nepovezanih slika bila je jedna od najjednostavnijih promjena koje smo napravili, a imala je ogroman utjecaj na ukupnu pouzdanost sustava.

Završne misli

Ono što je započelo kao jednostavna ideja, koristeći LLM brzinu za otkrivanje fizičke oštećenja u slikama prijenosnih računala, brzo se pretvorilo u mnogo dublji eksperiment u kombiniranju različitih AI tehnika za rješavanje nepredvidivih problema u stvarnom svijetu. Uz put smo shvatili da su neki od najkorisnijih alata koji nisu prvobitno dizajnirani za ovu vrstu rada.

Agentni okviri, često viđeni kao uslužni tijek, pokazale su se iznenađujuće učinkovitim kada su preuređeni za zadatke poput strukturiranog otkrivanja oštećenja i filtriranja slike. Uz malo kreativnosti, pomogli su nam da izgradimo sustav koji nije bio samo precizniji, već je lakše razumjeti i upravljati u praksi.

Shruti Tiwari je upravitelj proizvoda AI u Dell Technologies.

Vadiraj Kulkarni je znanstvenik podataka u Dell Technologies.

Dnevni uvidi u slučajeve poslovne uporabe s VB dnevno

Ako želite impresionirati svog šefa, VB Daily vas je pokrivao. Dajemo vam unutarnju lopaticu o tome što tvrtke rade s generativnim AI, od regulatornih pomaka do praktičnih razmještaja, tako da možete dijeliti uvide za maksimalni ROI.

Pročitajte našu politiku privatnosti

Hvala na pretplati. Pogledajte više VB biltena ovdje.

Došlo je do pogreške.



Web izvor

Povezani sadržaji

  • Trebate alternativu Windows 10 ili još uvijek propustite XP? Ovaj linux distro je za vas – i besplatan je
  • Steelly Apache Tomcat kritički eksploat zaobilazi sigurnosne filtreSteelly Apache Tomcat kritički eksploat zaobilazi sigurnosne filtre
  • Kako se kontroverze povećavaju, Roblox najavljuje velika ulaganja u AI i može se pohvaliti astronomski visokim svakodnevnim aktivnim korisnicimaKako se kontroverze povećavaju, Roblox najavljuje velika ulaganja u AI i može se pohvaliti astronomski visokim svakodnevnim aktivnim korisnicima
  • OpenAi je upravo napravio chatgpt plus besplatno za milijune studenata – i to je sjajan natjecateljski potez protiv antropskogOpenAi je upravo napravio chatgpt plus besplatno za milijune studenata – i to je sjajan natjecateljski potez protiv antropskog
  • Obožavatelji Pokémon Go testiraju shemu mjesečnog nagrađivanja kažu da ćete morati potrošiti £500 za potpuno otključavanjeObožavatelji Pokémon Go testiraju shemu mjesečnog nagrađivanja kažu da ćete morati potrošiti £500 za potpuno otključavanje
  • Kako prikazati prikaz popisa SharePoint kao vremensku traku gantograma pomoću oblikovanja prikaza – Nate Chamberlain, Microsoft MCTKako prikazati prikaz popisa SharePoint kao vremensku traku gantograma pomoću oblikovanja prikaza – Nate Chamberlain, Microsoft MCT

Previous Article

Svijet proizvodi više hrane nego ikad - ali ne dugo

Next Article

Arelion nadogradnje skandinavske mreže kako bi podržao AI 'SuperHighway'

Posljednje objave

Samsung nudi 100 dolara trenutačne ponude novim korisnicima XR slušalica prije nego što je Upakiran

Google fotografije stvaranje kolaža dobiva velika poboljšanja

Google fotografije stvaranje kolaža dobiva velika poboljšanja

Assassin’s Creed Franchise olovo ostavlja Ubisoft nakon formiranja podružnice Tencent

Assassin’s Creed Franchise olovo ostavlja Ubisoft nakon formiranja podružnice Tencent

Sadržaj

  • 1 Gdje smo započeli: monolitni poticaj
  • 2 Prvo popravljanje: Miješanje rezolucija slike
  • 3 Multimodalno skretanje: tekst samo za LLM ide multimodalno
  • 4 Kreativna upotreba agentičkih okvira
  • 5 Slijepe točke: kompromisi agentskog pristupa
  • 6 Hibridno rješenje: kombiniranje agensnih i monolitnih pristupa
  • 7 Što smo naučili
  • 8 Završne misli

Novosti

  • Samsung nudi 100 dolara trenutačne ponude novim korisnicima XR slušalica prije nego što je Upakiran 15. listopada 2025
  • Google fotografije stvaranje kolaža dobiva velika poboljšanja 14. listopada 2025
  • Assassin’s Creed Franchise olovo ostavlja Ubisoft nakon formiranja podružnice Tencent 14. listopada 2025
  • Sita otkriva prevlake za vlaknastim optičkim aerodromima 14. listopada 2025
  • Jezični modeli koji se samo usavršavaju postaju stvarnost s MIT-ovom ažuriranom tehnikom pečata 14. listopada 2025
  • Kako učiniti STEM smiješnim – i idi virusno radeći 14. listopada 2025
  • 10 Windows aplikacija otvorenog koda ne mogu živjeti – i svi su besplatni 14. listopada 2025
  • Isprobao sam pametne naočale s XMEMS zvučnicima i aktivnim hlađenjem – i puni su obećanja 13. listopada 2025
  • Moramo se približiti pokretanju Galaxy XR 13. listopada 2025
  • Crni mith Wukong dobiva ažuriranje koje je tako veliko na PS5, možda ćete trebati izbrisati igru ​​i preusmjeriti je 13. listopada 2025

O nama

Oblak Znanja je blog edukativnog karaktera i namijenjen je svima koji žele unaprijediti svoje znanje iz područja računala i interneta.

Naš cilj je edukacija i pisanje zanimljivih objava kojima ćemo zajedno učiti i informirati se o svijetu informatike.

Na ovom blogu zabranjeno je svako kopiranje sadržaja bez dozvole autora.

Oblak Znanja

Oznake

besplatni powerpoint predlošci društvene mreže excel facebook firefox gmail google+ Google Chrome halloween halloween walpapers internet kartice linkedin profil linux microsoft Mozilla Firefox ms powerpoint oblak znanja office 2007 office savjeti online kupovina pick powerpoint powerpoint predložak powerpoint savjeti rastući niz savjet slike za radnu površinu spremanje datoteka strani jezik tipkovnicke kratice twitter twitter alati uređivanje slika wallpaper clock web preglednik windows windows 7 windows aplikacije windows vista word word 2007 word savjeti youtube savjeti youtube tipkovničke kratice