Pridružite se događaju kojima vjeruje čelnici poduzeća gotovo dva desetljeća. VB Transform okuplja ljude koji grade pravu strategiju Enterprise AI. Saznati više
Projekti računalnog vida rijetko idu točno onako kako je planirano, a ovaj nije bio iznimka. Ideja je bila jednostavna: izradite model koji bi mogao pogledati fotografiju laptopa i identificirati bilo kakvu fizičku štetu – stvari poput ispucanih zaslona, nedostajućih ključeva ili slomljenih šarki. Činilo se kao izravna upotreba za modele slika i velike jezične modele (LLMS), ali brzo se pretvorila u nešto složenije.
Uz put smo naišli na probleme s halucinacijama, nepouzdanim izlazima i slikama koje nisu ni prijenosna računala. Da bismo ih riješili, završili smo na atipičan način primjenjujući agentic okvir – ne za automatizaciju zadataka, već poboljšati performanse modela.
U ovom ćemo postu proći kroz ono što smo pokušali, što nije uspjelo i kako nam je kombinacija pristupa na kraju pomogla u izgradnji nečeg pouzdanog.
Sadržaj objave
- 1 Gdje smo započeli: monolitni poticaj
- 2 Prvo popravljanje: Miješanje rezolucija slike
- 3 Multimodalno skretanje: tekst samo za LLM ide multimodalno
- 4 Kreativna upotreba agentičkih okvira
- 5 Slijepe točke: kompromisi agentskog pristupa
- 6 Hibridno rješenje: kombiniranje agensnih i monolitnih pristupa
- 7 Što smo naučili
- 8 Završne misli
Gdje smo započeli: monolitni poticaj
Naš početni pristup bio je prilično standardni za multimodalni model. Koristili smo jedan, veliki prompt da bismo sliku prenijeli u LLM koji može biti u skladu s slikama i zamolili je da utvrdi vidljive oštećenja. Ova strategija monolitnog poticanja jednostavna je za implementaciju i pristojno radi za čiste, dobro definirane zadatke. No, podaci iz stvarnog svijeta rijetko igraju.
Rano smo naišli na tri glavna pitanja:
- Halucinacije: Model bi ponekad izmislio štetu koja nije postojala ili pogrešno označila ono što je vidjelo.
- Otkrivanje slike bezvrijedne slike: Nije imao pouzdan način za označavanje slika koje nisu čak ni prijenosna računala, poput slika stolova, zidova ili ljudi, povremeno su prolazile i dobili besmislena izvješća o šteti.
- Nedosljedna točnost: Kombinacija ovih problema učinila je model previše nepouzdanim za operativnu upotrebu.
To je bila stvar kada je postalo jasno da ćemo morati ponoviti.
Prvo popravljanje: Miješanje rezolucija slike
Jedna stvar koju smo primijetili je koliko je kvaliteta slike utjecala na izlaz modela. Korisnici su prenijeli sve vrste slika u rasponu od oštre i visoke rezolucije do zamagljenih. To nas je navelo da se odnosimo na istraživanje Istaknujući kako razlučivost slike utječe na modele dubokog učenja.
Trenirali smo i testirali model pomoću mješavine slika visoke i male rezolucije. Ideja je bila učiniti model otpornijim na širok raspon kvaliteta slika s kojima bi se susreo u praksi. To je pomoglo u poboljšanju dosljednosti, ali temeljna pitanja halucinacije i rukovanja bezvrijednim slikama trajala su.
Multimodalno skretanje: tekst samo za LLM ide multimodalno
Ohrabreni nedavnim eksperimentima u kombiniranju natpisa slika s LLM-ovima koji su samo tekst-poput tehnike obuhvaćene u Serijagdje se natpisi generiraju iz slika, a zatim tumače jezičnim modelom, odlučili smo ga isprobati.
Evo kako to funkcionira:
- LLM započinje generiranjem više mogućih naslova za sliku.
- Drugi model, nazvan multimodalni model ugradnje, provjerava koliko dobro svaki natpis odgovara slici. U ovom smo slučaju koristili Siglip da bismo postigli sličnost slike i teksta.
- Sustav zadržava prvih nekoliko naslova na temelju ovih rezultata.
- LLM koristi te vrhunske naslove za pisanje novih, pokušavajući se približiti onome što slika zapravo pokazuje.
- Ponavlja ovaj postupak sve dok se naslovi ne prestanu poboljšati ili ne pogodi ograničenje.
Iako je u teoriji pametan, ovaj je pristup uveo nove probleme za naš slučaj upotrebe:
- Uporne halucinacije: Sami naslovi ponekad su uključivali imaginarnu štetu, što je LLM tada samouvjereno izvijestio.
- Nepotpuna pokrivenost: Čak i s više natpisa, neki su problemi u potpunosti propušteni.
- Povećana složenost, mala korist: Dodani koraci učinili su sustav složenijim bez pouzdanog nadmašivanja prethodne postavke.
Bio je to zanimljiv eksperiment, ali u konačnici nije rješenje.
Kreativna upotreba agentičkih okvira
Ovo je bila prekretnica. Iako se Agentic okviri obično koriste za orkestriranje protoka zadataka (misle da agenti koordiniraju pozivnice za kalendar ili radnje korisničke usluge), pitali smo se može li razbiti zadatak tumačenja slike na manje, specijalizirane agente.
Izgradili smo agensic okvir strukturiran ovako:
- Agent orkestratora: Provjerila je sliku i utvrdila koje su komponente prijenosnog računala vidljive (zaslon, tipkovnica, šasija, portovi).
- Komponentni agenti: Namjenski agensi pregledali svaku komponentu za određene vrste oštećenja; Na primjer, jedan za ispucane ekrane, drugi za ključeve koji nedostaju.
- Sredstvo za otkrivanje smeća: Zasebni agent označio je je li slika uopće bila laptop.
Ovaj modularni pristup usmjeren na zadatak proizveo je mnogo preciznije i objašnjene rezultate. Halucinacije su dramatično pale, smeće slike su pouzdano označene, a zadatak svakog agenta bio je jednostavan i dovoljno fokusiran da dobro kontrolira kvalitetu.
Slijepe točke: kompromisi agentskog pristupa
Koliko god to bilo učinkovito, nije bilo savršeno. Pojavila su se dva glavna ograničenja:
- Povećana kašnjenja: Pokretanje više sekvencijalnih sredstava dodanih ukupnom vremenu zaključivanja.
- Praznine za pokriće: Agenti su mogli otkriti samo pitanja koja su izričito programirana za traženje. Ako bi slika pokazala nešto neočekivano da nijedan agent nije zadužen za prepoznavanje, to bi prošlo nezapaženo.
Trebao nam je način da uravnotežimo preciznost s pokrivanjem.
Hibridno rješenje: kombiniranje agensnih i monolitnih pristupa
Da bismo premostili praznine, stvorili smo hibridni sustav:
- A agentski okvir Prvo je pokrenuo precizno otkrivanje poznatih vrsta oštećenja i smeća. Ograničili smo broj agenata na najvažnije za poboljšanje kašnjenja.
- Onda, a Monolitska slika llm prompt Skenirali su sliku za sve ostalo što su agenti možda propustili.
- Napokon, mi fino podešen model Korištenje kuriranog skupa slika za slučajeve upotrebe visokog prioriteta, poput često prijavljenih scenarija oštećenja, kako bi se dodatno poboljšala točnost i pouzdanost.
Ova kombinacija dala nam je preciznost i objašnjenje postavljanja agenta, širokog pokrivanja monolitnog poticanja i povećanja samopouzdanja ciljanog finog podešavanja.
Što smo naučili
Nekoliko stvari postalo je jasno kad smo završili ovaj projekt:
- Agentni okviri su svestraniji nego što dobivaju zasluge za: Iako su obično povezani s upravljanjem tijekom rada, otkrili smo da bi mogli smisleno povećati performanse modela kada se primjenjuju na strukturirani, modularni način.
- Miješanje različitih pristupa, oslanjajući se na samo jedan: Kombinacija preciznog, otkrivanja temeljenog na agentima, uz široku pokrivenost LLMS-a, plus malo preciznog podešavanja tamo gdje je to najvažnije, dala nam je daleko pouzdanije ishode od bilo koje pojedinačne metode.
- Vizualni modeli skloni su halucinacijama: Čak i naprednije postavke mogu preskočiti zaključke ili vidjeti stvari koje nema. Potreban je promišljen dizajn sustava kako bi se te pogreške provjerile.
- Raznolikost kvalitete slike čini razliku: Obuka i testiranje s jasnim slikama visoke rezolucije i svakodnevnim, nižim kvalitetama pomogli su modelu da ostane otporan kada se suoči s nepredvidivim fotografijama u stvarnom svijetu.
- Trebate način da uhvatite bezvrijedne slike: Posvećena provjera smeća ili nepovezanih slika bila je jedna od najjednostavnijih promjena koje smo napravili, a imala je ogroman utjecaj na ukupnu pouzdanost sustava.
Završne misli
Ono što je započelo kao jednostavna ideja, koristeći LLM brzinu za otkrivanje fizičke oštećenja u slikama prijenosnih računala, brzo se pretvorilo u mnogo dublji eksperiment u kombiniranju različitih AI tehnika za rješavanje nepredvidivih problema u stvarnom svijetu. Uz put smo shvatili da su neki od najkorisnijih alata koji nisu prvobitno dizajnirani za ovu vrstu rada.
Agentni okviri, često viđeni kao uslužni tijek, pokazale su se iznenađujuće učinkovitim kada su preuređeni za zadatke poput strukturiranog otkrivanja oštećenja i filtriranja slike. Uz malo kreativnosti, pomogli su nam da izgradimo sustav koji nije bio samo precizniji, već je lakše razumjeti i upravljati u praksi.
Shruti Tiwari je upravitelj proizvoda AI u Dell Technologies.
Vadiraj Kulkarni je znanstvenik podataka u Dell Technologies.
Web izvor