Želite pametnije uvide u vašu pristiglu poštu? Prijavite se za naše tjedne biltene kako biste dobili samo ono što je važno za vođe AI, podataka i sigurnosti. Pretplatite se sada
Porast dubokih istraživačkih značajki i druge analize na AI-u stvorilo je više modela i usluga koji žele pojednostaviti taj postupak i pročitati više dokumenata koje tvrtke zapravo koriste.
Kanadska AI tvrtka Pridržavati se je bankarstvo na svojim modelima, uključujući novoobjavljeni vizualni model, kako bi se napravio slučaj da bi duboke istraživačke značajke trebale biti optimizirane i za slučajeve upotrebe poduzeća.
Tvrtka je objavila Command A Vision, vizualni model koji posebno cilja na slučajeve upotrebe poduzeća, izgrađen na poleđini svoje naredbe A model. Model parametara od 112 milijardi može “otključati vrijedne uvide iz vizualnih podataka i donijeti vrlo točne odluke koje se temelje na podacima kroz dokumente optičkog prepoznavanja znakova (OCR) i analizu slike”, kaže tvrtka.
“Bilo da se radi o tumačenju priručnika za proizvode sa složenim dijagramima ili analizom fotografija scena iz stvarnog svijeta za otkrivanje rizika, zapovijedanje vizije izvrsno je u rješavanju najzahtjevnijih izazova u viziji poduzeća”, rekla je tvrtka U postu na blogu.
Serija AI Impact vraća se u San Francisco – 5. kolovoza
Sljedeća faza AI je ovdje – jeste li spremni? Pridružite se vođama iz Block, GSK i SAP-a za ekskluzivni pogled na to kako autonomni agenti preoblikovaju radne tokove poduzeća-od odlučivanja u stvarnom vremenu do automatizacije krajnjeg do kraja.
Osigurajte svoje mjesto odmah – prostor je ograničen: https://bit.ly/3guuplf
To znači da naredba da vizija može pročitati i analizirati najčešće vrste slika koje poduzeća trebaju: grafikoni, grafikoni, dijagrami, skenirani dokumenti i PDF -ovi.
Budući da je izgrađen na arhitekturi Command A, zapovijedanje vizije zahtijeva dva ili manje GPU -a, baš kao i tekstualni model. Model vizije također zadržava tekstualne mogućnosti naredbe A za čitanje riječi na slikama i razumije najmanje 23 jezika. Cohere je rekao da, za razliku od ostalih modela, zapovijedanje vizije smanjuje ukupni trošak vlasništva nad poduzećima i da je u potpunosti optimiziran za slučajeve uporabe pretraživanja za tvrtke.
Sadržaj objave
Kako je chere arhitektivna naredba a
Cohere je rekao da je slijedio a Llava arhitektura Za izgradnju svoje naredbe modeli, uključujući vizualni model. Ova arhitektura pretvara vizualne značajke u meke tokene vida, koji se mogu podijeliti u različite pločice.
Ove pločice prenose se u naredbu Tekstni toranj, “gusti, 111b parametri Texual LLM”, saopćila je tvrtka. “Na ovaj način jedna slika troši do 3.328 tokena.”
Cohere je rekao da je vizualni model obučavao u tri faze: poravnanje na jeziku vida, nadzirano fino podešavanje (SFT) i učenje pojačanja nakon treninga s ljudskim povratnim informacijama (RLHF).
“Ovaj pristup omogućava mapiranje značajki kodera slike na jezični model koji ugrađuje prostor”, rekla je tvrtka. “Suprotno tome, tijekom SFT pozornice istovremeno smo obučavali koder vida, adapter vida i jezični model na raznovrsnom skupu multimodalnih zadataka koji prate upute.”
Vizualizacija poduzeća AI
Benchmark testovi pokazali su naredbu da vizija nadmašuje ostale modele sa sličnim vizualnim mogućnostima.
Cohere Pitted zapovijeda vizijom protiv Opens GPT 4.1, Meta’Llama 4 Maverick, MistralPixtralni veliki i mistralni medij 3 u devet referentnih testova. Tvrtka nije spomenula je li model testirala protiv Mistrala-ovog API-a usmjerenog na OCR, Mistral OCR.
Naredba Vizija nadmašila je ostale modele u testovima kao što su ChartQA, OCRBENCH, AI2D i TEXTVQA. Sveukupno, zapovjedništvo A imala je prosječnu ocjenu od 83,1% u odnosu na 78,6% GPT 48,6%, 80,5% LLAMA 4 Mavericka i 78,3% iz Mistral Media 3.
Većina velikih jezičnih modela (LLMS) ovih dana su multimodalni, što znači da mogu generirati ili razumjeti vizualne medije poput fotografija ili videozapisa. Međutim, poduzeća uglavnom koriste više grafičkih dokumenata kao što su grafikoni i PDF -ovi, tako da se izvlačenje podataka iz ovih nestrukturiranih izvora podataka često pokazuje teškim.
S dubokim istraživanjima porasta, važnost unošenja modela koji su sposobni čitati, analizirati, pa čak i preuzimanje nestrukturiranih podataka.
Cohere je također rekao da nudi naredbu viziju u sustavu otvorenih utega, u nadi da će poduzeća koja se žele odmaknuti od zatvorenih ili vlasničkih modela početi koristiti svoje proizvode. Do sada je neki interes programera.
Web izvor



