Model novog vida iz Corehere Runs na dva GPU-a, pobjeđuje vrhunski VLM-ovi na vizualnim zadacima

Želite pametnije uvide u vašu pristiglu poštu? Prijavite se za naše tjedne biltene kako biste dobili samo ono što je važno za vođe AI, podataka i sigurnosti. Pretplatite se sada

Porast dubokih istraživačkih značajki i druge analize na AI-u stvorilo je više modela i usluga koji žele pojednostaviti taj postupak i pročitati više dokumenata koje tvrtke zapravo koriste.

Kanadska AI tvrtka Pridržavati se je bankarstvo na svojim modelima, uključujući novoobjavljeni vizualni model, kako bi se napravio slučaj da bi duboke istraživačke značajke trebale biti optimizirane i za slučajeve upotrebe poduzeća.

Tvrtka je objavila Command A Vision, vizualni model koji posebno cilja na slučajeve upotrebe poduzeća, izgrađen na poleđini svoje naredbe A model. Model parametara od 112 milijardi može “otključati vrijedne uvide iz vizualnih podataka i donijeti vrlo točne odluke koje se temelje na podacima kroz dokumente optičkog prepoznavanja znakova (OCR) i analizu slike”, kaže tvrtka.

“Bilo da se radi o tumačenju priručnika za proizvode sa složenim dijagramima ili analizom fotografija scena iz stvarnog svijeta za otkrivanje rizika, zapovijedanje vizije izvrsno je u rješavanju najzahtjevnijih izazova u viziji poduzeća”, rekla je tvrtka U postu na blogu.

Serija AI Impact vraća se u San Francisco – 5. kolovoza

Sljedeća faza AI je ovdje – jeste li spremni? Pridružite se vođama iz Block, GSK i SAP-a za ekskluzivni pogled na to kako autonomni agenti preoblikovaju radne tokove poduzeća-od odlučivanja u stvarnom vremenu do automatizacije krajnjeg do kraja.

Osigurajte svoje mjesto odmah – prostor je ograničen: https://bit.ly/3guuplf

To znači da naredba da vizija može pročitati i analizirati najčešće vrste slika koje poduzeća trebaju: grafikoni, grafikoni, dijagrami, skenirani dokumenti i PDF -ovi.

? @cohere Upravo sam odbacio zapovijed vizije na @Huggingface ?
Dizajniran za poslovne multimodalne slučajeve: Tumačenje priručnika za proizvode, analiza fotografija, pitanje o grafikonima … ❓ ??
Model guste vizije 112B s performansama sota-pogledajte mjerne podatke u … pic.twitter.com/ormfm5f8cf
– Jeff Boudier? (@jeffboudier) 31. srpnja 2025

Budući da je izgrađen na arhitekturi Command A, zapovijedanje vizije zahtijeva dva ili manje GPU -a, baš kao i tekstualni model. Model vizije također zadržava tekstualne mogućnosti naredbe A za čitanje riječi na slikama i razumije najmanje 23 jezika. Cohere je rekao da, za razliku od ostalih modela, zapovijedanje vizije smanjuje ukupni trošak vlasništva nad poduzećima i da je u potpunosti optimiziran za slučajeve uporabe pretraživanja za tvrtke.

Sadržaj objave

1 Kako je chere arhitektivna naredba a
2 Vizualizacija poduzeća AI
- 2.1 Povezani sadržaji

Kako je chere arhitektivna naredba a

Cohere je rekao da je slijedio a Llava arhitektura Za izgradnju svoje naredbe modeli, uključujući vizualni model. Ova arhitektura pretvara vizualne značajke u meke tokene vida, koji se mogu podijeliti u različite pločice.

Ove pločice prenose se u naredbu Tekstni toranj, “gusti, 111b parametri Texual LLM”, saopćila je tvrtka. “Na ovaj način jedna slika troši do 3.328 tokena.”

Cohere je rekao da je vizualni model obučavao u tri faze: poravnanje na jeziku vida, nadzirano fino podešavanje (SFT) i učenje pojačanja nakon treninga s ljudskim povratnim informacijama (RLHF).

“Ovaj pristup omogućava mapiranje značajki kodera slike na jezični model koji ugrađuje prostor”, rekla je tvrtka. “Suprotno tome, tijekom SFT pozornice istovremeno smo obučavali koder vida, adapter vida i jezični model na raznovrsnom skupu multimodalnih zadataka koji prate upute.”

Vizualizacija poduzeća AI

Benchmark testovi pokazali su naredbu da vizija nadmašuje ostale modele sa sličnim vizualnim mogućnostima.

Cohere Pitted zapovijeda vizijom protiv Opens GPT 4.1, Meta’Llama 4 Maverick, MistralPixtralni veliki i mistralni medij 3 u devet referentnih testova. Tvrtka nije spomenula je li model testirala protiv Mistrala-ovog API-a usmjerenog na OCR, Mistral OCR.

Omogućuje agentima da sigurno vide unutar vizualnih podataka vaše organizacije, otključavajući automatizaciju zamorenih zadataka koji uključuju dijapozitive, dijagrame, PDF -ove i fotografije. pic.twitter.com/ihznuwekrk
– Cohere (@cohere) 31. srpnja 2025

Naredba Vizija nadmašila je ostale modele u testovima kao što su ChartQA, OCRBENCH, AI2D i TEXTVQA. Sveukupno, zapovjedništvo A imala je prosječnu ocjenu od 83,1% u odnosu na 78,6% GPT 48,6%, 80,5% LLAMA 4 Mavericka i 78,3% iz Mistral Media 3.

Većina velikih jezičnih modela (LLMS) ovih dana su multimodalni, što znači da mogu generirati ili razumjeti vizualne medije poput fotografija ili videozapisa. Međutim, poduzeća uglavnom koriste više grafičkih dokumenata kao što su grafikoni i PDF -ovi, tako da se izvlačenje podataka iz ovih nestrukturiranih izvora podataka često pokazuje teškim.

S dubokim istraživanjima porasta, važnost unošenja modela koji su sposobni čitati, analizirati, pa čak i preuzimanje nestrukturiranih podataka.

Cohere je također rekao da nudi naredbu viziju u sustavu otvorenih utega, u nadi da će poduzeća koja se žele odmaknuti od zatvorenih ili vlasničkih modela početi koristiti svoje proizvode. Do sada je neki interes programera.

Vrlo impresioniran njegovom preciznošću izvlačeći ručno ručno napisane bilješke sa slike!
– Adam Sardo (@Sardo_ADam) 31. srpnja 2025

Napokon, AI koji neće suditi moje strašne doodle.
– Martha Wisener? (@MartWisener) 1. kolovoza 2025

Dnevni uvidi u slučajeve poslovne uporabe s VB dnevno

Ako želite impresionirati svog šefa, VB Daily vas je pokrivao. Dajemo vam unutarnju lopaticu o tome što tvrtke rade s generativnim AI, od regulatornih pomaka do praktičnih razmještaja, tako da možete dijeliti uvide za maksimalni ROI.

Pročitajte našu politiku privatnosti

Hvala na pretplati. Pogledajte više VB biltena ovdje.

Došlo je do pogreške.

Web izvor