Oblak Znanja

  • Home
  • Novosti
  • Učionica
    • Informatika 5
    • Informatika 6
    • Informatika 7
    • Informatika 8
    • Logo jezik
    • WordPress
    • Microsoft Office
  • Vodiči
    • Online vodiči
    • Kratki savjeti
    • Korisne aplikacije
    • Društvene mreže
    • Multimedija
    • Zanimljivosti
✕

Model novog vida iz Corehere Runs na dva GPU-a, pobjeđuje vrhunski VLM-ovi na vizualnim zadacima

Novosti

Model novog vida iz Corehere Runs na dva GPU-a, pobjeđuje vrhunski VLM-ovi na vizualnim zadacima

Tomšić Damjan 2. kolovoza 2025


Želite pametnije uvide u vašu pristiglu poštu? Prijavite se za naše tjedne biltene kako biste dobili samo ono što je važno za vođe AI, podataka i sigurnosti. Pretplatite se sada


Porast dubokih istraživačkih značajki i druge analize na AI-u stvorilo je više modela i usluga koji žele pojednostaviti taj postupak i pročitati više dokumenata koje tvrtke zapravo koriste.

Kanadska AI tvrtka Pridržavati se je bankarstvo na svojim modelima, uključujući novoobjavljeni vizualni model, kako bi se napravio slučaj da bi duboke istraživačke značajke trebale biti optimizirane i za slučajeve upotrebe poduzeća.

Tvrtka je objavila Command A Vision, vizualni model koji posebno cilja na slučajeve upotrebe poduzeća, izgrađen na poleđini svoje naredbe A model. Model parametara od 112 milijardi može “otključati vrijedne uvide iz vizualnih podataka i donijeti vrlo točne odluke koje se temelje na podacima kroz dokumente optičkog prepoznavanja znakova (OCR) i analizu slike”, kaže tvrtka.

“Bilo da se radi o tumačenju priručnika za proizvode sa složenim dijagramima ili analizom fotografija scena iz stvarnog svijeta za otkrivanje rizika, zapovijedanje vizije izvrsno je u rješavanju najzahtjevnijih izazova u viziji poduzeća”, rekla je tvrtka U postu na blogu.


Serija AI Impact vraća se u San Francisco – 5. kolovoza

Sljedeća faza AI je ovdje – jeste li spremni? Pridružite se vođama iz Block, GSK i SAP-a za ekskluzivni pogled na to kako autonomni agenti preoblikovaju radne tokove poduzeća-od odlučivanja u stvarnom vremenu do automatizacije krajnjeg do kraja.

Osigurajte svoje mjesto odmah – prostor je ograničen: https://bit.ly/3guuplf


To znači da naredba da vizija može pročitati i analizirati najčešće vrste slika koje poduzeća trebaju: grafikoni, grafikoni, dijagrami, skenirani dokumenti i PDF -ovi.

? @cohere Upravo sam odbacio zapovijed vizije na @Huggingface ?

Dizajniran za poslovne multimodalne slučajeve: Tumačenje priručnika za proizvode, analiza fotografija, pitanje o grafikonima … ❓ ??

Model guste vizije 112B s performansama sota-pogledajte mjerne podatke u … pic.twitter.com/ormfm5f8cf

– Jeff Boudier? (@jeffboudier) 31. srpnja 2025

Budući da je izgrađen na arhitekturi Command A, zapovijedanje vizije zahtijeva dva ili manje GPU -a, baš kao i tekstualni model. Model vizije također zadržava tekstualne mogućnosti naredbe A za čitanje riječi na slikama i razumije najmanje 23 jezika. Cohere je rekao da, za razliku od ostalih modela, zapovijedanje vizije smanjuje ukupni trošak vlasništva nad poduzećima i da je u potpunosti optimiziran za slučajeve uporabe pretraživanja za tvrtke.

Sadržaj objave

  • 1 Kako je chere arhitektivna naredba a
  • 2 Vizualizacija poduzeća AI
    • 2.1 Povezani sadržaji

Kako je chere arhitektivna naredba a

Cohere je rekao da je slijedio a Llava arhitektura Za izgradnju svoje naredbe modeli, uključujući vizualni model. Ova arhitektura pretvara vizualne značajke u meke tokene vida, koji se mogu podijeliti u različite pločice.

Ove pločice prenose se u naredbu Tekstni toranj, “gusti, 111b parametri Texual LLM”, saopćila je tvrtka. “Na ovaj način jedna slika troši do 3.328 tokena.”

Cohere je rekao da je vizualni model obučavao u tri faze: poravnanje na jeziku vida, nadzirano fino podešavanje (SFT) i učenje pojačanja nakon treninga s ljudskim povratnim informacijama (RLHF).

“Ovaj pristup omogućava mapiranje značajki kodera slike na jezični model koji ugrađuje prostor”, rekla je tvrtka. “Suprotno tome, tijekom SFT pozornice istovremeno smo obučavali koder vida, adapter vida i jezični model na raznovrsnom skupu multimodalnih zadataka koji prate upute.”

Vizualizacija poduzeća AI

Benchmark testovi pokazali su naredbu da vizija nadmašuje ostale modele sa sličnim vizualnim mogućnostima.

Cohere Pitted zapovijeda vizijom protiv Opens GPT 4.1, Meta’Llama 4 Maverick, MistralPixtralni veliki i mistralni medij 3 u devet referentnih testova. Tvrtka nije spomenula je li model testirala protiv Mistrala-ovog API-a usmjerenog na OCR, Mistral OCR.

Omogućuje agentima da sigurno vide unutar vizualnih podataka vaše organizacije, otključavajući automatizaciju zamorenih zadataka koji uključuju dijapozitive, dijagrame, PDF -ove i fotografije. pic.twitter.com/ihznuwekrk

– Cohere (@cohere) 31. srpnja 2025

Naredba Vizija nadmašila je ostale modele u testovima kao što su ChartQA, OCRBENCH, AI2D i TEXTVQA. Sveukupno, zapovjedništvo A imala je prosječnu ocjenu od 83,1% u odnosu na 78,6% GPT 48,6%, 80,5% LLAMA 4 Mavericka i 78,3% iz Mistral Media 3.

Većina velikih jezičnih modela (LLMS) ovih dana su multimodalni, što znači da mogu generirati ili razumjeti vizualne medije poput fotografija ili videozapisa. Međutim, poduzeća uglavnom koriste više grafičkih dokumenata kao što su grafikoni i PDF -ovi, tako da se izvlačenje podataka iz ovih nestrukturiranih izvora podataka često pokazuje teškim.

S dubokim istraživanjima porasta, važnost unošenja modela koji su sposobni čitati, analizirati, pa čak i preuzimanje nestrukturiranih podataka.

Cohere je također rekao da nudi naredbu viziju u sustavu otvorenih utega, u nadi da će poduzeća koja se žele odmaknuti od zatvorenih ili vlasničkih modela početi koristiti svoje proizvode. Do sada je neki interes programera.

Vrlo impresioniran njegovom preciznošću izvlačeći ručno ručno napisane bilješke sa slike!

– Adam Sardo (@Sardo_ADam) 31. srpnja 2025

Napokon, AI koji neće suditi moje strašne doodle.

– Martha Wisener? (@MartWisener) 1. kolovoza 2025

Dnevni uvidi u slučajeve poslovne uporabe s VB dnevno

Ako želite impresionirati svog šefa, VB Daily vas je pokrivao. Dajemo vam unutarnju lopaticu o tome što tvrtke rade s generativnim AI, od regulatornih pomaka do praktičnih razmještaja, tako da možete dijeliti uvide za maksimalni ROI.

Pročitajte našu politiku privatnosti

Hvala na pretplati. Pogledajte više VB biltena ovdje.

Došlo je do pogreške.



Web izvor

Povezani sadržaji

  • BackGrounder | Izrežite wallpaper ili Facebook naslovnicu u dimenziju po želji
  • Deset godina kasnije, stupovi vječnosti dobivaju naredni način borbeDeset godina kasnije, stupovi vječnosti dobivaju naredni način borbe
  • Ehang 184 autonomna bespilotna letjelica za prijevoz putnikaEhang 184 autonomna bespilotna letjelica za prijevoz putnika
  • Samsung zadirkuje ‘inovativni dizajn’ za novi Galaxy WatchSamsung zadirkuje ‘inovativni dizajn’ za novi Galaxy Watch
  • 4 Linux distros koji se ne može nadograditi na autopilotu – i zašto ih još uvijek vrijedi pokušati4 Linux distros koji se ne može nadograditi na autopilotu – i zašto ih još uvijek vrijedi pokušati
  • Poppy Playtime juri GooglePoppy Playtime juri Google

Previous Article

Prvi rašireni lijek za HIV mogao bi biti kod djece

Next Article

What is the artificial intelligence of things (AIoT)?

Posljednje objave

Z.ai GLM-Image otvorenog koda pobjeđuje Googleov Nano Banana Pro u složenom prikazivanju teksta, ali ne i u estetici

Z.ai GLM-Image otvorenog koda pobjeđuje Googleov Nano Banana Pro u složenom prikazivanju teksta, ali ne i u estetici

Neuroznanstvenici dešifriraju odugovlačenje: moždani mehanizam objašnjava zašto ljudi ostavljaju određene zadatke za kasnije

Neuroznanstvenici dešifriraju odugovlačenje: moždani mehanizam objašnjava zašto ljudi ostavljaju određene zadatke za kasnije

Ovaj popularni Bose zvučnik izgubit će softversku podršku 2026. – ali sada ima spas

Sadržaj

  • 1 Kako je chere arhitektivna naredba a
  • 2 Vizualizacija poduzeća AI

Novosti

  • Z.ai GLM-Image otvorenog koda pobjeđuje Googleov Nano Banana Pro u složenom prikazivanju teksta, ali ne i u estetici 15. siječnja 2026
  • Neuroznanstvenici dešifriraju odugovlačenje: moždani mehanizam objašnjava zašto ljudi ostavljaju određene zadatke za kasnije 15. siječnja 2026
  • Ovaj popularni Bose zvučnik izgubit će softversku podršku 2026. – ali sada ima spas 14. siječnja 2026
  • Google Photos “Ask” pretraga još uvijek ima puno mrzitelja 14. siječnja 2026
  • Battlefield 6, 2. sezona odgođena je za veljaču, ali još sadržaja za 1. sezonu i događaja je na putu 14. siječnja 2026
  • Širokopojasna revolucija u Velikoj Britaniji ne pokazuje znakove usporavanja 14. siječnja 2026
  • Zašto Egnyte nastavlja zapošljavati mlađe inženjere unatoč porastu AI alata za kodiranje 14. siječnja 2026
  • Microsoft popušta pod pritiskom: Podatkovni centri trebali bi plaćati skuplju struju 14. siječnja 2026
  • Top 10 PowerShell naredbi za korištenje u 2026 13. siječnja 2026
  • Čak i Linus Torvalds sada vibe kodira 13. siječnja 2026

O nama

Oblak Znanja je blog edukativnog karaktera i namijenjen je svima koji žele unaprijediti svoje znanje iz područja računala i interneta.

Naš cilj je edukacija i pisanje zanimljivih objava kojima ćemo zajedno učiti i informirati se o svijetu informatike.

Na ovom blogu zabranjeno je svako kopiranje sadržaja bez dozvole autora.

Oblak Znanja

Oznake

besplatni powerpoint predlošci društvene mreže excel facebook firefox gmail google+ Google Chrome halloween halloween walpapers internet kartice linkedin profil linux microsoft Mozilla Firefox ms powerpoint oblak znanja office 2007 office savjeti online kupovina pick powerpoint powerpoint predložak powerpoint savjeti rastući niz savjet slike za radnu površinu spremanje datoteka strani jezik tipkovnicke kratice twitter twitter alati uređivanje slika wallpaper clock web preglednik windows windows 7 windows aplikacije windows vista word word 2007 word savjeti youtube savjeti youtube tipkovničke kratice