Oblak Znanja

  • Home
  • Novosti
  • Učionica
    • Informatika 5
    • Informatika 6
    • Informatika 7
    • Informatika 8
    • Logo jezik
    • WordPress
    • Microsoft Office
  • Vodiči
    • Online vodiči
    • Kratki savjeti
    • Korisne aplikacije
    • Društvene mreže
    • Multimedija
    • Zanimljivosti
✕

Model novog vida iz Corehere Runs na dva GPU-a, pobjeđuje vrhunski VLM-ovi na vizualnim zadacima

Novosti

Model novog vida iz Corehere Runs na dva GPU-a, pobjeđuje vrhunski VLM-ovi na vizualnim zadacima

Tomšić Damjan 2. kolovoza 2025


Želite pametnije uvide u vašu pristiglu poštu? Prijavite se za naše tjedne biltene kako biste dobili samo ono što je važno za vođe AI, podataka i sigurnosti. Pretplatite se sada


Porast dubokih istraživačkih značajki i druge analize na AI-u stvorilo je više modela i usluga koji žele pojednostaviti taj postupak i pročitati više dokumenata koje tvrtke zapravo koriste.

Kanadska AI tvrtka Pridržavati se je bankarstvo na svojim modelima, uključujući novoobjavljeni vizualni model, kako bi se napravio slučaj da bi duboke istraživačke značajke trebale biti optimizirane i za slučajeve upotrebe poduzeća.

Tvrtka je objavila Command A Vision, vizualni model koji posebno cilja na slučajeve upotrebe poduzeća, izgrađen na poleđini svoje naredbe A model. Model parametara od 112 milijardi može “otključati vrijedne uvide iz vizualnih podataka i donijeti vrlo točne odluke koje se temelje na podacima kroz dokumente optičkog prepoznavanja znakova (OCR) i analizu slike”, kaže tvrtka.

“Bilo da se radi o tumačenju priručnika za proizvode sa složenim dijagramima ili analizom fotografija scena iz stvarnog svijeta za otkrivanje rizika, zapovijedanje vizije izvrsno je u rješavanju najzahtjevnijih izazova u viziji poduzeća”, rekla je tvrtka U postu na blogu.


Serija AI Impact vraća se u San Francisco – 5. kolovoza

Sljedeća faza AI je ovdje – jeste li spremni? Pridružite se vođama iz Block, GSK i SAP-a za ekskluzivni pogled na to kako autonomni agenti preoblikovaju radne tokove poduzeća-od odlučivanja u stvarnom vremenu do automatizacije krajnjeg do kraja.

Osigurajte svoje mjesto odmah – prostor je ograničen: https://bit.ly/3guuplf


To znači da naredba da vizija može pročitati i analizirati najčešće vrste slika koje poduzeća trebaju: grafikoni, grafikoni, dijagrami, skenirani dokumenti i PDF -ovi.

? @cohere Upravo sam odbacio zapovijed vizije na @Huggingface ?

Dizajniran za poslovne multimodalne slučajeve: Tumačenje priručnika za proizvode, analiza fotografija, pitanje o grafikonima … ❓ ??

Model guste vizije 112B s performansama sota-pogledajte mjerne podatke u … pic.twitter.com/ormfm5f8cf

– Jeff Boudier? (@jeffboudier) 31. srpnja 2025

Budući da je izgrađen na arhitekturi Command A, zapovijedanje vizije zahtijeva dva ili manje GPU -a, baš kao i tekstualni model. Model vizije također zadržava tekstualne mogućnosti naredbe A za čitanje riječi na slikama i razumije najmanje 23 jezika. Cohere je rekao da, za razliku od ostalih modela, zapovijedanje vizije smanjuje ukupni trošak vlasništva nad poduzećima i da je u potpunosti optimiziran za slučajeve uporabe pretraživanja za tvrtke.

Sadržaj objave

  • 1 Kako je chere arhitektivna naredba a
  • 2 Vizualizacija poduzeća AI
    • 2.1 Povezani sadržaji

Kako je chere arhitektivna naredba a

Cohere je rekao da je slijedio a Llava arhitektura Za izgradnju svoje naredbe modeli, uključujući vizualni model. Ova arhitektura pretvara vizualne značajke u meke tokene vida, koji se mogu podijeliti u različite pločice.

Ove pločice prenose se u naredbu Tekstni toranj, “gusti, 111b parametri Texual LLM”, saopćila je tvrtka. “Na ovaj način jedna slika troši do 3.328 tokena.”

Cohere je rekao da je vizualni model obučavao u tri faze: poravnanje na jeziku vida, nadzirano fino podešavanje (SFT) i učenje pojačanja nakon treninga s ljudskim povratnim informacijama (RLHF).

“Ovaj pristup omogućava mapiranje značajki kodera slike na jezični model koji ugrađuje prostor”, rekla je tvrtka. “Suprotno tome, tijekom SFT pozornice istovremeno smo obučavali koder vida, adapter vida i jezični model na raznovrsnom skupu multimodalnih zadataka koji prate upute.”

Vizualizacija poduzeća AI

Benchmark testovi pokazali su naredbu da vizija nadmašuje ostale modele sa sličnim vizualnim mogućnostima.

Cohere Pitted zapovijeda vizijom protiv Opens GPT 4.1, Meta’Llama 4 Maverick, MistralPixtralni veliki i mistralni medij 3 u devet referentnih testova. Tvrtka nije spomenula je li model testirala protiv Mistrala-ovog API-a usmjerenog na OCR, Mistral OCR.

Omogućuje agentima da sigurno vide unutar vizualnih podataka vaše organizacije, otključavajući automatizaciju zamorenih zadataka koji uključuju dijapozitive, dijagrame, PDF -ove i fotografije. pic.twitter.com/ihznuwekrk

– Cohere (@cohere) 31. srpnja 2025

Naredba Vizija nadmašila je ostale modele u testovima kao što su ChartQA, OCRBENCH, AI2D i TEXTVQA. Sveukupno, zapovjedništvo A imala je prosječnu ocjenu od 83,1% u odnosu na 78,6% GPT 48,6%, 80,5% LLAMA 4 Mavericka i 78,3% iz Mistral Media 3.

Većina velikih jezičnih modela (LLMS) ovih dana su multimodalni, što znači da mogu generirati ili razumjeti vizualne medije poput fotografija ili videozapisa. Međutim, poduzeća uglavnom koriste više grafičkih dokumenata kao što su grafikoni i PDF -ovi, tako da se izvlačenje podataka iz ovih nestrukturiranih izvora podataka često pokazuje teškim.

S dubokim istraživanjima porasta, važnost unošenja modela koji su sposobni čitati, analizirati, pa čak i preuzimanje nestrukturiranih podataka.

Cohere je također rekao da nudi naredbu viziju u sustavu otvorenih utega, u nadi da će poduzeća koja se žele odmaknuti od zatvorenih ili vlasničkih modela početi koristiti svoje proizvode. Do sada je neki interes programera.

Vrlo impresioniran njegovom preciznošću izvlačeći ručno ručno napisane bilješke sa slike!

– Adam Sardo (@Sardo_ADam) 31. srpnja 2025

Napokon, AI koji neće suditi moje strašne doodle.

– Martha Wisener? (@MartWisener) 1. kolovoza 2025

Dnevni uvidi u slučajeve poslovne uporabe s VB dnevno

Ako želite impresionirati svog šefa, VB Daily vas je pokrivao. Dajemo vam unutarnju lopaticu o tome što tvrtke rade s generativnim AI, od regulatornih pomaka do praktičnih razmještaja, tako da možete dijeliti uvide za maksimalni ROI.

Pročitajte našu politiku privatnosti

Hvala na pretplati. Pogledajte više VB biltena ovdje.

Došlo je do pogreške.



Web izvor

Povezani sadržaji

  • TTT-Discover optimizira GPU kernele 2x brže od ljudskih stručnjaka — treniranjem tijekom zaključivanja
  • Ova lagana distribucija Linuxa je najlakši način da oživite svoje staro računalo. Kako radiOva lagana distribucija Linuxa je najlakši način da oživite svoje staro računalo. Kako radi
  • Fantomski podatkovni centri: Što oni jesu (ili nisu) i zašto ometaju pravo obećanje umjetne inteligencijeFantomski podatkovni centri: Što oni jesu (ili nisu) i zašto ometaju pravo obećanje umjetne inteligencije
  • E&, DE-CIX stvaraju bliskoistočnu SmartHub internetsku razmjenuE&, DE-CIX stvaraju bliskoistočnu SmartHub internetsku razmjenu
  • L’Oreal Cell BioPrint analizira vašu kožu u pet minutaL’Oreal Cell BioPrint analizira vašu kožu u pet minuta
  • Red Hat ulaže velike uloge u AI svojom akvizicijom Neural MagicRed Hat ulaže velike uloge u AI svojom akvizicijom Neural Magic

Previous Article

Prvi rašireni lijek za HIV mogao bi biti kod djece

Next Article

What is the artificial intelligence of things (AIoT)?

Posljednje objave

Kad umjetna inteligencija laže: porast lažiranja usklađivanja u autonomnim sustavima

Kad umjetna inteligencija laže: porast lažiranja usklađivanja u autonomnim sustavima

CDC ima krizu vodstva

CDC ima krizu vodstva

Najbolje od MWC 2026: ažuriranja uživo o telefonima, konceptima i robotima koje vidimo

Sadržaj

  • 1 Kako je chere arhitektivna naredba a
  • 2 Vizualizacija poduzeća AI

Novosti

  • Kad umjetna inteligencija laže: porast lažiranja usklađivanja u autonomnim sustavima 2. ožujka 2026
  • CDC ima krizu vodstva 2. ožujka 2026
  • Najbolje od MWC 2026: ažuriranja uživo o telefonima, konceptima i robotima koje vidimo 1. ožujka 2026
  • Android se pridružuje modernim vremenima s prilagođenim naljepnicama u Google fotografijama 1. ožujka 2026
  • Bivši dizajner razine Highguarda sugerira da je “znojna” natjecateljska 3v3 igra “bila najveća stvar koja je odbila mnoge igrače” 1. ožujka 2026
  • NTT Data, Ericssonov tim za skaliranje privatne 5G, fizičke umjetne inteligencije za poduzeća 1. ožujka 2026
  • Vibe coding with overeager AI: Lessons learned from treating Google AI Studio like a teammate 1. ožujka 2026
  • NASA radi velike promjene kako bi ubrzala program Artemis 28. veljače 2026
  • Upoznajte svog AI revizora: Kako ova nova radna uloga prati ponašanje modela 28. veljače 2026
  • Samsungova ažuriranja za veljaču napokon stižu na sve ove uređaje 28. veljače 2026

O nama

Oblak Znanja je blog edukativnog karaktera i namijenjen je svima koji žele unaprijediti svoje znanje iz područja računala i interneta.

Naš cilj je edukacija i pisanje zanimljivih objava kojima ćemo zajedno učiti i informirati se o svijetu informatike.

Na ovom blogu zabranjeno je svako kopiranje sadržaja bez dozvole autora.

Oblak Znanja

Oznake

besplatni powerpoint predlošci društvene mreže excel facebook firefox gmail google+ Google Chrome halloween halloween walpapers internet kartice linkedin profil linux microsoft Mozilla Firefox ms powerpoint oblak znanja office 2007 office savjeti online kupovina pick powerpoint powerpoint predložak powerpoint savjeti rastući niz savjet slike za radnu površinu spremanje datoteka strani jezik tipkovnicke kratice twitter twitter alati uređivanje slika wallpaper clock web preglednik windows windows 7 windows aplikacije windows vista word word 2007 word savjeti youtube savjeti youtube tipkovničke kratice