Oblak Znanja

  • Home
  • Novosti
  • Učionica
    • Informatika 5
    • Informatika 6
    • Informatika 7
    • Informatika 8
    • Logo jezik
    • WordPress
    • Microsoft Office
  • Vodiči
    • Online vodiči
    • Kratki savjeti
    • Korisne aplikacije
    • Društvene mreže
    • Multimedija
    • Zanimljivosti
✕

Model novog vida iz Corehere Runs na dva GPU-a, pobjeđuje vrhunski VLM-ovi na vizualnim zadacima

Novosti

Model novog vida iz Corehere Runs na dva GPU-a, pobjeđuje vrhunski VLM-ovi na vizualnim zadacima

Tomšić Damjan 2. kolovoza 2025


Želite pametnije uvide u vašu pristiglu poštu? Prijavite se za naše tjedne biltene kako biste dobili samo ono što je važno za vođe AI, podataka i sigurnosti. Pretplatite se sada


Porast dubokih istraživačkih značajki i druge analize na AI-u stvorilo je više modela i usluga koji žele pojednostaviti taj postupak i pročitati više dokumenata koje tvrtke zapravo koriste.

Kanadska AI tvrtka Pridržavati se je bankarstvo na svojim modelima, uključujući novoobjavljeni vizualni model, kako bi se napravio slučaj da bi duboke istraživačke značajke trebale biti optimizirane i za slučajeve upotrebe poduzeća.

Tvrtka je objavila Command A Vision, vizualni model koji posebno cilja na slučajeve upotrebe poduzeća, izgrađen na poleđini svoje naredbe A model. Model parametara od 112 milijardi može “otključati vrijedne uvide iz vizualnih podataka i donijeti vrlo točne odluke koje se temelje na podacima kroz dokumente optičkog prepoznavanja znakova (OCR) i analizu slike”, kaže tvrtka.

“Bilo da se radi o tumačenju priručnika za proizvode sa složenim dijagramima ili analizom fotografija scena iz stvarnog svijeta za otkrivanje rizika, zapovijedanje vizije izvrsno je u rješavanju najzahtjevnijih izazova u viziji poduzeća”, rekla je tvrtka U postu na blogu.


Serija AI Impact vraća se u San Francisco – 5. kolovoza

Sljedeća faza AI je ovdje – jeste li spremni? Pridružite se vođama iz Block, GSK i SAP-a za ekskluzivni pogled na to kako autonomni agenti preoblikovaju radne tokove poduzeća-od odlučivanja u stvarnom vremenu do automatizacije krajnjeg do kraja.

Osigurajte svoje mjesto odmah – prostor je ograničen: https://bit.ly/3guuplf


To znači da naredba da vizija može pročitati i analizirati najčešće vrste slika koje poduzeća trebaju: grafikoni, grafikoni, dijagrami, skenirani dokumenti i PDF -ovi.

? @cohere Upravo sam odbacio zapovijed vizije na @Huggingface ?

Dizajniran za poslovne multimodalne slučajeve: Tumačenje priručnika za proizvode, analiza fotografija, pitanje o grafikonima … ❓ ??

Model guste vizije 112B s performansama sota-pogledajte mjerne podatke u … pic.twitter.com/ormfm5f8cf

– Jeff Boudier? (@jeffboudier) 31. srpnja 2025

Budući da je izgrađen na arhitekturi Command A, zapovijedanje vizije zahtijeva dva ili manje GPU -a, baš kao i tekstualni model. Model vizije također zadržava tekstualne mogućnosti naredbe A za čitanje riječi na slikama i razumije najmanje 23 jezika. Cohere je rekao da, za razliku od ostalih modela, zapovijedanje vizije smanjuje ukupni trošak vlasništva nad poduzećima i da je u potpunosti optimiziran za slučajeve uporabe pretraživanja za tvrtke.

Sadržaj objave

  • 1 Kako je chere arhitektivna naredba a
  • 2 Vizualizacija poduzeća AI
    • 2.1 Povezani sadržaji

Kako je chere arhitektivna naredba a

Cohere je rekao da je slijedio a Llava arhitektura Za izgradnju svoje naredbe modeli, uključujući vizualni model. Ova arhitektura pretvara vizualne značajke u meke tokene vida, koji se mogu podijeliti u različite pločice.

Ove pločice prenose se u naredbu Tekstni toranj, “gusti, 111b parametri Texual LLM”, saopćila je tvrtka. “Na ovaj način jedna slika troši do 3.328 tokena.”

Cohere je rekao da je vizualni model obučavao u tri faze: poravnanje na jeziku vida, nadzirano fino podešavanje (SFT) i učenje pojačanja nakon treninga s ljudskim povratnim informacijama (RLHF).

“Ovaj pristup omogućava mapiranje značajki kodera slike na jezični model koji ugrađuje prostor”, rekla je tvrtka. “Suprotno tome, tijekom SFT pozornice istovremeno smo obučavali koder vida, adapter vida i jezični model na raznovrsnom skupu multimodalnih zadataka koji prate upute.”

Vizualizacija poduzeća AI

Benchmark testovi pokazali su naredbu da vizija nadmašuje ostale modele sa sličnim vizualnim mogućnostima.

Cohere Pitted zapovijeda vizijom protiv Opens GPT 4.1, Meta’Llama 4 Maverick, MistralPixtralni veliki i mistralni medij 3 u devet referentnih testova. Tvrtka nije spomenula je li model testirala protiv Mistrala-ovog API-a usmjerenog na OCR, Mistral OCR.

Omogućuje agentima da sigurno vide unutar vizualnih podataka vaše organizacije, otključavajući automatizaciju zamorenih zadataka koji uključuju dijapozitive, dijagrame, PDF -ove i fotografije. pic.twitter.com/ihznuwekrk

– Cohere (@cohere) 31. srpnja 2025

Naredba Vizija nadmašila je ostale modele u testovima kao što su ChartQA, OCRBENCH, AI2D i TEXTVQA. Sveukupno, zapovjedništvo A imala je prosječnu ocjenu od 83,1% u odnosu na 78,6% GPT 48,6%, 80,5% LLAMA 4 Mavericka i 78,3% iz Mistral Media 3.

Većina velikih jezičnih modela (LLMS) ovih dana su multimodalni, što znači da mogu generirati ili razumjeti vizualne medije poput fotografija ili videozapisa. Međutim, poduzeća uglavnom koriste više grafičkih dokumenata kao što su grafikoni i PDF -ovi, tako da se izvlačenje podataka iz ovih nestrukturiranih izvora podataka često pokazuje teškim.

S dubokim istraživanjima porasta, važnost unošenja modela koji su sposobni čitati, analizirati, pa čak i preuzimanje nestrukturiranih podataka.

Cohere je također rekao da nudi naredbu viziju u sustavu otvorenih utega, u nadi da će poduzeća koja se žele odmaknuti od zatvorenih ili vlasničkih modela početi koristiti svoje proizvode. Do sada je neki interes programera.

Vrlo impresioniran njegovom preciznošću izvlačeći ručno ručno napisane bilješke sa slike!

– Adam Sardo (@Sardo_ADam) 31. srpnja 2025

Napokon, AI koji neće suditi moje strašne doodle.

– Martha Wisener? (@MartWisener) 1. kolovoza 2025

Dnevni uvidi u slučajeve poslovne uporabe s VB dnevno

Ako želite impresionirati svog šefa, VB Daily vas je pokrivao. Dajemo vam unutarnju lopaticu o tome što tvrtke rade s generativnim AI, od regulatornih pomaka do praktičnih razmještaja, tako da možete dijeliti uvide za maksimalni ROI.

Pročitajte našu politiku privatnosti

Hvala na pretplati. Pogledajte više VB biltena ovdje.

Došlo je do pogreške.



Web izvor

Povezani sadržaji

  • Povratak Master Chiefa u Fortnite uznemirio je obožavatelje jer je otkriveno da je ekskluziva za Xbox uklonjena
  • Dok SAD smanjuju znanstveni talent, Europa pokreće inicijativu da ga privučeDok SAD smanjuju znanstveni talent, Europa pokreće inicijativu da ga privuče
  • Nikada nismo bili bliže pronalasku života izvan Sunčevog sustavaNikada nismo bili bliže pronalasku života izvan Sunčevog sustava
  • Spremite članke s Wikipedije u PDF dokument
  • Da, ali ova ponuda Galaxy Watch Ultra snižena je 540 USDDa, ali ova ponuda Galaxy Watch Ultra snižena je 540 USD
  • Kladim se da ne možete pogoditi ništa prodajno mjesto za nove ušiceKladim se da ne možete pogoditi ništa prodajno mjesto za nove ušice

Previous Article

Prvi rašireni lijek za HIV mogao bi biti kod djece

Next Article

What is the artificial intelligence of things (AIoT)?

Posljednje objave

Obožavatelji Fortnitea kažu “ne AI pomazi” nakon što su uočili ono za što vjeruju da su slike generirane umjetnom inteligencijom u igri

Obožavatelji Fortnitea kažu “ne AI pomazi” nakon što su uočili ono za što vjeruju da su slike generirane umjetnom inteligencijom u igri

Microsoft stvara okvir za sigurnu arhitekturu optičke mreže

Microsoft stvara okvir za sigurnu arhitekturu optičke mreže

Zašto je vidljiva umjetna inteligencija SRE sloj koji nedostaje tvrtkama za pouzdane LLM-ove

Zašto je vidljiva umjetna inteligencija SRE sloj koji nedostaje tvrtkama za pouzdane LLM-ove

Sadržaj

  • 1 Kako je chere arhitektivna naredba a
  • 2 Vizualizacija poduzeća AI

Novosti

  • Obožavatelji Fortnitea kažu “ne AI pomazi” nakon što su uočili ono za što vjeruju da su slike generirane umjetnom inteligencijom u igri 30. studenoga 2025
  • Microsoft stvara okvir za sigurnu arhitekturu optičke mreže 30. studenoga 2025
  • Zašto je vidljiva umjetna inteligencija SRE sloj koji nedostaje tvrtkama za pouzdane LLM-ove 30. studenoga 2025
  • Lijek za mršavljenje Zepbound testira se kao lijek za dugi Covid 30. studenoga 2025
  • Koliko RAM-a vaše računalo zapravo treba 2025. godine? Stručnjak za Windows i Mac računa 30. studenoga 2025
  • Samsung daje 71% popusta na Galaxy Watch 8 30. studenoga 2025
  • Hollow Knight: Silksong dev misli da će Clair Obscur: Expedition 33 osvojiti igru ​​godine: “Iznimna je i široko ukusna” 29. studenoga 2025
  • RailTel modernizira međugradske optičke mreže metroa diljem Indije 29. studenoga 2025
  • Anthropic kaže da je riješio dugogodišnji problem AI agenta s novim Claude SDK-om za više sesija 29. studenoga 2025
  • Kako izmjeriti polumjer Zemlje pomoću Lego kockica 29. studenoga 2025

O nama

Oblak Znanja je blog edukativnog karaktera i namijenjen je svima koji žele unaprijediti svoje znanje iz područja računala i interneta.

Naš cilj je edukacija i pisanje zanimljivih objava kojima ćemo zajedno učiti i informirati se o svijetu informatike.

Na ovom blogu zabranjeno je svako kopiranje sadržaja bez dozvole autora.

Oblak Znanja

Oznake

besplatni powerpoint predlošci društvene mreže excel facebook firefox gmail google+ Google Chrome halloween halloween walpapers internet kartice linkedin profil linux microsoft Mozilla Firefox ms powerpoint oblak znanja office 2007 office savjeti online kupovina pick powerpoint powerpoint predložak powerpoint savjeti rastući niz savjet slike za radnu površinu spremanje datoteka strani jezik tipkovnicke kratice twitter twitter alati uređivanje slika wallpaper clock web preglednik windows windows 7 windows aplikacije windows vista word word 2007 word savjeti youtube savjeti youtube tipkovničke kratice