Ai2-ov novi Olmo 3.1 proširuje obuku učenja za pojačanje za snažnija mjerila zaključivanja

Allenov institut za umjetnu inteligenciju (Ai2) nedavno je objavio ono što naziva svojim najmoćnijim obitelj modela još uvijek, Olmo 3. Ali tvrtka je nastavila ponavljati modele, proširujući svoja izvođenja učenja s pojačanjem (RL), kako bi stvorila Olmo 3.1.

Novi modeli Olmo 3.1 usmjereni su na učinkovitost, transparentnost i kontrolu za poduzeća.

Ai2 je ažurirao dvije od tri verzije Olma 2: Olmo 3.1 Think 32B, vodeći model optimiziran za napredna istraživanja, i Olmo 3.1 Instruct 32B, dizajniran za praćenje uputa, višestruki dijalog i korištenje alata.

Olmo 3 ima treću verziju, Olmo 3-Base za programiranje, razumijevanje i matematiku. Također dobro radi za nastavak finog podešavanja.

Ai2 je rekao da su za nadogradnju Olmo 3 Think 32B na Olmo 3.1, njegovi istraživači produžili njegov najbolji RL rad s dužim rasporedom obuke.

“Nakon originalnog pokretanja Olmo 3, nastavili smo s našim RL treningom za Olmo 3 32B Think, trenirajući dodatnih 21 dan na 224 GPU-a s dodatnim epohama preko našeg skupa podataka Dolci-Think-RL”, rekao je Ai2 u post na blogu. “Ovo je donijelo Olmo 3.1 32B Think, koji donosi značajna poboljšanja u mjerilima matematike, rezoniranja i praćenja uputa: poboljšanja od 5+ bodova na AIME-u, 4+ bodova na ZebraLogicu, 4+ bodova na IFEval-u i 20+ bodova na IFBench-u, uz bolju izvedbu kodiranja i složenih zadataka u više koraka.”

Kako bi došli do Olmo 3.1 Instruct, Ai2 je rekao da su njegovi istraživači primijenili recept koji stoji iza manje veličine Instructa, 7B, na veći model.

Olmo 3.1 Instruct 32B je "optimiziran za chat, korištenje alata i višestruki dijalog—što ga čini mnogo učinkovitijim bratom Olmo 3 Instruct 7B i spremnim za aplikacije u stvarnom svijetu,” rekao je Ai2 u objavite na X.

Za sada su nove kontrolne točke dostupne na Ai2 Playground ili Hugging Face, a pristup API-ju uskoro dolazi.

Sadržaj objave

1 Bolji učinak na mjerilima
2 Predanost transparentnosti i otvorenom kodu
- 2.1 Povezani sadržaji

Bolji učinak na mjerilima

Modeli Olmo 3.1 pokazali su se dobro na benchmark testovima, predvidljivo pobijedivši modele Olmo 3.

Olmo 3.1 Think nadmašio je modele Qwen 3 32B u AIME 2025 benchmarku i pokazao se blizu Gemma 27B.

Olmo 3.1 Instruct pokazao se snažno u usporedbi s konkurentima otvorenog koda, čak je nadmašio modele poput Gemme 3 na mjerilu Math.

“Što se tiče Olmo 3.1 32B Instruct, to je opsežniji model prilagođen uputama izgrađen za chat, korištenje alata i višestruki dijalog. Olmo 3.1 32B Instruct je naš najsposobniji potpuno otvoreni chat model do sada i – prema našim procjenama – najjači potpuno otvoreni model uputa na skali 32B,” rekla je tvrtka.

Ai2 je također nadogradio svoje modele RL-Zero 7B za matematiku i kodiranje. Tvrtka je na X izjavila da su oba modela imala koristi od dužih i stabilnijih treninga.

Predanost transparentnosti i otvorenom kodu

Ai2 je ranije rekao za VentureBeat da je dizajnirao Olmo 3 obitelj modela kako bi poduzećima i istraživačkim laboratorijima ponudio više kontrole i razumijevanja podataka i obuke koja je ušla u model.

Organizacije bi mogle dodati u kombinaciju podataka modela i ponovno je uvježbati da također uče iz onoga što je dodano.

Ovo je dugo bila obveza za Ai2, koji također nudi alat pod nazivom OlmoTrace koji prati kako rezultati LLM-a odgovaraju podacima o obuci.

“Zajedno, Olmo 3.1 Think 32B i Olmo 3.1 Instruct 32B pokazuju da otvorenost i izvedba mogu napredovati zajedno. Proširujući isti tijek modela, nastavljamo poboljšavati mogućnosti zadržavajući end-to-end transparentnost nad podacima, kodom i odlukama o obuci,” rekao je Ai2.

Web izvor