Pridružite se našim dnevnim i tjednim biltenima za najnovija ažuriranja i ekskluzivni sadržaj na vodećim AI pokrivenosti. Saznati više
A novi papir od istraživača iz Google istraživanje i Sveučilište u Kaliforniji, Berkeley, Pokazuje da iznenađujuće jednostavan pristup skaliranju vremena može povećati sposobnosti rasuđivanja velikih jezičnih modela (LLMS). Ključ? Skaliranje pretraživanja na temelju uzorkovanja, tehnike koja se oslanja na generiranje više odgovora i korištenje samog modela kako bi ih provjerio.
Temeljni nalaz je da čak i minimalistička implementacija pretraživanja na temelju uzorkovanja, korištenjem nasumičnog uzorkovanja i samo-provjerenja, može podići obrazloženje modela poput Gimini 1.5 Pro izvan one O1-previesa na popularnim mjerilama. Nalazi mogu imati važne posljedice za poslovne aplikacije i osporiti pretpostavku da su visoko specijalizirana obuka ili složene arhitekture uvijek potrebne za postizanje vrhunskog učinka.
Sadržaj objave
Trenutna popularna metoda za skaliranje vremena ispitivanja u LLMS-u je osposobljavanje modela kroz učenje pojačanja kako bi se generirale dulje reakcije s tragovima lanca (COT). Ovaj se pristup koristi u modelima kao što su Openai O1 i DeepSeek-R1. Iako su korisne, ove metode obično zahtijevaju značajna ulaganja u fazu obuke.
Druga metoda skaliranja vremena je “samossistencija”, gdje model generira više odgovora na upit i odabire odgovor koji se češće pojavljuje. Samossistencija dostiže svoje granice prilikom rješavanja složenih problema, kao što je u tim slučajevima, najviše ponovljeni odgovor nije nužno ispravan.
Pretraživanje temeljeno na uzorkovima nudi jednostavniju i vrlo skalabilnu alternativu za skaliranje vremena ispitivanja: Neka model generira više odgovora i odaberite najbolji putem mehanizma za provjeru. Pretraživanje na temelju uzorkovanja može nadopuniti druge strategije izračunavanja vremena ispitivanja i, kako istraživači pišu u svom radu, “također ima jedinstvenu prednost što je neugodno paralelno i omogućava proizvoljno skaliranje: jednostavno uzorkovajte više odgovora.”
Što je još važnije, pretraživanje na temelju uzorkovanja može se primijeniti na bilo koji LLM, uključujući one koji nisu izričito obučeni za rasuđivanje.
Kako funkcionira pretraživanje na temelju uzorkovanja
Istraživači se usredotočuju na minimalističku implementaciju pretraživanja na temelju uzorkovanja, koristeći jezični model kako bi generirali odgovore kandidata i provjerili ih. Ovo je proces „samoodvijesnog“, gdje model procjenjuje vlastite rezultate bez oslanjanja na vanjske odgovore na zemaljsku istinu ili simboličke sustave provjere.
Algoritam djeluje u nekoliko jednostavnih koraka:
1 – Algoritam započinje generiranjem skupa kandidatskih rješenja za zadani problem pomoću jezičnog modela. To se postiže tako što će modelu više puta davati brzinu i pomoću postavke ne-nulte temperature kako bi se stvorio raznolik skup odgovora.
2 – Odgovor kandidata za svaki prolazi postupak provjere u kojem se LLM traži više puta kako bi se utvrdio je li odgovor točan. Ishodi provjere tada su prosječni kako bi se stvorio konačni rezultat provjere za odgovor.
3— Algoritam odabire odgovor s najviše ocjene kao konačni odgovor. Ako je više kandidata u neposrednoj blizini, LLM se traži da ih usporedi u paru i odabere najbolji. Odgovor koji pobijedi na najpopularnijim usporedbama odabran je kao konačni odgovor.
Istraživači su razmotrili dvije ključne osi za skaliranje vremena vremena:
Uzorkovanje: Broj odgovora koji model generira za svaki problem unosa.
Provjera: Broj rezultata provjere izračunate za svako generirano rješenje
Kako se pretraživanje na temelju uzorkovanja uspoređuje s drugim tehnikama
Studija je otkrila da se rak rasuđivanja i dalje poboljšava pretraživanjem uzorkovanja, čak i kada se izračunavanje vremena ispitivanja smanjuje daleko izvan točke gdje se samossistencija zasiće.
U dovoljnoj mjeri, ova minimalistička implementacija značajno povećava točnost obrazloženja na referentnim vrijednostima poput AIME i matematike. Na primjer, performanse Blizanca 1.5 Pro nadmašile su onu O1-PREVIEW, koja je izričito obučena za probleme s rezonovanjem, a Blizanci 1.5 Flash nadmašio je Blizanci 1.5 Pro.
“To ne samo da ističe važnost pretraživanja uzorkovanja za skaliranje sposobnosti, već također sugerira korisnost pretraživanja temeljenog na uzorkovanju kao jednostavnu osnovnu liniju na kojoj se može usporediti druge strategije izračunavanja vremena testnog vremena i mjeriti istinska poboljšanja u mogućnosti pretraživanja modela”, pišu istraživači.
Vrijedno je napomenuti da, iako su rezultati uzorkovanja na temelju pretraživanja impresivni, troškovi također mogu postati zabranjeni. Na primjer, s 200 uzoraka i 50 koraka provjere po uzorku, upit iz AIME -a stvorit će oko 130 milijuna tokena, što košta 650 dolara s Blizancima 1,5 Pro. Međutim, ovo je vrlo minimalistički pristup pretraživanju uzorkovanja i kompatibilan je s tehnikama optimizacije predloženim u drugim studijama. S pametnijim metodama uzorkovanja i provjere, troškovi zaključivanja mogu se značajno smanjiti korištenjem manjih modela i stvaranjem manje tokena. Na primjer, pomoću Blizanca 1.5 Flash za izvršavanje provjere, troškovi padaju na 12 USD po pitanju.
Učinkovite strategije samoprovjerivanja
U tijeku je rasprava o tome mogu li LLM -ovi potvrditi vlastite odgovore. Istraživači su identificirali dvije ključne strategije za poboljšanje samoprovjere koristeći računanje vremena ispitivanja:
Izravno uspoređivanje kandidata za odgovor: Neslaganja između rješenja kandidata snažno ukazuju na potencijalne pogreške. Davanjem verifikatora s više odgovora za usporedbu, model može bolje prepoznati pogreške i halucinacije, baveći se osnovnoj slabosti LLMS -a. Istraživači to opisuju kao primjer “implicitnog skaliranja”.
Prepisivanje specifično za zadatak: Istraživači predlažu da optimalni izlazni stil LLM -a ovisi o zadatku. Lanac razmišljanja učinkovit je za rješavanje zadataka obrazloženja, ali odgovore je lakše provjeriti kada su napisani u formalnijem, matematički konvencionalnom stilu. Verifiers mogu prije procjene prepisati odgovore kandidata u strukturiraniji format (npr. Teorem-lemma-otporni).
“Pretpostavljamo da će se mogućnosti samo-provjerenja modela u kratkom roku brzo poboljšati, jer modeli uče kako bi iskoristili principe implicitnog prikladnosti skaliranja i izlaznog stila i potaknuti poboljšane stope skaliranja za pretraživanje na temelju uzorkovanja”, pišu istraživači.
Implikacije na aplikacije u stvarnom svijetu
Studija pokazuje da relativno jednostavna tehnika može postići impresivne rezultate, potencijalno smanjujući potrebu za složenim i skupim arhitekturama modela ili režimima treninga.
Ovo je ujedno i skalabilna tehnika, koja omogućuje poduzećima da povećaju performanse dodjeljivanjem više resursa za uzorkovanje i provjeru. Također omogućuje programerima da guraju granične modele jezika izvan svojih ograničenja složenih zadataka.
„S obzirom na to da nadopunjuje druge strategije izračunavanja vremena ispitivanja, paraleliziraju se i omogućava proizvoljno skaliranje i priznaje jednostavne implementacije koje su dokazivo učinkovite, očekujemo da će pretraga temeljena na uzorkovima igrati ključnu ulogu jer su jezični modeli zaduženi za rješavanje sve složenijih problema sa sve većim računalnim proračunima“, pišu istraživači.
Web izvor
