Želite pametnije uvide u vašu pristiglu poštu? Prijavite se za naše tjedne biltene kako biste dobili samo ono što je važno za vođe AI, podataka i sigurnosti. Pretplatite se sada
OpenAi’s Novi, moćni otvoreni utezi AI Model velikog jezika (LLM) Obitelj GPT-OSS je pušten prije manje od dva tjedna Prema permisivnoj licenci Apache 2.0-prvog pokretanja modela Otvorenih utega tvrtke od GPT-2 2019.-ali programeri izvan tvrtke već ga preoblikovaju.
Jedan od najupečatljivijih Primjeri dolaze od Jacka Morrisadoktorski studij Cornell Tech, bivši stanovnik Google Brain i trenutni istraživač iz Meta, koji Ovaj je tjedan predstavio GPT-OSS-20B-bazu, Njegova vlastita prepravljena verzija manjih GPT-OSS-20B modela OpenAi-a, koji Uklanja ponašanje modela “rasuđivanja” i vraća ga u unaprijed obučenu „bazu“ verziju koja nudi brže, slobodnije, necenzurirane i neograničene odgovore.
Model je dostupan sada na Zagrljaj lica pod a dopuštena licenca za MITdopuštajući da se koristi za oba dodatna Istraživačke i komercijalne primjene.
Sadržaj objave
Kako je GPT-OSS-20B-baza drugačija od OpenAi-ovih GPT-OS modela
Da biste razumjeli što je Morris učinio, pomaže znati Razlika između OpenAijevog izdanja i onoga što AI istraživači nazivaju “osnovnim modelom”.
AI skaliranje pogađa svoje granice
Power ograničenja, rastući troškovi tokena i kašnjenja zaključivanja preoblikovaju Enterprise AI. Pridružite se našem ekskluzivnom salonu kako biste otkrili kako su vrhunski timovi:
- Pretvaranje energije u stratešku prednost
- Arhitekturiste učinkovite zaključke za stvarne propusne dobitke
- Otključavanje natjecateljskog ROI -a s održivim AI sustavima
Osigurajte svoje mjesto da ostanete naprijed:: https://bit.ly/4mwgngo
Većina LLM-ova koje nude vodeći AI laboratoriji kao što su Openai, Anthropic, Google, pa čak i igrači otvorenog koda poput Meta, Deepseeka i Alibaba-ovog Qwen-ovog tima “nakon obuke”.
To znači da su prošli kroz dodatnu fazu u kojoj je izložen kuriranim primjerima željenog ponašanja.
Za modele podešenih uputa, to znači davati mu mnogo primjera uputa uparenih s idealnim odgovorima, pa nauči odgovoriti korisnije, pristojnije ili sigurno na zahtjeve za prirodni jezik.
Modeli GPT-OS-a OpenAi su 5. kolovoza objavljeni “Optimizirani”: obučeni i fino podešeni ne samo da bi predvidjeli sljedeću riječ, već i slijedili upute na siguran, dosljedan način, često koračajući kroz probleme sa strukturiranim obrazloženjem “lanca misli” prije nego što su stvorili konačni odgovor.
Ovo je trend koji seže na Openai’s O1 model objavljen prije gotovo godinu dana u rujnu 2024. godine, ali koji su sada prihvaćeni brojni vodeći AI laboratoriji – Prisiljavanje modela da duže razmišljaju u više koraka i prije provjeravanja vlastitog rada Izlažući dobro raspoloženi odgovor korisniku.
Zbog toga je prikladniji za zadatke poput kodiranja, rješavanja matematičkih problema ili odgovora na činjenična pitanja s objašnjenjima – ali također znači da su njihovi odgovori filtrirani i usmjereni od nesigurnih ili nepoželjnih sadržaja.
Osnovni model je različit. To je sirova, prethodno verzija velikog jezičnog modela prije nego što se primjenjuje poravnanje specifičnog za obrazloženje. Osnovni modeli jednostavno pokušavaju predvidjeti sljedeći dio teksta s obzirom na ono što je došlo prije, bez ugrađenih zaštitnika, stilskih sklonosti ili odbijanja ponašanja.
Cijene ih neki istraživači jer oni može proizvesti raznolikiji i manje ograničen izlaz, i zato što proučavanje njihovog neusklađenog ponašanja može Otkrijte kako modeli pohranjuju znanje i obrasce iz njihovih podataka o treningu.
Morrisov cilj bio je “preokrenuti” proces poravnanja OpenAi-a i vratiti manji GPT-OSS-20B u nešto što je mnogo bliže izvornom prethodnom stanju.
“U osnovi smo preokrenuli dio usklađivanja LLM treninga, tako da imamo nešto što ponovno stvara tekst prirodnog izgleda”, napisao je X nit koja najavljuje projekt. “Više se ne bavi krevetićem. Povratak je modelu koji samo predviđa sljedeći token na generičkom tekstu.”
Umjesto da pokušava probiti model s pametnim uputama-za koje je Morris rekao da se pokazao neučinkovitim tijekom svojih ranih eksperimenata-uzeo je drugačiji korak nakon razgovora s bivšim suosnivačem OpenAi-a, bivšim antropskim istraživačem i trenutnim strojevima za razmišljanje Glavni znanstvenik John Schulman.
Ključno je bilo razmišljati o preokretu usklađivanja kao o malom problemu optimizacije: ako je većina unaprijed obrađenog znanja modela još uvijek prisutna u njegovim utezima, možda će biti potrebno samo sitno ažuriranje niskog ranga kako bi se vratila prema ponašanju modela osnovnog modela.
Morris je tu ideju implementirao primjenom ažuriranja Lora (adapter niskog ranga) na samo tri sloja modela-MLP slojeva na pozicijama 7, 15 i 23-s rangom od 16.
To je značilo obuku oko 60 milijuna parametara, ili 0,3% od ukupno 21 milijarde modela. Koristio je oko 20 000 dokumenata iz skupa podataka FineWeb, držeći format što je moguće bliže originalnom pretresanju (“….” Stil), tako da model ne bi naučio ništa novo, već samo ponovno omogućuje široku generaciju slobodnog teksta.
Trening je trajao četiri dana na osam NVIDIA H200 GPU -a, Morris je za VentureBeat putem izravne poruke na X, sa stopom učenja od 2E-6, veličinom šarže od 16 i maksimalnom duljinom sekvence od 8.192 tokena.
Poslije je spojio utege Lora natrag u model kako bi ga korisnici mogli pokrenuti kao samostalni, potpuno finetunerirani artefakt.
Morris se također morao suočiti s ograničenjima trenutnih otvorenih alata za fino podešavanje arhitektura mješavine i MOE) poput GPT-OSS-a.
Morris je rekao da je koristio okvir zagrljaja Face -a, za koji je rekao da se često ruši i samo podržava određene načine treninga, te je često napisao vlastiti pojas na kontrolnu točku i preskočio serije podataka koje su riskirale preopterećenje GPU memorije.
Važno je, kao odgovor na pitanja i kritike zajednice AI na X, Morris je također pojasnio da ne tvrdi da je oporavio osnovni model “utega” – unutarnje postavke umjetnih neurona koji čine neuronsku mrežu modela i upravljaju njegovim ponašanjem.
Umjesto toga, Morris kaže da je njegov rad “oporavio distribuciju osnovnog modela * s nekom pogreškom”, to jest, uzorci vjerojatnosti koje model koristi za generiranje izlaza – iako se utezi koji proizvode te obrasce mogu razlikovati.
Kako se ponašanje novog GPT-OSS-20B-baze modela razlikuje od GPT-OS-20B
Rezultirajuća GPT-OSS-20B-baza primjetno je slobodna u svojim izlazima. Više nije zadano objašnjavanje obrazloženja korak po korak i proizvest će širi raspon odgovora, Uključivanje uputa OpenAi -ov usklađeni model odbio bi dati – kao Izgradnja oružja, nabrajanje laganosti ili planiranje ilegalnih aktivnosti.
U kratkim testovima, Morris ga je pronašao također bi mogli reproducirati doslovne odlomke iz djela zaštićenih autorskim pravimauključujući Tri od šest odlomaka knjiga koje je pokušao, Pokazujući da je neki pamćeni materijal još uvijek dostupan.
Unatoč tome, ostaju neki tragovi poravnanja. Morris je napomenuo da će, ako model potaknete u formatu pomoćnog stila (“Ljudski: … pomoćnik: …”), ponekad će se i dalje ponašati kao pristojan chatbot. I Kada se probije kroz originalni predložak za chat GPT-OS, on još uvijek može obavljati zadatke obrazloženjaiako s nekim gubitkom u kvaliteti.
Za najbolje rezultate u načinu slobodnog teksta, on savjetuje da se prepuna upita s posebnim tokenom modela modela <| STARTOFTEXT |> i u potpunosti izbjegavajući predloške za chat.
Izgradnja na OpenAi-ovom velikom izdanju GPT-OS-a
Obitelj GPT-OS-a debitirala je s velikom pažnjom. Dva modela-GPT-OSS-120B i GPT-OSS-20B-samo su tekstualni, višejezični, a izgrađeni su s mješavinom arhitekture transformatora. Pušteni su pod dopuštenom licencom Apache 2.0, omogućujući neograničenu lokalnu upotrebu, fino podešavanje i komercijalno implementaciju.
Referentne vrijednosti izvedbe iz OpenAi-a pokazale su veći model od 120B podudaranja ili premašuje vlasničkog O4-Mini u rezoniranju i zadacima korištenja alata, s manjim 20B konkurentnim O3-MINI.
Ovo je bilo prvo otvoreno izdanje otvorene težine u šest godina, što je potez široko tumačen kao Odgovor na konkurentski pritisak drugih pružatelja usluga otvorene težine, uključujući kineski Deepseek R1 i Qwen 3.
Tvrtka je pozicionirala GPT-OSS kao način da se ponovno uključi programeri koji su se preselili na suparničke modele otvorenog koda i kao platformu za sigurnosna istraživanja u sustavima otvorene težine.
Reakcija na početni GPT-OS bila je pomiješana
Reakcija programera na OpenAijeve modele GPT-OS-a bila je čvrsto miješana, s reakcijama na cijeloj ploči u rasponu od entuzijastičnih do razočaranih.
Pristalice su pohvalile dopuštenu licencu, učinkovitost i snažne prikaze na STEM referentnim vrijednostima.
Izvršni direktor zagrljaja lica Clem Delangue opisao je izdanje kao “smisleni dodatak otvorenom ekosustavu” i pozvao zajednicu da mu da vrijeme sazrijevanju.
Kritičari su tvrdili da se modeli pojavljuju snažno osposobljeni za sintetičke podatke, čineći ih odličnim u matematici i kodiranju, ali manje sposobnim u kreativnom pisanju, općem znanju svijeta i višejezičnom obrazloženju.
Neki rani ispitivači također su izazvali zabrinutost zbog dugotrajnih sigurnosnih filtera i moguće geopolitičke pristranosti.
Na tu pozadinu, Morrisova GPT-OSS-20B-baza ističe se kao konkretan primjer kako se modeli otvorene težine mogu prilagoditi i preurediti u divljini u roku od nekoliko dana od puštanja.
Doista, za razliku od načina na koji je primljen otvoreni GPT-OSS, većina odgovora na Morrisov rad koji sam vidio je topla i ushićena. Kao Jedan informatičar napisao je na x: „Ovo je najslađa stvar koju sam vidio na Twitteru [X] U posljednjih nekoliko mjeseci. “
Pristup uklanja velik dio ponašanja OpenAi u izgradnji i vraća model u nešto bliže sirovom, prethodnom sustavu – pomak koji je vrijedan za istraživače koji proučavaju pamćenje, pristranost ili utjecaj poravnanja, ali to također dolazi s većim sigurnosnim rizicima.
Nadalje, Morris kaže Da će njegov rad na obnavljanju modela obrazloženja u unaprijed obučene, neraspoložene osnovne modele nastaviti uspoređujući ekstrakciju na modelima koji nisu ometani, upute poput onih koje je ponudio Qwen.
Web izvor