Oblak Znanja

  • Home
  • Novosti
  • Učionica
    • Informatika 5
    • Informatika 6
    • Informatika 7
    • Informatika 8
    • Logo jezik
    • WordPress
    • Microsoft Office
  • Vodiči
    • Online vodiči
    • Kratki savjeti
    • Korisne aplikacije
    • Društvene mreže
    • Multimedija
    • Zanimljivosti
✕

Jezični modeli koji se samo usavršavaju postaju stvarnost s MIT-ovom ažuriranom tehnikom pečata

Novosti

Jezični modeli koji se samo usavršavaju postaju stvarnost s MIT-ovom ažuriranom tehnikom pečata

Tomšić Damjan 14. listopada 2025

Istraživači s Massachusetts Institute of Technology (MIT) dobivaju obnovljenu pozornost za razvoj i Otvoreni izvor Tehnika koja omogućava velike jezične modele (LLMS)-poput onih koji su temeljni chatgpt i većini modernih AI chatbota-da se poboljšaju generirajući sintetičke podatke kako bi se precizirali.

Tehnika, poznata kao SEAL (samo-prilagođavanje LLMS-a), prvi je put opisana u radu objavljenom u lipnju, a u to je vrijeme obuhvaćena VentureBeat.

Značajno proširen i Ažurirana verzija papira objavljena je prošlog mjesecakao i Otvoreni izvorni kôd objavljen na GitHub -u (Prema MIT licenci, omogućavajući komercijalnu i poduzetničku upotrebu), a ovaj tjedan izrađuje nove valove među AI Power korisnicima na društvenoj mreži X.

SEAL omogućuje LLMS-u da autonomno generiraju i primjenjuju vlastite strategije preciznog podešavanja. Za razliku od konvencionalnih modela koji se oslanjaju na fiksne vanjske podatke i cjevovode za optimizaciju, SEAL omogućuje modelima da se razvijaju stvaranjem vlastitih podataka o sintetičkom treningu i odgovarajućim direktivama za optimizaciju.

Razvoj dolazi iz tima povezanog s MIT -ovim nevjerojatnim AI laboratorijom, uključujući Adama Zweigera, Jyothish Pari, Han Guoa, Ekina Akyürek -a, Yoon Kim i Pulkit Agrawal. Njihovo je istraživanje nedavno predstavljeno na 39. konferenciji o sustavima za obradu neuronskih informacija (Neurips 2025).

Sadržaj objave

  • 1 Pozadina: od “izvan statičkog AI” do samo-aaditativnih sustava
  • 2 Rješavanje ograničenja statičkih modela
  • 3 Izvedbe kroz zadatke
  • 4 Tehnički okvir
  • 5 Snage i ograničenja
  • 6 Reakcije AI zajednice
  • 7 Budući upute i otvorena pitanja
  • 8 Prema više adaptivnih i agentnih modela
  • 9 Povezani sadržaji

Pozadina: od “izvan statičkog AI” do samo-aaditativnih sustava

Ranije ove godine, VentureBeat je prvi put izvijestio o SEAL-u kao okviru u ranoj fazi koji je omogućio jezičnim modelima da generiraju i treniraju na vlastitim sintetičkim podacima-potencijalni lijek za stagnaciju prethodno raspoređenih modela.

U toj je fazi pečat uokviren kao dokaz koncepta koji bi mogao omogućiti agentima Enterprise AI kontinuirano učiti u dinamičnim okruženjima bez ručnog prekvalifikacije.

Od tada je istraživanje znatno napredovalo. Nova verzija proširuje se na prethodni okvir pokazujući da se SEAL-ova sposobnost samo-adaptacije skalira s veličinom modela, integrira učinkovitije učenje pojačanja kako bi se smanjila katastrofalna zaborava i formalizirala SEAL-ovu strukturu s dvostrukom petljom (unutarnja nadgledana fino podešavanje i optimizacija vanjskog pojačanja) za reproducibilnost.

Ažurirani rad također uvodi evaluacije u različitim formatima poticanja, poboljšanu stabilnost tijekom ciklusa učenja i raspravu o praktičnim izazovima implementacije u vrijeme zaključivanja.

Rješavanje ograničenja statičkih modela

Iako su LLM -ovi pokazali izvanredne sposobnosti u stvaranju teksta i razumijevanju, njihova prilagođavanje novim zadacima ili znanju često je ručno, krhka ili ovisna o kontekstu.

SEAL izaziva ovaj status quo opremanjem modela s mogućnošću generiranja onoga što autori nazivaju “samoidicijalnošću”-izlazima prirodnog jezika koji određuju kako model treba ažurirati svoje utege.

Ove samoizmjene mogu poprimiti oblik preformuliranih informacija, logičkih implikacija ili konfiguracije alata za povećanje i obuku. Jednom generirani, model se fino podešava na temelju ovih izmjena. Proces je vođen učenjem pojačanja, gdje signal nagrade dolazi iz poboljšanih performansi na zadatku nizvodno.

Dizajn oponaša kako ljudi učenici mogu preformitirati ili reorganizirati studijske materijale kako bi bolje internalizirali informacije. Ovo restrukturiranje znanja prije asimilacije služi kao ključna prednost u odnosu na modele koji pasivno konzumiraju nove podatke “AS-IS”.

Izvedbe kroz zadatke

SEAL je testiran na dvije glavne domene: uključivanje znanja i učenje s nekoliko snimaka.

U postavci za uključivanje znanja, istraživači su procijenili koliko bi model mogao internalizirati novi faktički sadržaj iz odlomaka sličnih onima u skupu podataka, referentnom skupu podataka o razumijevanju čitanja koji je uveo Sveučilište Stanford 2016. godine, koji se sastoji od više od 100 000 parova pitanja o pitanjima-imovine na temelju članaka Wikipedia (RAJPURKAR i 2016).

A ne fino podešavanje izravno na prolaznom tekstu, Model je stvorio sintetičke implikacije prolaza A onda na njih fino podešen.

Nakon dva kruga učenja pojačanja, model je poboljšao točnost pružanja pitanja sa 33,5% na 47,0% na verziji ne-konteksta-nadmašivši rezultate dobivene pomoću sintetičkih podataka generiranih GPT-4.1.

U nekoliko udaraca, SEAL je ocijenjen pomoću podskupine referentne vrijednosti luka, gdje zadaci zahtijevaju rasuđivanje iz samo nekoliko primjera. Ovdje je SEAL generirao samoideicije koje određuju povećanje podataka i hiperparametre.

Nakon pojačanja, Stopa uspjeha u ispravnom rješavanju zadržanih zadataka skočila je na 72,5%, u odnosu na 20% koristeći samoudredi generirane bez učenje ojačanja. Modeli koji su se oslanjali isključivo na učenje u kontekstu bez ikakve prilagodbe postigli su 0%.

Tehnički okvir

SEAL djeluje koristeći strukturu s dvije petlje: unutarnja petlja izvodi nadzirano podešavanje na temelju samoudrenog, dok vanjska petlja koristi pojačanje u učenju za pročišćavanje politike koja generira te samouvjerenosti.

Korišteni algoritam za učenje ojačanja temelji se na RESTEM -u, koji kombinira uzorkovanje s filtriranim kloniranjem ponašanja. Tijekom treninga pojačana su samo samoidicijati koje dovode do poboljšanja performansi. Ovaj pristup učinkovito podučava model koji su vrste uređivanja najpovoljnije za učenje.

Za učinkovitost, SEAL primjenjuje FICENT-ove prilagodbe temeljene na LORA-i, a ne cjelovita ažuriranja parametara, omogućujući brzo eksperimentiranje i jeftinu prilagodbu.

Snage i ograničenja

Istraživači navode da SEAL može proizvesti podatke o treningu s visokim korisnošću s minimalnim nadzorom, nadmašujući čak i velike vanjske modele poput GPT-4.1 u određenim zadacima.

Oni također pokazuju da se pečat generalizira izvan svog originalnog postavljanja: i dalje se izvodi prilikom skaliranja od jednopropusnih ažuriranja do scenarija koji se nastavljaju s multi-dokumentom.

Međutim, okvir nije bez ograničenja. Jedno je pitanje katastrofalno zaboravljanje, gdje ažuriranja za uključivanje novih informacija mogu poništiti performanse na prethodno naučene zadatke.

Kao odgovor na ovu zabrinutost, koautor Jyo Pari rekao je za VentureBeat putem e-pošte da se čini da učenje ojačanja (RL) ublažava učinkovitije zaboravljanje od standardnog nadziranog finog podešavanja (SFT), navodeći nedavni rad o toj temi. Dodao je da kombiniranje ovog uvida s Seal -om može dovesti do novih varijanti u kojima Seal uči ne samo podatke o treningu, već i funkcije nagrađivanja.

Drugi je izazov računalni režijski troškovi: Procjena svakog samo-uređenja zahtijeva testiranje finog podešavanja i performansi, što može potrajati 30–45 sekundi po uređivanju-značajno više od standardnih zadataka učenja pojačanja.

Kao što je JYO objasnio, “pečat za trening nije trivijalno jer zahtijeva 2 petlje optimizacije, vanjski RL i unutarnji SFT jedan. U vrijeme zaključivanja, ažuriranje utega modela također će zahtijevati nove infrastrukture sustava.” Naglasio je potrebu za budućim istraživanjima sustava implementacije kao kritičnog puta za praktično postavljanje pečata.

Uz to, trenutni dizajn Seal -a pretpostavlja prisutnost uparenih zadataka i referentnih odgovora za svaki kontekst, ograničavajući njegovu izravnu primjenjivost na neoznačene korpore. Međutim, JYO je pojasnio da sve dok postoji zadatak nizvodno s izračunatom nagradom, pečat se može osposobiti za prilagodbu u skladu s tim-čak i u sigurnosno-kritičnim domenama. U principu, model obučen za pečat mogao bi naučiti izbjegavati trening na štetnim ili zlonamjernim ulazima ako se vodi odgovarajućim signalom nagrađivanja.

Reakcije AI zajednice

Zajednica istraživanja i graditelja AI reagirala je mješavinom uzbuđenja i nagađanja na papir za brtvljenje. Na X, ranije Twitter, nekoliko istaknutih računa usmjerenih na AI opterećivalo se o potencijalnom utjecaju.

Korisnik @Vraserxsamoopisani odgajatelj i AI entuzijasta, nazvan je pečatom “rođenje kontinuiranog AI-a za samoučenje” i predvidio da bi modeli poput OpenAi-ovog GPT-6 mogli usvojiti sličnu arhitekturu.

Po njihovim riječima, Seal predstavlja “kraj ere smrznute težine”, koji se pokreću u sustavima koji se razvijaju kako se svijet oko njih mijenja.

Istaknuli su SEAL-ovu sposobnost da formiraju trajne uspomene, popravljaju znanje i uče iz podataka u stvarnom vremenu, uspoređujući ih s temeljnim korakom prema modelima koji ne koriste samo informacije, već ih apsorbiraju.

U međuvremenu, @Alex_Promptersuosnivač marketinškog pothvata s AI pogonom, uokvirio je pečat kao skok prema modelima koji se doslovno prepisuju. “MIT je upravo izgradio AI koji može prepisati vlastiti kod kako bi postao pametniji”, napisao je. Navodeći ključne rezultate rada-40% pojačanja u činjeničnom opozivu i nadmašivanju GPT-4.1 koristeći samo-generirane podatke -Opisao je nalaze kao potvrdu da “LLM-ovi da sami Finetune više nisu znanstvena fantastična.”

Oduševljenje odražava širi apetit u AI prostoru za modele koji se mogu razvijati bez stalnog prekvalifikacije ili ljudskog nadzora – posebno u domenama koje se brzo mijenjaju ili personaliziranim slučajevima uporabe.

Budući upute i otvorena pitanja

Kao odgovor na pitanja o skaliranju brtve na veće modele i zadatke, JYO je ukazao na eksperimente (Dodatak B.7) koji pokazuju da kako se povećava veličina modela, tako i njihova sposobnost samo-adaptacije. Usporedio je to sa studentima koji s vremenom poboljšavaju svoje tehnike proučavanja-veći modeli jednostavno su bolji u stvaranju korisnih samoudrenih emitiranja.

Na pitanje da li se pečat generalizirao na nove stilove za poticaj, potvrdio je da jest, navodeći tablicu 10 u radu. Međutim, također je priznao da tim još nije testirao mogućnost SEAL -a da se prebaci na potpuno nove domene ili arhitekture modela.

“Pečat je početni rad koji prikazuje mogućnosti”, rekao je. “Ali to zahtijeva mnogo više testiranja.” Dodao je da se generalizacija može poboljšati jer se pečat obučava na širu raspodjelu zadataka.

Zanimljivo je da je tim utvrdio da je samo nekoliko koraka za učenje pojačanja već dovelo do mjerljivih dobitaka. “Ovo je uzbudljivo”, primijetio je Jyo, “jer to znači da bismo s više izračunali, nadamo se da bismo mogli dobiti još veća poboljšanja.” Predložio je da budući eksperimenti mogu istražiti naprednije metode učenja pojačanja izvan Restema, poput optimizacije grupne relativne politike (GRPO).

Prema više adaptivnih i agentnih modela

SEAL predstavlja korak prema modelima koji se s vremenom mogu autonomno poboljšati, integrirajući novo znanje tako i rekonfigurirajući kako uče. Autori predviđaju buduća proširenja gdje bi SEAL mogao pomoći u samozatajnom, stalnom učenju i razvoju agentnih sustava-modela koji komuniciraju s razvijajućim okruženjima i postupno se prilagođavaju.

U takvim postavkama model bi mogao upotrijebiti brtve za sintetiziranje ažuriranja težine nakon svake interakcije, postupno internalizirajući ponašanja ili uvide. To bi moglo smanjiti potrebu za ponovljenim nadzorom i ručnom intervencijom, posebno u domenama ograničenim ili specijaliziranim podacima.

Kako javni web tekst postaje zasićen i daljnje skaliranje LLM-a postaje uska s dostupnošću podataka, samostalno usmjereni pristupi poput SEAL-a mogli bi igrati kritičnu ulogu u potiskivanju granica onoga što LLMS može postići.

Projektu SEAL možete pristupiti, uključujući kod i daljnju dokumentaciju, na: https://jyopari.github.io/posts/seal

Web izvor

Povezani sadržaji

  • IP Copilot želi upotrijebiti AI kako bi vaše Slack poruke pretvorio u patenteIP Copilot želi upotrijebiti AI kako bi vaše Slack poruke pretvorio u patente
  • Kako je Maroko postao glavni grad svjetskog meteoritaKako je Maroko postao glavni grad svjetskog meteorita
  • 8 osnovnih savjeta za početnike u Wordu8 osnovnih savjeta za početnike u Wordu
  • Skriveni troškovi u AI implementaciji: Zašto Claude modeli mogu biti 20-30% skuplji od GPT-a u Poredbama poduzećaSkriveni troškovi u AI implementaciji: Zašto Claude modeli mogu biti 20-30% skuplji od GPT-a u Poredbama poduzeća
  • Prva smrt od ptičje gripe u SAD-u ozbiljno je upozorenjePrva smrt od ptičje gripe u SAD-u ozbiljno je upozorenje
  • Ovaj Linux distro može se koristiti bez instalacije (i potpuno je besplatan)Ovaj Linux distro može se koristiti bez instalacije (i potpuno je besplatan)

Previous Article

Kako učiniti STEM smiješnim - i idi virusno radeći

Next Article

Sita otkriva prevlake za vlaknastim optičkim aerodromima

Posljednje objave

Sita otkriva prevlake za vlaknastim optičkim aerodromima

Jezični modeli koji se samo usavršavaju postaju stvarnost s MIT-ovom ažuriranom tehnikom pečata

Jezični modeli koji se samo usavršavaju postaju stvarnost s MIT-ovom ažuriranom tehnikom pečata

Kako učiniti STEM smiješnim – i idi virusno radeći

Kako učiniti STEM smiješnim – i idi virusno radeći

Sadržaj

  • 1 Pozadina: od “izvan statičkog AI” do samo-aaditativnih sustava
  • 2 Rješavanje ograničenja statičkih modela
  • 3 Izvedbe kroz zadatke
  • 4 Tehnički okvir
  • 5 Snage i ograničenja
  • 6 Reakcije AI zajednice
  • 7 Budući upute i otvorena pitanja
  • 8 Prema više adaptivnih i agentnih modela

Novosti

  • Sita otkriva prevlake za vlaknastim optičkim aerodromima 14. listopada 2025
  • Jezični modeli koji se samo usavršavaju postaju stvarnost s MIT-ovom ažuriranom tehnikom pečata 14. listopada 2025
  • Kako učiniti STEM smiješnim – i idi virusno radeći 14. listopada 2025
  • 10 Windows aplikacija otvorenog koda ne mogu živjeti – i svi su besplatni 14. listopada 2025
  • Isprobao sam pametne naočale s XMEMS zvučnicima i aktivnim hlađenjem – i puni su obećanja 13. listopada 2025
  • Moramo se približiti pokretanju Galaxy XR 13. listopada 2025
  • Crni mith Wukong dobiva ažuriranje koje je tako veliko na PS5, možda ćete trebati izbrisati igru ​​i preusmjeriti je 13. listopada 2025
  • Platforma za e-trgovinu eBay nudi besplatan chatgpt trening i alati 13. listopada 2025
  • We keep talking about AI agents, but do we ever know what they are? 13. listopada 2025
  • Novi algoritam brže pronalazi najkraće staze 13. listopada 2025

O nama

Oblak Znanja je blog edukativnog karaktera i namijenjen je svima koji žele unaprijediti svoje znanje iz područja računala i interneta.

Naš cilj je edukacija i pisanje zanimljivih objava kojima ćemo zajedno učiti i informirati se o svijetu informatike.

Na ovom blogu zabranjeno je svako kopiranje sadržaja bez dozvole autora.

Oblak Znanja

Oznake

besplatni powerpoint predlošci društvene mreže excel facebook firefox gmail google+ Google Chrome halloween halloween walpapers internet kartice linkedin profil linux microsoft Mozilla Firefox ms powerpoint oblak znanja office 2007 office savjeti online kupovina pick powerpoint powerpoint predložak powerpoint savjeti rastući niz savjet slike za radnu površinu spremanje datoteka strani jezik tipkovnicke kratice twitter twitter alati uređivanje slika wallpaper clock web preglednik windows windows 7 windows aplikacije windows vista word word 2007 word savjeti youtube savjeti youtube tipkovničke kratice