Želite pametnije uvide u vašu pristiglu poštu? Prijavite se za naše tjedne biltene kako biste dobili samo ono što je važno za vođe AI, podataka i sigurnosti. Pretplatite se sada
A Nova studija iz Program antropskih stipendista otkriva tehniku identifikacije, nadgledanja i kontrole osobina karaktera u velikim jezičnim modelima (LLMS). Nalazi pokazuju da modeli mogu razviti nepoželjne ličnosti (npr. Postajući zlonamjerni, pretjerano prihvatljivi ili skloni ukidanju stvari) bilo kao odgovor na korisničke upute ili kao nenamjerna posljedica obuke.
Istraživači unose “vektore persona”, koji su upute u unutarnjem prostoru za aktivaciju modela koji odgovaraju specifičnim osobinama ličnosti, pružajući alat za programere da bolje upravljaju ponašanjem svojih pomoćnika AI.
Sadržaj objave
Model Personas može poći po zlu
LLMS obično komunicira s korisnicima putem “pomoćne” persona dizajnirane tako da bude korisna, bezopasna i iskrena. Međutim, ove persone mogu fluktuirati na neočekivane načine. Pri implementaciji, ličnost modela može se dramatično pomaknuti na temelju uputa ili razgovora, kao što se vidi kada je Microsoftov Bing Chatbot ugroženi korisnici ili je XAI -jev Grok započeo Ponašajući se pogrešno. Kao što istraživači primjećuju u svom radu, “Iako su ovi posebni primjeri privukli široku pažnju javnosti, većina jezičnih modela osjetljiva je na pomake personala u kontekstu.”
Postupci obuke također mogu izazvati neočekivane promjene. Na primjer, fino podešavanje modela na uskom zadatku poput generiranja nesigurnog koda može dovesti do šireg “hitna neusklađenost„To se proteže izvan izvornog zadatka. Čak i dobronamjerna prilagođavanja treninga mogu uzvratiti. U travnju 2025., izmjena u učenju pojačanja iz ljudske povratne informacije (RLHF) procesa nenamjerno je napravila OpenAi-ov GPT-4O pretjerano sikofantički, što je uzrokovalo da to potvrdi štetne ponašanja.
AI skaliranje pogađa svoje granice
Power ograničenja, rastući troškovi tokena i kašnjenja zaključivanja preoblikovaju Enterprise AI. Pridružite se našem ekskluzivnom salonu kako biste otkrili kako su vrhunski timovi:
- Pretvaranje energije u stratešku prednost
- Arhitekturiste učinkovite zaključke za stvarne propusne dobitke
- Otključavanje natjecateljskog ROI -a s održivim AI sustavima
Osigurajte svoje mjesto da ostanete naprijed:: https://bit.ly/4mwgngo
Kako djeluju personalni vektori
Novo istraživanje temelji se na konceptu da su osobine na visokoj razini, poput istinitosti ili tajnosti, kodirane kao linearne smjerove unutar „Aktivacijskog prostora“ modela (unutarnji, visokodimenzionalni prikaz informacija ugrađenih u utege modela). Istraživači su sistematizirali postupak pronalaženja ovih smjerova, koje nazivaju “personalni vektori”. Prema radu, njihova se metoda za vađenje personskih vektora automatizirala i “može se primijeniti na bilo koju osobinu osobnosti od interesa, s obzirom na samo opis prirodnog jezika.”
Proces djeluje putem automatiziranog cjevovoda. Započinje jednostavnim opisom osobine, poput “zla”. Potom cjevovod generira parove kontrastnih sustava sustava (npr. “Vi ste zli AI” nasuprot “Vi ste korisni AI”), zajedno sa skupom pitanja o procjeni. Model generira odgovore u pozitivnim i negativnim uputama. Osoba vektor izračunava se uzimajući razliku u prosječnim unutarnjim aktivacijama između odgovora koji pokazuju osobinu i onih koji to ne čine. To izolira određeni smjer u utezima modela koji odgovara toj osobini ličnosti.
Stavljanje personalnih vektora na korištenje
U nizu eksperimenata s otvorenim modelima, kao što su QWEN 2,5-7B-instrukt i LLAMA-3,1-8B-instrukcija, istraživači su pokazali nekoliko praktičnih primjena za persone vektore.
Prvo, projiciranjem unutarnjeg stanja modela na vektor persona, programeri mogu pratiti i predvidjeti kako će se ponašati prije nego što stvori odgovor. U radu se navodi: “Pokazujemo da se i namijenjena i nenamjerna finetuning-inducirana persona snažno u korelaciji s promjenama aktivacije duž odgovarajućih personskih vektora.” To omogućava rano otkrivanje i ublažavanje nepoželjnih pomaka u ponašanju tijekom finog podešavanja.
Personalni vektori također omogućuju izravnu intervenciju da suzbijaju neželjeno ponašanje u vrijeme zaključivanja kroz proces koji istraživači nazivaju “upravljanjem”. Jedan od pristupa je “post-hoc upravljač”, gdje programeri oduzimaju personalni vektor od aktivacije modela tijekom zaključivanja kako bi ublažili lošu osobinu. Istraživači su otkrili da, iako učinkovito, post-hoc upravljač ponekad može degradirati performanse modela na drugim zadacima.
Nova metoda je “preventivni upravljač”, gdje je model proaktivno usmjeren prema nepoželjnoj osobi tijekom finog podešavanja. Ovaj kontraintuitivni pristup u osnovi “cijepkuje” model protiv učenja loših osobina iz podataka o treningu, otkazujući pritisak finog podešavanja, a istovremeno je bolje očuvanje njegovih općih mogućnosti.
Ključna aplikacija za poduzeća je korištenje personičnih vektora za prikazivanje podataka prije finog podešavanja. Istraživači su razvili metriku pod nazivom “Projektna razlika”, koja mjeri koliko će zadani skup podataka o treningu gurnuti personu modela prema određenoj osobini. Ova metrika vrlo je predvidila kako će se ponašanje modela mijenjati nakon treninga, omogućavajući programerima da označe i filtriraju problematične skupove podataka prije nego što ih koriste u treningu.
Za tvrtke koje fino podešavaju modele otvorenog koda na vlasničkim ili trećim podacima (uključujući podatke generirane od strane drugih modela), personalni vektori pružaju izravan način za nadgledanje i ublažavanje rizika od nasljeđivanja skrivenih, nepoželjnih osobina. Sposobnost proaktivnog prikazivanja podataka moćan je alat za programere, omogućavajući identifikaciju problematičnih uzoraka koji možda nisu odmah vidljivi kao štetni.
Istraživanje je otkrilo da ova tehnika može pronaći probleme za koje druge metode propuštaju, napominjući: “To sugerira da metoda nadilazi problematične uzorke koji mogu izbjeći otkrivanje utemeljene na LLM-u.” Na primjer, njihova metoda uspjela je uhvatiti neke primjere skupa podataka koji očito nisu bili problematični za ljudsko oko i da sudac LLM -a nije mogao zaznačiti.
U a blog blogAnthropic je sugerirao da će ovu tehniku koristiti za poboljšanje budućih generacija Clauda. “Vektori za osobu daju nam neke rijeke gdje modeli stječu te ličnosti, kako variraju s vremenom i kako ih možemo bolje kontrolirati”, pišu oni. Anthropi je objavio kôd za računanje personičnih vektora, ponašanje modela praćenja i upravljanja i provjeru skupova podataka o treningu. Programeri AI aplikacija mogu koristiti ove alate za prijelaz iz samo reakcije na nepoželjno ponašanje kako bi proaktivno dizajnirali modele sa stabilnijom i predvidljivom ličnošću.
Web izvor