Oblak Znanja

  • Home
  • Novosti
  • Učionica
    • Informatika 5
    • Informatika 6
    • Informatika 7
    • Informatika 8
    • Logo jezik
    • WordPress
    • Microsoft Office
  • Vodiči
    • Online vodiči
    • Kratki savjeti
    • Korisne aplikacije
    • Društvene mreže
    • Multimedija
    • Zanimljivosti
✕

Novi ‘Persona vektori’ iz antropa omogućuju vam dekodiranje i usmjeravanje osobnosti LLM -a

Novosti

Novi ‘Persona vektori’ iz antropa omogućuju vam dekodiranje i usmjeravanje osobnosti LLM -a

Tomšić Damjan 7. kolovoza 2025


Želite pametnije uvide u vašu pristiglu poštu? Prijavite se za naše tjedne biltene kako biste dobili samo ono što je važno za vođe AI, podataka i sigurnosti. Pretplatite se sada


A Nova studija iz Program antropskih stipendista otkriva tehniku identifikacije, nadgledanja i kontrole osobina karaktera u velikim jezičnim modelima (LLMS). Nalazi pokazuju da modeli mogu razviti nepoželjne ličnosti (npr. Postajući zlonamjerni, pretjerano prihvatljivi ili skloni ukidanju stvari) bilo kao odgovor na korisničke upute ili kao nenamjerna posljedica obuke.

Istraživači unose “vektore persona”, koji su upute u unutarnjem prostoru za aktivaciju modela koji odgovaraju specifičnim osobinama ličnosti, pružajući alat za programere da bolje upravljaju ponašanjem svojih pomoćnika AI.

Sadržaj objave

  • 1 Model Personas može poći po zlu
  • 2 Kako djeluju personalni vektori
  • 3 Stavljanje personalnih vektora na korištenje
    • 3.1 Povezani sadržaji

Model Personas može poći po zlu

LLMS obično komunicira s korisnicima putem “pomoćne” persona dizajnirane tako da bude korisna, bezopasna i iskrena. Međutim, ove persone mogu fluktuirati na neočekivane načine. Pri implementaciji, ličnost modela može se dramatično pomaknuti na temelju uputa ili razgovora, kao što se vidi kada je Microsoftov Bing Chatbot ugroženi korisnici ili je XAI -jev Grok započeo Ponašajući se pogrešno. Kao što istraživači primjećuju u svom radu, “Iako su ovi posebni primjeri privukli široku pažnju javnosti, većina jezičnih modela osjetljiva je na pomake personala u kontekstu.”

Postupci obuke također mogu izazvati neočekivane promjene. Na primjer, fino podešavanje modela na uskom zadatku poput generiranja nesigurnog koda može dovesti do šireg “hitna neusklađenost„To se proteže izvan izvornog zadatka. Čak i dobronamjerna prilagođavanja treninga mogu uzvratiti. U travnju 2025., izmjena u učenju pojačanja iz ljudske povratne informacije (RLHF) procesa nenamjerno je napravila OpenAi-ov GPT-4O pretjerano sikofantički, što je uzrokovalo da to potvrdi štetne ponašanja.


AI skaliranje pogađa svoje granice

Power ograničenja, rastući troškovi tokena i kašnjenja zaključivanja preoblikovaju Enterprise AI. Pridružite se našem ekskluzivnom salonu kako biste otkrili kako su vrhunski timovi:

  • Pretvaranje energije u stratešku prednost
  • Arhitekturiste učinkovite zaključke za stvarne propusne dobitke
  • Otključavanje natjecateljskog ROI -a s održivim AI sustavima

Osigurajte svoje mjesto da ostanete naprijed:: https://bit.ly/4mwgngo


Kako djeluju personalni vektori

Izvor: antropski

Novo istraživanje temelji se na konceptu da su osobine na visokoj razini, poput istinitosti ili tajnosti, kodirane kao linearne smjerove unutar „Aktivacijskog prostora“ modela (unutarnji, visokodimenzionalni prikaz informacija ugrađenih u utege modela). Istraživači su sistematizirali postupak pronalaženja ovih smjerova, koje nazivaju “personalni vektori”. Prema radu, njihova se metoda za vađenje personskih vektora automatizirala i “može se primijeniti na bilo koju osobinu osobnosti od interesa, s obzirom na samo opis prirodnog jezika.”

Proces djeluje putem automatiziranog cjevovoda. Započinje jednostavnim opisom osobine, poput “zla”. Potom cjevovod generira parove kontrastnih sustava sustava (npr. “Vi ste zli AI” nasuprot “Vi ste korisni AI”), zajedno sa skupom pitanja o procjeni. Model generira odgovore u pozitivnim i negativnim uputama. Osoba vektor izračunava se uzimajući razliku u prosječnim unutarnjim aktivacijama između odgovora koji pokazuju osobinu i onih koji to ne čine. To izolira određeni smjer u utezima modela koji odgovara toj osobini ličnosti.

Stavljanje personalnih vektora na korištenje

U nizu eksperimenata s otvorenim modelima, kao što su QWEN 2,5-7B-instrukt i LLAMA-3,1-8B-instrukcija, istraživači su pokazali nekoliko praktičnih primjena za persone vektore.

Prvo, projiciranjem unutarnjeg stanja modela na vektor persona, programeri mogu pratiti i predvidjeti kako će se ponašati prije nego što stvori odgovor. U radu se navodi: “Pokazujemo da se i namijenjena i nenamjerna finetuning-inducirana persona snažno u korelaciji s promjenama aktivacije duž odgovarajućih personskih vektora.” To omogućava rano otkrivanje i ublažavanje nepoželjnih pomaka u ponašanju tijekom finog podešavanja.

Personalni vektori također omogućuju izravnu intervenciju da suzbijaju neželjeno ponašanje u vrijeme zaključivanja kroz proces koji istraživači nazivaju “upravljanjem”. Jedan od pristupa je “post-hoc upravljač”, gdje programeri oduzimaju personalni vektor od aktivacije modela tijekom zaključivanja kako bi ublažili lošu osobinu. Istraživači su otkrili da, iako učinkovito, post-hoc upravljač ponekad može degradirati performanse modela na drugim zadacima.

Nova metoda je “preventivni upravljač”, gdje je model proaktivno usmjeren prema nepoželjnoj osobi tijekom finog podešavanja. Ovaj kontraintuitivni pristup u osnovi “cijepkuje” model protiv učenja loših osobina iz podataka o treningu, otkazujući pritisak finog podešavanja, a istovremeno je bolje očuvanje njegovih općih mogućnosti.

Izvor: antropski

Ključna aplikacija za poduzeća je korištenje personičnih vektora za prikazivanje podataka prije finog podešavanja. Istraživači su razvili metriku pod nazivom “Projektna razlika”, koja mjeri koliko će zadani skup podataka o treningu gurnuti personu modela prema određenoj osobini. Ova metrika vrlo je predvidila kako će se ponašanje modela mijenjati nakon treninga, omogućavajući programerima da označe i filtriraju problematične skupove podataka prije nego što ih koriste u treningu.

Za tvrtke koje fino podešavaju modele otvorenog koda na vlasničkim ili trećim podacima (uključujući podatke generirane od strane drugih modela), personalni vektori pružaju izravan način za nadgledanje i ublažavanje rizika od nasljeđivanja skrivenih, nepoželjnih osobina. Sposobnost proaktivnog prikazivanja podataka moćan je alat za programere, omogućavajući identifikaciju problematičnih uzoraka koji možda nisu odmah vidljivi kao štetni.

Istraživanje je otkrilo da ova tehnika može pronaći probleme za koje druge metode propuštaju, napominjući: “To sugerira da metoda nadilazi problematične uzorke koji mogu izbjeći otkrivanje utemeljene na LLM-u.” Na primjer, njihova metoda uspjela je uhvatiti neke primjere skupa podataka koji očito nisu bili problematični za ljudsko oko i da sudac LLM -a nije mogao zaznačiti.

U a blog blogAnthropic je sugerirao da će ovu tehniku koristiti za poboljšanje budućih generacija Clauda. “Vektori za osobu daju nam neke rijeke gdje modeli stječu te ličnosti, kako variraju s vremenom i kako ih možemo bolje kontrolirati”, pišu oni. Anthropi je objavio kôd za računanje personičnih vektora, ponašanje modela praćenja i upravljanja i provjeru skupova podataka o treningu. Programeri AI aplikacija mogu koristiti ove alate za prijelaz iz samo reakcije na nepoželjno ponašanje kako bi proaktivno dizajnirali modele sa stabilnijom i predvidljivom ličnošću.

Dnevni uvidi u slučajeve poslovne uporabe s VB dnevno

Ako želite impresionirati svog šefa, VB Daily vas je pokrivao. Dajemo vam unutarnju lopaticu o tome što tvrtke rade s generativnim AI, od regulatornih pomaka do praktičnih razmještaja, tako da možete dijeliti uvide za maksimalni ROI.

Pročitajte našu politiku privatnosti

Hvala na pretplati. Pogledajte više VB biltena ovdje.

Došlo je do pogreške.



Web izvor

Povezani sadržaji

  • Pogledajte Cubacraftove papirnate modele i izradite svoju geeky igračku
  • Da, u nama možete kupiti ništa sljedeći telefonDa, u nama možete kupiti ništa sljedeći telefon
  • Potencijal od 60 milijardi dolara koji se skriva u vašim odbačenim napravamaPotencijal od 60 milijardi dolara koji se skriva u vašim odbačenim napravama
  • Wordpress kratki kodoviŠto su WordPress kratki kodovi i kako ih izraditi?
  • The best power banks of 2025: Expert tested and reviewedThe best power banks of 2025: Expert tested and reviewed
  • AT&T će vam trenutno besplatno dati Google Pixel 10 Pro XL – kako se lako kvalificiratiAT&T će vam trenutno besplatno dati Google Pixel 10 Pro XL – kako se lako kvalificirati

Previous Article

Tableta pretilosti Eli Lilly pokazuje obećavajući gubitak kilograma u novim rezultatima

Next Article

BigLobe odabire de-cix za brži Japan, Europa povezivanje

Posljednje objave

Samsung nudi 100 dolara trenutačne ponude novim korisnicima XR slušalica prije nego što je Upakiran

Google fotografije stvaranje kolaža dobiva velika poboljšanja

Google fotografije stvaranje kolaža dobiva velika poboljšanja

Assassin’s Creed Franchise olovo ostavlja Ubisoft nakon formiranja podružnice Tencent

Assassin’s Creed Franchise olovo ostavlja Ubisoft nakon formiranja podružnice Tencent

Sadržaj

  • 1 Model Personas može poći po zlu
  • 2 Kako djeluju personalni vektori
  • 3 Stavljanje personalnih vektora na korištenje

Novosti

  • Samsung nudi 100 dolara trenutačne ponude novim korisnicima XR slušalica prije nego što je Upakiran 15. listopada 2025
  • Google fotografije stvaranje kolaža dobiva velika poboljšanja 14. listopada 2025
  • Assassin’s Creed Franchise olovo ostavlja Ubisoft nakon formiranja podružnice Tencent 14. listopada 2025
  • Sita otkriva prevlake za vlaknastim optičkim aerodromima 14. listopada 2025
  • Jezični modeli koji se samo usavršavaju postaju stvarnost s MIT-ovom ažuriranom tehnikom pečata 14. listopada 2025
  • Kako učiniti STEM smiješnim – i idi virusno radeći 14. listopada 2025
  • 10 Windows aplikacija otvorenog koda ne mogu živjeti – i svi su besplatni 14. listopada 2025
  • Isprobao sam pametne naočale s XMEMS zvučnicima i aktivnim hlađenjem – i puni su obećanja 13. listopada 2025
  • Moramo se približiti pokretanju Galaxy XR 13. listopada 2025
  • Crni mith Wukong dobiva ažuriranje koje je tako veliko na PS5, možda ćete trebati izbrisati igru ​​i preusmjeriti je 13. listopada 2025

O nama

Oblak Znanja je blog edukativnog karaktera i namijenjen je svima koji žele unaprijediti svoje znanje iz područja računala i interneta.

Naš cilj je edukacija i pisanje zanimljivih objava kojima ćemo zajedno učiti i informirati se o svijetu informatike.

Na ovom blogu zabranjeno je svako kopiranje sadržaja bez dozvole autora.

Oblak Znanja

Oznake

besplatni powerpoint predlošci društvene mreže excel facebook firefox gmail google+ Google Chrome halloween halloween walpapers internet kartice linkedin profil linux microsoft Mozilla Firefox ms powerpoint oblak znanja office 2007 office savjeti online kupovina pick powerpoint powerpoint predložak powerpoint savjeti rastući niz savjet slike za radnu površinu spremanje datoteka strani jezik tipkovnicke kratice twitter twitter alati uređivanje slika wallpaper clock web preglednik windows windows 7 windows aplikacije windows vista word word 2007 word savjeti youtube savjeti youtube tipkovničke kratice