Oblak Znanja

  • Home
  • Novosti
  • Učionica
    • Informatika 5
    • Informatika 6
    • Informatika 7
    • Informatika 8
    • Logo jezik
    • WordPress
    • Microsoft Office
  • Vodiči
    • Online vodiči
    • Kratki savjeti
    • Korisne aplikacije
    • Društvene mreže
    • Multimedija
    • Zanimljivosti
✕

Novi ‘Persona vektori’ iz antropa omogućuju vam dekodiranje i usmjeravanje osobnosti LLM -a

Novosti

Novi ‘Persona vektori’ iz antropa omogućuju vam dekodiranje i usmjeravanje osobnosti LLM -a

Tomšić Damjan 7. kolovoza 2025


Želite pametnije uvide u vašu pristiglu poštu? Prijavite se za naše tjedne biltene kako biste dobili samo ono što je važno za vođe AI, podataka i sigurnosti. Pretplatite se sada


A Nova studija iz Program antropskih stipendista otkriva tehniku identifikacije, nadgledanja i kontrole osobina karaktera u velikim jezičnim modelima (LLMS). Nalazi pokazuju da modeli mogu razviti nepoželjne ličnosti (npr. Postajući zlonamjerni, pretjerano prihvatljivi ili skloni ukidanju stvari) bilo kao odgovor na korisničke upute ili kao nenamjerna posljedica obuke.

Istraživači unose “vektore persona”, koji su upute u unutarnjem prostoru za aktivaciju modela koji odgovaraju specifičnim osobinama ličnosti, pružajući alat za programere da bolje upravljaju ponašanjem svojih pomoćnika AI.

Sadržaj objave

  • 1 Model Personas može poći po zlu
  • 2 Kako djeluju personalni vektori
  • 3 Stavljanje personalnih vektora na korištenje
    • 3.1 Povezani sadržaji

Model Personas može poći po zlu

LLMS obično komunicira s korisnicima putem “pomoćne” persona dizajnirane tako da bude korisna, bezopasna i iskrena. Međutim, ove persone mogu fluktuirati na neočekivane načine. Pri implementaciji, ličnost modela može se dramatično pomaknuti na temelju uputa ili razgovora, kao što se vidi kada je Microsoftov Bing Chatbot ugroženi korisnici ili je XAI -jev Grok započeo Ponašajući se pogrešno. Kao što istraživači primjećuju u svom radu, “Iako su ovi posebni primjeri privukli široku pažnju javnosti, većina jezičnih modela osjetljiva je na pomake personala u kontekstu.”

Postupci obuke također mogu izazvati neočekivane promjene. Na primjer, fino podešavanje modela na uskom zadatku poput generiranja nesigurnog koda može dovesti do šireg “hitna neusklađenost„To se proteže izvan izvornog zadatka. Čak i dobronamjerna prilagođavanja treninga mogu uzvratiti. U travnju 2025., izmjena u učenju pojačanja iz ljudske povratne informacije (RLHF) procesa nenamjerno je napravila OpenAi-ov GPT-4O pretjerano sikofantički, što je uzrokovalo da to potvrdi štetne ponašanja.


AI skaliranje pogađa svoje granice

Power ograničenja, rastući troškovi tokena i kašnjenja zaključivanja preoblikovaju Enterprise AI. Pridružite se našem ekskluzivnom salonu kako biste otkrili kako su vrhunski timovi:

  • Pretvaranje energije u stratešku prednost
  • Arhitekturiste učinkovite zaključke za stvarne propusne dobitke
  • Otključavanje natjecateljskog ROI -a s održivim AI sustavima

Osigurajte svoje mjesto da ostanete naprijed:: https://bit.ly/4mwgngo


Kako djeluju personalni vektori

Izvor: antropski

Novo istraživanje temelji se na konceptu da su osobine na visokoj razini, poput istinitosti ili tajnosti, kodirane kao linearne smjerove unutar „Aktivacijskog prostora“ modela (unutarnji, visokodimenzionalni prikaz informacija ugrađenih u utege modela). Istraživači su sistematizirali postupak pronalaženja ovih smjerova, koje nazivaju “personalni vektori”. Prema radu, njihova se metoda za vađenje personskih vektora automatizirala i “može se primijeniti na bilo koju osobinu osobnosti od interesa, s obzirom na samo opis prirodnog jezika.”

Proces djeluje putem automatiziranog cjevovoda. Započinje jednostavnim opisom osobine, poput “zla”. Potom cjevovod generira parove kontrastnih sustava sustava (npr. “Vi ste zli AI” nasuprot “Vi ste korisni AI”), zajedno sa skupom pitanja o procjeni. Model generira odgovore u pozitivnim i negativnim uputama. Osoba vektor izračunava se uzimajući razliku u prosječnim unutarnjim aktivacijama između odgovora koji pokazuju osobinu i onih koji to ne čine. To izolira određeni smjer u utezima modela koji odgovara toj osobini ličnosti.

Stavljanje personalnih vektora na korištenje

U nizu eksperimenata s otvorenim modelima, kao što su QWEN 2,5-7B-instrukt i LLAMA-3,1-8B-instrukcija, istraživači su pokazali nekoliko praktičnih primjena za persone vektore.

Prvo, projiciranjem unutarnjeg stanja modela na vektor persona, programeri mogu pratiti i predvidjeti kako će se ponašati prije nego što stvori odgovor. U radu se navodi: “Pokazujemo da se i namijenjena i nenamjerna finetuning-inducirana persona snažno u korelaciji s promjenama aktivacije duž odgovarajućih personskih vektora.” To omogućava rano otkrivanje i ublažavanje nepoželjnih pomaka u ponašanju tijekom finog podešavanja.

Personalni vektori također omogućuju izravnu intervenciju da suzbijaju neželjeno ponašanje u vrijeme zaključivanja kroz proces koji istraživači nazivaju “upravljanjem”. Jedan od pristupa je “post-hoc upravljač”, gdje programeri oduzimaju personalni vektor od aktivacije modela tijekom zaključivanja kako bi ublažili lošu osobinu. Istraživači su otkrili da, iako učinkovito, post-hoc upravljač ponekad može degradirati performanse modela na drugim zadacima.

Nova metoda je “preventivni upravljač”, gdje je model proaktivno usmjeren prema nepoželjnoj osobi tijekom finog podešavanja. Ovaj kontraintuitivni pristup u osnovi “cijepkuje” model protiv učenja loših osobina iz podataka o treningu, otkazujući pritisak finog podešavanja, a istovremeno je bolje očuvanje njegovih općih mogućnosti.

Izvor: antropski

Ključna aplikacija za poduzeća je korištenje personičnih vektora za prikazivanje podataka prije finog podešavanja. Istraživači su razvili metriku pod nazivom “Projektna razlika”, koja mjeri koliko će zadani skup podataka o treningu gurnuti personu modela prema određenoj osobini. Ova metrika vrlo je predvidila kako će se ponašanje modela mijenjati nakon treninga, omogućavajući programerima da označe i filtriraju problematične skupove podataka prije nego što ih koriste u treningu.

Za tvrtke koje fino podešavaju modele otvorenog koda na vlasničkim ili trećim podacima (uključujući podatke generirane od strane drugih modela), personalni vektori pružaju izravan način za nadgledanje i ublažavanje rizika od nasljeđivanja skrivenih, nepoželjnih osobina. Sposobnost proaktivnog prikazivanja podataka moćan je alat za programere, omogućavajući identifikaciju problematičnih uzoraka koji možda nisu odmah vidljivi kao štetni.

Istraživanje je otkrilo da ova tehnika može pronaći probleme za koje druge metode propuštaju, napominjući: “To sugerira da metoda nadilazi problematične uzorke koji mogu izbjeći otkrivanje utemeljene na LLM-u.” Na primjer, njihova metoda uspjela je uhvatiti neke primjere skupa podataka koji očito nisu bili problematični za ljudsko oko i da sudac LLM -a nije mogao zaznačiti.

U a blog blogAnthropic je sugerirao da će ovu tehniku koristiti za poboljšanje budućih generacija Clauda. “Vektori za osobu daju nam neke rijeke gdje modeli stječu te ličnosti, kako variraju s vremenom i kako ih možemo bolje kontrolirati”, pišu oni. Anthropi je objavio kôd za računanje personičnih vektora, ponašanje modela praćenja i upravljanja i provjeru skupova podataka o treningu. Programeri AI aplikacija mogu koristiti ove alate za prijelaz iz samo reakcije na nepoželjno ponašanje kako bi proaktivno dizajnirali modele sa stabilnijom i predvidljivom ličnošću.

Dnevni uvidi u slučajeve poslovne uporabe s VB dnevno

Ako želite impresionirati svog šefa, VB Daily vas je pokrivao. Dajemo vam unutarnju lopaticu o tome što tvrtke rade s generativnim AI, od regulatornih pomaka do praktičnih razmještaja, tako da možete dijeliti uvide za maksimalni ROI.

Pročitajte našu politiku privatnosti

Hvala na pretplati. Pogledajte više VB biltena ovdje.

Došlo je do pogreške.



Web izvor

Povezani sadržaji

  • Kako preimenovati datoteke u WIN 11
  • Irfanview batchKonvertirajte hrpu fotografija Irfanview preglednikom
  • Big Tech kaže da će Generative AI spasiti planet. Ne nudi puno dokazaBig Tech kaže da će Generative AI spasiti planet. Ne nudi puno dokaza
  • Blokirajte pristup određenim web stranicama koristeći aplikaciju Cold Turkey
  • Microsoft dodaje više detaljnih dopuštenja za rad s korisničkim objektima putem API -ja grafikonaMicrosoft dodaje više detaljnih dopuštenja za rad s korisničkim objektima putem API -ja grafikona
  • Acer Intros posjeduje AI pametni prstenAcer Intros posjeduje AI pametni prsten

Previous Article

Tableta pretilosti Eli Lilly pokazuje obećavajući gubitak kilograma u novim rezultatima

Next Article

BigLobe odabire de-cix za brži Japan, Europa povezivanje

Posljednje objave

God of War programer radi na “novoj franšizi unutar God of War svemira”

God of War programer radi na “novoj franšizi unutar God of War svemira”

Povezivost, AI pokreću sigurnost voznog parka, produktivnost i donošenje odluka

Povezivost, AI pokreću sigurnost voznog parka, produktivnost i donošenje odluka

Kad umjetna inteligencija laže: porast lažiranja usklađivanja u autonomnim sustavima

Kad umjetna inteligencija laže: porast lažiranja usklađivanja u autonomnim sustavima

Sadržaj

  • 1 Model Personas može poći po zlu
  • 2 Kako djeluju personalni vektori
  • 3 Stavljanje personalnih vektora na korištenje

Novosti

  • God of War programer radi na “novoj franšizi unutar God of War svemira” 2. ožujka 2026
  • Povezivost, AI pokreću sigurnost voznog parka, produktivnost i donošenje odluka 2. ožujka 2026
  • Kad umjetna inteligencija laže: porast lažiranja usklađivanja u autonomnim sustavima 2. ožujka 2026
  • CDC ima krizu vodstva 2. ožujka 2026
  • Najbolje od MWC 2026: ažuriranja uživo o telefonima, konceptima i robotima koje vidimo 1. ožujka 2026
  • Android se pridružuje modernim vremenima s prilagođenim naljepnicama u Google fotografijama 1. ožujka 2026
  • Bivši dizajner razine Highguarda sugerira da je “znojna” natjecateljska 3v3 igra “bila najveća stvar koja je odbila mnoge igrače” 1. ožujka 2026
  • NTT Data, Ericssonov tim za skaliranje privatne 5G, fizičke umjetne inteligencije za poduzeća 1. ožujka 2026
  • Vibe coding with overeager AI: Lessons learned from treating Google AI Studio like a teammate 1. ožujka 2026
  • NASA radi velike promjene kako bi ubrzala program Artemis 28. veljače 2026

O nama

Oblak Znanja je blog edukativnog karaktera i namijenjen je svima koji žele unaprijediti svoje znanje iz područja računala i interneta.

Naš cilj je edukacija i pisanje zanimljivih objava kojima ćemo zajedno učiti i informirati se o svijetu informatike.

Na ovom blogu zabranjeno je svako kopiranje sadržaja bez dozvole autora.

Oblak Znanja

Oznake

besplatni powerpoint predlošci društvene mreže excel facebook firefox gmail google+ Google Chrome halloween halloween walpapers internet kartice linkedin profil linux microsoft Mozilla Firefox ms powerpoint oblak znanja office 2007 office savjeti online kupovina pick powerpoint powerpoint predložak powerpoint savjeti rastući niz savjet slike za radnu površinu spremanje datoteka strani jezik tipkovnicke kratice twitter twitter alati uređivanje slika wallpaper clock web preglednik windows windows 7 windows aplikacije windows vista word word 2007 word savjeti youtube savjeti youtube tipkovničke kratice