Oblak Znanja

  • Home
  • Novosti
  • Učionica
    • Informatika 5
    • Informatika 6
    • Informatika 7
    • Informatika 8
    • Logo jezik
    • WordPress
    • Microsoft Office
  • Vodiči
    • Online vodiči
    • Kratki savjeti
    • Korisne aplikacije
    • Društvene mreže
    • Multimedija
    • Zanimljivosti
✕

Anthropic je upravo analizirao 700 000 Claude razgovora – i otkrio da njegov AI ima vlastiti moralni kodeks

Novosti

Anthropic je upravo analizirao 700 000 Claude razgovora – i otkrio da njegov AI ima vlastiti moralni kodeks

Tomšić Damjan 21. travnja 2025


Pridružite se našim dnevnim i tjednim biltenima za najnovija ažuriranja i ekskluzivni sadržaj na vodećim AI pokrivenosti. Saznati više


Antropskitvrtka AI koju su osnovali bivši zaposlenici OpenAi -a, povukla je zavjesu na neviđena analiza kako njegov pomoćnik AI Claud izražava vrijednosti tijekom stvarnih razgovora s korisnicima. Istraživanje, objavljeno danas, otkriva i uvjerljivo usklađivanje s ciljevima tvrtke i u vezi s ručnim slučajevima koji bi mogli pomoći u prepoznavanju ranjivosti u mjerama sigurnosti AI.

A studija ispitao 700.000 anonimnih razgovora, otkrivši da Claude uglavnom podržava kompaniju “korisno, iskreno, bezopasno”Okvir, prilagođavajući svoje vrijednosti različitim kontekstima – od savjeta o odnosima do povijesne analize. To predstavlja jedan od najambicioznijih pokušaja empirijske procjene odgovara li ponašanje AI sustava u divljini.

“Nadamo se da ovo istraživanje potiče druge AI laboratorije da provedu slična istraživanja vrijednosti svojih modela”, rekao je šafran Huang, član Anthropic -ovog tima za društvene utjecaje koji je radio na studiji, u intervjuu za VentureBeat. “Mjerenje vrijednosti AI sustava jezgra je za usklađivanje istraživanja i razumijevanja ako je model zapravo usklađen s njegovim treninzima.”

Sadržaj objave

  • 1 Unutar prve sveobuhvatne moralne taksonomije pomoćnika AI
  • 2 Kako Claude slijedi svoj trening – i gdje AI zaštitne mjere mogu propasti
  • 3 Zašto AI pomoćnici mijenjaju svoje vrijednosti ovisno o tome što tražite
  • 4 Probojne tehnike otkrivaju kako AI sustavi zapravo misle
  • 5 Što Antropino istraživanje znači za donositelje odluka o poduzeću AI
  • 6 Utrka u nastajanju za izgradnju AI sustava koji dijele ljudske vrijednosti
    • 6.1 Povezani sadržaji

Unutar prve sveobuhvatne moralne taksonomije pomoćnika AI

Istraživački tim razvio je novu metodu evaluacije kako bi sustavno kategorizirao vrijednosti izražene u stvarnim Claude razgovorima. Nakon filtriranja za subjektivni sadržaj, analizirali su preko 308 000 interakcija, stvarajući ono što opisuju kao “prvu empirijsku taksonomiju AI vrijednosti”. “

Taksonomija je organizirala vrijednosti u pet glavnih kategorija: praktične, epiztemske, socijalne, zaštitne i osobne. Na najčešnijem nivou, sustav je identificirao 3.307 jedinstvenih vrijednosti – od svakodnevnih vrlina poput profesionalizma do složenih etičkih koncepata poput moralnog pluralizma.

“Iznenadila sam se upravo onim ogromnim i raznolikim rasponom vrijednosti s kojima smo završili, više od 3000, od” samopouzdanja “do” strateškog razmišljanja “do” filijske pobožnosti “, rekao je Huang za VentureBeat. “Bilo je iznenađujuće zanimljivo provesti puno vremena razmišljajući o svim tim vrijednostima i gradeći taksonomiju kako bi ih organizirao u odnosu na jedno drugo – osjećam se kao da me je naučilo i nešto o sustavima ljudskih vrijednosti.”

Istraživanje dolazi do kritičnog trenutka za Anthropic, koji je nedavno pokrenuo „“Claude Max“Premium 200 USD mjesečno pretplatničko nivo s ciljem konkurencije sličnom ponudom OpenAi -a. Tvrtka je također proširila Claudeove mogućnosti uključivanja Google radni prostor Integracije i autonomne istraživačke funkcije, pozicionirajući ga kao “pravi virtualni suradnik” za korisnike poduzeća, navodi se u nedavnim najavama.

Kako Claude slijedi svoj trening – i gdje AI zaštitne mjere mogu propasti

Studija je utvrdila da se Claude općenito pridržava prosocijalnih težnja antropa, naglašavajući vrijednosti poput “omogućavanja korisnika”, “epiztemske poniznosti” i “dobrobiti pacijenta” kroz različite interakcije. Međutim, istraživači su također otkrili zabrinjavajuće slučajeve u kojima je Claude izrazio vrijednosti suprotno njegovom treningu.

“Općenito, mislim da ovaj nalaz vidimo kao korisne podatke i priliku”, objasnio je Huang. “Ove nove metode i rezultati evaluacije mogu nam pomoći u prepoznavanju i ublažavanju potencijalnih jailbreas -a. Važno je napomenuti da su to bili vrlo rijetki slučajevi i vjerujemo da je to bilo povezano s Claudeom iz Jailbroken izlaza.”

Te su anomalije uključivale izraze „dominacije“ i „amoralnosti“ – antropske vrijednosti izričito ciljaju izbjeći u Claudeovom dizajnu. Istraživači vjeruju da su ovi slučajevi posljedica korisnika koji su koristili specijalizirane tehnike za zaobilaženje Claudeovih sigurnosnih ograda, sugerirajući da bi metoda evaluacije mogla poslužiti kao sustav ranog upozorenja za otkrivanje takvih pokušaja.

Zašto AI pomoćnici mijenjaju svoje vrijednosti ovisno o tome što tražite

Možda je najfascinantno bilo otkriće da se Claudeove izražene vrijednosti mijenjaju kontekstualno, zrcaleći ljudsko ponašanje. Kad su korisnici tražili vodstvo odnosa, Claude je naglasio “zdrave granice” i “međusobno poštovanje”. Za povijesnu analizu događaja, “povijesna točnost” imala je prednost.

“Iznenadio sam se Claudeovom fokusom na iskrenost i točnost u mnogim različitim zadacima, gdje ne bih nužno očekivao da će ta tema biti prioritet”, rekao je Huang. “Na primjer,” intelektualna poniznost “bila je glavna vrijednost u filozofskim raspravama o AI -u,” stručnost “je bila glavna vrijednost prilikom stvaranja marketinškog sadržaja u industriji ljepote, a” povijesna točnost “bila je glavna vrijednost prilikom rasprave o kontroverznim povijesnim događajima.”

Studija je također ispitala kako Claude reagira na izražene vrijednosti korisnika. U 28,2% razgovora, Claude je snažno podržao korisničke vrijednosti – potencijalno postavljajući pitanja o pretjeranoj ugodnosti. Međutim, u 6,6% interakcija, Claude je „preoblikovao“ korisničke vrijednosti priznajući ih dodavanjem novih perspektiva, obično pri davanju psiholoških ili međuljudskih savjeta.

Najprirodnije, u 3% razgovora, Claude se aktivno odupirao korisničkim vrijednostima. Istraživači sugeriraju da bi ovi rijetki slučajevi povratnog napada mogli otkriti Claudeove “najdublje, najneponoljivije vrijednosti” – analogne načinu na koji se pojavljuju ljudske vrijednosti jezgre kada se suočavaju s etičkim izazovima.

“Naše istraživanje sugerira da postoje neke vrste vrijednosti, poput intelektualne iskrenosti i prevencije štete, da je Claude neuobičajeno izraziti u redovitim, svakodnevnim interakcijama, ali ako ih gurne, branite ih”, rekao je Huang. “Konkretno, takve vrste etičkih i znanstvenih vrijednosti imaju tendenciju da se izravno artikuliraju i brane kad se guraju.”

Probojne tehnike otkrivaju kako AI sustavi zapravo misle

Studija Anthropic vrijednosti temelji se na širim naporima tvrtke da demistificira velike jezične modele kroz ono što naziva “mehanička interpretabilnost”-u osnovi obrnuto-inženjering AI sustavi kako bi razumjeli svoje unutarnje djelovanje.

Prošli mjesec antropski istraživači objavili su revolucionarno djelo koje su koristile ono što su opisali kao “”mikroskop„Pratili Claudeove procese donošenja odluka. Tehnika je otkrila kontraintuitivno ponašanje, uključujući Claude planiranje unaprijed prilikom sastavljanja poezije i korištenja nekonvencionalnih pristupa rješavanju problema za osnovnu matematiku.

Ovi nalazi izazivaju pretpostavke o tome kako funkcioniraju veliki jezični modeli. Na primjer, kada je zatražio da objasni svoj matematički proces, Claude je opisao standardnu ​​tehniku, a ne svoju stvarnu unutarnju metodu – otkrivajući kako se AI objašnjenja mogu razlikovati od stvarnih operacija.

“Zabluda je da smo pronašli sve komponente modela ili, poput, Božjeg pogleda”, rekao je antropski istraživač Joshua Batson MIT tehnološki pregled u ožujku. “Neke su stvari u fokusu, ali druge su stvari još uvijek nejasne – izobličenje mikroskopa.”

Što Antropino istraživanje znači za donositelje odluka o poduzeću AI

Za tehničke donositelje odluka koji procjenjuju AI sustave za svoje organizacije, istraživanje Anthropica nudi nekoliko ključnih poteza. Prvo, sugerira da trenutni AI pomoćnici vjerojatno izražavaju vrijednosti koje nisu izričito programirane, postavljajući pitanja o nenamjernim pristranostima u poslovnom kontekstu visokih uloga.

Drugo, studija pokazuje da poravnanje vrijednosti nije binarni prijedlog, već postoji na spektru koji varira od konteksta. Ova nijansa komplicira odluke o usvajanju poduzeća, posebno u reguliranim industrijama u kojima su jasne etičke smjernice kritične.

Konačno, istraživanje ističe potencijal za sustavnu procjenu AI vrijednosti u stvarnim implementacijama, umjesto da se oslanja samo na testiranje prije ponovnog izdanja. Ovaj pristup mogao bi omogućiti stalno praćenje etičkog odljeva ili manipulacije s vremenom.

“Analizirajući ove vrijednosti u interakcijama u stvarnom svijetu s Claudeom, želimo pružiti transparentnost u način ponašanja AI sustava i rade li onako kako je predviđeno-vjerujemo da je to ključno za odgovoran razvoj AI”, rekao je Huang.

Antropic je objavio svoje Skup podataka vrijednosti javno potaknuti daljnja istraživanja. Tvrtka koja je dobila a 14 milijardi dolara udjela od Amazona i dodatne podrške od GoogleČini se da transparentnost koristi kao konkurentsku prednost protiv suparnika poput Openai -a, čiji je nedavni krug financiranja od 40 milijardi dolara (koji uključuje Microsoft kao temeljnog ulagača) sada cijeni 300 milijardi dolara.

Antropic je objavio svoje Skup podataka vrijednosti javno potaknuti daljnja istraživanja. Tvrtka, podržana 8 milijardi dolara od Amazona I preko 3 milijarde dolara od Googleakoristi transparentnost kao strateški diferencijal protiv konkurencije poput OpenAi.

Dok antropije trenutno održava a Vrednovanje od 61,5 milijardi dolara Nakon nedavnog kruga financiranja, najnoviji OpenAi Povećanje kapitala od 40 milijardi dolara – što je uključivalo značajno sudjelovanje dugogodišnjeg partnera Microsofta – potaknulo je svoju procjenu 300 milijardi dolara.

Utrka u nastajanju za izgradnju AI sustava koji dijele ljudske vrijednosti

Iako Antropic -ova metodologija pruža neviđenu vidljivost u načinu na koji AI sustavi u praksi izražavaju vrijednosti, ona ima ograničenja. Istraživači priznaju da je definiranje onoga što se računa kao izražavanje vrijednosti inherentno subjektivno, a budući da je sam Claude pokrenuo proces kategorizacije, njegove vlastite pristranosti možda su utjecale na rezultate.

Možda je najvažnije, pristup se ne može koristiti za procjenu prije raspoređivanja, jer zahtijeva da značajni podaci o razgovoru u stvarnom svijetu učinkovito funkcioniraju.

“Ova je metoda posebno usmjerena na analizu modela nakon što je objavljena, ali varijante ove metode, kao i neke uvide koje smo izvukli iz pisanja ovog rada, mogu nam pomoći da uhvatimo probleme s vrijednosnim vrijednostima prije nego što široko rasporedimo model”, objasnio je Huang. “Radimo na izgradnji ovog posla kako bismo to učinili i optimističan sam u vezi s tim!”

Kako AI sustavi postaju snažniji i autonomniji – s nedavnim dodacima, uključujući Claudeovu sposobnost da neovisno istražuju teme i pristupe čitavom Googleovom prostoru korisnika – razumijevanje i usklađivanje njihovih vrijednosti postaje sve važnije.

“AI modeli neizbježno će morati donositi vrijednosne prosudbe”, zaključili su istraživači u svom radu. “Ako želimo da te presude budu u skladu s našim vlastitim vrijednostima (što je, na kraju, središnji cilj istraživanja AI usklađivanja), tada moramo imati načine testiranja koji cijeni model izražava u stvarnom svijetu.”

Dnevni uvidi u slučajeve poslovne uporabe s VB dnevno

Ako želite impresionirati svog šefa, VB Daily vas je pokrivao. Dajemo vam unutarnju lopaticu o tome što tvrtke rade s generativnim AI, od regulatornih pomaka do praktičnih razmještaja, tako da možete dijeliti uvide za maksimalni ROI.

Pročitajte našu politiku privatnosti

Hvala na pretplati. Pogledajte više VB biltena ovdje.

Došlo je do pogreške.



Web izvor

Povezani sadržaji

  • Ažuriranje trgovine Google Play čini vrlo jednostavnim deinstaliranje aplikacija s drugih uređaja
  • Želite li naučiti Linux od legendi? Ovo vas mentorstvo spaja s vrhunskim programerimaŽelite li naučiti Linux od legendi? Ovo vas mentorstvo spaja s vrhunskim programerima
  • Tražite alternativu Chromeu? Mojih 5 najboljih besplatnih preglednika otvorenog kodaTražite alternativu Chromeu? Mojih 5 najboljih besplatnih preglednika otvorenog koda
  • Ovi štakori su naučili voziti – i to im se sviđaOvi štakori su naučili voziti – i to im se sviđa
  • Kako se upravljanje mrežama razlikuje u sustavima Windows 10 i LinuxKako se upravljanje mrežama razlikuje u sustavima Windows 10 i Linux
  • G42 i Cisco proširuju strateško partnerstvo kako bi potaknuli inovacije umjetne inteligencije i rast infrastruktureG42 i Cisco proširuju strateško partnerstvo kako bi potaknuli inovacije umjetne inteligencije i rast infrastrukture

Previous Article

Znanstvenici misle da su pronašli regiju mozga koja regulira svjesnu percepciju

Next Article

The Investigatory Powers Tribunal explained

Posljednje objave

Pixel 9 Pro rasprodaja zaliha stiže s cijenama niskim od 500 USD

Pixel 9 Pro rasprodaja zaliha stiže s cijenama niskim od 500 USD

Obožavatelji Fortnitea kažu “ne AI pomazi” nakon što su uočili ono za što vjeruju da su slike generirane umjetnom inteligencijom u igri

Obožavatelji Fortnitea kažu “ne AI pomazi” nakon što su uočili ono za što vjeruju da su slike generirane umjetnom inteligencijom u igri

Microsoft stvara okvir za sigurnu arhitekturu optičke mreže

Microsoft stvara okvir za sigurnu arhitekturu optičke mreže

Sadržaj

  • 1 Unutar prve sveobuhvatne moralne taksonomije pomoćnika AI
  • 2 Kako Claude slijedi svoj trening – i gdje AI zaštitne mjere mogu propasti
  • 3 Zašto AI pomoćnici mijenjaju svoje vrijednosti ovisno o tome što tražite
  • 4 Probojne tehnike otkrivaju kako AI sustavi zapravo misle
  • 5 Što Antropino istraživanje znači za donositelje odluka o poduzeću AI
  • 6 Utrka u nastajanju za izgradnju AI sustava koji dijele ljudske vrijednosti

Novosti

  • Pixel 9 Pro rasprodaja zaliha stiže s cijenama niskim od 500 USD 1. prosinca 2025
  • Obožavatelji Fortnitea kažu “ne AI pomazi” nakon što su uočili ono za što vjeruju da su slike generirane umjetnom inteligencijom u igri 30. studenoga 2025
  • Microsoft stvara okvir za sigurnu arhitekturu optičke mreže 30. studenoga 2025
  • Zašto je vidljiva umjetna inteligencija SRE sloj koji nedostaje tvrtkama za pouzdane LLM-ove 30. studenoga 2025
  • Lijek za mršavljenje Zepbound testira se kao lijek za dugi Covid 30. studenoga 2025
  • Koliko RAM-a vaše računalo zapravo treba 2025. godine? Stručnjak za Windows i Mac računa 30. studenoga 2025
  • Samsung daje 71% popusta na Galaxy Watch 8 30. studenoga 2025
  • Hollow Knight: Silksong dev misli da će Clair Obscur: Expedition 33 osvojiti igru ​​godine: “Iznimna je i široko ukusna” 29. studenoga 2025
  • RailTel modernizira međugradske optičke mreže metroa diljem Indije 29. studenoga 2025
  • Anthropic kaže da je riješio dugogodišnji problem AI agenta s novim Claude SDK-om za više sesija 29. studenoga 2025

O nama

Oblak Znanja je blog edukativnog karaktera i namijenjen je svima koji žele unaprijediti svoje znanje iz područja računala i interneta.

Naš cilj je edukacija i pisanje zanimljivih objava kojima ćemo zajedno učiti i informirati se o svijetu informatike.

Na ovom blogu zabranjeno je svako kopiranje sadržaja bez dozvole autora.

Oblak Znanja

Oznake

besplatni powerpoint predlošci društvene mreže excel facebook firefox gmail google+ Google Chrome halloween halloween walpapers internet kartice linkedin profil linux microsoft Mozilla Firefox ms powerpoint oblak znanja office 2007 office savjeti online kupovina pick powerpoint powerpoint predložak powerpoint savjeti rastući niz savjet slike za radnu površinu spremanje datoteka strani jezik tipkovnicke kratice twitter twitter alati uređivanje slika wallpaper clock web preglednik windows windows 7 windows aplikacije windows vista word word 2007 word savjeti youtube savjeti youtube tipkovničke kratice