Anthropic je upravo analizirao 700 000 Claude razgovora – i otkrio da njegov AI ima vlastiti moralni kodeks

Pridružite se našim dnevnim i tjednim biltenima za najnovija ažuriranja i ekskluzivni sadržaj na vodećim AI pokrivenosti. Saznati više

Antropskitvrtka AI koju su osnovali bivši zaposlenici OpenAi -a, povukla je zavjesu na neviđena analiza kako njegov pomoćnik AI Claud izražava vrijednosti tijekom stvarnih razgovora s korisnicima. Istraživanje, objavljeno danas, otkriva i uvjerljivo usklađivanje s ciljevima tvrtke i u vezi s ručnim slučajevima koji bi mogli pomoći u prepoznavanju ranjivosti u mjerama sigurnosti AI.

A studija ispitao 700.000 anonimnih razgovora, otkrivši da Claude uglavnom podržava kompaniju “korisno, iskreno, bezopasno”Okvir, prilagođavajući svoje vrijednosti različitim kontekstima – od savjeta o odnosima do povijesne analize. To predstavlja jedan od najambicioznijih pokušaja empirijske procjene odgovara li ponašanje AI sustava u divljini.

“Nadamo se da ovo istraživanje potiče druge AI laboratorije da provedu slična istraživanja vrijednosti svojih modela”, rekao je šafran Huang, član Anthropic -ovog tima za društvene utjecaje koji je radio na studiji, u intervjuu za VentureBeat. “Mjerenje vrijednosti AI sustava jezgra je za usklađivanje istraživanja i razumijevanja ako je model zapravo usklađen s njegovim treninzima.”

Sadržaj objave

1 Unutar prve sveobuhvatne moralne taksonomije pomoćnika AI
2 Kako Claude slijedi svoj trening – i gdje AI zaštitne mjere mogu propasti
3 Zašto AI pomoćnici mijenjaju svoje vrijednosti ovisno o tome što tražite
4 Probojne tehnike otkrivaju kako AI sustavi zapravo misle
5 Što Antropino istraživanje znači za donositelje odluka o poduzeću AI
6 Utrka u nastajanju za izgradnju AI sustava koji dijele ljudske vrijednosti
- 6.1 Povezani sadržaji

Unutar prve sveobuhvatne moralne taksonomije pomoćnika AI

Istraživački tim razvio je novu metodu evaluacije kako bi sustavno kategorizirao vrijednosti izražene u stvarnim Claude razgovorima. Nakon filtriranja za subjektivni sadržaj, analizirali su preko 308 000 interakcija, stvarajući ono što opisuju kao “prvu empirijsku taksonomiju AI vrijednosti”. “

Taksonomija je organizirala vrijednosti u pet glavnih kategorija: praktične, epiztemske, socijalne, zaštitne i osobne. Na najčešnijem nivou, sustav je identificirao 3.307 jedinstvenih vrijednosti – od svakodnevnih vrlina poput profesionalizma do složenih etičkih koncepata poput moralnog pluralizma.

“Iznenadila sam se upravo onim ogromnim i raznolikim rasponom vrijednosti s kojima smo završili, više od 3000, od” samopouzdanja “do” strateškog razmišljanja “do” filijske pobožnosti “, rekao je Huang za VentureBeat. “Bilo je iznenađujuće zanimljivo provesti puno vremena razmišljajući o svim tim vrijednostima i gradeći taksonomiju kako bi ih organizirao u odnosu na jedno drugo – osjećam se kao da me je naučilo i nešto o sustavima ljudskih vrijednosti.”

Istraživanje dolazi do kritičnog trenutka za Anthropic, koji je nedavno pokrenuo „“Claude Max“Premium 200 USD mjesečno pretplatničko nivo s ciljem konkurencije sličnom ponudom OpenAi -a. Tvrtka je također proširila Claudeove mogućnosti uključivanja Google radni prostor Integracije i autonomne istraživačke funkcije, pozicionirajući ga kao “pravi virtualni suradnik” za korisnike poduzeća, navodi se u nedavnim najavama.

Kako Claude slijedi svoj trening – i gdje AI zaštitne mjere mogu propasti

Studija je utvrdila da se Claude općenito pridržava prosocijalnih težnja antropa, naglašavajući vrijednosti poput “omogućavanja korisnika”, “epiztemske poniznosti” i “dobrobiti pacijenta” kroz različite interakcije. Međutim, istraživači su također otkrili zabrinjavajuće slučajeve u kojima je Claude izrazio vrijednosti suprotno njegovom treningu.

“Općenito, mislim da ovaj nalaz vidimo kao korisne podatke i priliku”, objasnio je Huang. “Ove nove metode i rezultati evaluacije mogu nam pomoći u prepoznavanju i ublažavanju potencijalnih jailbreas -a. Važno je napomenuti da su to bili vrlo rijetki slučajevi i vjerujemo da je to bilo povezano s Claudeom iz Jailbroken izlaza.”

Te su anomalije uključivale izraze „dominacije“ i „amoralnosti“ – antropske vrijednosti izričito ciljaju izbjeći u Claudeovom dizajnu. Istraživači vjeruju da su ovi slučajevi posljedica korisnika koji su koristili specijalizirane tehnike za zaobilaženje Claudeovih sigurnosnih ograda, sugerirajući da bi metoda evaluacije mogla poslužiti kao sustav ranog upozorenja za otkrivanje takvih pokušaja.

Zašto AI pomoćnici mijenjaju svoje vrijednosti ovisno o tome što tražite

Možda je najfascinantno bilo otkriće da se Claudeove izražene vrijednosti mijenjaju kontekstualno, zrcaleći ljudsko ponašanje. Kad su korisnici tražili vodstvo odnosa, Claude je naglasio “zdrave granice” i “međusobno poštovanje”. Za povijesnu analizu događaja, “povijesna točnost” imala je prednost.

“Iznenadio sam se Claudeovom fokusom na iskrenost i točnost u mnogim različitim zadacima, gdje ne bih nužno očekivao da će ta tema biti prioritet”, rekao je Huang. “Na primjer,” intelektualna poniznost “bila je glavna vrijednost u filozofskim raspravama o AI -u,” stručnost “je bila glavna vrijednost prilikom stvaranja marketinškog sadržaja u industriji ljepote, a” povijesna točnost “bila je glavna vrijednost prilikom rasprave o kontroverznim povijesnim događajima.”

Studija je također ispitala kako Claude reagira na izražene vrijednosti korisnika. U 28,2% razgovora, Claude je snažno podržao korisničke vrijednosti – potencijalno postavljajući pitanja o pretjeranoj ugodnosti. Međutim, u 6,6% interakcija, Claude je „preoblikovao“ korisničke vrijednosti priznajući ih dodavanjem novih perspektiva, obično pri davanju psiholoških ili međuljudskih savjeta.

Najprirodnije, u 3% razgovora, Claude se aktivno odupirao korisničkim vrijednostima. Istraživači sugeriraju da bi ovi rijetki slučajevi povratnog napada mogli otkriti Claudeove “najdublje, najneponoljivije vrijednosti” – analogne načinu na koji se pojavljuju ljudske vrijednosti jezgre kada se suočavaju s etičkim izazovima.

“Naše istraživanje sugerira da postoje neke vrste vrijednosti, poput intelektualne iskrenosti i prevencije štete, da je Claude neuobičajeno izraziti u redovitim, svakodnevnim interakcijama, ali ako ih gurne, branite ih”, rekao je Huang. “Konkretno, takve vrste etičkih i znanstvenih vrijednosti imaju tendenciju da se izravno artikuliraju i brane kad se guraju.”

Probojne tehnike otkrivaju kako AI sustavi zapravo misle

Studija Anthropic vrijednosti temelji se na širim naporima tvrtke da demistificira velike jezične modele kroz ono što naziva “mehanička interpretabilnost”-u osnovi obrnuto-inženjering AI sustavi kako bi razumjeli svoje unutarnje djelovanje.

Prošli mjesec antropski istraživači objavili su revolucionarno djelo koje su koristile ono što su opisali kao “”mikroskop„Pratili Claudeove procese donošenja odluka. Tehnika je otkrila kontraintuitivno ponašanje, uključujući Claude planiranje unaprijed prilikom sastavljanja poezije i korištenja nekonvencionalnih pristupa rješavanju problema za osnovnu matematiku.

Ovi nalazi izazivaju pretpostavke o tome kako funkcioniraju veliki jezični modeli. Na primjer, kada je zatražio da objasni svoj matematički proces, Claude je opisao standardnu tehniku, a ne svoju stvarnu unutarnju metodu – otkrivajući kako se AI objašnjenja mogu razlikovati od stvarnih operacija.

“Zabluda je da smo pronašli sve komponente modela ili, poput, Božjeg pogleda”, rekao je antropski istraživač Joshua Batson MIT tehnološki pregled u ožujku. “Neke su stvari u fokusu, ali druge su stvari još uvijek nejasne – izobličenje mikroskopa.”

Što Antropino istraživanje znači za donositelje odluka o poduzeću AI

Za tehničke donositelje odluka koji procjenjuju AI sustave za svoje organizacije, istraživanje Anthropica nudi nekoliko ključnih poteza. Prvo, sugerira da trenutni AI pomoćnici vjerojatno izražavaju vrijednosti koje nisu izričito programirane, postavljajući pitanja o nenamjernim pristranostima u poslovnom kontekstu visokih uloga.

Drugo, studija pokazuje da poravnanje vrijednosti nije binarni prijedlog, već postoji na spektru koji varira od konteksta. Ova nijansa komplicira odluke o usvajanju poduzeća, posebno u reguliranim industrijama u kojima su jasne etičke smjernice kritične.

Konačno, istraživanje ističe potencijal za sustavnu procjenu AI vrijednosti u stvarnim implementacijama, umjesto da se oslanja samo na testiranje prije ponovnog izdanja. Ovaj pristup mogao bi omogućiti stalno praćenje etičkog odljeva ili manipulacije s vremenom.

“Analizirajući ove vrijednosti u interakcijama u stvarnom svijetu s Claudeom, želimo pružiti transparentnost u način ponašanja AI sustava i rade li onako kako je predviđeno-vjerujemo da je to ključno za odgovoran razvoj AI”, rekao je Huang.

Antropic je objavio svoje Skup podataka vrijednosti javno potaknuti daljnja istraživanja. Tvrtka koja je dobila a 14 milijardi dolara udjela od Amazona i dodatne podrške od GoogleČini se da transparentnost koristi kao konkurentsku prednost protiv suparnika poput Openai -a, čiji je nedavni krug financiranja od 40 milijardi dolara (koji uključuje Microsoft kao temeljnog ulagača) sada cijeni 300 milijardi dolara.

Antropic je objavio svoje Skup podataka vrijednosti javno potaknuti daljnja istraživanja. Tvrtka, podržana 8 milijardi dolara od Amazona I preko 3 milijarde dolara od Googleakoristi transparentnost kao strateški diferencijal protiv konkurencije poput OpenAi.

Dok antropije trenutno održava a Vrednovanje od 61,5 milijardi dolara Nakon nedavnog kruga financiranja, najnoviji OpenAi Povećanje kapitala od 40 milijardi dolara – što je uključivalo značajno sudjelovanje dugogodišnjeg partnera Microsofta – potaknulo je svoju procjenu 300 milijardi dolara.

Iako Antropic -ova metodologija pruža neviđenu vidljivost u načinu na koji AI sustavi u praksi izražavaju vrijednosti, ona ima ograničenja. Istraživači priznaju da je definiranje onoga što se računa kao izražavanje vrijednosti inherentno subjektivno, a budući da je sam Claude pokrenuo proces kategorizacije, njegove vlastite pristranosti možda su utjecale na rezultate.

Možda je najvažnije, pristup se ne može koristiti za procjenu prije raspoređivanja, jer zahtijeva da značajni podaci o razgovoru u stvarnom svijetu učinkovito funkcioniraju.

“Ova je metoda posebno usmjerena na analizu modela nakon što je objavljena, ali varijante ove metode, kao i neke uvide koje smo izvukli iz pisanja ovog rada, mogu nam pomoći da uhvatimo probleme s vrijednosnim vrijednostima prije nego što široko rasporedimo model”, objasnio je Huang. “Radimo na izgradnji ovog posla kako bismo to učinili i optimističan sam u vezi s tim!”

Kako AI sustavi postaju snažniji i autonomniji – s nedavnim dodacima, uključujući Claudeovu sposobnost da neovisno istražuju teme i pristupe čitavom Googleovom prostoru korisnika – razumijevanje i usklađivanje njihovih vrijednosti postaje sve važnije.

“AI modeli neizbježno će morati donositi vrijednosne prosudbe”, zaključili su istraživači u svom radu. “Ako želimo da te presude budu u skladu s našim vlastitim vrijednostima (što je, na kraju, središnji cilj istraživanja AI usklađivanja), tada moramo imati načine testiranja koji cijeni model izražava u stvarnom svijetu.”

Dnevni uvidi u slučajeve poslovne uporabe s VB dnevno

Ako želite impresionirati svog šefa, VB Daily vas je pokrivao. Dajemo vam unutarnju lopaticu o tome što tvrtke rade s generativnim AI, od regulatornih pomaka do praktičnih razmještaja, tako da možete dijeliti uvide za maksimalni ROI.

Pročitajte našu politiku privatnosti

Hvala na pretplati. Pogledajte više VB biltena ovdje.

Došlo je do pogreške.

Web izvor