AI chatbot Jailbreaking Sigurnosna prijetnja je “neposredna, opipljiva i duboko zabrinjavajuća”

Slika: Song_about_summer/Adobe Stock

Nova studija otkrila je da se vodeći AI chatboti još uvijek mogu manipulirati generiranjem štetnog sadržaja, uključujući upute o ilegalnim aktivnostima, unatoč stalnim sigurnosnim poboljšanjima tehnoloških kompanija. Nalazi izazivaju hitne zabrinutosti o tome kako se lako mogu iskoristiti ti sustavi i kako polako programeri reagiraju na rizike.

Istraživači sa Sveučilišta Ben-Gurion iz Negeva u Izraelu otkrili su da mnogi današnji AI chatboti, uključujući neke od najnaprednijih sustava poput chatgpt, Blizanca i Claudea, mogu se manipulirati specifičnim napadima utemeljenim na brzini za stvaranje štetnog sadržaja. Rekli su da je prijetnja “neposredna, opipljiva i duboko zabrinjavajuća.”

Jailbreaking u AI uključuje korištenje pažljivo izrađenih uputa kako bi prevario chatbota u ignorirajući njegova sigurnosna pravila. Istraživači su otkrili da ova metoda djeluje na više glavnih AI platformi.

Prema studijiJednom kada se modeli iskorištavaju ovom metodom, oni su sposobni proizvesti rezultate za širok raspon opasnih upita, uključujući vodiče za izradu bombi, hakiranje, trgovanje insajderima i proizvodnju droga.

Sadržaj objave

1 Uspon Dark LLMS -a
2 Slab odgovor tehnoloških tvrtki
- 2.1 Morate pročitati sigurnosnu pokrivenost
3 Modeli otvorenog koda otežavaju kontrolu rizika
4 Što treba učiniti sada

Uspon Dark LLMS -a

Veliki jezični modeli poput chatgpta osposobljeni su za ogromne količine internetskih podataka. Dok tvrtke pokušavaju filtrirati opasan sadržaj, prolaze neke štetne informacije. Što je još gore, hakeri sada stvaraju ili mijenjaju AI modele posebno za uklanjanje sigurnosnih kontrola.

Neki od ovih Rogue AIS -a, poput Wormgpt i Fraudgpt, otvoreno se prodaju putem interneta kao alata s “Nema etičkih ograničenja”, Izvijestio je skrbnik. Ovi takozvani Dark LLM-ovi dizajnirani su tako da pomažu u prijevarama, hakiranju, pa čak i financijskim zločinima.

Istraživači upozoravaju da bi alati, koji su nekada bili ograničeni na sofisticirane kriminalce ili hakere koji su sponzorirani državom, uskoro mogli biti dostupni svima koji imaju osnovni hardver i pristup internetu.

Slab odgovor tehnoloških tvrtki

Studija je otkrila da bi Univerzalna metoda zatvora mogla uspješno probiti sigurnosne prepreke na više najboljih modela, čak i nekoliko mjeseci nakon što je tehnika prvi put objavljena na Redditu. To izaziva hitnu zabrinutost zbog toga kako AI kompanije polako ili čak neadekvatno reagiraju na prijetnje.

Unatoč naporima istraživača da obavijesti glavne AI programere putem službenih kanala, odgovor je opisan kao “podmukao”, napomenuo je Guardian.

Prema autorima, neke tvrtke nisu uspjele odgovoriti na objavljivanje, dok druge tvrdili da prijavljene ranjivosti nisu ispunile kriterije njihovih okvira sigurnosti ili buba. To ostavlja otvorena vrata za zlouporabu, potencijalno čak i nekvalificirane pojedince.

Modeli otvorenog koda otežavaju kontrolu rizika

Još je više zabrinjavajuće da se nakon što je AI model izmijenjen i podijeljen na mreži, ne može se povući. Za razliku od aplikacija ili web stranica, modeli otvorenog koda mogu se spremiti, kopirati i preraspodijeliti beskonačno.

Istraživači naglašavaju da čak i s regulacijom ili zakrpama bilo koji AI model preuzet i pohranjen lokalno postaje gotovo nemoguće sadržavati. Što je još gore, jedan kompromitirani model potencijalno se može koristiti za manipuliranje drugima, množenje prijetnje.

Što treba učiniti sada

Da bi sadržavali rastuću prijetnju, istraživači su iznijeli ove hitne korake:

Kurirani podaci o obuci: Modeli se moraju osposobiti samo o čistim, sigurnim podacima, s štetnim sadržajem isključenim od samog početka.
AI vatrozidi: Kao što antivirusni softver štiti računala, srednji softver bi trebao filtrirati štetne upita i izlaze.
Strojno Unlearning: Nova tehnologija mogla bi pomoći AI “zaboraviti” štetne informacije čak i nakon raspoređivanja.
Kontinuirano crveno udruživanje: U tijeku su protivničko testiranje i javne bube ključne za ostanak prije prijetnji.
Javna svijest: Vlade i odgajatelji moraju tretirati tamne LLM -ove poput nelicenciranog oružja, reguliranje pristupa i širenje svijesti.

Bez odlučne akcije, istraživači upozoravaju, AI sustavi mogli bi postati snažni omogućatelji kriminalnih aktivnosti, što bi opasno znalo stavljalo samo nekoliko ključeva.

Web izvor

AI chatbot Jailbreaking Sigurnosna prijetnja je “neposredna, opipljiva i duboko zabrinjavajuća”

ByTomšić Damjan

Uspon Dark LLMS -a

Slab odgovor tehnoloških tvrtki

Modeli otvorenog koda otežavaju kontrolu rizika

Što treba učiniti sada

By Tomšić Damjan

Blog uživo premijernog dana u lipnju 2026.: Pratimo ponude Amazona za SSD-ove, televizore, prijenosna računala i više

Aplikacija Google Health dobiva veliko ažuriranje s 13+ promjena

Suizvršni direktor CD Projekt Reda priznaje da je “na neodređeno vrijeme” “izgubio vjeru” nekih obožavatelja nakon Cyberpunk 2077

You missed

Blog uživo premijernog dana u lipnju 2026.: Pratimo ponude Amazona za SSD-ove, televizore, prijenosna računala i više

Aplikacija Google Health dobiva veliko ažuriranje s 13+ promjena

Suizvršni direktor CD Projekt Reda priznaje da je “na neodređeno vrijeme” “izgubio vjeru” nekih obožavatelja nakon Cyberpunk 2077

F1 Japan Grand Prix postolja s 5G SA i mmWave slučajevima upotrebe

AI chatbot Jailbreaking Sigurnosna prijetnja je “neposredna, opipljiva i duboko zabrinjavajuća”

ByTomšić Damjan

Uspon Dark LLMS -a

Slab odgovor tehnoloških tvrtki

Modeli otvorenog koda otežavaju kontrolu rizika

Što treba učiniti sada

By Tomšić Damjan

Related Post

Blog uživo premijernog dana u lipnju 2026.: Pratimo ponude Amazona za SSD-ove, televizore, prijenosna računala i više

Aplikacija Google Health dobiva veliko ažuriranje s 13+ promjena

Suizvršni direktor CD Projekt Reda priznaje da je “na neodređeno vrijeme” “izgubio vjeru” nekih obožavatelja nakon Cyberpunk 2077

You missed

Blog uživo premijernog dana u lipnju 2026.: Pratimo ponude Amazona za SSD-ove, televizore, prijenosna računala i više

Aplikacija Google Health dobiva veliko ažuriranje s 13+ promjena

Suizvršni direktor CD Projekt Reda priznaje da je “na neodređeno vrijeme” “izgubio vjeru” nekih obožavatelja nakon Cyberpunk 2077

F1 Japan Grand Prix postolja s 5G SA i mmWave slučajevima upotrebe