Sintetički podaci imaju svoja ograničenja — zašto podaci dobiveni od ljudi mogu spriječiti kolaps AI modela

Pridružite se našim dnevnim i tjednim biltenima za najnovija ažuriranja i ekskluzivni sadržaj o AI pokrivenosti vodećoj u industriji. Saznajte više

Bože, kako se brzo stvari mijenjaju u svijetu tehnologije. Prije samo dvije godine AI je hvaljen kao “sljedeća transformacijska tehnologija koja će vladati svima njima”. Sada, umjesto da dosegne razine Skyneta i preuzme svijet, AI je, ironično, degradirajući.

Nekada vjesnik nove ere inteligencije, AI se sada spotiče o vlastiti kod, boreći se da ispuni briljantnost koju je obećao. Ali zašto točno? Jednostavna je činjenica da umjetnoj inteligenciji nedostaje jedina stvar koja je čini doista pametnom: podaci koje generiraju ljudi.

Kako bi nahranili ove modele gladne podataka, istraživači i organizacije sve su se više okrenuli sintetičkim podacima. Iako je ova praksa već dugo glavna u razvoju umjetne inteligencije, sada prelazimo na opasno područje pretjeranim oslanjanjem na nju, uzrokujući postupnu degradaciju modela umjetne inteligencije. I to nije samo manja zabrinutost zbog ChatGPT-a koji daje rezultate ispod standarda — posljedice su mnogo opasnije.

Kada se AI modeli obučavaju na rezultatima generiranim prethodnim iteracijama, oni imaju tendenciju širenja pogrešaka i unosa šuma, što dovodi do pada kvalitete izlaza. Ovaj rekurzivni proces pretvara poznati ciklus “smeće unutra, smeće van” u problem koji se sam ponavlja, značajno smanjujući učinkovitost sustava. Kako se umjetna inteligencija sve više udaljava od razumijevanja i točnosti poput ljudskog, to ne samo da potkopava izvedbu, već i izaziva kritičnu zabrinutost oko dugoročne održivosti oslanjanja na podatke koje sami generiraju za nastavak razvoja umjetne inteligencije.

Ali ovo nije samo degradacija tehnologije; to je degradacija stvarnosti, identiteta i autentičnosti podataka — što predstavlja ozbiljne rizike za čovječanstvo i društvo. Efekti valova mogu biti duboki, što dovodi do porasta kritičnih pogrešaka. Kako ovi modeli gube točnost i pouzdanost, posljedice bi mogle biti strašne – sjetite se pogrešne medicinske dijagnoze, financijskih gubitaka, pa čak i nesreća opasnih po život.

Još jedna velika implikacija je da bi razvoj umjetne inteligencije mogao potpuno stati, ostavljajući sustave umjetne inteligencije nesposobnim unositi nove podatke i u biti “zapeti u vremenu”. Ta stagnacija ne samo da bi spriječila napredak, već bi i zarobila umjetnu inteligenciju u ciklusu smanjenja prinosa, s potencijalno katastrofalnim učincima na tehnologiju i društvo.

Ali, praktično govoreći, što poduzeća mogu učiniti kako bi osigurala sigurnost svojih kupaca i korisnika? Prije nego odgovorimo na to pitanje, moramo razumjeti kako sve ovo funkcionira.

Sadržaj objave

1 Kada se model sruši, pouzdanost nestaje
2 Očuvanje budućnosti umjetne inteligencije: Koraci koje poduzeća mogu poduzeti danas
- 2.1 Povezani sadržaji

Kada se model sruši, pouzdanost nestaje

Što se više sadržaja generiranog umjetnom inteligencijom širi online, to će se brže infiltrirati u skupove podataka i, posljedično, u same modele. I to se događa ubrzanom brzinom, zbog čega programerima postaje sve teže filtrirati sve što nisu čisti podaci o obuci koje su stvorili ljudi. Činjenica je da korištenje sintetičkih sadržaja u obuci može izazvati štetan fenomen poznat kao “kolaps modela” ili “model poremećaja autofagije (LUD).”

Kolaps modela je degenerativni proces u kojem sustavi umjetne inteligencije progresivno gube uvid u pravu temeljnu distribuciju podataka koju su trebali modelirati. To se često događa kada se AI rekurzivno obučava na sadržaju koji je generirao, što dovodi do niza problema:

Gubitak nijansi: Modeli počinju zaboravljati izvanredne podatke ili manje zastupljene informacije, ključne za sveobuhvatno razumijevanje bilo kojeg skupa podataka.
Smanjena raznolikost: Primjetan je pad u raznolikosti i kvaliteti izlaza koje proizvode modeli.
Pojačavanje predrasuda: Postojeće predrasude, osobito prema marginaliziranim skupinama, mogu se pogoršati jer model previđa nijansirane podatke koji bi mogli ublažiti te predrasude.
Generiranje besmislenih izlaza: S vremenom modeli mogu početi proizvoditi rezultate koji su potpuno nepovezani ili besmisleni.

Primjer: studija objavljena u Priroda istaknuo brzu degeneraciju jezičnih modela koji se rekurzivno treniraju na tekstu generiranom umjetnom inteligencijom. Do devete iteracije utvrđeno je da ovi modeli proizvode potpuno irelevantan i besmislen sadržaj, što pokazuje brzi pad kvalitete podataka i korisnosti modela.

Očuvanje budućnosti umjetne inteligencije: Koraci koje poduzeća mogu poduzeti danas

Organizacije poduzeća u jedinstvenoj su poziciji da odgovorno oblikuju budućnost umjetne inteligencije i postoje jasni, djelotvorni koraci koje mogu poduzeti kako bi sustavi umjetne inteligencije bili točni i pouzdani:

Uložite u alate za provjeru podataka: Alati koji prate odakle dolazi svaki podatak i kako se mijenja tijekom vremena daju tvrtkama povjerenje u njihove unose umjetne inteligencije. S jasnom vidljivošću podrijetla podataka, organizacije mogu izbjeći unošenje nepouzdanih ili pristranih informacija u modele.
Ugradite filtre koje pokreće AI za otkrivanje sintetičkog sadržaja: Napredni filtri mogu uhvatiti sadržaj generiran umjetnom inteligencijom ili sadržaj niske kvalitete prije nego što uđe u skupove podataka za obuku. Ovi filtri pomažu osigurati da modeli uče iz autentičnih informacija koje su stvorili ljudi, a ne sintetičkih podataka kojima nedostaje složenost u stvarnom svijetu.
Partner s pouzdanim pružateljima podataka: Čvrsti odnosi s provjerenim pružateljima podataka daju organizacijama stalnu opskrbu autentičnim podacima visoke kvalitete. To znači da AI modeli dobivaju stvarne, nijansirane informacije koje odražavaju stvarne scenarije, što povećava performanse i relevantnost.
Promicati digitalnu pismenost i svijest: Obrazovanjem timova i kupaca o važnosti autentičnosti podataka, organizacije mogu pomoći ljudima da prepoznaju sadržaj generiran umjetnom inteligencijom i razumiju rizike sintetičkih podataka. Izgradnja svijesti oko odgovorne upotrebe podataka potiče kulturu koja cijeni točnost i integritet u razvoju umjetne inteligencije.

Budućnost umjetne inteligencije ovisi o odgovornom djelovanju. Poduzeća imaju stvarnu priliku zadržati AI utemeljenu na točnosti i integritetu. Odabirom stvarnih podataka iz ljudskih izvora umjesto prečaca, davanjem prioriteta alatima koji hvataju i filtriraju sadržaj niske kvalitete i poticanjem svijesti o digitalnoj autentičnosti, organizacije mogu postaviti AI na sigurniji, pametniji put. Usredotočimo se na izgradnju budućnosti u kojoj je AI moćna i istinski korisna društvu.

Rick Song je izvršni direktor i suosnivač Persona.

DataDecisionMakers

Dobrodošli u VentureBeat zajednicu!

DataDecisionMakers je mjesto gdje stručnjaci, uključujući tehničke osobe koje rade s podacima, mogu dijeliti uvide i inovacije u vezi s podacima.

Ako želite čitati o vrhunskim idejama i najnovijim informacijama, najboljim praksama i budućnosti podataka i podatkovne tehnologije, pridružite nam se na DataDecisionMakers.

Možete čak razmisliti o doprinosu vlastitom članku!

Pročitajte više od DataDecisionMakers

Web izvor