RALEIGH, NC — Objavljena Open Source Initiative (OSI). Open Source AI Definition (OSAID) 1.0 28. listopada 2024. na konferenciji All Things Open. Stvaranje nije bilo lako.
OSI-ju su bile potrebne gotovo dvije godine za stvaranje i postavljanje OSAID. Ali bez ikakvih promjena u odnosu na posljednji nacrt OSAID-a, konačno je učinjeno. Nažalost, nisu svi zadovoljni njime, a čak i njegovi kreatori priznaju da je rad u tijeku.
Zašto? Carlo Piana, predsjednik OSI-ja i odvjetnik, objasnio je u intervjuu da je, “Naše kolektivno razumijevanje onoga što AI radi, što je potrebno za modificiranje jezičnih modela, sada ograničeno. Što ga više koristimo, to ćemo više razumjeti. Točno sada je naše razumijevanje ograničeno i još ne znamo kako će tehnologija izgledati za godinu, dvije ili tri godine.”
Ili, kao što je rekao Taylor Dolezal, voditelj ekosustava za Cloud Native Computing Foundation (CNCF), “Uravnoteženje principa otvorenog koda sa složenošću umjetne inteligencije ponekad se može činiti kao pokušaj rješavanja Rubikova kocka s povezom preko očiju.”
Zašto se neki ljudi protive novoj definiciji? Općenito govoreći, tri skupine su zabrinute za OSAID: pragmatičari, idealisti i lažni poslovni lideri.
Prvo morate razumjeti o čemu se radi u sukobima. Zaklada OpenStack COO Mark Collier, koji je pomogao u izradi OSAID-a, to je dobro izrazio u eseju:
Jedan od najvećih izazova u stvaranju Open Source AI definicije je odlučivanje kako postupati sa skupovima podataka koji se koriste tijekom faze obuke. Isprva bi se zahtjev da svi neobrađeni skupovi podataka budu javni mogli činiti logičnim.
Međutim, ova analogija između skupova podataka i izvornog koda je nesavršena i počinje se raspadati što bolje pogledate. Podaci za obuku utječu na modele kroz obrasce, dok izvorni kod daje eksplicitne upute. AI modeli proizvode naučene parametre (težine), dok se softver izravno kompilira iz izvornog koda. … mnogi modeli umjetne inteligencije treniraju se na vlasničkim ili pravno dvosmislenim podacima, kao što je sadržaj s weba ili osjetljivi skupovi podataka poput medicinske dokumentacije.
[Therefore] svi javno dostupni podaci korišteni za obuku trebaju biti dostupni, zajedno s potpunom transparentnošću o svim korištenim skupovima podataka i postupcima koji se slijede za njihovo čišćenje i označavanje. Uspostavljanje prave ravnoteže po ovom pitanju jedan je od najtežih dijelova stvaranja definicije, osobito s brzim promjenama na tržištu i pravnom okruženju.
Sadržaj objave
Pragmatičari su dobili što su htjeli
Dakle, pragmatičari su željeli i dobili definiciju umjetne inteligencije otvorenog koda gdje ne moraju svi podaci biti otvoreni i dijeljeni. Za njihove potrebe, potrebne su samo “dovoljno detaljne informacije o podacima koji se koriste za obuku sustava”, a ne sam cijeli skup podataka. Ovaj pristup ima za cilj uravnotežiti transparentnost s praktičnim i pravnim pitanjima kao što su autorska prava i privatni medicinski podaci.
Osim OSI-ja, organizacije poput Zaklada Mozillathe Zaklada OpenInfra, Bloomberg inženjeringi SUSE odobrili su OSAID. Na primjer, Alan Clark iz SUSE-ova ureda CTO rekao je: “SUSE pozdravlja napredak OSI-ja i njegovog OSAID-a. Napori su kulminirali u vrlo temeljitoj definiciji, što je važno za brzo razvijanje AI krajolika i uloge otvorenog koda unutar pohvaljuje proces koji OSI koristi kako bi došao do definicije i pridržavanja metodologija otvorenog koda.”
Akademici su također odobrili ovo prvo izdanje OSAID-a. Percy Liang, direktor Centra za istraživanje temeljnih modela na Sveučilištu Stanford, rekao je u izjavi: “Doći do prave definicije otvorenog koda je izazovno, s obzirom na ograničenja podataka, ali drago mi je vidjeti da OSI v1 .0 definicija zahtijeva barem da potpuni kod za obradu podataka (primarni pokretač kvalitete modela) bude otvorenog koda. Vrag je u detaljima, pa sam siguran da ćemo imati više za reći kada budemo imali konkretne primjeri ljudi koji pokušavaju primijeniti ovu definiciju na svoje modele.”
Prigovori idealista
Govoreći o tom vragu, idealisti se snažno protive tome da se neotvoreni podaci dopuštaju unutar AI modela otvorenog koda. Dok je Piana izjavio: “Odbor je uvjeren da je proces rezultirao definicijom koja zadovoljava standarde otvorenog koda kako je definirano u Definicija otvorenog koda i Četiri osnovne slobode,” idealisti to uopće ne vide tako.
Tom Callaway, glavni tehnički strateg otvorenog koda u Amazon Web Services (AWS), sažeo je njihove primjedbe: “Jednostavna činjenica ostaje… omogućuje vam da izgradite binarni sustav umjetne inteligencije iz vlasničkih izvora podataka i nazovete rezultat ‘otvorenim izvorom’, a to je jednostavno pogrešno. To šteti svakom utvrđenom razumijevanju što je ‘otvoreni kod’, a sve u ime nade da će se taj brend pričvrstiti za ‘veći šator’ stvari.”
OSI je dobro svjestan ovih argumenata. Na panel raspravi na All Things Open, predstavnik OSI-ja je rekao: “Članovi naših zajednica su uznemireni. Osjećali su se kao da se njihov glas ne čuje kao dio ovog procesa.” OSI je smatrao da mora smisliti definiciju jer su se zakoni donosili iu SAD-u iu EU o AI-ju otvorenog koda, a da ga nisu definirali. OSI i mnoge druge skupine smatrale su da se problem mora riješiti prije nego što tvrtke krenu s vlastitim lažnim definicijama umjetne inteligencije otvorenog koda. Gledajući unaprijed, OSI će prilagoditi definiciju kako bi odgovorila na nadolazeće promjene u umjetnoj inteligenciji.
U međuvremenu, barem jedna grupa, Digitalna javna dobra (DPG) je ažurira svoj DPG standard za AI naložiti otvorene podatke o obuci za sustave umjetne inteligencije. Njegov će se prijedlog pojaviti na GitHubu početkom studenog i bit će otvoren za javne komentare za četverotjedni pregled zajednice. Takvih će nastojanja biti još.
Prigovori lažnog izvora
Tvrtke s lažnim izvorima imaju interes da se njihovi programi smatraju otvorenim kodom. Zakoni i propisi za AI otvorenog koda blaži su od onih za vlasničke AI sustave. To znači da mogu uštedjeti mnogo novca ako su njihovi proizvodi regulirani pravilima otvorenog koda.
Na primjer, Meta’s Licenca Llame 3 ne ulazi u ocjenu otvorenog koda po nekoliko osnova. Bez obzira na to, Meta je tvrdio: “Ne postoji jedinstvena definicija umjetne inteligencije otvorenog koda, a njezino definiranje je izazov jer prethodne definicije otvorenog koda ne obuhvaćaju složenost današnjih modela umjetne inteligencije koji brzo napreduju.”
Meta i druge velike AI ovlasti, kao što je OpenAI, pokušat će natjerati vlade da priznaju njihove definicije koje su same definirale. Očekujem da će smisliti lažni izvor AI definicija za pokrivanje njihovih vlasničkih proizvoda i usluga.
Ono što sve ovo znači, s mojeg mjesta, jest da dok OSAID ima standard koji će mnoge skupine poštovati, sukobi oko toga što je zapravo AI otvorenog koda tek su počeli. Ne vidim nikakvo rješenje sukoba u godinama koje dolaze.
Većina korisnika umjetne inteligencije neće mariti. Oni samo žele pomoć oko domaće zadaće, pisanja obožavatelja Ratova zvijezda ili olakšavanja posla. Posve je druga priča za tvrtke i državne agencije. Za njih je umjetna inteligencija otvorenog koda ključna i za poslovne i za razvojne svrhe.