Računalstvo, telefonija
Društvene mreže
27.07.2024 08:09

Podijelite s drugima:

Udio

Apple, Nvidia i Anthropic koristili su YouTube videe za treniranje umjetne inteligencije

Dok su megakorporacije koristile YouTube videozapise za treniranje svojih AI modela, kreatori su ih optuživali da to čine bez njihova znanja.
Apple, Nvidia i Anthropic koristili su YouTube videe za treniranje umjetne inteligencije

Tehnološke tvrtke koriste kontroverzne taktike kako bi nahranile svoje modele umjetne inteligencije (AI) gladne podataka. Podaci iz knjiga, web stranica, fotografije i objave na društvenim mrežama često se koriste bez znanja kreatora.

Tvrtke s umjetnom inteligencijom vrlo su tajnovite po pitanju podataka

Međutim, tvrtke koje treniraju AI modele općenito su vrlo tajnovite u pogledu svojih izvora podataka. Isticali smo ovo mnogo puta prije, ali sada je istraga neprofitne novinske organizacije Proof News otkrila da su neki od najvećih svjetskih igrača u umjetnoj inteligenciji za obuku koristili materijale iz tisuća videa objavljenih na YouTubeu. Kompanije su to učinile unatoč YouTubeovim pravilima koja zabranjuju prikupljanje materijala s platforme bez dopuštenja.

Mnoge tvrtke iz Silicijske doline navodno za prikupljanje podataka koriste titlove (YouTube Subtitles) iz više od 173.000 videa, koji su dobiveni s više od 48.000 kanala na spomenutoj platformi. Rečeno je da te tvrtke uključuju Anthropic, Nvidiju, Apple i Salesforce.

Manekenke bi također trebale učiti iz teorija zavjere

Skup podataka pod nazivom YouTube titlovi sadrži transkripte videozapisa s obrazovnih kanala kao što su Khan Academy, MIT i Harvard. Također su koristili novinske kuće kao što su The Wall Street Journal, NPR i BBC. Late Show With Stephen Colbert, Last Week Tonight With John Oliver i Jimmy Kimmel Live bili su među tim videozapisima iz kojih su navodno izvučeni podaci. Ali također su pronašli materijal YouTube megazvijezda, uključujući kreatore kao što su MrBeast, Marques Brownlee, Jacksepticeye i PewDiePie. Riječ je o kreatorima koji imaju više od 10 milijuna pratitelja, primjerice MrBeast ima čak 300 milijuna.

Između ostalog, problem može biti i to što AI crpi podatke i iz videa koji, primjerice, promoviraju teorije zavjere o tome da je Zemlja ravna površina i slično.

"Nitko mi nije došao i pitao: 'Možemo li ovo upotrijebiti?'", rekao je David Pakman, voditelj The David Pakman Showa, kanala s više od 2 milijuna pretplatnika i više od 2 milijarde pregleda. Gotovo 160 njegovih videa korišteno je za obuku umjetne inteligencije. Njegovu produkciju s punim radnim vremenom kreiraju četiri zaposlenika koji objavljuju podcaste, video zapise, koji se također objavljuju na TikToku i drugim platformama. Ako su tvrtke za umjetnu inteligenciju plaćene da to rade, rekao je Pakman, trebale bi dobiti naknadu za korištenje podataka. Ukazao je na činjenicu da su neke medijske tvrtke nedavno sklopile ugovore o plaćanju korištenja AI edukacijskih radova. Ovo je ono čime živim, ulažem vrijeme, resurse, novac i vrijeme svojih zaposlenika u stvaranje sadržaja, rekao je.

"To je krađa", kaže Dave Wiskus, direktor streaming usluge Nebula. Rekao je da je nepoštovanje koristiti rad kreatora bez njihovog pristanka. Pogotovo zato što bi studiji u budućnosti mogli koristiti "generativnu umjetnu inteligenciju kako bi zamijenili videa današnjih kreatora". “Hoće li oni moći iskoristiti ovo učenje za iskorištavanje i nanošenje štete umjetnicima? Apsolutno“, uvjeren je Wiskus.

Gdje je sve počelo?

Rečeno je da je skup podataka dio kompilacije koju je objavila neprofitna organizacija EleutherAI pod nazivom Pile. Uključivali su ne samo materijale s YouTubea, već i iz Europskog parlamenta, engleske Wikipedije i mnoštvo e-mailova zaposlenika Enrona koji su objavljeni u sklopu federalne istrage.

Većina skupova podataka Pile dostupna je na Internetu i otvorena svima koji imaju dovoljno prostora i računalne snage da im pristupe. Akademici i drugi programeri izvan "Big Tech" koristili su skup podataka, ali nisu bili jedini.

Tvrtke kao što su Apple, Nvidia i Salesforce u svojim objavama opisuju da su koristile Pile za treniranje umjetne inteligencije. Dokumenti pokazuju da je Pile također koristio Apple za treniranje OpenELM-a, visokoprofilnog modela objavljenog u travnju, tjednima prije nego što je tvrtka otkrila da će dodati nove AI mogućnosti na iPhone i MacBook.

Kao i Anthropic, vodeći AI developer u koji je Amazon uložio 4 milijarde dolara i promiče svoj fokus na "AI sigurnost".

Zabrinutost, međutim, nisu samo spomenute teorije zavjere. Pile također sadrži brojne vulgarnosti i navodno je pristran prema spolu, određenim vjerskim skupinama i rasama.

Predstavnici EleutherAI-ja, kreatora YouTube skupa podataka, još nisu odgovorili na zahtjeve za komentar o nalazima Proof Newsa. Na web stranici tvrtke stoji da je njihov opći cilj smanjiti prepreke razvoju umjetne inteligencije čak i izvan tvrtki koje predstavljaju "Big Tech".

YouTube titlovi ne uključuju video isječke, već se sastoje od običnog teksta video titlova, često popraćenih prijevodima na jezike uključujući japanski, njemački i arapski.

YouTube je zlatni rudnik podataka

Tvrtke koje razvijaju AI natječu se jedna s drugom kako bi vidjele koja ima bolji model umjetne inteligencije. Ranije ove godine, The New York Times je izvijestio da Google, koji je vlasnik YouTubea, obučava svoj model na videima. Googleov glasnogovornik rekao je da je snimak korišten u skladu s ugovorima s kreatorima koji objavljuju na platformi.

Mediji su u istoj istrazi objavili da je snimke navodno neovlašteno koristila tvrtka Open AI, koja to nije ni demantirala ni potvrdila. Prema nekim izvješćima, ti bi se podaci trebali koristiti za treniranje AI modela Sora, koji može stvarati videozapise na temelju jezičnih upita.

YouTube titlovi i slična rješenja zlatni su rudnik podataka jer mogu biti od velike pomoći u obučavanju modela za oponašanje ljudskog govora ili razgovora. I naravno, umjetna inteligencija može najviše naučiti iz najveće zbirke videozapisa na jednom mjestu – YouTubea.

Proof News je želio dobiti reakcije od vlasnika kanala koji se pojavljuju u ovoj priči. Oni koji su ih se uspjeli domoći nisu bili svjesni da se njihovi podaci koriste za treniranje umjetne inteligencije. Među iznenađenima su bili i producenti emisija Crash Course i SciShow, koje su stupovi videoobrazovnog carstva braće Hanka i Johna Greena. "Razočarani smo saznanjem da je naš promišljeno osmišljen obrazovni sadržaj korišten na ovaj način bez našeg pristanka", izjavila je u izjavi Julie Walsh Smith, izvršna direktorica produkcijske tvrtke Complexly.

A YouTubeovi titlovi samo su jedan u nizu slučajeva krađe podataka za treniranje umjetne inteligencije koji stvaraju probleme kreativnim industrijama. Slično se dogodilo kada su koristili skup od preko 180.000 knjiga (Knjige 3) za treniranje umjetne inteligencije. Ponovno je korišten skup podataka Pile. U to su vrijeme mnogi autori tužili AI tvrtke zbog neovlaštenog korištenja njihovih djela i navodnog kršenja autorskih prava.

Hrpa logotipa gumba za 3D reprodukciju

Možemo očekivati još sličnih sporova u budućnosti

Većina parnica još je u ranoj fazi, tako da pitanja o dozvolama i mogućim kaznama ostaju u zraku. Baza podataka Pile u međuvremenu je uklonjena sa službene stranice za preuzimanje, ali je i dalje dostupna na servisima za dijeljenje datoteka.

Tvrtke koje razvijaju umjetnu inteligenciju na neki način brane poštenu upotrebu i ne nazivaju je mjestom, kreatori se s druge strane ne slažu s tim i očekuju kompenzaciju ili nekakvu naknadu za korištenje, pogotovo ako gledamo na budućnost na način da AI bi im mogao oduzeti dio posla.

Upravo zbog svega navedenog kreatori su u popriličnoj neizvjesnosti. YouTuberima je stalni posao dodavanje obavijesti o autorskim pravima na svoje videozapise. Brinu se da je samo pitanje vremena kada će umjetna inteligencija moći stvoriti sadržaj koji je vrlo sličan sadržaju koji sami proizvode – ili čak moći stvoriti savršenu imitaciju.

Pakman, tvorac emisije The David Pakman Show, nedavno je osjetio okus moći umjetne inteligencije dok je surfao TikTokom. Naišao je na video označen kao snimka američkog političkog komentatora Tuckera Carlsona, no kada ga je pogledao ostao je bez riječi. Zvučalo je poput Carlsona, ali je točno prepoznao ponovljene riječi koje je sam izgovorio u svojoj emisiji na YouTubeu. Bio je još zabrinutiji jer je od svih komentara ispod isječka pronašao samo jedan koji ga je prepoznao kao lažan, glasovni klon Carlsona koji čita Pakmanov scenarij.

To će biti veliki problem, jer isto možete učiniti s bilo čijim glasom, smatra Pakman.


Zanima vas više o ovoj temi?
umjetna inteligencija YouTube tražilica


Što drugi čitaju?