Apple、Nvidia 和 Anthropic 使用 YouTube 视频来训练人工智能
Tehnološka podjetja se poslužujejo kontroverznih taktik, da nahranijo svoje modele umetne inteligence (AI), ki so lačni ogromne količine podatkov. Podatke iz knjig, spletnih mest, fotografij in objav na družabnih omrežjih pogosto uporabljajo, ne da bi ustvarjalci vedeli za to.
AI podjetja so glede podatkov zelo skrivnostna
So pa podjetja, ki usposabljajo modele umetne inteligence, glede svojih virov podatkov na splošno zelo skrivnostna. Na to smo že večkrat opozorili, zdaj pa je preiskava neprofitne novičarske organizacije Proof News nakazala, da so nekateri glavni svetovni igralci na področju umetne inteligence za usposabljanje uporabljali gradivo iz tisočih videoposnetkov, ki so objavljeni na YouTubu. Podjetja so to storila kljub pravilom YouTuba, ki prepovedujejo zbiranje materialov s platforme brez dovoljenja.
Mnoga podjetja iz Silicijeve doline naj bi tako za zbiranje podatkov uporabila podnapise (YouTube Subtitles) iz več kot 173.000 videov, ki so bili pridobljeni iz več kot 48.000 kanalov na omenjeni platformi. Med podjetji naj bi bila tudi Anthropic, Nvidia, Apple in Salesforce.
Modeli naj bi se učili tudi iz teorij zarote
Nabor podatkov, imenovanih YouTube Subtitles, vsebuje transkripte videoposnetkov iz kanalov, namenjenih izobraževanju, kot so Khan Academy, MIT, and Harvard. Prav tako so uporabili novičarske kanale, kot so The Wall Street Journal, NPR in BBC. Med tistimi videi, iz katerih naj bi črpali podatke, so bili tudi The Late Show With Stephen Colbert, Last Week Tonight With John Oliver in Jimmy Kimmel Live. Našli pa so tudi gradivo megazvezdnikov YouTuba, vključno z ustvarjalci, kot so MrBeast, Marques Brownlee, Jacksepticeye in PewDiePie. To so ustvarjalci, ki imajo več 10 milijonov sledilcev, MrBeast jih ima na primer celo 300 milijonov.
Med drugim je težava lahko v tem, da AI črpa podatke tudi iz videov, ki na primer spodbujajo teorije zarote o tem, da je zemlja ravna ploskev in podobno.
»Nihče ni prišel do mene in me vprašal: Ali lahko to uporabimo?« je povedal David Pakman, voditelj oddaje The David Pakman Show, kanala z več kot 2 milijonoma naročnikov in več kot 2 milijardama ogledov. Za trening umetne inteligence je bilo uporabljenih skoraj 160 njegovih videov. Njegovo produkcijo za polni delovni čas ustvarjajo štirje zaposleni, ki objavljajo podkaste, videoposnetke, ki jih objavljajo tudi na TikToku in ostalih platformah. Če so AI podjetja plačana za to, je dejal Pakman, bi moral prejeti nadomestilo za uporabo podatkov. Poudaril je dejstvo, da so nekatera medijska podjetja pred kratkim sklenila dogovore o plačilu za uporabo del za usposabljanje umetne inteligence. »S tem se preživljam, v ustvarjanje vsebine vlagam čas, sredstva, denar in čas svojih zaposlenih,« je dejal.
»To je kraja,« pravi Dave Wiskus, direktor pretočne storitve Nebula. Dejal je, da je nespoštljivo uporabljati delo ustvarjalcev brez njihovega soglasja. Posebej zato, ker bodo lahko studii morda v prihodnosti uporabili »generativno umetno inteligenco zato, da bodo nadomestili video posnetke današnjih ustvarjalcev«. »Bodo lahko to učenje uporabili za izkoriščanje in škodovanje umetnikom? Vsekakor,« je prepričan Wiskus.
Kje se je vse skupaj začelo?
Nabor podatkov naj bi bil del kompilacije, ki jo je izdala neprofitna organizacija EleutherAI in se imenuje Pile. Vključili pa niso le gradiva z YouTuba, ampak tudi iz Evropskega parlamenta, angleške Wikipedije in kopico e-poštnih sporočil zaposlenih v korporaciji Enron, ki so bila objavljena kot del zvezne preiskave.
Večina podatkovnih nizov Pile je na internetu dostopnih in odprtih za vsakogar z dovolj prostora in računalniške moči za dostop do njih. Akademiki in drugi razvijalci zunaj »Big Tech« so uporabili nabor podatkov, vendar niso bili edini.
Podjetja, kot Apple, Nvidia in Salesforce v svojih objavah opisujejo, da so za usposabljanje AI uporabila Pile. Dokumenti nakazujejo, da je Pile uporabil tudi Apple za usposabljanje OpenELM, odmevnega modela, ki je bil izdan aprila, tedne preden je podjetje razkrilo, da bo dodalo nove zmožnosti umetne inteligence v telefone iPhone in v MacBooke.
Enako je storil tudi Anthropic, vodilni razvijalec umetne inteligence, v katerega je Amazon vložil 4 milijarde dolarjev in promovira svojo osredotočenost na »varnost umetne inteligence«.
Pomisleki pa niso zgolj prej omenjene teorije zarote. Pile vsebuje tudi številne psovke ter naj bi bil pristranski do spola, nekaterih verskih skupin in ras.
Predstavniki podjetja EleutherAI, ustvarjalcev nabora podatkov iz YouTuba, se še niso odzvali na prošnje za komentar o ugotovitvah organizacije Proof News. Spletna stran podjetja sicer navaja, da je njihov splošni cilj zmanjšati ovire za razvoj umetne inteligence tudi izven podjetij, ki predstavljajo »Big Tech«.
YouTube Subtitles ne vključujejo video posnetkov, ampak so sestavljeni iz golega besedila podnapisov videoposnetkov, pogosto skupaj s prevodi v jezike, vključno z japonščino, nemščino in arabščino.
YouTube je zlata jama podatkov
Podjetja, ki razvijajo AI, med seboj tekmujejo, katero bo imelo boljši umetno inteligentni model. V začetku letošnjega leta je The New York Times poročal o tem, da je Google, ki je sicer lastnik YouTuba, usposabljal svoj model na podlagi videoposnetkov. Googlov tiskovni predstavnik je povedal, da so posnetke uporabili v skladu s pogodbami z ustvarjalci, ki objavljajo na platformi.
V isti preiskavi je medij poročal, da naj bi videoposnetke nepooblaščeno uporabljalo podjetje Open AI, ki pa tega ni ne zanikalo ne potrdilo. Po nekaterih podatkih naj bi namreč te podatke uporabili za usposabljanje svojega modela AI Sora, ki lahko na podlagi jezikovnih pozivov ustvarja videoposnetke.
YouTube Subtitles in podobne rešitve so zlata jama podatkov, saj so lahko v veliko pomoč pri usposabljanju modelov za posnemanje človeškega govora oziroma pogovorov. In AI se lahko seveda največ nauči iz največjega nabora videoposnetkov na enem mestu – iz YouTuba.
Pri Proof News so želeli pridobiti odzive lastnikov kanalov, navedenih v tej zgodbi. Tisti, ki so jih uspeli dobiti, niso vedeli, da so bili njihovi podatki uporabljeni za učenje AI. Med presenečenimi so bili producenti oddaj Crash Course in SciShow, ki sta stebra videoizobraževalnega imperija bratov Hanka in Johna Greena. “Razočarani smo, ko izvemo, da je bila naša premišljeno izdelana izobraževalna vsebina uporabljena na ta način brez našega soglasja,” je v izjavi dejala Julie Walsh Smith, izvršna direktorica produkcijske družbe Complexly.
YouTubovi podnapisi pa so le eden v nizu primerov kraje podatkov za namen usposabljanja AI, ki povzroča težave kreativnim industrijam. Podobno se je zgodilo tudi, ko so za usposabljanje AI uporabili nabor več kot 180.000 knjig (Books3). Spet je bil uporabljen podatkovni niz Pile. Številni avtorji so takrat tožili podjetja, ki se ukvarjajo z umetno inteligenco, in sicer zaradi nepooblaščene uporabe del in domnevnih kršitev avtorskih pravic.
V prihodnosti lahko pričakujemo še več podobnih sporov
Večina sodnih sporov je za zdaj še v zgodnji fazi, tako da ostajajo vprašanja v zvezi z dovoljenji in morebitnimi kaznimi še v zraku. Podatkovna baza Pile je bila medtem odstranjena z uradnega mesta za prenos, vendar je še vedno na voljo v storitvah za skupno rabo datotek.
Podjetja, ki razvijajo umetno inteligenco, nekako zagovarjajo pošteno rabo in temu ne pravijo kraja, ustvarjalci se na drugi strani s tem ne strinjajo in pričakujejo odškodnine oziroma nekakšna nadomestila za uporabo, posebej če gledamo v prihodnost na način, da jim utegne AI odvzeti del posla.
Prav zaradi vsega omenjenega so ustvarjalci v precejšnji negotovosti. YouTuberji, za katere je to posel s polnim delovnim časom, video posnetkom dodajajo obvestila glede nepooblaščene rabe. Skrbi jih, da je zgolj vprašanje časa, kdaj bo umetna inteligenca lahko ustvarila vsebino, ki bo zelo podobna tisti, ki jo izdelujejo sami – ali pa bo celo sposobna ustvariti popolno posnemanje.
Pakman, ustvarjalec oddaje The David Pakman Show, je pred kratkim okusil moč umetne inteligence med brskanjem po TikToku. Naletel je na video, ki je bil označen kot posnetek ameriškega političnega komentatorja Tuckerja Carlsona, a ko ga je pogledal, je ostal odprtih ust. Slišalo se je kot Carlson, vendar je prepoznal do potankosti ponovljene besede, ki jih je sam povedal v svoji oddaji na YouTubu. Še bolj pa je bil zaskrbljen zato, ker je našel samo enega izmed vseh komentarjev pod posnetkom, ki je prepoznal, da gre za ponaredek, torej glasovni klon Carlsona, ki bere Pakmanov scenarij.
To bo še velika težava, saj lahko enako naredite z glasom kogarkoli, je prepričan Pakman.