Domov Računalništvo, telefonija Socialna omrežja Apple, Nvidia in Anthropic so za usposabljanje AI uporabljali videe iz YouTuba

Računalništvo, telefonija

Socialna omrežja

27.07.2024 08:09

Avtor: Niko Bajec

Deli z drugimi:

Dodajte nas kot prednostni vir novic na Googlu.

Sledite nam na Google News

Apple, Nvidia in Anthropic so za usposabljanje AI uporabljali videe iz YouTuba

Medtem, ko so megakorporacije za učenje svojih modelov umetne inteligence uporabljale videoposnetke iz YouTuba, jih ustvarjalci obtožujejo, da so to delale brez njihove vednosti.

Tehnološka podjetja se poslužujejo kontroverznih taktik, da nahranijo svoje modele umetne inteligence (AI), ki so lačni ogromne količine podatkov. Podatke iz knjig, spletnih mest, fotografij in objav na družabnih omrežjih pogosto uporabljajo, ne da bi ustvarjalci vedeli za to.

AI podjetja so glede podatkov zelo skrivnostna

So pa podjetja, ki usposabljajo modele umetne inteligence, glede svojih virov podatkov na splošno zelo skrivnostna. Na to smo že večkrat opozorili, zdaj pa je preiskava neprofitne novičarske organizacije Proof News nakazala, da so nekateri glavni svetovni igralci na področju umetne inteligence za usposabljanje uporabljali gradivo iz tisočih videoposnetkov, ki so objavljeni na YouTubu. Podjetja so to storila kljub pravilom YouTuba, ki prepovedujejo zbiranje materialov s platforme brez dovoljenja.

Mnoga podjetja iz Silicijeve doline naj bi tako za zbiranje podatkov uporabila podnapise (YouTube Subtitles) iz več kot 173.000 videov, ki so bili pridobljeni iz več kot 48.000 kanalov na omenjeni platformi. Med podjetji naj bi bila tudi Anthropic, Nvidia, Apple in Salesforce.

Modeli naj bi se učili tudi iz teorij zarote

Nabor podatkov, imenovanih YouTube Subtitles, vsebuje transkripte videoposnetkov iz kanalov, namenjenih izobraževanju, kot so Khan Academy, MIT, and Harvard. Prav tako so uporabili novičarske kanale, kot so The Wall Street Journal, NPR in BBC. Med tistimi videi, iz katerih naj bi črpali podatke, so bili tudi The Late Show With Stephen Colbert, Last Week Tonight With John Oliver in Jimmy Kimmel Live. Našli pa so tudi gradivo megazvezdnikov YouTuba, vključno z ustvarjalci, kot so MrBeast, Marques Brownlee, Jacksepticeye in PewDiePie. To so ustvarjalci, ki imajo več 10 milijonov sledilcev, MrBeast jih ima na primer celo 300 milijonov.

Med drugim je težava lahko v tem, da AI črpa podatke tudi iz videov, ki na primer spodbujajo teorije zarote o tem, da je zemlja ravna ploskev in podobno.

»Nihče ni prišel do mene in me vprašal: Ali lahko to uporabimo?« je povedal David Pakman, voditelj oddaje The David Pakman Show, kanala z več kot 2 milijonoma naročnikov in več kot 2 milijardama ogledov. Za trening umetne inteligence je bilo uporabljenih skoraj 160 njegovih videov. Njegovo produkcijo za polni delovni čas ustvarjajo štirje zaposleni, ki objavljajo podkaste, videoposnetke, ki jih objavljajo tudi na TikToku in ostalih platformah. Če so AI podjetja plačana za to, je dejal Pakman, bi moral prejeti nadomestilo za uporabo podatkov. Poudaril je dejstvo, da so nekatera medijska podjetja pred kratkim sklenila dogovore o plačilu za uporabo del za usposabljanje umetne inteligence. »S tem se preživljam, v ustvarjanje vsebine vlagam čas, sredstva, denar in čas svojih zaposlenih,« je dejal.

»To je kraja,« pravi Dave Wiskus, direktor pretočne storitve Nebula. Dejal je, da je nespoštljivo uporabljati delo ustvarjalcev brez njihovega soglasja. Posebej zato, ker bodo lahko studii morda v prihodnosti uporabili »generativno umetno inteligenco zato, da bodo nadomestili video posnetke današnjih ustvarjalcev«. »Bodo lahko to učenje uporabili za izkoriščanje in škodovanje umetnikom? Vsekakor,« je prepričan Wiskus.

Kje se je vse skupaj začelo?

Nabor podatkov naj bi bil del kompilacije, ki jo je izdala neprofitna organizacija EleutherAI in se imenuje Pile. Vključili pa niso le gradiva z YouTuba, ampak tudi iz Evropskega parlamenta, angleške Wikipedije in kopico e-poštnih sporočil zaposlenih v korporaciji Enron, ki so bila objavljena kot del zvezne preiskave.

Večina podatkovnih nizov Pile je na internetu dostopnih in odprtih za vsakogar z dovolj prostora in računalniške moči za dostop do njih. Akademiki in drugi razvijalci zunaj »Big Tech« so uporabili nabor podatkov, vendar niso bili edini.

Podjetja, kot Apple, Nvidia in Salesforce v svojih objavah opisujejo, da so za usposabljanje AI uporabila Pile. Dokumenti nakazujejo, da je Pile uporabil tudi Apple za usposabljanje OpenELM, odmevnega modela, ki je bil izdan aprila, tedne preden je podjetje razkrilo, da bo dodalo nove zmožnosti umetne inteligence v telefone iPhone in v MacBooke.

Enako je storil tudi Anthropic, vodilni razvijalec umetne inteligence, v katerega je Amazon vložil 4 milijarde dolarjev in promovira svojo osredotočenost na »varnost umetne inteligence«.

Pomisleki pa niso zgolj prej omenjene teorije zarote. Pile vsebuje tudi številne psovke ter naj bi bil pristranski do spola, nekaterih verskih skupin in ras.

Predstavniki podjetja EleutherAI, ustvarjalcev nabora podatkov iz YouTuba, se še niso odzvali na prošnje za komentar o ugotovitvah organizacije Proof News. Spletna stran podjetja sicer navaja, da je njihov splošni cilj zmanjšati ovire za razvoj umetne inteligence tudi izven podjetij, ki predstavljajo »Big Tech«.

YouTube Subtitles ne vključujejo video posnetkov, ampak so sestavljeni iz golega besedila podnapisov videoposnetkov, pogosto skupaj s prevodi v jezike, vključno z japonščino, nemščino in arabščino.

YouTube je zlata jama podatkov

Podjetja, ki razvijajo AI, med seboj tekmujejo, katero bo imelo boljši umetno inteligentni model. V začetku letošnjega leta je The New York Times poročal o tem, da je Google, ki je sicer lastnik YouTuba, usposabljal svoj model na podlagi videoposnetkov. Googlov tiskovni predstavnik je povedal, da so posnetke uporabili v skladu s pogodbami z ustvarjalci, ki objavljajo na platformi.

V isti preiskavi je medij poročal, da naj bi videoposnetke nepooblaščeno uporabljalo podjetje Open AI, ki pa tega ni ne zanikalo ne potrdilo. Po nekaterih podatkih naj bi namreč te podatke uporabili za usposabljanje svojega modela AI Sora, ki lahko na podlagi jezikovnih pozivov ustvarja videoposnetke.

YouTube Subtitles in podobne rešitve so zlata jama podatkov, saj so lahko v veliko pomoč pri usposabljanju modelov za posnemanje človeškega govora oziroma pogovorov. In AI se lahko seveda največ nauči iz največjega nabora videoposnetkov na enem mestu – iz YouTuba.

Pri Proof News so želeli pridobiti odzive lastnikov kanalov, navedenih v tej zgodbi. Tisti, ki so jih uspeli dobiti, niso vedeli, da so bili njihovi podatki uporabljeni za učenje AI. Med presenečenimi so bili producenti oddaj Crash Course in SciShow, ki sta stebra videoizobraževalnega imperija bratov Hanka in Johna Greena. “Razočarani smo, ko izvemo, da je bila naša premišljeno izdelana izobraževalna vsebina uporabljena na ta način brez našega soglasja,” je v izjavi dejala Julie Walsh Smith, izvršna direktorica produkcijske družbe Complexly.

YouTubovi podnapisi pa so le eden v nizu primerov kraje podatkov za namen usposabljanja AI, ki povzroča težave kreativnim industrijam. Podobno se je zgodilo tudi, ko so za usposabljanje AI uporabili nabor več kot 180.000 knjig (Books3). Spet je bil uporabljen podatkovni niz Pile. Številni avtorji so takrat tožili podjetja, ki se ukvarjajo z umetno inteligenco, in sicer zaradi nepooblaščene uporabe del in domnevnih kršitev avtorskih pravic.

V prihodnosti lahko pričakujemo še več podobnih sporov

Večina sodnih sporov je za zdaj še v zgodnji fazi, tako da ostajajo vprašanja v zvezi z dovoljenji in morebitnimi kaznimi še v zraku. Podatkovna baza Pile je bila medtem odstranjena z uradnega mesta za prenos, vendar je še vedno na voljo v storitvah za skupno rabo datotek.

Podjetja, ki razvijajo umetno inteligenco, nekako zagovarjajo pošteno rabo in temu ne pravijo kraja, ustvarjalci se na drugi strani s tem ne strinjajo in pričakujejo odškodnine oziroma nekakšna nadomestila za uporabo, posebej če gledamo v prihodnost na način, da jim utegne AI odvzeti del posla.

Prav zaradi vsega omenjenega so ustvarjalci v precejšnji negotovosti. YouTuberji, za katere je to posel s polnim delovnim časom, video posnetkom dodajajo obvestila glede nepooblaščene rabe. Skrbi jih, da je zgolj vprašanje časa, kdaj bo umetna inteligenca lahko ustvarila vsebino, ki bo zelo podobna tisti, ki jo izdelujejo sami – ali pa bo celo sposobna ustvariti popolno posnemanje.

Pakman, ustvarjalec oddaje The David Pakman Show, je pred kratkim okusil moč umetne inteligence med brskanjem po TikToku. Naletel je na video, ki je bil označen kot posnetek ameriškega političnega komentatorja Tuckerja Carlsona, a ko ga je pogledal, je ostal odprtih ust. Slišalo se je kot Carlson, vendar je prepoznal do potankosti ponovljene besede, ki jih je sam povedal v svoji oddaji na YouTubu. Še bolj pa je bil zaskrbljen zato, ker je našel samo enega izmed vseh komentarjev pod posnetkom, ki je prepoznal, da gre za ponaredek, torej glasovni klon Carlsona, ki bere Pakmanov scenarij.

To bo še velika težava, saj lahko enako naredite z glasom kogarkoli, je prepričan Pakman.

Vam je bila novica zanimiva?

Povejte prijateljem, da ste novico prebrali na Računalniških novicah.

Prijavi napako v članku

Vas zanima več iz te teme?

YouTube iskalnik umetna inteligenca

Sorodne novice

Pretočna glasba podira rekorde, latino in country ...

LC-M27QO (levo) je QD-OLED monitor, ki je priletel na mojo mizo. Glede na ceno sem pričakoval, da bo imel kar nekaj kompromisov, ampak sem se motil.

Test LC-M27QO – dober QD-OLED monitor za plitke žepe

Microsoft ostreje proti konkurenci, s katero je do ...

Test HONOR Magic V6 – prevzel je naziv najboljšega, ...

Nikoli več ne zamudite popolne ponudbe: e-poštna ...

Huawei Pura 90s: poudarek na fotografiji, slogu in ...

Kaj berejo drugi?

Ne ugibajte, preverite: kako zanesljiva je vaša digitalna zaščita?

Kdaj je čas za prehod na industrijski tiskalnik nalepk?

Nasveti za dobro izbiro pametne ključavnice za vhodna vrata

Ko nevidno postane vidno z optično tehnologijo

Vse več podjetij ima virtualnega CISO-ja. Razlog ni le zakonodaja

En klik. Ena napaka. Velike posledice.

Izpostavljeno

Test ANTHBOT M9 Pro: robotska kosilnica, ki se ne boji ...

Nikoli več ne zamudite popolne ponudbe: e-poštna ...

Test LC-M27QO – dober QD-OLED monitor za plitke žepe

Test HONOR Magic V6 – prevzel je naziv najboljšega, ...

Test Glorious Model O Eternal: ali res potrebujete ...

Najbolj brano

Optična povezava čipov prinaša 100-krat hitrejše ...

Novi operacijski sistem, ki vrača življenje odpisanim ...

Jedrska baterija, ki deluje več tisoč let

Najnovejši mali oglasi

Microsoft Surface pro 4, core i5, 128gb ssd, 4gb ram, Win 11

169,00 €

Kranj

Microsoft Surface pro 4, core i5, 128gb ssd, 4gb ram, Win 11

45,00 €

Podgorci

SSD SAMSUNG 860 PRO 256 GB SATA3 (NOVO)

Prodam odlično ohranjeno pametno uro Samsung Galaxy watch 7 40mm v zeleni barvi

80,00 €

Žalec

Prodam odlično ohranjeno pametno uro Samsung Galaxy watch 7 40mm v zeleni barvi

D Systems DAVE 8 Roadie – kot nov | Original embalaža | TOP stanje

330,00 €

Maribor

D Systems DAVE 8 Roadie – kot nov | Original embalaža | TOP stanje

70,00 €

Ljubljana

MacBook Air (13-inch, Mid 2011)

WD Elements 14TB – Zunanji trdi disk USB 3.0

190,00 €

Ljubljana

WD Elements 14TB – Zunanji trdi disk USB 3.0

Dogodki

Avg

ČAROBNI DAN

Sep

INFOSEK 2026

Vsi dogodki

Dražbe / Licitacije Prikaži vse

Trenutna cena 230,⁰⁰€

E-bralnik / tablični računalnik BOOX Go 10.3 Gen II – IZKLICNA CENA 1 €!

Trenutna cena 25,⁰⁰€

Družinska vstopnica (2 + 2) za Pustolovski park Geoss – IZKLICNA CENA 1 €!

Trenutna cena 600,⁰⁰€

Robotska kosilnica ANTHBOT Genie 800 – TESTNI MODEL – IZKLICNA CENA 1 €!

Izklicna cena 1,⁰⁰€

Pisarniški stol Ergos GRANDE – IZKLICNA CENA 1 €!

Partnerji Računalniških novic Prikaži vse

Bronasti partner

Agencija POTI – Z znanjem do cilja!

Stegne 7, 1000 Ljubljana, Tel: 01 511 39 21

Agencija POTI – Z znanjem do cilja! Agencija POTI, izobraževalna, svetovalna in založniška družba, si je v več kot 20. letih delovanja, pridobila obilico znanja in izkušenj ... Več

Zlati partner