Heim » Apple, Nvidia und Anthropic nutzten YouTube-Videos, um KI zu trainieren

Informatik, Telefonie

Soziale Netzwerke

27.07.2024 08:09

Mit anderen teilen:

Apple, Nvidia und Anthropic nutzten YouTube-Videos, um KI zu trainieren

Während Megakonzerne YouTube-Videos zum Trainieren ihrer KI-Modelle nutzen, warfen ihnen Entwickler vor, dies ohne ihr Wissen zu tun.

Technologieunternehmen wenden umstrittene Taktiken an, um ihre datenhungrigen Modelle der künstlichen Intelligenz (KI) zu füttern. Daten aus Büchern, Websites, Fotos und Social-Media-Beiträgen werden oft ohne Wissen der Ersteller verwendet.

KI-Unternehmen gehen sehr geheim mit Daten um

Allerdings halten Unternehmen, die KI-Modelle trainieren, ihre Datenquellen im Allgemeinen sehr geheim. Wir haben schon oft darauf hingewiesen, aber jetzt hat eine Untersuchung der gemeinnützigen Nachrichtenorganisation Proof News ergeben, dass einige der weltweit größten Akteure im Bereich der künstlichen Intelligenz Material aus Tausenden von auf YouTube geposteten Videos für Schulungen verwendet haben. Die Unternehmen taten dies trotz der YouTube-Regeln, die das Sammeln von Material von der Plattform ohne Genehmigung verbieten.

Viele Unternehmen aus dem Silicon Valley nutzen angeblich Untertitel (YouTube-Untertitel) aus mehr als 173.000 Videos, die von mehr als 48.000 Kanälen auf der genannten Plattform bezogen wurden, um Daten zu sammeln. Zu den Unternehmen sollen Anthropic, Nvidia, Apple und Salesforce gehören.

Auch Models sollen aus Verschwörungstheorien lernen

Ein Datensatz namens YouTube Subtitles enthält Transkripte von Videos von Bildungskanälen wie Khan Academy, MIT und Harvard. Sie nutzten auch Nachrichtenagenturen wie das Wall Street Journal, NPR und die BBC. The Late Show With Stephen Colbert, Last Week Tonight With John Oliver und Jimmy Kimmel Live gehörten zu den Videos, aus denen angeblich Daten extrahiert wurden. Sie fanden aber auch Material von YouTube-Megastars, darunter YouTuber wie MrBeast, Marques Brownlee, Jacksepticeye und PewDiePie. Dabei handelt es sich um Creator, die mehr als 10 Millionen Follower haben, MrBeast hat beispielsweise sogar 300 Millionen.

Das Problem kann unter anderem darin bestehen, dass die KI auch Daten aus Videos bezieht, die beispielsweise Verschwörungstheorien darüber verbreiten, dass die Erde eine ebene Fläche sei und Ähnliches.

„Niemand ist zu mir gekommen und hat gefragt: ‚Können wir das nutzen?‘“, sagte David Pakman, Moderator der David Pakman Show, einem Kanal mit mehr als 2 Millionen Abonnenten und mehr als 2 Milliarden Aufrufen. Fast 160 seiner Videos wurden für das KI-Training verwendet. Die hauptberufliche Produktion wird von vier Mitarbeitern erstellt, die Podcasts und Videos veröffentlichen, die auch auf TikTok und anderen Plattformen veröffentlicht werden. Wenn KI-Unternehmen dafür bezahlt werden, sollten sie laut Pakman für die Nutzung der Daten entschädigt werden. Er wies darauf hin, dass einige Medienunternehmen kürzlich Vereinbarungen getroffen haben, um die Nutzung von KI-Schulungsarbeiten zu bezahlen. „Das ist es, was ich beruflich mache. Ich investiere Zeit, Ressourcen, Geld und die Zeit meiner Mitarbeiter in die Erstellung von Inhalten“, sagte er.

„Es ist ein Schnäppchen“, sagt Dave Wiskus, Direktor des Streaming-Dienstes Nebula. Er sagte, es sei respektlos, die Arbeit von Urhebern ohne deren Zustimmung zu nutzen. Zumal Studios möglicherweise in Zukunft in der Lage sein könnten, „generative künstliche Intelligenz zu nutzen, um die Videos der heutigen Ersteller zu ersetzen“. „Werden sie dieses Lernen nutzen können, um Künstler auszubeuten und zu schädigen? Auf jeden Fall“, ist Wiskus überzeugt.

Wo hat alles angefangen?

Der Datensatz soll Teil einer von der gemeinnützigen Organisation EleutherAI veröffentlichten Zusammenstellung namens Pile sein. Sie enthielten nicht nur Material von YouTube, sondern auch vom Europäischen Parlament, der englischen Wikipedia und einer Fülle von E-Mails von Enron-Mitarbeitern, die im Rahmen der Bundesermittlungen veröffentlicht wurden.

Die meisten Pile-Datensätze sind im Internet verfügbar und stehen jedem offen, der über genügend Platz und Rechenleistung verfügt, um darauf zuzugreifen. Akademiker und andere Entwickler außerhalb von „Big Tech“ nutzten den Datensatz, aber sie waren nicht die einzigen.

Unternehmen wie Apple, Nvidia und Salesforce beschreiben in ihren Ankündigungen, dass sie Pile zum Trainieren von KI eingesetzt haben. Aus den Dokumenten geht hervor, dass Pile Apple auch zum Trainieren von OpenELM nutzte, einem hochkarätigen Modell, das im April veröffentlicht wurde, Wochen bevor das Unternehmen bekannt gab, dass es neue KI-Funktionen für iPhones und MacBooks hinzufügen würde.

So auch Anthropic, ein führender KI-Entwickler, in den Amazon 4 Milliarden US-Dollar investiert hat und der seinen Fokus auf „KI-Sicherheit“ fördert.

Die Bedenken betreffen jedoch nicht nur die oben genannten Verschwörungstheorien. Pile enthält außerdem zahlreiche Obszönitäten und soll voreingenommen gegenüber dem Geschlecht, bestimmten religiösen Gruppen und Rassen sein.

Vertreter von EleutherAI, den Erstellern des YouTube-Datensatzes, haben noch nicht auf Anfragen nach Kommentaren zu den Ergebnissen von Proof News geantwortet. Auf der Website des Unternehmens heißt es, dass ihr übergeordnetes Ziel darin bestehe, Hindernisse für die Entwicklung künstlicher Intelligenz auch außerhalb der Unternehmen, die „Big Tech“ repräsentieren, abzubauen.

YouTube-Untertitel enthalten keine Videoclips, sondern bestehen aus reinem Text von Videountertiteln, oft begleitet von Übersetzungen in Sprachen wie Japanisch, Deutsch und Arabisch.

YouTube ist eine Goldgrube an Daten

Unternehmen, die KI entwickeln, konkurrieren miteinander, um herauszufinden, welches Unternehmen das bessere Modell für künstliche Intelligenz hat. Anfang des Jahres berichtete die New York Times, dass Google, dem YouTube gehört, sein Modell auf Videos trainiert. Ein Google-Sprecher sagte, das Filmmaterial sei im Einklang mit Verträgen mit Urhebern verwendet worden, die auf der Plattform veröffentlichen.

In derselben Untersuchung berichteten die Medien, dass die Videos angeblich ohne Genehmigung von der Firma Open AI verwendet worden seien, die dies weder dementierte noch bestätigte. Einigen Berichten zufolge sollen diese Daten zum Trainieren seines KI-Modells Sora verwendet werden, das anhand von Sprachaufforderungen Videos erstellen kann.

YouTube-Untertitel und ähnliche Lösungen sind eine Goldgrube an Daten, da sie beim Trainieren von Modellen zur Nachahmung menschlicher Sprache oder Gespräche eine große Hilfe sein können. Und natürlich kann KI am meisten aus der größten Videosammlung an einem Ort lernen – YouTube.

Proof News wollte Reaktionen von den in dieser Geschichte vorgestellten Kanalbesitzern einholen. Diejenigen, denen es gelang, sie zu ergattern, wussten nicht, dass ihre Daten zum Trainieren der KI verwendet wurden. Unter den Überraschten befanden sich auch die Produzenten der Shows Crash Course und SciShow, die die Säulen des Videobildungsimperiums der Brüder Hank und John Green sind. „Wir sind enttäuscht, zu erfahren, dass unsere sorgfältig ausgearbeiteten Bildungsinhalte ohne unsere Zustimmung auf diese Weise verwendet wurden“, sagte Julie Walsh Smith, CEO der Produktionsfirma Complexly, in einer Erklärung.

Und die Untertitel von YouTube sind nur einer von mehreren Fällen von Datendiebstahl zum Trainieren von KI, der der Kreativbranche Probleme bereitet. Ähnliches geschah, als sie einen Satz von über 180.000 Büchern (Books3) verwendeten, um die KI zu trainieren. Auch hier wurde der Pile-Datensatz verwendet. Damals verklagten viele Autoren KI-Unternehmen wegen unbefugter Nutzung ihrer Werke und angeblicher Urheberrechtsverletzungen.

Wir können in Zukunft mit weiteren ähnlichen Streitigkeiten rechnen

Die meisten Rechtsstreitigkeiten befinden sich noch im Anfangsstadium, sodass Fragen zu Genehmigungen und möglichen Strafen weiterhin ungeklärt sind. Die Pile-Datenbank wurde inzwischen von der offiziellen Download-Site entfernt, ist aber weiterhin über Filesharing-Dienste verfügbar.

Unternehmen, die künstliche Intelligenz entwickeln, verteidigen irgendwie die faire Nutzung und nennen sie nicht einen Ort, die Schöpfer hingegen sind damit nicht einverstanden und erwarten eine Entschädigung oder eine Art Entschädigung für die Nutzung, insbesondere wenn wir so in die Zukunft blicken KI könnte ihnen einen Teil ihres Geschäfts wegnehmen.

Gerade aufgrund all dessen herrscht bei den Machern erhebliche Unsicherheit. YouTuber machen es zu ihrem Vollzeitjob, ihre Videos mit Urheberrechtshinweisen zu versehen. Sie befürchten, dass es nur eine Frage der Zeit ist, bis KI Inhalte erstellen kann, die den von ihnen selbst produzierten Inhalten sehr ähnlich sind – oder sogar eine perfekte Nachahmung erstellen kann.

Pakman, der Schöpfer der David Pakman Show, bekam kürzlich beim Surfen auf TikTok einen Eindruck von der Kraft der künstlichen Intelligenz. Er stieß auf ein Video, das als Aufnahme des amerikanischen politischen Kommentators Tucker Carlson gekennzeichnet war, doch als er es sich ansah, war er sprachlos. Es klang wie Carlson, aber er erkannte genau die wiederholten Worte, die er selbst in seiner YouTube-Show gesagt hatte. Er war noch besorgter, weil er nur einen der Kommentare unter dem Clip fand, der ihn als Fälschung erkannte, einen Sprachklon von Carlson, der Pakmans Drehbuch las.

Das wird ein großes Problem sein, weil man das Gleiche mit jeder Stimme machen kann, glaubt Pakman.

Interessiert an mehr zu diesem Thema?

künstliche Intelligenz YouTube-Suchmaschine

Apple, Nvidia und Anthropic nutzten YouTube-Videos, um KI zu trainieren

KI-Unternehmen gehen sehr geheim mit Daten um

Auch Models sollen aus Verschwörungstheorien lernen

Wo hat alles angefangen?

YouTube ist eine Goldgrube an Daten

Wir können in Zukunft mit weiteren ähnlichen Streitigkeiten rechnen

Interessiert an mehr zu diesem Thema?

Ähnliche Neuigkeiten

Was lesen andere?

Ausgesetzt

Meist gelesen