Software
Informatik, Telefonie
14.01.2025 07:00

Mit anderen teilen:

Aktie

Wie Datenknappheit die Zukunft der künstlichen Intelligenz bedroht

Bei der künstlichen Intelligenz mangelt es an Schlüsseldaten, was zum Einsatz synthetischer Lösungen führt. Könnten „gefälschte“ Daten die Zukunft der künstlichen Intelligenz sein oder ein Risiko für die Qualität von Modellen und deren Leistung darstellen?
Wie Datenmangel die Zukunft der künstlichen Intelligenz bedroht

Die Welt der künstlichen Intelligenz steht vor einem Mangel an ihrem wertvollsten Rohstoff – den Daten. Dies hat Diskussionen über eine immer beliebter werdende Alternative ausgelöst: synthetische oder sogar „gefälschte“ Daten. Seit Jahren sammeln Unternehmen wie OpenAI und Google Daten aus dem Internet, um die Large-Scale-Language-Modelle (LLMs) zu erlernen, die ihren UI-Lösungen zugrunde liegen. Diese Modelle haben riesige Mengen an von Menschen erstellten Inhalten verarbeitet, von Forschungsartikeln und Romanen bis hin zu YouTube-Videos.

Nun gehen diese Daten langsam zur Neige, ihre Menge wird immer begrenzter. Bestimmte große Akteure auf diesem Gebiet, wie etwa OpenAI-Direktor Sam Altman, glauben, dass selbstlernende Modelle in der Lage sein werden, synthetische Daten zu nutzen, was eine kostengünstige und nahezu unbegrenzte Datenquelle darstellen würde.

Dennoch warnen Forscher vor Risiken. Synthetische Daten könnten die Qualität der Modelle mindern, da sie mit eigenen Fehlern „vergiftet“ werden können. Untersuchungen der Universitäten Oxford und Cambridge haben gezeigt, dass die ausschließliche Fütterung von Modellen mit synthetischen Daten zu schlechten Ergebnissen und „Unsinn“ führt. Ihrer Meinung nach ist eine ausgewogene Nutzung synthetischer und realer Daten von entscheidender Bedeutung.

Immer mehr Unternehmen erstellen synthetische Daten

Der Mangel an Daten führt dazu, dass Unternehmen nach Alternativen suchen, beispielsweise nach synthetischen Daten, die von UI-Systemen auf der Grundlage realer Daten generiert werden. Technologieunternehmen, darunter unter anderem OpenAI und Google, zahlen bereits Millionen für den Zugriff auf Daten von Plattformen wie Reddit und verschiedenen Medienhäusern, da Websites die kostenlose Nutzung ihrer Inhalte zunehmend einschränken. Allerdings sind die Ressourcen begrenzt.

Nvidia, Tencent und die Startups Gretel und SynthLabs entwickeln Tools zur Erstellung synthetischer Daten, die oft sauberer und spezifischer sind als von Menschen generierte Daten. Mit Llama 3.1 nutzte Meta synthetische Daten, um Fähigkeiten wie Programmieren und Lösen mathematischer Probleme zu verbessern. Synthetische Daten bieten auch die Möglichkeit, die Verzerrung realer Daten zu verringern, obwohl Forscher warnen, dass die Gewährleistung von Genauigkeit und Unparteilichkeit weiterhin eine große Herausforderung darstellt.

„Habsburger“ künstliche Intelligenz

Obwohl synthetische Daten Vorteile bringen, bergen sie auch ernsthafte Risiken. Metas Untersuchungen zum Llama 3.1-Modell haben gezeigt, dass das Training des Modells mit seinen eigenen synthetischen Daten seine Leistung sogar beeinträchtigen kann. In ähnlicher Weise warnte eine Studie in der Zeitschrift Nature davor, dass die unkontrollierte Nutzung synthetischer Daten zum „Modellkollaps“ führe, den die Forscher mit genetischer Degeneration verglichen und das Phänomen symbolisch „habsburger künstliche Intelligenz“ nannten. Ein Begriff, der vom Forscher Jathan Sadowski geprägt wurde.

Die Hauptfrage bleibt: Wie viele synthetische Daten sind zu viel? Einige Experten schlagen die Verwendung hybrider Daten vor, bei denen synthetische Daten mit realen Daten kombiniert werden, um eine Verschlechterung der Modelle zu vermeiden. Unternehmen wie Scale AI erforschen diesen Ansatz und ihr CEO Alexandr Wang glaubt, dass ein hybrider Ansatz „die wahre Zukunft“ ist.

Neue Lösungen finden

Im Januar stellte Google DeepMind AlphaGeometry vor, ein System, das geometrische Probleme auf extrem hoher Ebene mithilfe eines „neurosymbolischen“ Ansatzes löst. Es vereint die Vorteile von datenintensivem Deep Learning und regelbasiertem Denken. Das Modell wurde vollständig auf synthetischen Daten trainiert und gilt als potenzieller Schritt in Richtung künstlicher allgemeiner Intelligenz.

Das neurosymbolische Feld ist noch jung, könnte aber eine vielversprechende Richtung für die Zukunft der Entwicklung künstlicher Intelligenz bieten. Unter dem Druck der Monetarisierung werden Unternehmen wie OpenAI, Google und Microsoft alle möglichen Lösungen ausprobieren, um die Datenkrise zu überwinden.


Interessiert an mehr zu diesem Thema?
künstliche Intelligenz


Was lesen andere?