DeepSeek: Warum dreht die ganze Welt durch? Was passiert im Hintergrund?
DeepSeek ist ein Name, der den größten amerikanischen Unternehmen Angst und Schrecken eingejagt hat. Es war nicht nur OpenAI, das den Hype um generative künstliche Intelligenz (KI) auslöste, sondern auch Google, Microsoft, Anthropic, Meta, Amazon und alle anderen, die fälschlicherweise dachten, sie würden zumindest noch eine Weile die Oberhand behalten und Milliardeninvestitionen anziehen, bekamen es mit der Angst zu tun.
Als das chinesische Unternehmen DeepSeek im vergangenen Monat sein künstliches Intelligenzmodell vorstellte, erschütterte es die Grundfesten Amerikas mit der Botschaft, sein Modell sei den amerikanischen Modellen ebenbürtig oder in mancher Hinsicht sogar besser und würde nur einen Bruchteil davon kosten. Für das Training des DeepSeek-V3-Modells sind Berichten zufolge lediglich Rechenleistung im Wert von 6 Millionen US-Dollar erforderlich, wobei darin „vorherige Forschungs- und Ablationsexperimente zu Architekturen, Algorithmen oder Daten“ nicht enthalten sind.
Unmittelbar nach seiner Veröffentlichung überholte DeepSeek ChatGPT in Bezug auf die Bewertungen im Apple Mobile Store und auch die Anzahl der Downloads wächst stetig.
Die Folgen waren enorm. In den USA fragt man sich, ob die enormen Investitionen in KI wirklich notwendig waren, wenn die chinesischen Kollegen mit geringeren Investitionen dieselben Ergebnisse erzielen konnten. Die Aktien von Unternehmen, darunter Nvidia, fielen und es kam erneut die Frage auf, ob dies der Moment sei, in dem die KI-Blase platzen würde.
Andererseits fragen sich viele, ob DeepSeek wirklich so revolutionär ist, wie das Unternehmen behauptet. Verbergen sie etwas? Was haben sie zum Trainieren ihres Modells verwendet?
Was ist DeepSeek?
DeepSeek ist der Name eines Startups, eines groß angelegten Sprachmodells und eines Chatbots, der ähnlich wie ChatGPT, Gemini und Copilot funktioniert. Das Aussehen, die Bedienung und auch die Art der Kommunikation sind nahezu identisch mit amerikanischen Lösungen, sodass den Nutzern die Umstellung sehr leicht fiel und sie mit der Bedienung bereits vertraut waren.
Wie leistungsstark ist es und ist es wirklich besser als ChatGPT und die anderen? Das Unternehmen sagt, dass es bei Aufgaben wie Mathematik und Codierung genauso leistungsstark ist wie das Ende letzten Jahres veröffentlichte Modell o1 von OpenAI. OpenAI hat kürzlich mit dem o3 ein neues Modell vorgestellt, das leistungsfähiger sein soll als alle getesteten Modelle, aber noch nicht öffentlich zum Testen verfügbar ist.
Das neueste R1-Modell (DeepSeek) ist ein logisches Sprachmodell. Gleich wie das o1-Modell von OpenAI. Diese Modelle generieren schrittweise Antworten und simulieren die Art und Weise, wie Menschen über Probleme oder Ideen nachdenken.
Der größte Schock war die Tatsache, dass nur 6 Millionen Dollar für das Training des V3-Modells ausgegeben wurden, das den Chatbot antreibt. Zum Vergleich: OpenAI hat mehr als 100 Millionen US-Dollar für die Entwicklung des GPT-4-Modells ausgegeben und Meta hat rund 60 Millionen US-Dollar für Llama ausgegeben. Dies gelang ihnen trotz Handelsbeschränkungen, die dazu führten, dass China seit einiger Zeit offiziell keinen Zugriff auf die neuesten Chips hatte.
Der DeepSeek-Gründer soll Nvidia-A100-Chips gehortet haben, deren Export nach China seit September 2022 verboten ist. Einige Experten glauben, dass er diese Chips mit billigeren, weniger ausgefeilten Chips kombiniert hat, was zu einem viel effizienteren Prozess geführt hat. DeepSeek benötigt außerdem weniger Speicher als seine Konkurrenten, was letztendlich den Aufwand für die Aufgabenausführung für Benutzer senkt.
Es gibt auch Gerüchte, dass das Unternehmen tatsächlich die neuesten Nvidia H100-Chips verwendet, aber es gibt keine konkreten Beweise dafür und das Unternehmen hat sich bisher nicht zu den „Vorwürfen“ geäußert.
Einer neuen unabhängigen Studie von SemiAnalysis zufolge haben sie etwa 500 Millionen Dollar für Hardware ausgegeben. Das blitzschnelle Tempo, mit dem das Unternehmen entsprechende KI-Modelle entwickelt, wird auch von OpenAI kritisch beobachtet. Das Unternehmen vermutet, dass das chinesische Unternehmen seine Modelle „destilliert“ hat.
Kurz nach der Markteinführung und nachdem DeepSeek im Apple Store die größte Popularität erlangt hatte, kam es bei der App zu Ausfällen. Der Chatbot war lange Zeit nicht verfügbar und Unternehmen und Entwickler hatten keinen Zugriff auf seine API. Das Unternehmen gab bekannt, dass es Ziel bösartiger Angriffe gewesen sei, die den Betrieb verlangsamten und die Registrierung vorübergehend einschränkten.
Wer führt Chinas KI-Revolution an?
DeepSeek entstand nicht über Nacht und erregte bis zum letzten Monat nicht viel Aufmerksamkeit in den Medien, obwohl bekannt war, dass es KI-Modelle entwickelt. Das Startup gehört mehrheitlich Liang Wenfeng, der auch Mitbegründer des Investmentfonds High-Flyer ist. Letzterer gab im März 2023 bekannt, dass er ein neues Projekt starten und eine „neue und unabhängige Forschungsgruppe zur Erforschung der Essenz der allgemeinen künstlichen Intelligenz“ gründen werde. Einige Monate später haben wir das Unternehmen DeepSeek übernommen. Sie lockten junge und erfahrene Talente vor allem mit der Aussicht auf hohe Gehälter und die Möglichkeit, an einzigartigen Forschungsprojekten mitzuarbeiten.
Es ist unklar, wie viel High-Flyer in DeepSeek investiert hat. High-Flyer hat ein Büro im selben Gebäude wie DeepSeek und besitzt laut Daten aus chinesischen Handelsregistern ebenfalls Patente für Chips, die zum Trainieren künstlicher Intelligenzmodelle verwendet werden.
Wie geht es weiter?
DeepSeek beschrieb in der Studie, wie es seine Modelle trainiert. Da das offizielle Unternehmen keinen Zugriff auf dieselben Chips wie seine amerikanischen Konkurrenten hat, musste es einen anderen Weg finden.
Führende Systeme künstlicher Intelligenz erlernen ihre Fähigkeiten, indem sie Muster in großen Datenmengen, darunter Text, Bilder und Töne, erkennen. DeepSeek beschrieb eine Möglichkeit, diese Datenanalyse auf mehrere spezialisierte KI-Modelle zu verteilen und gleichzeitig den Zeitverlust bei der Datenübertragung von einem Ort zum anderen zu minimieren.
Andere haben bereits ähnliche Methoden verwendet, doch das Verschieben von Daten zwischen Modellen hat in der Regel die Effizienz verringert. DeepSeek hat dies auf eine Weise getan, die es ermöglichte, weniger Rechenleistung zu nutzen.
Kosten und Trainingsmethode sind nicht die einzigen Unterschiede zu anderen KI-Modellen. DeepSeek ist außerdem Open Source, was bedeutet, dass es von praktisch jedem heruntergeladen, verwendet und aktualisiert werden kann.
Im Gegensatz dazu sind die Modelle von Meta und Google zwar für jedermann zugänglich, gelten aber nicht als echte Open Source, da die Art und Weise, wie Benutzer die Modelle verwenden, durch Lizenzen eingeschränkt ist und die Trainingsdatensätze nicht öffentlich verfügbar sind. Darüber hinaus waren sie auch Gegenstand zahlreicher Klagen. So befindet sich Facebook bzw. Meta beispielsweise in einem Rechtsstreit mit Autoren, die dem Unternehmen vorwerfen, Raubkopien ihrer Bücher zu Lehrzwecken zu verwenden. Die New York Times verklagt Microsoft und OpenAI, weil diese ihre Inhalte angeblich ohne Erlaubnis für Lernzwecke verwenden.
Einer der Gründe, warum amerikanische UI-Modelle nicht Open Source sind, ist die größere Möglichkeit der Verbreitung falscher Informationen, Hassreden und dergleichen, aber der Hauptgrund ist sicherlich der Profit und die größeren Möglichkeiten, mit UI-Modellen Geld zu verdienen.
Chinesische Open-Source-Modelle können laut Experten die künstliche Intelligenz demokratisieren, was die Strategie amerikanischer Unternehmen stark untergraben könnte. Es besteht die Befürchtung, dass auch amerikanische Unternehmen und Wissenschaftler beginnen werden, DeepSeek zu nutzen, um eigene Lösungen zu entwickeln und zu bauen.
In China wird das neueste Modell bereits von Telekommunikationsunternehmen eingesetzt und Geely ist der erste Automobilkonzern, der das DeepSeek-Modell in die intelligenten Systeme seiner Autos integriert hat.
In anderen Teilen der Welt wird inzwischen bereits über eine mögliche Blockade nachgedacht. Italien, Irland, Belgien, die Niederlande und Frankreich sind Länder, die bereits eine Untersuchung eingeleitet haben, um herauszufinden, wie DeepSeek Daten verwendet und speichert und ob das Unternehmen möglicherweise gegen europäische Datenschutzbestimmungen verstößt. In Italien ist DeepSeek präventiv gesperrt, auch in Südkorea und Australien ist seine Nutzung verboten.
DeepSeek gibt an, alle erforderlichen Sicherheitsmaßnahmen ergriffen zu haben, um die in China gespeicherten Daten zu schützen. Doch es dauerte nicht lange, bis Experten entdeckten, dass das Unternehmen versehentlich Millionen von Datenzeilen ungesichert gelassen hatte, darunter Softwareschlüssel, Protokolle, Chats und mehr.
Cisco analysierte den neuesten KI-Akteur und kam zu dem Schluss, dass „DeepSeek R1 keine robusten Sicherheitsvorkehrungen bietet, was es sehr anfällig für algorithmische Durchbrüche und potenziellen Missbrauch macht.“
Eine neue Front hat sich geöffnet
Im Januar 2025 waren die Vereinigten Staaten das einzige Pferd im Rennen, und die amerikanischen Reiter mussten sich an niemanden in der Wildnis wenden. Nun sitzt ihnen China im Nacken. Zwischen den USA und China besteht seit einiger Zeit eine Handels- und Technologiefront, und DeepSeek hat eine neue Front eröffnet, an der sich das Schicksal der künstlichen Intelligenz entscheiden wird.