Ist das DeepSeek-KI-Modell, über das alle Welt spricht, wirklich so gut?
DeepSeek ist derzeit das angesagteste KI-Modell und steht derzeit an der Spitze des AppStore von Apple in den USA und Großbritannien. Es handelt sich um ein völlig kostenloses KI-Modell des chinesischen Startups DeepSeek, dessen Ziel darin besteht, künstliche Intelligenz einem breiteren Publikum zugänglich zu machen. Wie? Mit einer kostenlosen Version des ChatGPT o1-Modellkonkurrenten von OpenAI.
Fast täglich erscheinen neue UI-Apps im App Store und die Einführung eines neuen Modells sorgt oft für große Aufregung, da die Leute nach der nächsten ChatGPT-Alternative suchen. Egal, ob Sie ein Fan der OpenAI-Software sind oder lieber Google Gemini verwenden, es gibt für jeden ein UI-Tool und DeepSeek möchte das nächste Symbol auf Ihrem Startbildschirm werden.
Die Website Tech Radar hat beschlossen, die Modelle DeepSeek V3 und DeeThink R1 zu testen und sie mit ChatGPT 4o und o1 zu vergleichen. Das Hauptziel des Vergleichs bestand darin, festzustellen, ob die Online-Beiträge der Benutzer gerechtfertigt sind und ob DeepSeek tatsächlich eine Bedrohung für die amerikanischen KI-Modelle darstellt, die bisher den Markt der generativen künstlichen Intelligenz dominiert haben.
Zunächst die Grundlagen
Im Test wollte Tech Radar einen umfassenden Einblick in alles erhalten, was DeepThink im Vergleich zu ChatGPT zu bieten hat, daher erschien es nur fair, den KI-Chatbot auf die gleiche Weise zu verwenden, wie man eine KI im Alltag verwenden würde.
ChatGPT o4 und DeepSeek V3 begannen damit, beide Modelle zu bitten, einen Tagesplan mit einigen Informationen darüber zu erstellen, wann der Benutzer aufwacht, der Routine des Hundes und einer kurzen Aufschlüsselung der Arbeit. Beide Modelle erstellten tolle Zeitpläne, die der Benutzer tatsächlich jeden Tag nutzen konnte. Die Speicherfunktion von ChatGPT machte den Zeitplan jedoch kohärenter.
Zunächst ist es wichtig darauf hinzuweisen, dass sich DeepSeek nur Informationen aus demselben Chat merken kann und nicht auf Informationen aus vorherigen Chats zugreifen kann, um bei der Beantwortung zu helfen.
Erklären Sie es mir, als wäre ich fünf Jahre alt.
Anschließend befragte Tech Radar beide Modelle zu den Playoffs der sehr beliebten NFL-Liga. Sie baten um eine 200 Wörter umfassende Zusammenfassung des NFL-Playoff-Konzepts. Beide Modelle lieferten hervorragende Informationen, die ein umfassendes Verständnis der Funktionsweise des Systems und des Weges ermöglichten, den ein Team einschlagen muss, um den Super Bowl zu erreichen.
ChatGPT entschied sich für einen 200 Wörter langen Absatz, während DeepSeek die Informationen in Aufzählungspunkte unterteilte. Sie stellten fest, dass ChatGPT mehr Kontext dazu bereitstellt, wie Teams eine spezielle Einladung zur Liga erhalten, aber der Unterschied zwischen den Ergebnissen ist ziemlich gering und Ihnen wird das eine allein aufgrund Ihrer persönlichen Vorlieben besser gefallen als das andere.
Problemlösung
Nachdem sie die Grundlagen behandelt hatten, kamen sie zur Hauptfrage, nämlich ob DeepThink R1 die Erwartungen erfüllt. Im Netz schreiben Nutzer, dass das kostenlose Modell DeepThink R1 genauso gut sei wie das ChatGPT o1, das zwar eingeschränkt kostenlos erhältlich sei, für den Vollzugriff aber ein Abonnement erfordere.
Um das Denkvermögen von Chatbots zu testen, suchten sie sich die schwierigsten Herausforderungen, die sie finden konnten. Bestimmte Ergebnisse schockierten sie:
Frage 1: Finde das fehlende Wort: Apfel, Rot, Kohle
Für den Test beschlossen sie, auf Multiple-Choice-Fragen zu verzichten. Stattdessen tippten sie einfach die Frage ein und drückten die Eingabetaste.
ChatGPT o1 brauchte 1 Minute und 29 Sekunden zum Antworten und fand Verbindungen zwischen den Wörtern und dem Märchen Schneewittchen. Das Modell beschloss, auf der Grundlage dieses Zitats zu antworten: „Ihre Lippen waren rot wie Blut, ihr Haar schwarz wie Kohle und ihre Haut weiß wie Schnee.". Basierend auf diesem Zitat wählte o1 „Schnee“ als Antwort auf das fehlende Wort. Obwohl es sich bei dem Denkprozess um Modell 01 handelte, war es nicht die Antwort, nach der sie gesucht hatten.
DeepThink R1 brauchte jedoch 1 Minute und 14 Sekunden zum Antworten und schaffte es, das richtige Wort zu erraten: Schwarz. Der Apfel ist rot; Kohle ist schwarz. Beeindruckend, um es gelinde auszudrücken.
Frage 2: 1. Vervollständige die Folge: 1, 2, 4, 8, ? 2. Vervollständige die Reihenfolge: Haus, Saturn, Hund, Burger, ?
Während die erste Sequenz sehr einfach ist, ist die zweite unmöglich (es sind nur vier zufällige Wörter). Konnten ChatGPT o1 oder DeepThink R1 die Falle entdecken?
Nicht einmal. Beide Modelle versuchten eine Antwort zu finden und kamen zu einem völlig unterschiedlichen Ergebnis. DeepThink R1 antwortete „gelb“, weil es dachte, die Wörter hätten einen Bezug zu ihrer Farbe (weißes Haus, gelber Saturn, brauner Hund, gelber Burger). ChatGPT o1 hingegen antwortete mit „Auto“, da er die Sequenz nahezu unmöglich fand, entschied sich jedoch, Antworten basierend auf einem „klassischen Rätselansatz“ anzubieten. Der von ihm gewählte Ansatz bestand darin, jedes Objekt der größeren Kategorie zuzuordnen, zu der es gehört (Haus = Gebäude, Saturn = Planet, Hund = Tier, Burger = Nahrung und Auto = Fahrzeug).
Letztendlich waren beide Modelle falsch und keines der Modelle reagierte auf eine Weise, die deutlich machte, dass zu viele Variablen vorhanden waren, um eine präzise Antwort zu geben.
DeepSeek vs. ChatGPT?
Tech Radar hat beide Modelle auf verschiedene Weise getestet und nun stellt sich die Frage: Welches ist besser? Basierend auf den Antworten, die sie während des Tests erhalten haben, ist DeepThink R1 ein großartiges kostenloses Inferenzmodell, das Sie möglicherweise fragen lässt, ob es sich lohnt, für den Zugriff auf o1 zu bezahlen. DeepSeek ist nur online im iOS App Store und Play Store erhältlich, eine eigenständige App für Mac oder iPad soll wahrscheinlich folgen.
Tech Radar hat sich entschieden, bei ChatGPT zu bleiben, hauptsächlich weil sie stark auf die Erinnerungsfunktion angewiesen sind, die es dem Chatbot ermöglicht, auf frühere Gespräche zu verweisen. ChatGPT profitiert außerdem von einer eigenständigen App für Mac- und iPad-Geräte sowie der Möglichkeit, Bilder mit einem der besten Bildgeneratoren mit künstlicher Intelligenz, DALL-E, zu erstellen.
DeepSeek basiert ausschließlich auf Text und verfügt nicht über multimodale Funktionen. Angesichts der Tatsache, dass dies jedoch erst der Anfang seiner Reise ist, ist es ein sehr ernstzunehmender Konkurrent auf dem Gebiet der UI-Modelle und wir werden sicherlich noch viel davon hören.