Le modèle d’IA DeepSeek dont le monde entier parle est-il vraiment si bon ?
DeepSeek est actuellement le modèle d'IA le plus en vogue et se classe actuellement en tête de l'AppStore d'Apple aux États-Unis et au Royaume-Uni. Il s'agit d'un modèle d'IA entièrement gratuit de la startup chinoise DeepSeek, qui vise à apporter l'intelligence artificielle à un public plus large. Comment? Avec une version gratuite du modèle concurrent ChatGPT o1 d'OpenAI.
De nouvelles applications d'interface utilisateur apparaissent dans l'App Store presque tous les jours, et il y a souvent beaucoup de buzz autour du lancement d'un nouveau modèle alors que les gens recherchent la prochaine alternative à ChatGPT. Que vous soyez un fan du logiciel OpenAI ou que vous préfériez utiliser Google Gemini, il existe un outil d'interface utilisateur pour tout le monde, et DeepSeek veut être la prochaine icône sur votre écran d'accueil.
Le site Tech Radar a décidé de tester les modèles DeepSeek V3 et DeeThink R1 et de les comparer avec les ChatGPT 4o et o1. L’objectif principal de la comparaison était de déterminer si les publications des utilisateurs en ligne sont justifiées et si DeepSeek représente réellement une menace pour les modèles d’IA américains qui règnent jusqu’à présent en maître sur le marché de l’intelligence artificielle générative.
D'abord les bases
Lors du test, Tech Radar a voulu avoir un aperçu complet de tout ce que DeepThink a à offrir par rapport à ChatGPT, il semblait donc tout à fait juste d'utiliser le chatbot IA de la même manière que l'on utiliserait une IA dans la vie de tous les jours.
ChatGPT o4 et DeepSeek V3 ont commencé par demander aux deux modèles de créer un programme quotidien avec quelques informations sur l'heure de réveil de l'utilisateur, la routine du chien et une brève description du travail. Les deux modèles ont créé d'excellents programmes que l'utilisateur pouvait réellement utiliser tous les jours. Cependant, la fonctionnalité de mémoire ChatGPT a rendu le calendrier plus cohérent.
Tout d’abord, il est important de souligner que DeepSeek ne peut mémoriser que les informations de la même discussion et ne peut pas accéder aux informations des discussions précédentes pour l’aider à répondre.
Expliquez-le-moi comme si j'avais 5 ans.
Ensuite, Tech Radar a interrogé les deux modèles sur les séries éliminatoires de la très populaire ligue NFL. Ils ont demandé un résumé de 200 mots du concept des séries éliminatoires de la NFL. Les deux modèles ont fourni d’excellentes informations qui ont permis de comprendre complètement le fonctionnement du système et le chemin qu’une équipe doit emprunter pour atteindre le Super Bowl.
ChatGPT a opté pour un paragraphe de 200 mots, tandis que DeepSeek a divisé les informations en puces. Ils ont noté que ChatGPT fournissait plus de contexte sur la façon dont les équipes obtiennent une invitation à une ligue spéciale, mais la différence entre les résultats est assez faible, et vous en aimerez probablement un plus que l'autre en fonction uniquement de vos préférences personnelles.
Résolution de problèmes
Après avoir couvert les bases, ils sont arrivés à la question principale, à savoir si DeepThink R1 est à la hauteur des attentes. En ligne, les utilisateurs écrivent que le modèle gratuit DeepThink R1 est tout aussi bon que le ChatGPT o1, qui est disponible gratuitement dans une mesure limitée, mais nécessite un abonnement pour un accès complet.
Pour tester la capacité de raisonnement des chatbots, ils ont recherché certains des défis les plus difficiles qu’ils pouvaient trouver. Ils ont été choqués par certains résultats :
Question 1 : Trouvez le mot manquant : Pomme, Rouge, Charbon
Pour le test, ils ont décidé d'éviter les questions à choix multiples et ont simplement tapé la question et appuyé sur Entrée.
ChatGPT o1 a mis 1 minute et 29 secondes pour répondre et a trouvé des liens entre les mots et le conte de fées Blanche-Neige. Le mannequin a décidé de répondre sur la base de cette citation : «ses lèvres étaient rouges comme du sang, ses cheveux étaient noirs comme du charbon et sa peau était blanche comme la neige". Sur la base de cette citation, o1 a choisi Neige comme réponse au mot manquant. Bien que le processus de réflexion soit le modèle o1, ce n’était pas la réponse qu’ils recherchaient.
DeepThink R1 a cependant mis 1 minute et 14 secondes pour répondre et a réussi à deviner le bon mot : Noir. La pomme est rouge ; Le charbon est noir. Impressionnant, c'est le moins qu'on puisse dire.
Question 2 : 1. Complétez la séquence : 1, 2, 4, 8, ? 2. Complétez la séquence : maison, Saturne, chien, burger, ?
Alors que la première séquence est très facile, la seconde est impossible (il s'agit simplement de quatre mots aléatoires). ChatGPT o1 ou DeepThink R1 pourraient-ils repérer le piège ?
Même pas. Les deux modèles ont essayé de trouver une réponse et ont donné une réponse complètement différente. DeepThink R1 a répondu « jaune » car il pensait que les mots étaient liés à leur couleur (maison blanche, Saturne jaune, chien marron, hamburger jaune). ChatGPT o1, d’autre part, a répondu « voiture » car il trouvait la séquence presque impossible, mais a décidé de proposer des réponses basées sur une « approche de puzzle classique ». L’approche qu’il a choisie était d’associer chaque objet à la catégorie plus large à laquelle il appartient (maison = bâtiment, Saturne = planète, chien = animal, hamburger = nourriture et voiture = véhicule).
En fin de compte, les deux modèles étaient erronés et aucun des deux n’a répondu d’une manière indiquant clairement qu’il y avait trop de variables pour donner une réponse précise.
DeepSeek contre ChatGPT ?
Tech Radar a testé les deux modèles de différentes manières, et maintenant la question est : lequel est le meilleur ? D'après les réponses reçues lors des tests, DeepThink R1 est un excellent modèle d'inférence gratuit qui peut vous amener à vous demander s'il vaut la peine de payer pour accéder à o1. DeepSeek est uniquement disponible en ligne, dans l'App Store iOS et le Play Store, avec une application autonome pour Mac ou iPad susceptible de suivre.
Tech Radar a décidé de s'en tenir à ChatGPT, principalement parce qu'ils s'appuient fortement sur la fonction de mémoire, qui permet au chatbot de référencer les conversations précédentes. ChatGPT bénéficie également d'une application autonome pour les appareils Mac et iPad, ainsi que de la possibilité de créer des images avec l'un des meilleurs générateurs d'images d'intelligence artificielle, DALL-E.
DeepSeek est basé uniquement sur du texte et manque de capacités multimodales, mais étant donné que ce n'est que le début de son voyage, il s'agit d'un concurrent très sérieux dans le domaine des modèles d'interface utilisateur, et nous en entendrons certainement beaucoup parler.