Il modello di intelligenza artificiale DeepSeek di cui tutto il mondo parla è davvero così valido?
DeepSeek è attualmente il modello di intelligenza artificiale più diffuso e si colloca al primo posto nell'AppStore di Apple negli Stati Uniti e nel Regno Unito. Si tratta di un modello di intelligenza artificiale completamente gratuito della startup cinese DeepSeek, che mira a rendere l'intelligenza artificiale accessibile a un pubblico più vasto. Come? Con una versione gratuita del modello concorrente ChatGPT o1 di OpenAI.
Quasi ogni giorno compaiono sull'App Store nuove app UI e spesso c'è molto fermento attorno al lancio di un nuovo modello, perché le persone sono alla ricerca della prossima alternativa a ChatGPT. Che tu sia un fan del software OpenAI o preferisca usare Google Gemini, esiste uno strumento di interfaccia utente per tutti e DeepSeek vuole essere la prossima icona sulla tua schermata iniziale.
Il sito web Tech Radar ha deciso di testare i modelli DeepSeek V3 e DeeThink R1 e di confrontarli con ChatGPT 4o e o1. L'obiettivo principale del confronto era determinare se i post degli utenti online fossero giustificati e se DeepSeek rappresentasse davvero una minaccia per i modelli di intelligenza artificiale americani che finora hanno regnato sovrani nel mercato dell'intelligenza artificiale generativa.
Prima le basi
Nel test, Tech Radar ha voluto avere una panoramica completa di tutto ciò che DeepThink ha da offrire rispetto a ChatGPT, quindi è sembrato giusto utilizzare il chatbot AI nello stesso modo in cui si userebbe un'intelligenza artificiale nella vita di tutti i giorni.
ChatGPT o4 e DeepSeek V3 hanno iniziato chiedendo a entrambi i modelli di creare un programma giornaliero con alcune informazioni sull'orario di sveglia dell'utente, sulla routine del cane e una breve ripartizione del lavoro. Entrambi i modelli hanno creato degli ottimi programmi che l'utente può effettivamente utilizzare ogni giorno. Tuttavia, la funzionalità di memoria ChatGPT ha reso la pianificazione più coerente.
Innanzitutto è importante sottolineare che DeepSeek può ricordare solo le informazioni provenienti dalla stessa chat e non può accedere alle informazioni delle chat precedenti per rispondere.
Spiegamelo come se avessi 5 anni.
Tech Radar ha poi chiesto a entrambi i modelli di raccontarci qualcosa sui playoff della popolarissima lega NFL. Hanno chiesto un riassunto di 200 parole del concetto dei playoff NFL. Entrambi i modelli hanno fornito informazioni eccellenti che hanno consentito di comprendere appieno il funzionamento del sistema e il percorso che una squadra deve seguire per raggiungere il Super Bowl.
ChatGPT ha optato per un paragrafo di 200 parole, mentre DeepSeek ha suddiviso le informazioni in punti elenco. Hanno notato che ChatGPT ha fornito più contesto su come le squadre ottengono un invito speciale alla lega, ma la differenza tra i risultati è piuttosto piccola e probabilmente ne preferirai uno rispetto all'altro basandoti esclusivamente sulle tue preferenze personali.
Risoluzione dei problemi
Dopo aver affrontato le nozioni di base, si è arrivati alla domanda principale: se DeepThink R1 sia all'altezza delle aspettative? Online, gli utenti scrivono che il modello gratuito DeepThink R1 è valido tanto quanto ChatGPT o1, disponibile gratuitamente in misura limitata, ma che richiede un abbonamento per l'accesso completo.
Per testare la capacità di ragionamento dei chatbot, hanno cercato alcune delle sfide più difficili che sono riusciti a trovare. Sono rimasti scioccati da alcuni risultati:
Domanda 1: Trova la parola mancante: Mela, Rosso, Carbone
Per il test, hanno deciso di evitare domande a risposta multipla e hanno semplicemente digitato la domanda e premuto Invio.
ChatGPT o1 ha impiegato 1 minuto e 29 secondi per rispondere e ha trovato collegamenti tra le parole e la fiaba di Biancaneve. La modella ha deciso di rispondere basandosi su questa citazione: “le sue labbra erano rosse come il sangue, i suoi capelli erano neri come il carbone e la sua pelle era bianca come la neve". Sulla base di questa citazione, o1 ha scelto Snow come risposta alla parola mancante. Sebbene il processo di pensiero fosse modello 01, non era la risposta che stavano cercando.
DeepThink R1, invece, ha impiegato 1 minuto e 14 secondi per rispondere ed è riuscito a indovinare la parola corretta: Nero. La mela è rossa; Il carbone è nero. Impressionante, per usare un eufemismo.
Domanda 2: 1. Completa la sequenza: 1, 2, 4, 8, ? 2. Completa la sequenza: casa, Saturno, cane, hamburger, ?
Mentre la prima sequenza è molto semplice, la seconda è impossibile (si tratta solo di quattro parole casuali). ChatGPT o1 o DeepThink R1 riusciranno a individuare la trappola?
Nemmeno. Entrambi i modelli hanno cercato di trovare una risposta e ne hanno fornita una completamente diversa. DeepThink R1 ha risposto "giallo" perché pensava che le parole fossero correlate al loro colore (casa bianca, Saturno giallo, cane marrone, hamburger giallo). ChatGPT o1, d'altra parte, ha risposto con "auto" perché ha trovato la sequenza quasi impossibile, ma ha deciso di offrire risposte basate su un "approccio puzzle classico". L'approccio da lui scelto è stato quello di associare ogni oggetto alla categoria più ampia a cui appartiene (casa = edificio, Saturno = pianeta, cane = animale, hamburger = cibo e auto = veicolo).
In definitiva, entrambi i modelli erano sbagliati e nessuno dei due ha risposto in modo tale da indicare chiaramente che le variabili erano troppe per fornire una risposta precisa.
DeepSeek o ChatGPT?
Tech Radar ha testato entrambi i modelli in vari modi e ora la domanda è: qual è il migliore? In base alle risposte ricevute durante i test, DeepThink R1 è un ottimo modello di inferenza gratuito che potrebbe far chiedere se valga la pena pagare per accedere a o1. DeepSeek è disponibile solo online, nell'App Store e nel Play Store di iOS; probabilmente seguirà anche un'app standalone per Mac o iPad.
Tech Radar ha deciso di continuare a utilizzare ChatGPT, principalmente perché fa molto affidamento sulla funzionalità dei ricordi, che consente al chatbot di fare riferimento alle conversazioni precedenti. ChatGPT offre inoltre un'app autonoma per dispositivi Mac e iPad e la possibilità di creare immagini con uno dei migliori generatori di immagini basati su intelligenza artificiale, DALL-E.
DeepSeek si basa esclusivamente sul testo e non ha capacità multimodali, ma dato che questo è solo l'inizio del suo viaggio, è un concorrente molto serio nel campo dei modelli di interfaccia utente e ne sentiremo sicuramente molto parlare.