Je li DeepSeek AI model o kojem priča cijeli svijet zaista toliko dobar?
DeepSeek je trenutačno najpopularniji AI model i trenutno se nalazi na vrhu Appleove AppStore trgovine u SAD-u i Velikoj Britaniji. Riječ je o potpuno besplatnom AI modelu kineskog startupa DeepSeek, koji ima za cilj približiti umjetnu inteligenciju široj publici. Kako? Uz besplatnu verziju OpenAI-jevog konkurenta modela ChatGPT o1.
Nove aplikacije korisničkog sučelja pojavljuju se u App Storeu gotovo svaki dan, a oko lansiranja novog modela često se podiže velika buka jer ljudi traže sljedeću ChatGPT alternativu. Bilo da ste obožavatelj softvera OpenAI ili radije koristite Google Gemini, postoji UI alat za svakoga, a DeepSeek želi biti sljedeća ikona na vašem početnom zaslonu.
Web stranica Tech Radar odlučila je testirati modele DeepSeek V3 i DeeThink R1 te ih usporediti s ChatGPT 4o i o1. Glavni cilj usporedbe bio je utvrditi jesu li postovi korisnika online opravdani i predstavlja li DeepSeek doista prijetnju američkim AI modelima koji su do sada vladali na tržištu generativne umjetne inteligencije.
Prvo osnove
U testu je Tech Radar želio dobiti potpuni uvid u sve što DeepThink nudi u usporedbi s ChatGPT-om, pa se činilo fer koristiti AI chatbot na isti način na koji bi se AI koristio u svakodnevnom životu.
ChatGPT o4 i DeepSeek V3 započeli su traženjem od oba modela da naprave dnevni raspored s nekim informacijama o tome kada se korisnik budi, rutini psa i kratkim pregledom posla. Oba modela su stvorila sjajne rasporede koje korisnik zapravo može koristiti svaki dan. Međutim, značajka memorije ChatGPT učinila je raspored koherentnijim.
Na početku je važno istaknuti da DeepSeek može zapamtiti samo informacije iz istog chata i ne može pristupiti informacijama iz prethodnih chatova kako bi mu pomogao odgovoriti.
Objasni mi to kao da imam 5 godina.
Potom je Tech Radar oba modela pitao o doigravanju vrlo popularne NFL lige. Tražili su sažetak od 200 riječi koncepta NFL playoffa. Oba modela pružila su izvrsne informacije koje su omogućile potpuno razumijevanje načina na koji sustav funkcionira i puta koji tim mora proći da bi došao do Super Bowla.
ChatGPT se odlučio za odlomak od 200 riječi, dok je DeepSeek podijelio informacije u točke. Primijetili su da je ChatGPT pružio više konteksta o tome kako timovi dobivaju pozivnicu za posebnu ligu, ali razlika između rezultata je prilično mala i jedan će vam se svidjeti više nego drugi isključivo na temelju osobnih preferencija.
Rješavanje problema
Nakon što su obradili osnove, došli su do glavnog pitanja, odnosno ispunjava li DeepThink R1 očekivanja. Korisnici na internetu pišu da je besplatni model DeepThink R1 jednako dobar kao i ChatGPT o1, koji je dostupan besplatno u ograničenoj mjeri, ali zahtijeva pretplatu za puni pristup.
Kako bi testirali sposobnost razmišljanja chatbota, tražili su neke od najtežih izazova koje su mogli pronaći. Ostali su šokirani određenim rezultatima:
Pitanje 1: Pronađite riječ koja nedostaje: Apple, Red, Coal
Za test su odlučili izbjeći pitanja s višestrukim izborom i umjesto toga su samo upisali pitanje i pritisnuli enter.
ChatGPT o1 je trebao 1 minutu i 29 sekundi da odgovori i pronađe veze između riječi i bajke Snjeguljica. Manekenka je odlučila odgovoriti na temelju ovog citata: “usne su joj bile crvene poput krvi, kosa crna poput ugljena, a koža bijela poput snijega". Na temelju ovog citata, o1 je odabrao Snow kao odgovor na riječ koja nedostaje. Iako je misaoni proces bio model o1, to nije bio odgovor koji su tražili.
DeepThink R1 je, međutim, trebalo 1 minutu i 14 sekundi da odgovori i uspio je pogoditi točnu riječ: Black. Jabuka je crvena; Ugljen je crn. U najmanju ruku impresivno.
Pitanje 2: 1. Dovršite niz: 1, 2, 4, 8, ? 2. Dovršite niz: kuća, Saturn, pas, hamburger, ?
Dok je prvi niz vrlo jednostavan, drugi je nemoguć (to su samo četiri nasumične riječi). Mogu li ChatGPT o1 ili DeepThink R1 uočiti zamku?
čak ni ne. Oba su modela pokušala pronaći odgovor i dala potpuno drugačiji. DeepThink R1 odgovorio je "žuto" jer je mislio da su riječi povezane s njihovom bojom (bijela kuća, žuti Saturn, smeđi pas, žuti hamburger). ChatGPT o1, s druge strane, odgovorio je s "auto" jer je slijed smatrao gotovo nemogućim, ali je odlučio ponuditi odgovore temeljene na "klasičnom pristupu slagalici". Pristup koji je odabrao bio je povezati svaki predmet s većom kategorijom kojoj pripada (kuća = zgrada, Saturn = planet, pas = životinja, hamburger = hrana i auto = vozilo).
U konačnici, oba su modela bila pogrešna i niti jedan nije odgovorio na način koji bi jasno naveo da postoji previše varijabli da bi se dao precizan odgovor.
DeepSeek protiv ChatGPT-a?
Tech Radar je testirao oba modela na razne načine, a sad se postavlja pitanje koji je bolji? Na temelju odgovora koje su dobili tijekom testiranja, DeepThink R1 izvrstan je besplatni model zaključivanja zbog kojeg biste se mogli zapitati isplati li se platiti za pristup o1. DeepSeek je dostupan samo online, u iOS App Store i Play Store, a vjerojatno će uslijediti i samostalna aplikacija za Mac ili iPad.
Tech Radar se odlučio držati ChatGPT-a, uglavnom zato što se uvelike oslanjaju na značajku sjećanja, koja omogućuje chatbotu da referencira prethodne razgovore. ChatGPT također ima koristi od samostalne aplikacije za Mac i iPad uređaje, kao i mogućnosti stvaranja slika s jednim od najboljih generatora slika umjetne inteligencije, DALL-E.
DeepSeek je baziran isključivo na tekstu i nema multimodalne mogućnosti, ali s obzirom da je ovo tek početak njegovog puta, vrlo je ozbiljan konkurent na polju UI modela i o njemu ćemo sigurno još puno čuti.