Novi DeepSeek z nižjimi stroški in večjo učinkovitostjo

DeepSeek je izdal svoj najnovejši veliki jezikovni model (LLM) z oznako DeepSeek-V3.2-Exp, ki prinaša pomembne izboljšave pri porabi virov in stroških API-ja. Model je trenutno 11. najzmogljivejši LLM na svetu, kar potrjuje njegovo zmogljivost.
Ključna novost je arhitektura DeepSeek Sparse Attention (DSA), ki ne povezuje vsakega žetona z vsemi drugimi, temveč le z najbolj relevantnimi. To omogoča hitrejšo obdelavo besedila do 128.000 žetonov z manjšo porabo pomnilnika. Razvijalci aplikacij, ki uporabljajo DeepSeek API, lahko pričakujejo več kot 50 odstotkov nižje stroške v primerjavi s prejšnjo različico, pri čemer zmogljivost ostaja primerljiva z DeepSeek V3.1-Terminus.
Model je velik 400 GB in je na voljo brezplačno na Hugging Face. Za lokalno poganjanje je potrebna strojna oprema z več Nvidia H100/H200/H20 grafičnimi karticami ali strežnik NVIDIA B200/GB200, saj model zahteva več kot 1,5 TB VRAM-a.
Za domače uporabnike bo poganjanje možno šele, ko bodo na voljo kvantizirane različice, kot je že objavljena za V3.1. Za to bo zadostovala grafična kartica z vsaj 24 GB pomnilnika, kot je Nvidia RTX 5090, ki je na voljo za približno od preračunih 2.811 evrov do preračunih 3.471 evrov.
Prijavi napako v članku