Le nouveau chatbot de Deepseek, qui a hardiment déclaré: "Salut, j'ai été créé pour que vous puissiez demander n'importe quoi et obtenir une réponse qui pourrait même vous surprendre", a fait des vagues importantes dans l'industrie de l'IA. Cette introduction a non seulement attiré l'attention, mais a également contribué à l'une des plus grandes baisses de cours des actions de Nvidia, présentant l'impact de Deepseek sur le marché.
Image: esigame.com
Le modèle d'IA de Deepseek se démarque en raison de son architecture innovante et de ses méthodes de formation. Plongeons dans les technologies clés qui le distinguent:
Prédiction multi-token (MTP) : Cette méthode permet au modèle de prédire plusieurs mots à la fois en analysant différents segments d'une phrase. Cela stimule non seulement la précision mais aussi l'efficacité du modèle, ce qui en fait un outil puissant pour comprendre et générer du texte.
Mélange d'experts (MOE) : Deepseek V3 utilise une architecture sophistiquée avec 256 réseaux neuronaux, activant huit pour chaque tâche de traitement de jeton. Cette approche accélère considérablement la formation de l'IA et améliore les performances globales, ce qui en fait une caractéristique remarquable de leur technologie.
Attention latente multi-tête (MLA) : ce mécanisme se concentre sur les parties les plus cruciales d'une phrase, en extraction des détails clés à plusieurs reprises. Ce faisant, MLA réduit le risque de manquer des informations importantes, permettant à l'IA de capturer efficacement les détails nuancés dans les données d'entrée.
Deepseek, une startup chinoise de premier plan, prétend avoir développé ce modèle d'IA compétitif à un coût relativement faible. Ils affirment que la formation du puissant réseau neuronal Deepseek V3 ne leur a coûté que 6 millions de dollars et n'a utilisé que 2048 processeurs graphiques.
Image: esigame.com
Cependant, les analystes de semi-analyse ont révélé que les opérations de Deepseek impliquent une infrastructure de calcul beaucoup plus grande. Ils estiment que Deepseek utilise environ 50 000 GPU Nvidia Hopper, dont 10 000 unités H800, 10 000 H100 et des GPU H20 supplémentaires, répartis sur plusieurs centres de données. Ces ressources sont utilisées pour la formation, la recherche et la modélisation financière de l'IA, avec l'investissement total de l'entreprise dans des serveurs atteignant environ 1,6 milliard de dollars et des dépenses opérationnelles à 944 millions de dollars.
Deepseek est une filiale du High Flyer de fonds spéculatifs chinois, qui l'a établi en tant que division distincte axée sur l'IA en 2023. Contrairement à de nombreuses startups qui reposent sur le cloud computing, Deepseek possède ses centres de données, ce qui lui donne un contrôle complet sur l'optimisation du modèle IA et le déploiement plus rapide de l'innovation. Le statut autofinancé de l'entreprise améliore son agilité et sa vitesse de prise de décision.
Image: esigame.com
En outre, Deepseek attire les meilleurs talents des principales universités chinoises, certains chercheurs gagnant plus de 1,3 million de dollars par an. Malgré ces investissements importants, la prétention de la société de formation de son dernier modèle pour seulement 6 millions de dollars semble irréaliste, car ce chiffre ne tient compte que de l'utilisation du GPU pendant la pré-formation et exclut d'autres coûts substantiels tels que la recherche, le raffinement du modèle, le traitement des données et les infrastructures.
Depuis sa fondation, Deepseek a investi plus de 500 millions de dollars dans le développement de l'IA. Sa structure compacte lui permet de mettre en œuvre les innovations d'IA rapidement et efficacement, contrairement aux entreprises plus grandes et plus bureaucratiques.
Image: esigame.com
L'exemple de Deepseek illustre qu'une entreprise d'IA indépendante bien financée peut rivaliser avec les géants de l'industrie. Bien que le succès de l'entreprise soit motivé par des investissements substantiels, des percées techniques et une équipe solide, la notion de "budget révolutionnaire" pour le développement du modèle d'IA peut être surestimée. Néanmoins, les coûts de Deepseek restent nettement inférieurs à ceux de ses concurrents, tels que les 100 millions de dollars dépensés pour la formation de Chatgpt4o par rapport aux 5 millions de dollars de Deepseek pour R1.
Cependant, il est encore moins cher que ses concurrents.