News about DeepSeek的负担能力是一个神话：革命性的AI实际上花费了16亿美元

DeepSeek的新聊天机器人大胆地说：“嗨，我是被创建的，所以您可以问任何东西并获得一个甚至可能使您感到惊讶的答案，” AI行业引起了重要的浪潮。这次介绍不仅引起了人们的关注，而且促成了NVIDIA最大的股票价格下跌之一，从而展示了DeepSeek对市场的影响。

DeepSeek测试图片：ensigame.com

DeepSeek的AI模型由于其创新的建筑和培训方法而脱颖而出。让我们深入研究将其与众不同的关键技术：

多语预测（MTP） ：此方法允许模型通过分析句子的不同段立即预测多个单词。这不仅提高了模型的准确性，而且可以提高模型的效率，从而成为理解和生成文本的强大工具。

专家的混合物（MOE） ：DeepSeek V3使用了具有256个神经网络的复杂体系结构，每个令牌处理任务都激活了8个。这种方法可大大加快AI训练并提高整体性能，从而成为其技术的出色功能。

多头潜在注意力（MLA） ：这种机制着重于句子的最关键部分，重复提取关键细节。通过这样做，MLA降低了丢失重要信息的风险，使AI可以有效地捕获输入数据中的细微细节。

著名的中国初创公司DeepSeek声称已经以相对较低的成本开发了这种竞争性的AI模型。他们断言，培训强大的DeepSeek V3神经网络仅花费了600万美元，仅使用了2048个图形处理器。

DeepSeek V3 图片：ensigame.com

但是，半分析的分析师发现了DeepSeek的操作涉及更大的计算基础架构。他们估计DeepSeek使用了大约50,000个NVIDIA HOPPER GPU，其中包括10,000 h800单元，10,000 H100和其他H20 GPU，分布在几个数据中心。这些资源用于AI培训，研究和财务建模，该公司对服务器的总投资达到16亿美元，运营费用为9.44亿美元。

DeepSeek是中国对冲基金高飞行员的子公司，该基金在2023年将其确立为以AI为中心的单独的部门。与许多依靠云计算的初创公司不同，DeepSeek拥有其数据中心，使其完全控制了AI模型优化和更快的创新部署。该公司的自筹资金地位提高了其敏捷性和决策速度。

DeepSeek 图片：ensigame.com

此外，DeepSeek吸引了领先的中国大学的顶尖人才，一些研究人员每年收入超过130万美元。尽管有这些重大投资，但该公司要求以600万美元的价格培训其最新模式的主张似乎是不现实的，因为该数字仅在培训期间占用GPU使用，并排除了其他实质性成本，例如研究，改进，数据处理和基础架构。

自成立以来，DeepSeek已为AI开发投资了超过5亿美元。它的紧凑结构使其能够与更大，更官僚的公司不同，可以快速有效地实施AI创新。

DeepSeek 图片：ensigame.com

DeepSeek的例子表明，一家资金充足的独立AI公司可以与行业巨头竞争。尽管公司的成功是由大量投资，技术突破和强大的团队驱动的，但AI模型开发的“革命预算”的概念可能被夸大了。尽管如此，DeepSeek的成本仍大大低于其竞争对手的费用，例如在培训ChatGpt4O上花费的1亿美元，而DeepSeek的R1 $ 500万。

但是，它仍然比竞争对手便宜。