DeepSeek的新聊天机器人大胆地说:“嗨,我是被创建的,所以您可以问任何东西并获得一个甚至可能使您感到惊讶的答案,” AI行业引起了重要的浪潮。这次介绍不仅引起了人们的关注,而且促成了NVIDIA最大的股票价格下跌之一,从而展示了DeepSeek对市场的影响。
图片:ensigame.com
DeepSeek的AI模型由于其创新的建筑和培训方法而脱颖而出。让我们深入研究将其与众不同的关键技术:
多语预测(MTP) :此方法允许模型通过分析句子的不同段立即预测多个单词。这不仅提高了模型的准确性,而且可以提高模型的效率,从而成为理解和生成文本的强大工具。
专家的混合物(MOE) :DeepSeek V3使用了具有256个神经网络的复杂体系结构,每个令牌处理任务都激活了8个。这种方法可大大加快AI训练并提高整体性能,从而成为其技术的出色功能。
多头潜在注意力(MLA) :这种机制着重于句子的最关键部分,重复提取关键细节。通过这样做,MLA降低了丢失重要信息的风险,使AI可以有效地捕获输入数据中的细微细节。
著名的中国初创公司DeepSeek声称已经以相对较低的成本开发了这种竞争性的AI模型。他们断言,培训强大的DeepSeek V3神经网络仅花费了600万美元,仅使用了2048个图形处理器。
图片:ensigame.com
但是,半分析的分析师发现了DeepSeek的操作涉及更大的计算基础架构。他们估计DeepSeek使用了大约50,000个NVIDIA HOPPER GPU,其中包括10,000 h800单元,10,000 H100和其他H20 GPU,分布在几个数据中心。这些资源用于AI培训,研究和财务建模,该公司对服务器的总投资达到16亿美元,运营费用为9.44亿美元。
DeepSeek是中国对冲基金高飞行员的子公司,该基金在2023年将其确立为以AI为中心的单独的部门。与许多依靠云计算的初创公司不同,DeepSeek拥有其数据中心,使其完全控制了AI模型优化和更快的创新部署。该公司的自筹资金地位提高了其敏捷性和决策速度。
图片:ensigame.com
此外,DeepSeek吸引了领先的中国大学的顶尖人才,一些研究人员每年收入超过130万美元。尽管有这些重大投资,但该公司要求以600万美元的价格培训其最新模式的主张似乎是不现实的,因为该数字仅在培训期间占用GPU使用,并排除了其他实质性成本,例如研究,改进,数据处理和基础架构。
自成立以来,DeepSeek已为AI开发投资了超过5亿美元。它的紧凑结构使其能够与更大,更官僚的公司不同,可以快速有效地实施AI创新。
图片:ensigame.com
DeepSeek的例子表明,一家资金充足的独立AI公司可以与行业巨头竞争。尽管公司的成功是由大量投资,技术突破和强大的团队驱动的,但AI模型开发的“革命预算”的概念可能被夸大了。尽管如此,DeepSeek的成本仍大大低于其竞争对手的费用,例如在培训ChatGpt4O上花费的1亿美元,而DeepSeek的R1 $ 500万。
但是,它仍然比竞争对手便宜。