Deepseekの新しいチャットボットは、「こんにちは、私は何でも尋ねて驚くかもしれない答えを得ることができる」と大胆に述べた。この紹介は注目を集めただけでなく、Nvidiaの最大の株価下落の1つにも貢献し、Deepseekの市場への影響を示しています。
画像:Ensigame.com
DeepseekのAIモデルは、革新的なアーキテクチャとトレーニング方法のために際立っています。それを際立たせる重要なテクノロジーを掘り下げましょう:
マルチトークン予測(MTP) :この方法により、文の異なるセグメントを分析することにより、モデルが一度に複数の単語を予測できます。これは、精度を高めるだけでなく、モデルの効率を高めるため、テキストを理解して生成するための強力なツールになります。
専門家の混合(MOE) :Deepseek V3は、256個のニューラルネットワークを備えた洗練されたアーキテクチャを利用し、トークン処理タスクごとに8個をアクティブにします。このアプローチは、AIトレーニングを大幅に高速化し、全体的なパフォーマンスを向上させ、テクノロジーの傑出した機能となっています。
マルチヘッド潜在的注意(MLA) :このメカニズムは、文の最も重要な部分に焦点を当て、重要な詳細を繰り返し抽出します。そうすることで、MLAは重要な情報を欠いているリスクを減らし、AIが入力データの微妙な詳細を効果的にキャプチャできるようにします。
中国の著名な新興企業であるDeepseekは、この競争力のあるAIモデルを比較的低コストで開発したと主張しています。彼らは、強力なDeepSeek V3ニューラルネットワークのトレーニングにはわずか600万ドルで、2048グラフィックプロセッサしか使用されていないと主張しています。
画像:Ensigame.com
ただし、Semianalysisのアナリストは、Deepseekの業務にははるかに大きな計算インフラストラクチャが含まれていることを明らかにしています。彼らは、DeepSeekが10,000 H800ユニット、10,000 H100、追加のH20 GPUを含む約50,000 NVIDIAホッパーGPUを使用して、いくつかのデータセンターに広がると推定しています。これらのリソースは、AIのトレーニング、調査、および財務モデリングに使用されており、サーバーへの同社の総投資は約16億ドル、運用費用は9億4,400万ドルに達しています。
Deepseekは、中国のヘッジファンド高飛行者の子会社であり、2023年にAIに焦点を合わせた別の部門として確立しました。クラウドコンピューティングに依存する多くのスタートアップとは異なり、DeepSeekはデータセンターを所有しており、AIモデルの最適化とイノベーションの展開の速度を完全に制御します。同社の自己資金によるステータスは、その俊敏性と意思決定速度を向上させます。
画像:Ensigame.com
さらに、Deepseekは主要な中国の大学のトップの才能を引き付け、一部の研究者は年間130万ドル以上を稼いでいます。これらの多大な投資にもかかわらず、わずか600万ドルで最新モデルをトレーニングするという同社の主張は非現実的であるように思われます。この数字は、トレーニング前のGPU使用のみを占め、研究、モデルの洗練、データ処理、インフラストラクチャなどの他の実質的なコストを除外しています。
設立以来、DeepseekはAI開発に5億ドル以上を投資してきました。そのコンパクトな構造により、より大きな官僚的企業とは異なり、AIのイノベーションを迅速かつ効果的に実装できます。
画像:Ensigame.com
Deepseekの例は、資金提供された独立したAI企業が業界の巨人と競争できることを示しています。同社の成功は、実質的な投資、技術的なブレークスルー、強力なチームによって推進されていますが、AIモデル開発の「革新的な予算」の概念は誇張されている可能性があります。それにもかかわらず、DeepSeekのコストは、R1の500万ドルと比較して、ChatGPT4Oのトレーニングに費やされた1億ドルなど、競合他社のコストよりも大幅に低いままです。
ただし、競合他社よりも安いです。