Chatbot ใหม่จาก Deepseek ซึ่งกล่าวอย่างกล้าหาญว่า "สวัสดีฉันถูกสร้างขึ้นเพื่อให้คุณสามารถถามอะไรก็ได้และรับคำตอบที่อาจทำให้คุณประหลาดใจ" ได้สร้างคลื่นที่สำคัญในอุตสาหกรรม AI การแนะนำนี้ไม่เพียง แต่ดึงดูดความสนใจ แต่ยังมีส่วนร่วมในการลดลงของราคาหุ้นที่ใหญ่ที่สุดของ Nvidia ซึ่งแสดงให้เห็นถึงผลกระทบของ Deepseek ในตลาด
รูปภาพ: Ensigame.com
โมเดล AI ของ Deepseek โดดเด่นเนื่องจากสถาปัตยกรรมที่เป็นนวัตกรรมและวิธีการฝึกอบรม มาเจาะลึกลงไปในเทคโนโลยีสำคัญที่แยกออกจากกัน:
Multi-Token Prediction (MTP) : วิธีนี้ช่วยให้แบบจำลองสามารถทำนายได้หลายคำพร้อมกันโดยการวิเคราะห์ส่วนต่าง ๆ ของประโยค สิ่งนี้ไม่เพียง แต่ช่วยเพิ่มความแม่นยำ แต่ยังรวมถึงประสิทธิภาพของโมเดลทำให้เป็นเครื่องมือที่ทรงพลังสำหรับการทำความเข้าใจและสร้างข้อความ
ส่วนผสมของผู้เชี่ยวชาญ (MOE) : Deepseek V3 ใช้สถาปัตยกรรมที่ซับซ้อนด้วยเครือข่ายประสาท 256 เครือข่ายเปิดใช้งานแปดสำหรับงานประมวลผลโทเค็นแต่ละงาน วิธีการนี้เพิ่มความเร็วในการฝึกอบรม AI อย่างมีนัยสำคัญและเพิ่มประสิทธิภาพโดยรวมทำให้เป็นคุณสมบัติที่โดดเด่นของเทคโนโลยีของพวกเขา
ความสนใจแฝงหลายหัว (MLA) : กลไกนี้มุ่งเน้นไปที่ส่วนที่สำคัญที่สุดของประโยคแยกรายละเอียดสำคัญซ้ำ ๆ ด้วยการทำเช่นนั้น MLA จะลดความเสี่ยงของข้อมูลที่สำคัญที่ขาดหายไปทำให้ AI สามารถจับรายละเอียดที่เหมาะสมในข้อมูลอินพุตได้อย่างมีประสิทธิภาพ
Deepseek การเริ่มต้นของจีนที่โดดเด่นอ้างว่าได้พัฒนาโมเดล AI ที่แข่งขันได้ในราคาที่ค่อนข้างต่ำ พวกเขายืนยันว่าการฝึกอบรมเครือข่ายประสาท Deepseek V3 ที่ทรงพลังมีค่าใช้จ่ายเพียง $ 6 ล้านและใช้โปรเซสเซอร์กราฟิกเพียง 2048
รูปภาพ: Ensigame.com
อย่างไรก็ตามนักวิเคราะห์จาก semianalysis ได้เปิดเผยว่าการดำเนินงานของ Deepseek นั้นเกี่ยวข้องกับโครงสร้างพื้นฐานการคำนวณที่ใหญ่กว่ามาก พวกเขาประเมินว่า Deepseek ใช้ GPUs Nvidia Hopper ประมาณ 50,000 ตัวรวมถึง 10,000 H800 หน่วย, 10,000 H100s และ H20 GPU เพิ่มเติมแพร่กระจายไปทั่วศูนย์ข้อมูลหลายแห่ง ทรัพยากรเหล่านี้ใช้สำหรับการฝึกอบรม AI การวิจัยและการสร้างแบบจำลองทางการเงินด้วยการลงทุนทั้งหมดของ บริษัท ในเซิร์ฟเวอร์ที่มีมูลค่าประมาณ 1.6 พันล้านดอลลาร์และค่าใช้จ่ายในการดำเนินงานที่ 944 ล้านดอลลาร์
Deepseek เป็น บริษัท ในเครือของกองทุนป้องกันความเสี่ยงของจีนสูง-บินสูงซึ่งจัดตั้งขึ้นเป็นแผนก AI ที่เน้นการแยกต่างหากในปี 2566 ซึ่งแตกต่างจากสตาร์ทอัพหลายแห่งที่พึ่งพาคลาวด์คอมพิวติ้ง Deepseek เป็นเจ้าของศูนย์ข้อมูลทำให้สามารถควบคุมการเพิ่มประสิทธิภาพแบบจำลอง AI ได้อย่างสมบูรณ์ สถานะที่ได้รับการสนับสนุนตนเองของ บริษัท ช่วยเพิ่มความคล่องตัวและความเร็วในการตัดสินใจ
รูปภาพ: Ensigame.com
นอกจากนี้ Deepseek ยังดึงดูดความสามารถระดับสูงจากมหาวิทยาลัยชั้นนำของจีนโดยมีนักวิจัยบางคนมีรายได้มากกว่า 1.3 ล้านเหรียญสหรัฐต่อปี แม้จะมีการลงทุนที่สำคัญเหล่านี้ แต่การเรียกร้องของ บริษัท ในการฝึกอบรมรูปแบบล่าสุดในราคาเพียง $ 6 ล้านดูเหมือนจะไม่สมจริงเนื่องจากตัวเลขนี้มีเพียงบัญชีสำหรับการใช้ GPU ในระหว่างการฝึกอบรมก่อนและไม่รวมค่าใช้จ่ายที่สำคัญอื่น ๆ เช่นการวิจัยการปรับแต่งแบบจำลองการประมวลผลข้อมูลและโครงสร้างพื้นฐาน
นับตั้งแต่ก่อตั้ง Deepseek ลงทุนกว่า 500 ล้านดอลลาร์ในการพัฒนา AI โครงสร้างขนาดกะทัดรัดช่วยให้สามารถใช้นวัตกรรม AI ได้อย่างรวดเร็วและมีประสิทธิภาพซึ่งแตกต่างจาก บริษัท ที่มีขนาดใหญ่และมีระบบราชการมากขึ้น
รูปภาพ: Ensigame.com
ตัวอย่างของ Deepseek แสดงให้เห็นว่า บริษัท AI ที่ได้รับการสนับสนุนและได้รับการสนับสนุนอย่างดีสามารถแข่งขันกับยักษ์ใหญ่ในอุตสาหกรรมได้ ในขณะที่ความสำเร็จของ บริษัท ได้รับแรงผลักดันจากการลงทุนที่สำคัญการพัฒนาทางเทคนิคและทีมที่แข็งแกร่งแนวคิดเรื่อง "งบประมาณปฏิวัติ" สำหรับการพัฒนาแบบจำลอง AI อาจเกินจริง อย่างไรก็ตามค่าใช้จ่ายของ Deepseek ยังคงต่ำกว่าคู่แข่งอย่างมีนัยสำคัญเช่นการใช้จ่าย $ 100 ล้านในการฝึกอบรม chatgpt4o เมื่อเทียบกับ $ 5 ล้านของ Deepseek สำหรับ R1
อย่างไรก็ตามมันยังคงถูกกว่าคู่แข่ง