Deepseek'ten gelen yeni chatbot, cesurca "Merhaba, yaratıldım, böylece bir şey sorabilir ve sizi şaşırtabilecek bir cevap alabilirsiniz", AI endüstrisinde önemli dalgalar yaptı. Bu giriş sadece dikkat çekmekle kalmadı, aynı zamanda Nvidia'nın en büyük hisse senedi fiyat düşüşlerinden birine katkıda bulundu ve Deepseek'in piyasa üzerindeki etkisini sergiledi.
Resim: ensigame.com
Deepseek'in AI modeli, yenilikçi mimarisi ve eğitim yöntemleri nedeniyle öne çıkıyor. Onu ayıran kilit teknolojileri inceleyelim:
Çoklu Tahmini Tahmin (MTP) : Bu yöntem, bir cümlenin farklı segmentlerini analiz ederek modelin aynı anda birden fazla kelimeyi tahmin etmesini sağlar. Bu sadece doğruluğu değil, aynı zamanda modelin verimliliğini de artırır, bu da onu metin anlamak ve oluşturmak için güçlü bir araç haline getirir.
Uzmanların Karışımı (MOE) : Deepseek V3, 256 sinir ağına sahip sofistike bir mimari kullanır ve her jeton işleme görevi için sekiz etkinleştirilir. Bu yaklaşım AI eğitimini önemli ölçüde hızlandırır ve genel performansı artırır, bu da onu teknolojilerinin göze çarpan bir özelliği haline getirir.
Çok Baş Gizli Dikkat (MLA) : Bu mekanizma, bir cümlenin en önemli kısımlarına odaklanır ve önemli ayrıntıları tekrar tekrar çıkarır. MLA bunu yaparak, AI'nın giriş verilerindeki nüanslı ayrıntıları etkili bir şekilde yakalamasına izin vererek önemli bilgilerin eksik riskini azaltır.
Önemli bir Çin girişim olan Deepseek, bu rekabetçi AI modelini nispeten düşük bir maliyetle geliştirdiğini iddia ediyor. Güçlü Deepseek V3 sinir ağının eğitilmesinin onlara sadece 6 milyon dolara mal olduğunu ve sadece 2048 grafik işlemci kullandığını iddia ediyorlar.
Resim: ensigame.com
Bununla birlikte, Semianaliz analistleri Deepseek'in operasyonlarının çok daha büyük bir hesaplama altyapısı içerdiğini ortaya çıkardılar. Deepseek'in 10.000 H800 birim, 10.000 H100 ve ek H20 GPU dahil olmak üzere yaklaşık 50.000 NVIDIA Hopper GPU kullandığını tahmin ediyorlar. Bu kaynaklar AI eğitimi, araştırma ve finansal modelleme için kullanılmaktadır ve şirketin sunuculara toplam yatırımı yaklaşık 1,6 milyar dolara ulaşır ve operasyonel giderler 944 milyon $ 'a ulaşır.
Deepseek, 2023'te ayrı bir AI odaklı bölünme olarak kuran Çin Hedge Fonu High-Flyer'in bir yan kuruluşudur. Bulut bilişimine dayanan birçok girişimin aksine, Deepseek veri merkezlerine sahiptir ve AI model optimizasyonu ve daha hızlı inovasyon konuşlandırması üzerinde tam kontrol sağlar. Şirketin kendi kendine finanse edilen statüsü çevikliğini ve karar verme hızını artırır.
Resim: ensigame.com
Dahası, Deepseek önde gelen Çin üniversitelerinden en iyi yetenekleri çekiyor ve bazı araştırmacılar yıllık 1.3 milyon doların üzerinde kazanıyor. Bu önemli yatırımlara rağmen, şirketin en son modelini sadece 6 milyon dolarlık eğitme iddiası gerçekçi görünmüyor, çünkü bu rakam sadece eğitim öncesi sırasında GPU kullanımını açıklıyor ve araştırma, model arıtma, veri işleme ve altyapı gibi diğer önemli maliyetleri hariç tutuyor.
Kuruluşundan bu yana Deepseek, AI gelişimine 500 milyon doların üzerinde yatırım yaptı. Kompakt yapısı, daha büyük, daha bürokratik şirketlerden farklı olarak AI yeniliklerini hızlı ve etkili bir şekilde uygulamasını sağlar.
Resim: ensigame.com
Deepseek'in örneği, iyi finanse edilen, bağımsız bir AI şirketinin endüstri devleriyle rekabet edebileceğini göstermektedir. Şirketin başarısı önemli yatırımlar, teknik atılımlar ve güçlü bir ekip tarafından yönlendirilirken, yapay zeka modeli gelişimi için "devrimci bütçe" kavramı abartılabilir. Bununla birlikte, Deepseek'in maliyetleri, Deepseek'in R1 için 5 milyon dolarına kıyasla ChatGpt4o eğitimi için harcanan 100 milyon dolar gibi rakiplerinden önemli ölçüde daha düşük kalıyor.
Ancak, hala rakiplerinden daha ucuz.