Ang bagong chatbot mula sa Deepseek, na matapang na nakasaad, "Kumusta, nilikha ako upang maaari kang magtanong ng anuman at makakuha ng isang sagot na maaaring sorpresa ka," ay gumawa ng mga makabuluhang alon sa industriya ng AI. Ang pagpapakilala na ito ay hindi lamang nakunan ng pansin ngunit nag -ambag din sa isa sa pinakamalaking pagbagsak ng presyo ng stock ng Nvidia, na nagpapakita ng epekto ng Deepseek sa merkado.
Larawan: ensigame.com
Ang modelo ng AI ng Deepseek ay nakatayo dahil sa makabagong mga pamamaraan ng arkitektura at pagsasanay. Alamin natin ang mga pangunahing teknolohiya na nagtatakda nito:
Multi-Token Prediction (MTP) : Ang pamamaraang ito ay nagbibigay-daan sa modelo upang mahulaan ang maraming mga salita nang sabay-sabay sa pamamagitan ng pagsusuri ng iba't ibang mga segment ng isang pangungusap. Hindi lamang ito pinalalaki ang kawastuhan kundi pati na rin ang kahusayan ng modelo, ginagawa itong isang malakas na tool para sa pag -unawa at pagbuo ng teksto.
Paghahalo ng mga eksperto (MOE) : Gumagamit ang Deepseek V3 ng isang sopistikadong arkitektura na may 256 na mga network ng neural, na nag -activate ng walong para sa bawat gawain sa pagproseso ng token. Ang pamamaraang ito ay makabuluhang nagpapabilis sa pagsasanay sa AI at pinapahusay ang pangkalahatang pagganap, ginagawa itong isang tampok na standout ng kanilang teknolohiya.
Multi-head latent pansin (MLA) : Ang mekanismong ito ay nakatuon sa pinakamahalagang bahagi ng isang pangungusap, paulit-ulit na kumukuha ng mga pangunahing detalye. Sa pamamagitan nito, binabawasan ng MLA ang panganib ng nawawalang mahalagang impormasyon, na pinapayagan ang AI na makuha ang mga detalye ng nuanced sa data ng pag -input nang epektibo.
Ang Deepseek, isang kilalang pagsisimula ng Tsino, ay nagsasabing binuo ang mapagkumpitensyang modelo ng AI sa medyo mababang gastos. Iginiit nila na ang pagsasanay sa malakas na Deepseek V3 Neural Network ay nagkakahalaga lamang sa kanila ng $ 6 milyon at ginamit lamang ang 2048 na mga graphic processors.
Larawan: ensigame.com
Gayunpaman, ang mga analyst mula sa semianalysis ay walang takip na ang mga operasyon ng Deepseek ay nagsasangkot ng isang mas malaking imprastraktura ng computational. Tinatantya nila na ang Deepseek ay gumagamit ng humigit -kumulang na 50,000 NVIDIA HOPPER GPU, kabilang ang 10,000 H800 unit, 10,000 H100s, at karagdagang mga H20 GPU, kumalat sa maraming mga sentro ng data. Ang mga mapagkukunang ito ay ginagamit para sa pagsasanay sa AI, pananaliksik, at pagmomolde sa pananalapi, na may kabuuang pamumuhunan ng kumpanya sa mga server na umaabot sa halos $ 1.6 bilyon at mga gastos sa pagpapatakbo sa $ 944 milyon.
Ang Deepseek ay isang subsidiary ng Chinese Hedge Fund High-flyer, na itinatag ito bilang isang hiwalay na dibisyon na nakatuon sa AI noong 2023. Hindi tulad ng maraming mga startup na umaasa sa cloud computing, ang Deepseek ay nagmamay-ari ng mga sentro ng data nito, na nagbibigay ng kumpletong kontrol sa pag-optimize ng modelo ng AI at mas mabilis na paglawak ng pagbabago. Ang katayuan sa sarili na pinondohan ng kumpanya ay nagpapabuti sa liksi at bilis ng paggawa ng desisyon.
Larawan: ensigame.com
Bukod dito, ang Deepseek ay nakakaakit ng nangungunang talento mula sa nangungunang mga unibersidad ng Tsino, kasama ang ilang mga mananaliksik na kumikita ng higit sa $ 1.3 milyon taun -taon. Sa kabila ng mga makabuluhang pamumuhunan na ito, ang pag-angkin ng kumpanya ng pagsasanay sa pinakabagong modelo para sa $ 6 milyon lamang ay tila hindi makatotohanang, dahil ang figure na ito ay nagkakaloob lamang ng paggamit ng GPU sa panahon ng pre-training at hindi kasama ang iba pang malaking gastos tulad ng pananaliksik, pagpipino ng modelo, pagproseso ng data, at imprastraktura.
Mula nang maitatag ito, ang Deepeek ay namuhunan ng higit sa $ 500 milyon sa pag -unlad ng AI. Ang compact na istraktura nito ay nagbibigay -daan upang maipatupad ang mga makabagong AI nang mabilis at epektibo, hindi katulad ng mas malaki, mas maraming mga kumpanya ng burukrata.
Larawan: ensigame.com
Ang halimbawa ng Deepseek ay naglalarawan na ang isang mahusay na pinondohan, independiyenteng kumpanya ng AI ay maaaring makipagkumpetensya sa mga higanteng industriya. Habang ang tagumpay ng kumpanya ay hinihimok ng malaking pamumuhunan, mga teknikal na pambihirang tagumpay, at isang malakas na koponan, ang paniwala ng isang "rebolusyonaryong badyet" para sa pag -unlad ng modelo ng AI ay maaaring overstated. Gayunpaman, ang mga gastos sa Deepseek ay nananatiling mas mababa kaysa sa mga katunggali nito, tulad ng $ 100 milyon na ginugol sa pagsasanay sa Chatgpt4O kumpara sa $ 5 milyon ng Deepseek para sa R1.
Gayunpaman, mas mura pa ito kaysa sa mga katunggali nito.