O novo chatbot da Deepseek, que afirmou com ousadia: "Oi, fui criado para que você possa perguntar qualquer coisa e obter uma resposta que possa até surpreendê -lo", fez ondas significativas na indústria da IA. Esta introdução não apenas chamou a atenção, mas também contribuiu para uma das maiores quedas de preços das ações da Nvidia, mostrando o impacto da Deepseek no mercado.
Imagem: Ensigame.com
O modelo de AI da Deepseek se destaca devido à sua arquitetura inovadora e métodos de treinamento. Vamos nos aprofundar nas principais tecnologias que o diferenciam:
Previsão com vários toques (MTP) : Este método permite que o modelo preveja várias palavras de uma só vez, analisando diferentes segmentos de uma frase. Isso não apenas aumenta a precisão, mas também a eficiência do modelo, tornando -o uma ferramenta poderosa para entender e gerar texto.
Mistura de especialistas (MOE) : Deepseek V3 utiliza uma arquitetura sofisticada com 256 redes neurais, ativando oito para cada tarefa de processamento de token. Essa abordagem acelera significativamente o treinamento de IA e melhora o desempenho geral, tornando -o um recurso de destaque de sua tecnologia.
Atenção latente de várias cabeças (MLA) : Esse mecanismo se concentra nas partes mais cruciais de uma frase, extraindo detalhes importantes repetidamente. Ao fazer isso, o MLA reduz o risco de perder informações importantes, permitindo que a IA captura detalhes diferenciados nos dados de entrada.
A Deepseek, uma proeminente startup chinesa, afirma ter desenvolvido esse modelo de IA competitivo a um custo relativamente baixo. Eles afirmam que o treinamento da poderosa rede neural Deepseek V3 custou apenas US $ 6 milhões e usou apenas 2048 processadores gráficos.
Imagem: Ensigame.com
No entanto, analistas da semiânica descobriram que as operações da Deepseek envolvem uma infraestrutura computacional muito maior. Eles estimam que o DeepSeek usa aproximadamente 50.000 GPUs da NVIDIA Hopper, incluindo 10.000 unidades H800, 10.000 H100s e GPUs H20 adicionais, espalhados por vários data centers. Esses recursos são usados para treinamento, pesquisa e modelagem financeira de IA, com o investimento total da empresa em servidores atingindo cerca de US $ 1,6 bilhão e despesas operacionais em US $ 944 milhões.
A Deepseek é uma subsidiária do fundo de hedge chinês High-Flyer, que o estabeleceu como uma divisão separada de IA em 2023. Ao contrário de muitas startups que dependem da computação em nuvem, a DeepSeek possui seus data centers, oferecendo controle completo sobre a otimização de modelos de IA e uma implantação mais rápida da inovação. O status autofinanciado da empresa aumenta sua agilidade e velocidade de tomada de decisão.
Imagem: Ensigame.com
Além disso, a Deepseek atrai os principais talentos das principais universidades chinesas, com alguns pesquisadores ganhando mais de US $ 1,3 milhão anualmente. Apesar desses investimentos significativos, a reivindicação da empresa de treinar seu modelo mais recente por apenas US $ 6 milhões parece irrealista, pois esse número é responsável apenas pelo uso da GPU durante o pré-treinamento e exclui outros custos substanciais, como pesquisa, refinamento de modelos, processamento de dados e infraestrutura.
Desde a sua fundação, a Deepseek investiu mais de US $ 500 milhões em desenvolvimento de IA. Sua estrutura compacta permite implementar inovações de IA de maneira rápida e eficaz, diferentemente de empresas maiores e mais burocráticas.
Imagem: Ensigame.com
O exemplo da Deepseek ilustra que uma empresa de IA independente e bem financiada pode competir com gigantes do setor. Embora o sucesso da empresa seja impulsionado por investimentos substanciais, avanços técnicos e uma equipe forte, a noção de um "orçamento revolucionário" para o desenvolvimento do modelo de IA pode ser exagerado. No entanto, os custos da Deepseek permanecem significativamente menores do que os de seus concorrentes, como os US $ 100 milhões gastos no treinamento de ChatGPT4O em comparação com os US $ 5 milhões da Deepseek em R1.
No entanto, ainda é mais barato que seus concorrentes.