El nuevo chatbot de Deepseek, que dijo audazmente: "Hola, fui creado para que pueda preguntar cualquier cosa y obtener una respuesta que pueda sorprenderlo", ha hecho ondas significativas en la industria de la IA. Esta introducción no solo ha captado la atención, sino que también ha contribuido a una de las mayores caídas de precios de las acciones de Nvidia, que muestra el impacto de Deepseek en el mercado.
Imagen: ensigame.com
El modelo de IA de Deepseek se destaca debido a su innovadora arquitectura y métodos de capacitación. Vamos a profundizar en las tecnologías clave que lo distinguen:
Predicción de múltiples token (MTP) : este método permite que el modelo predice múltiples palabras a la vez analizando diferentes segmentos de una oración. Esto no solo aumenta la precisión sino también la eficiencia del modelo, lo que lo convierte en una herramienta poderosa para comprender y generar texto.
Mezcla de expertos (MOE) : Deepseek V3 utiliza una arquitectura sofisticada con 256 redes neuronales, activando ocho para cada tarea de procesamiento de tokens. Este enfoque acelera significativamente el entrenamiento de IA y mejora el rendimiento general, por lo que es una característica destacada de su tecnología.
Atención latente múltiple (MLA) : este mecanismo se centra en las partes más cruciales de una oración, extrayendo detalles clave repetidamente. Al hacerlo, MLA reduce el riesgo de faltar información importante, lo que permite que la IA capture detalles matizados en los datos de entrada de manera efectiva.
Deepseek, una nueva startup china, afirma haber desarrollado este modelo de IA competitivo a un costo relativamente bajo. Afirman que el entrenamiento de la poderosa red neuronal Deepseek V3 les costó solo $ 6 millones y usó solo 2048 procesadores gráficos.
Imagen: ensigame.com
Sin embargo, los analistas del semianálisis han descubierto que las operaciones de Deepseek implican una infraestructura computacional mucho mayor. Estiman que Deepseek utiliza aproximadamente 50,000 GPU de tolva Nvidia, incluidas 10,000 unidades H800, 10,000 H100 y GPU H20 adicionales, distribuidas en varios centros de datos. Estos recursos se utilizan para la capacitación de IA, la investigación y el modelado financiero, con la inversión total de la compañía en servidores que alcanza alrededor de $ 1.6 mil millones y gastos operativos a $ 944 millones.
Deepseek es una subsidiaria del Fondo de cobertura chino High-Flyer, que lo estableció como una división separada centrada en la IA en 2023. A diferencia de muchas nuevas empresas que dependen de la computación en la nube, Deepseek posee sus centros de datos, lo que le da un control completo sobre la optimización del modelo de IA y la despliegue de innovación más rápido. El estado autofinanciado de la compañía mejora su agilidad y velocidad de toma de decisiones.
Imagen: ensigame.com
Además, Deepseek atrae al máximo talento de las principales universidades chinas, y algunos investigadores ganan más de $ 1.3 millones anuales. A pesar de estas importantes inversiones, el reclamo de la compañía de capacitar a su último modelo por solo $ 6 millones parece poco realista, ya que esta cifra solo representa el uso de GPU durante la capacitación previa y excluye otros costos sustanciales como investigación, refinamiento modelo, procesamiento de datos e infraestructura.
Desde su fundación, Deepseek ha invertido más de $ 500 millones en desarrollo de IA. Su estructura compacta le permite implementar innovaciones de IA de manera rápida y efectiva, a diferencia de las empresas más grandes y burocráticas.
Imagen: ensigame.com
El ejemplo de Deepseek ilustra que una compañía de IA independiente bien financiada puede competir con los gigantes de la industria. Si bien el éxito de la compañía está impulsado por inversiones sustanciales, avances técnicos y un equipo fuerte, la noción de un "presupuesto revolucionario" para el desarrollo del modelo de IA puede ser exagerada. No obstante, los costos de Deepseek siguen siendo significativamente más bajos que los de sus competidores, como los $ 100 millones gastados en capacitación de chatgpt4o en comparación con los $ 5 millones de Deepseek para R1.
Sin embargo, sigue siendo más barato que sus competidores.