El momento Sputnik de la inteligencia artificial
Te lo explico fácil: imagina que una startup con una fracción del presupuesto de OpenAI consigue crear una IA que compite cara a cara con GPT-5. Que entrena sus modelos por $5.6 millones cuando a OpenAI le cuesta $100 millones o más. Que publica los pesos de sus modelos gratis para que cualquiera los use.
Eso es exactamente lo que está haciendo DeepSeek.
El 27 de enero de 2025, cuando DeepSeek lanzó su modelo R1, NVIDIA perdió $600 mil millones en valor de mercado en un solo día. La mayor pérdida de una empresa en la historia de Wall Street. Microsoft perdió otros $150 mil millones. Los analistas lo llamaron el "momento Sputnik" de la IA.
Y ahora, en febrero de 2026, llega DeepSeek-V4. Las filtraciones internas sugieren que podría superar a Claude Opus 4.5 en programación con un modelo de 1 trillón de parámetros y una ventana de contexto de 1 millón de tokens.
El truco está en una innovación llamada mHC (Manifold-Constrained Hyper-Connections) que permite entrenar modelos más grandes con menos hardware. Y lo que nadie te cuenta es que esto cambia fundamentalmente la economía de la inteligencia artificial.
Qué es DeepSeek y por qué debería importarte
DeepSeek no es una startup típica de Silicon Valley. Es una empresa china fundada en Hangzhou por un ex-trader cuantitativo que decidió usar las ganancias de su hedge fund para construir AGI.
Los números que importan
| Métrica | DeepSeek | OpenAI | Anthropic |
|---|---|---|---|
| Costo entrenamiento modelo flagship | $5.6M | $100M+ | No revelado |
| Precio API (input/1M tokens) | $0.28 | $2.50-$3.00 | $3.00 |
| Precio API (output/1M tokens) | $0.42 | $10.00 | $15.00 |
| Modelo open source | Sí (pesos públicos) | No | No |
| Valoración | ~$3.4B | $300B+ | $60B+ |
Lo que nadie te cuenta es la magnitud de esta diferencia: por el mismo dinero que cuesta usar GPT-4o, puedes hacer 10-40 veces más consultas con DeepSeek. Un contexto de 100K tokens que cuesta $5.50 en GPT-4 cuesta $0.90 en DeepSeek.
DeepSeek V3 vs los gigantes (benchmarks actuales)
| Benchmark | DeepSeek V3 | GPT-4o | Claude 3.5 Sonnet |
|---|---|---|---|
| MMLU-Pro (conocimiento general) | 75.9 | ~77 | ~76 |
| GPQA (ciencia avanzada) | 59.1 | ~58 | ~59 |
| MATH-500 (matemáticas) | 90.2% | ~85% | ~88% |
| LiveCodeBench (programación) | #1 | Top 5 | Top 3 |
DeepSeek ya lidera en matemáticas y programación. Con V4, aspira a dominar completamente el nicho de coding.
La arquitectura mHC: el secreto de la eficiencia
Aquí es donde la cosa se pone técnica, pero te lo explico de forma que tenga sentido.
El problema que resuelve mHC
Imagina que estás entrenando una red neuronal muy grande. Conforme añades más capas, la información que fluye por la red tiende a amplificarse de forma descontrolada. Es como un micrófono que produce feedback: una señal pequeña se amplifica hasta convertirse en ruido insoportable.
Este fenómeno se llama explosión de gradientes y es uno de los principales obstáculos para entrenar modelos más grandes. La solución tradicional es usar más poder de cómputo para estabilizar el entrenamiento. Más GPUs, más dinero, más tiempo.
mHC propone algo diferente: en lugar de dejar que la información se amplifique sin control, la proyecta sobre una estructura matemática llamada manifold que garantiza que la cantidad total de información se conserve.
Cómo funciona (simplificado)
-
Múltiples streams paralelos: En lugar de un solo camino para la información, mHC usa 4 "streams" que procesan datos en paralelo
-
Restricción de Sinkhorn-Knopp: Un algoritmo matemático que asegura que cuando la información se mezcla entre streams, no se amplifica. Puede redistribuirse, pero nunca crecer descontroladamente
-
Ganancia máxima controlada: Mientras las arquitecturas tradicionales pueden amplificar señales hasta 3000 veces, mHC limita la amplificación a ~1.6 veces
Los resultados concretos
| Métrica | Con mHC | Sin mHC |
|---|---|---|
| Overhead de entrenamiento | +6.7% | Base |
| Estabilidad | Alta | Baja en modelos grandes |
| BIG-Bench Hard (razonamiento) | +2.1% mejora | Base |
| Escalabilidad | Probado hasta 27B params | Limitado por explosión gradientes |
El truco está en que ese 6.7% extra de cómputo durante el entrenamiento te ahorra tener que usar 10x más GPUs para estabilizar el proceso. Es una inversión pequeña con un retorno enorme.
Liang Wenfeng: el fundador que nadie conoce
Si me preguntas quién es la persona más importante en IA que casi nadie conoce, te diría que es Liang Wenfeng.
De pueblo rural a hedge fund billonario
| Dato | Detalle |
|---|---|
| Nacimiento | 1985, aldea Mililing, Wuchuan, Guangdong |
| Padres | Ambos maestros de escuela primaria |
| Educación | Bachelor (2007) y Master (2010) en ingeniería electrónica, Zhejiang University |
| Patrimonio estimado | ~$4.5 mil millones (2025) |
Liang fundó High-Flyer, un hedge fund de trading cuantitativo, en 2016. Para 2021, gestionaba más de 100 mil millones de yuan (~$14 mil millones). La estrategia: usar algoritmos de machine learning para predecir movimientos del mercado.
De hedge fund a laboratorio de IA
En abril de 2023, Liang anunció que convertiría parte de High-Flyer en un laboratorio de AGI. En julio, ese laboratorio se independizó como DeepSeek.
Lo que nadie te cuenta es cómo lo financió: 100% con dinero propio. Cuando los VCs de Silicon Valley le ofrecieron inversión, Liang los rechazó. No quería la presión de "exits" rápidos ni la interferencia de inversores.
El golpe maestro: 10,000 GPUs A100
Antes de que EE.UU. restringiera la exportación de chips avanzados a China, Liang adquirió 10,000 GPUs NVIDIA A100. Esos chips, ahora prohibidos, son la infraestructura que permite a DeepSeek competir con OpenAI.
Según algunos reportes, DeepSeek podría tener hasta 50,000 GPUs Hopper incluyendo algunos H100 obtenidos a través de intermediarios. NVIDIA lo niega, afirmando que DeepSeek solo usa "H800 adquiridos legalmente" (una versión limitada permitida para China).
DeepSeek-V4: lo que sabemos (y lo que no)
DeepSeek-V4 aún no ha sido lanzado oficialmente. Se espera para mediados de febrero de 2026. Pero las filtraciones y actualizaciones en GitHub revelan mucho.
Especificaciones filtradas
| Característica | DeepSeek-V4 (filtrado) |
|---|---|
| Parámetros | ~1 trillón (modelo MoE) |
| Ventana de contexto | 1 millón de tokens (con DSA) |
| Arquitectura | MoE + mHC + Engram |
| Hardware consumidor | 2x RTX 4090 o 1x RTX 5090 |
| Eficiencia vs Transformers | -50% overhead |
| Pesos abiertos | Sí (probable) |
El "Reasoning Core"
Una de las innovaciones más interesantes es lo que DeepSeek llama Reasoning Core: un módulo separado dentro del modelo especializado en razonamiento paso a paso. Imagina que el modelo tiene un "modo de pensamiento profundo" que puede activar para problemas complejos.
Esto es similar a lo que OpenAI hizo con o1/o3, pero integrado directamente en la arquitectura base.
Comparativa proyectada con competidores
| Aspecto | DeepSeek V4 | Claude Opus 4.5 | GPT-5 |
|---|---|---|---|
| SWE-bench (coding) | >80% (leak) | 80.9% | ~78% |
| Contexto | 1M tokens | 200K | 128K |
| Precio esperado | 10-40x más barato | Premium | Premium |
| Pesos abiertos | Sí | No | No |
| Disponibilidad | Global (con restricciones) | Global | Global |
Por qué 15 países han baneado DeepSeek
Aquí es donde la geopolítica entra en juego. DeepSeek no solo es una amenaza técnica para Silicon Valley; es una amenaza de seguridad nacional según varios gobiernos.
Países que han baneado o restringido DeepSeek
| País/Región | Fecha | Alcance | Razón oficial |
|---|---|---|---|
| Italia | Enero 2025 | Total | Violación GDPR |
| Australia | Febrero 2025 | Gobierno | Riesgo seguridad nacional |
| Taiwán | Febrero 2025 | Gobierno + escuelas | Peligro información nacional |
| Corea del Sur | Febrero 2025 | Gobierno | Recolección de datos |
| República Checa | Julio 2025 | Administración pública | Servidores en China/Rusia |
| India | 2025 | Ministerio Finanzas | Vulnerabilidad de datos |
| EE.UU. | Varios | NASA, Navy, Congreso, Texas | Acceso extranjero |
Empresas como Microsoft, Mitsubishi Heavy Industries y Toyota también han prohibido su uso interno.
El problema legal
La razón de fondo es simple: según la política de privacidad de DeepSeek, todos los datos de usuario se almacenan en servidores en China. Y según la Ley de Inteligencia Nacional de China (2017), cualquier organización debe "apoyar, asistir y cooperar con esfuerzos de inteligencia nacional".
En otras palabras: el gobierno chino puede legalmente exigir acceso a tus conversaciones con DeepSeek sin notificarte.
El impacto en la industria: ¿fin del modelo de negocio de OpenAI?
Lo que nadie te cuenta es que DeepSeek no solo amenaza la tecnología de Silicon Valley. Amenaza su modelo de negocio.
La matemática que asusta a OpenAI
Si DeepSeek puede entrenar modelos comparables por $5.6 millones en lugar de $100 millones, y luego los publica gratis con pesos abiertos, ¿por qué pagarías $20 al mes por ChatGPT Plus?
Jack Clark, cofundador de Anthropic, lo dijo claramente:
"DeepSeek significa que la proliferación de IA está garantizada."
Ya hay desarrolladores corriendo modelos DeepSeek localmente en sus propios servidores. Sin suscripciones mensuales. Sin límites de uso. Sin que sus datos vayan a ninguna empresa.
La respuesta de Silicon Valley
Las empresas estadounidenses están respondiendo de varias formas:
-
Reducción de precios: OpenAI y Anthropic han bajado precios de API significativamente en el último año
-
Énfasis en seguridad: Posicionándose como la opción "segura" frente a modelos chinos
-
Integración vertical: Microsoft, Google y Amazon usan sus modelos en productos propios donde el costo de la IA es secundario
-
Diferenciación: Enfocándose en casos de uso enterprise donde la confianza y el soporte importan más que el precio
Cómo usar DeepSeek (si decides hacerlo)
Si después de leer todo esto quieres probar DeepSeek, aquí tienes las opciones.
Opción 1: API oficial
- Sitio: platform.deepseek.com
- Precio: $0.28/1M tokens input, $0.42/1M tokens output
- Advertencia: Tus datos van a servidores en China
Opción 2: Correrlo localmente
DeepSeek publica los pesos de sus modelos en Hugging Face y GitHub. Puedes descargarlos y correrlos en tu propio hardware.
Requisitos para V3 (versión actual):
- Mínimo: 2x RTX 4090 (24GB VRAM cada una)
- Recomendado: GPU con 80GB+ VRAM o cluster distribuido
Requisitos esperados para V4:
- Mínimo: 1x RTX 5090 o 2x RTX 4090
- Para contexto completo de 1M tokens: significativamente más
Opción 3: Proveedores intermediarios
Empresas como Together AI, Fireworks y otros ofrecen acceso a modelos DeepSeek desde infraestructura en EE.UU. Pagas un poco más pero tus datos no van directamente a China.
Preguntas frecuentes
¿DeepSeek es seguro de usar?
Depende de tu definición de "seguro". Técnicamente funciona bien. Pero si te preocupa que el gobierno chino pueda acceder a tus conversaciones, la respuesta es no: según sus propios términos de servicio, almacenan datos en China bajo leyes chinas. Para uso personal casual probablemente es irrelevante. Para información sensible de empresa, claramente no.
¿DeepSeek es mejor que ChatGPT?
En algunas cosas sí, en otras no. DeepSeek V3 lidera en matemáticas (MATH-500: 90.2%) y programación (LiveCodeBench: #1). GPT-4o tiene mejor conocimiento general (MMLU-Pro: 77 vs 75.9). Para la mayoría de usuarios, la diferencia práctica es mínima; la diferencia de precio es enorme.
¿Puedo correr DeepSeek en mi computadora?
Sí, si tienes hardware suficiente. Los modelos más pequeños (7B, 16B parámetros) corren en GPUs de consumidor. El modelo completo V3 necesita mínimo 2x RTX 4090. V4 probablemente necesitará más, aunque prometen optimizaciones para hardware de consumidor.
¿Por qué DeepSeek es tan barato?
Tres razones: (1) Innovaciones en arquitectura como mHC que reducen requisitos de cómputo, (2) Costos laborales más bajos en China, (3) No necesitan generar beneficios para inversores porque Liang lo financia con su propio dinero. Básicamente, DeepSeek opera más como un proyecto de investigación que como un negocio.
¿Cuándo sale DeepSeek-V4?
Se espera para mediados de febrero de 2026. No hay fecha exacta confirmada. Las actualizaciones en GitHub y filtraciones internas sugieren que el desarrollo está avanzado.
Conclusión: el futuro de la IA ya no se decide solo en Silicon Valley
DeepSeek representa algo más grande que una empresa o un modelo de IA. Representa el fin de la hegemonía estadounidense en inteligencia artificial.
Durante décadas, las tecnologías más avanzadas del mundo se desarrollaban en laboratorios de EE.UU. con presupuestos que ningún otro país podía igualar. DeepSeek demuestra que la eficiencia y la innovación pueden compensar la falta de recursos brutos.
El truco está en que esto tiene implicaciones enormes:
Para desarrolladores: El acceso a IA de frontera ya no requiere pagar suscripciones premium. Modelos comparables a GPT-4 están disponibles gratis con pesos abiertos.
Para empresas: El costo de integrar IA en productos se reduce 10-40x. Lo que antes era viable solo para Big Tech ahora está al alcance de startups.
Para la industria: La carrera de la IA ya no se gana con más dinero. Se gana con mejor investigación. OpenAI, Anthropic y Google tendrán que innovar más rápido, no solo gastar más.
Para la geopolítica: China ya no está "años detrás" de EE.UU. en IA. Está compitiendo cabeza a cabeza, y en algunos benchmarks, ganando.
Cuando DeepSeek-V4 se lance en febrero, probablemente veremos otro "DeepSeek Monday" en los mercados. Pero el verdadero impacto no será en las acciones de NVIDIA. Será en cómo pensamos sobre quién controla el futuro de la inteligencia artificial.
¿Usarías una IA china sabiendo que tus datos van a servidores bajo jurisdicción de Beijing? ¿O prefieres pagar 10x más por la "seguridad" de modelos occidentales? La respuesta a esa pregunta definirá el mercado de IA de los próximos años.




