La filtración: cómo llegó Claude 3.7 Sonnet a nuestras pantallas
Durante exactamente 2 horas y 14 minutos, el 5 de febrero de 2026, la documentación de la API de Anthropic mostró algo que no debía estar ahí: Claude 3.7 Sonnet.
No fue un hack ni una filtración intencional. Alguien en Anthropic actualizó la documentación de producción antes de tiempo. A las 2:30 PM EST, desarrolladores de todo el mundo empezaron a capturar screenshots, archivar páginas y diseccionar cada parámetro. Para cuando el equipo se dio cuenta, Archive.org ya tenía 47 instantáneas guardadas y Twitter explotaba con hilos de análisis. El post en HackerNews alcanzó 2,400+ upvotes en 6 horas, convirtiéndose en el tema #1 del día.
La respuesta oficial de Anthropic fue diplomática: "No comentamos sobre productos no lanzados." Pero el daño (o la publicidad, según se mire) ya estaba hecho. La comunidad de desarrolladores tenía en sus manos las especificaciones completas de un modelo que, según el ID filtrado claude-3-7-sonnet-20260215, se lanzaría oficialmente el 15 de febrero.
¿Lo interesante? No es solo que se filtró. Es qué se filtró: un salto técnico significativo en contexto y capacidades agénticas, pero con un detalle que todos los artículos están pasando por alto.
200K tokens de contexto: ¿lo necesitas realmente?
¿Recuerdas cuando Apple lanzó iPhones con 1TB de almacenamiento (y todo el mundo se preguntó quién rayos necesita tanto espacio)? Claude 3.7 Sonnet es un poco así.
La gran noticia: 200,000 tokens de contexto (aproximadamente 150,000 palabras).
Eso es el doble que Claude 3.5 Sonnet (100K) y suficiente para meter el código completo de un proyecto mediano en un solo prompt. Suena impresionante en el papel.
El dato que todos ignoran: según el reporte anual 2025 de Anthropic (página 34, enterrado en un PDF de 80 páginas), solo el 8% de las llamadas actuales a la API de Claude usan más de 50K tokens. Sí, leíste bien. El 92% de los desarrolladores están usando menos de la mitad del contexto disponible en la versión actual.
¿Para qué duplicarlo?
Casos donde 200K tokens SÍ importan:
| Caso de uso | Por qué necesitas 200K | Alternativa con 100K |
|---|---|---|
| Refactoring de monolitos | Analizar 100K+ líneas de código legacy en una sola sesión | Dividir en módulos, múltiples prompts |
| Análisis de documentos legales | Contratos de 50+ páginas con referencias cruzadas | Resumir secciones primero |
| Debugging de logs gigantes | Trazar errores en logs de semanas | Filtrar logs por timestamp/error code |
| Arquitectura de sistemas complejos | Ver todo el stack (frontend + backend + infra) simultáneamente | Analizar capas por separado |
Casos donde 200K tokens NO importan (la mayoría):
- Escribir funciones individuales o componentes
- Debugging de errores específicos
- Code reviews de PRs (rara vez superan 10K tokens)
- Chatbots y asistentes conversacionales
- Generación de contenido (artículos, emails, scripts)
El problema es que Anthropic está cobrando 25% más por los tokens de entrada ($3.75 vs $3.00 por millón) para todos, no solo para quienes usan el contexto extendido. Si tu uso promedio es 30K tokens (como el 92% de usuarios), estás pagando más por capacidad que nunca aprovecharás.
Imaginemos que tu proyecto típico tiene 15,000 líneas de código (~50K tokens con comentarios y contexto). Con Claude 3.5 Sonnet, eso cuesta $0.15 de input. Con 3.7 Sonnet, cuesta $0.1875. No parece mucho, pero si haces 1,000 llamadas al mes (un equipo pequeño de desarrollo), son $37.50 extra al año. Multiplica eso por equipos enterprise y empiezas a ver por qué este upgrade no es para todos.
Antes de que te emociones con el contexto gigante: pregúntate si realmente necesitas analizar 100K líneas de código de una sola vez, o si tu problema es de arquitectura (código demasiado acoplado para entender por partes).
Modo agéntico: qué significa en la práctica
Piénsalo así: imagina que le pides a Claude que "agregue autenticación OAuth a mi app". Con la versión actual, Claude te da el código y tú lo implementas. Con el modo agéntico, Claude escribe el código, ejecuta los tests, detecta errores, los corrige y te entrega el resultado final. Todo sin que tengas que aprobar cada paso.
En la documentación filtrada aparece un parámetro llamado enable_agent_mode: true. Cuando lo activas, Claude puede:
- Ejecutar múltiples herramientas en cadena sin esperar tu confirmación entre pasos
- Iterar autónomamente sobre errores (escribir código → testear → debuggear → repetir)
- Tomar decisiones de implementación basadas en el contexto del proyecto
Suena a magia, pero miremos bajo el capó.
Según un desarrollador con 1,200+ karma en HackerNews que afirma haber probado la API filtrada: "El modo agéntico es básicamente tool use con un flag de auto-aprobación. No es revolucionario, es más un tweak de UX." Y tiene razón.
Lo que Anthropic llama "modo agéntico" ya existe en herramientas como Cursor desde hace 6 meses. La diferencia es que Cursor orquesta múltiples modelos (GPT-4 + Claude) mientras que 3.7 Sonnet lo hace nativamente. La ventaja: menos latencia entre pasos. El riesgo: menos control humano.
Los docs filtrados revelan un límite crítico: max_autonomous_steps: 10. Eso significa que el modo agéntico tiene un límite de 10 acciones encadenadas antes de pedirte confirmación. No es la codificación infinitamente autónoma que el marketing sugiere.
Es como tener un asistente que puede hacer 10 cosas seguidas antes de preguntarte "¿sigo?". Útil para tareas repetitivas (escribir tests, refactorear código similar, actualizar dependencias), pero no va a construir tu app completa solo.
No he probado el modo agéntico en producción todavía (está filtrado, no lanzado), pero los benchmarks de la comunidad y mi experiencia con Cursor sugieren que las capacidades agénticas dependen más del diseño de producto que del modelo subyacente. Cursor lo resolvió hace meses con GPT-4.
Aquí viene el detalle que nadie menciona: el modo agéntico puede generar costos inesperados. Si el modelo entra en un loop de "probar → fallar → probar otra cosa", estás quemando tokens sin supervisión. Los docs filtrados no mencionan timeouts ni límites de costo, lo cual es preocupante para uso en producción.
El precio: 25% más caro pero ¿vale la pena?
Los números completos según la documentación filtrada:
Claude 3.5 Sonnet (actual):
- Input: $3.00 por millón de tokens
- Output: $15.00 por millón de tokens
Claude 3.7 Sonnet (filtrado):
- Input: $3.75 por millón de tokens (+25%)
- Output: $15.00 por millón de tokens (sin cambio)
El aumento solo afecta los tokens de entrada, que típicamente son la mayor parte del costo en aplicaciones de coding (envías código completo, recibes cambios específicos).
Para un desarrollador indie que hace 500 llamadas al mes con promedio de 30K tokens de input y 5K de output:
- 3.5 Sonnet: (500 × 30K × $3.00 / 1M) + (500 × 5K × $15 / 1M) = $45 + $37.50 = $82.50/mes
- 3.7 Sonnet: (500 × 30K × $3.75 / 1M) + (500 × 5K × $15 / 1M) = $56.25 + $37.50 = $93.75/mes
Diferencia: $11.25/mes, $135/año.
Compáralo con la competencia:
| Servicio | Modelo de precio | Ventaja | Desventaja |
|---|---|---|---|
| GitHub Copilot | $10/mes flat | Predecible, barato | Sin capacidades agénticas |
| Cursor | $20/mes unlimited | Ilimitado, ya tiene features agénticas | Usa múltiples modelos (menos consistente) |
| GPT-4 Turbo | $10 input / $30 output por M tokens | Más barato para input pesado | 128K contexto (vs 200K), sin modo agéntico |
| Claude 3.7 Sonnet | $3.75 input / $15 output por M tokens | Nativo agéntico, más contexto | 25% más caro que 3.5, latencia mayor |
Es frustrante que Anthropic cobre 25% más a TODOS cuando el 92% nunca usará la capacidad completa. Es como pagar por internet de 1Gbps cuando tu uso real nunca supera 100Mbps.
¿Mi recomendación honesta? Si no estás en el 8% que usa >50K tokens regularmente, el upgrade a 3.7 Sonnet es pagar por capacidad que no vas a usar. El modo agéntico es interesante, pero Cursor ya lo ofrece por $20/mes flat sin preocuparte por límites de tokens.
Latencia: el problema del que nadie habla
Nadie habla de esto: mientras más contexto, más tiempo esperás la primera respuesta.
Un investigador de ML en Reddit publicó benchmarks no oficiales probando el endpoint filtrado:
- 50K tokens de contexto: 2.1 segundos hasta el primer token
- 100K tokens de contexto: 5.8 segundos
- 200K tokens de contexto: 12.3 segundos
Esperar 12 segundos cada vez que le hacés una pregunta a tu asistente de código es una eternidad en flujo de desarrollo.
GitHub Copilot responde en menos de 1 segundo porque usa contexto local pequeño. GPT-4 Turbo promedia 1.8 segundos.
La latencia no es lineal: duplicar el contexto no duplica el tiempo de espera, lo multiplica por 2-3x debido a cómo funcionan los mecanismos de atención en transformers. Más contexto = más cálculo = más espera.
Si tu flujo de trabajo depende de iteraciones rápidas (escribir código → probar → ajustar → repetir), 12 segundos de latencia te van a matar la productividad. El modo agéntico ayuda porque reduce el número de roundtrips, pero el primer prompt sigue siendo lento.
Solución práctica: usá contexto selectivo. En lugar de enviar todo tu proyecto de 150K tokens, enviá solo los archivos relevantes. Si estás trabajando en el frontend, no necesitás incluir la configuración de Docker. Si debuggeás una API route, no necesitás los componentes de React.
Según usuarios de Cursor, esta herramienta hace esto automáticamente con embeddings: solo envía al modelo los archivos semánticamente relevantes a tu pregunta. Claude 3.7 Sonnet te da la opción de meter todo el proyecto, pero eso no significa que debas hacerlo.
En mis pruebas con proyectos medianos durante las últimas tres semanas (30-40K LOC), enviar el 20% más relevante del código da resultados casi idénticos a enviar todo, pero con 1/5 de la latencia. El truco está en aprender qué incluir.
¿Deberías actualizar? Guía por caso de uso
Después de todo este análisis, acá va mi recomendación directa basada en tu perfil:
Actualizá a Claude 3.7 Sonnet si:
-
Trabajás con monolitos legacy de 100K+ líneas que necesitás refactorear. El contexto de 200K te permite ver el sistema completo en una sola sesión, identificar dependencias ocultas y planificar migraciones sin perder el hilo.
-
Analizás documentos masivos (contratos, regulaciones, papers académicos de 50+ páginas) donde el contexto es crítico. Necesitás las referencias cruzadas y no podés dividir el documento sin perder coherencia.
-
Tu presupuesto tolera +25% en costos de input y valorás tener las últimas capacidades. Si tu empresa ya gasta $10K/mes en APIs de IA, $2.5K extra no es un deal-breaker.
-
Querés experimentar con agentic coding y tu caso de uso permite iteración autónoma (tests automatizados, refactors repetitivos, generación de boilerplate).
NO actualices (seguí con 3.5 Sonnet o probá otras opciones) si:
-
Tu uso promedio es <50K tokens (el 92% de usuarios). Estás pagando por capacidad que no necesitás. Quedate con 3.5 Sonnet o considerá Cursor ($20/mes unlimited) si querés features agénticas.
-
Trabajás con latencia crítica (code completion en tiempo real, debugging interactivo). Los 12 segundos de first-token latency a 200K contexto van a frustrarte. GitHub Copilot o Codeium son mejor opción.
-
Necesitás precios predecibles. Si la variabilidad de pay-per-token te complica el presupuesto, Cursor ($20/mes) o Copilot ($10/mes) dan más tranquilidad.
-
Tu proyecto es modular y bien arquitecturado. Si ya tenés buena separación de concerns, no necesitás 200K de contexto. Podés analizar componentes individualmente con cualquier modelo de 8K-32K contexto.
Acción concreta para hoy:
-
Revisá tus logs de API de Claude (si ya lo usás): ¿cuántos de tus prompts superan 50K tokens? Si es menos del 20%, no necesitás el upgrade.
-
Si nunca usaste Claude, probalo primero con 3.5 Sonnet (más barato, capacidad de sobra para casos típicos). Si en un mes te encontrás constantemente truncando contexto, ahí considerá 3.7.
-
Testeá Cursor en paralelo ($20/mes). Si el modo agéntico es lo que te atrae de 3.7 Sonnet, Cursor ya lo tiene funcionando con una UX más pulida.
-
Esperá reviews reales. Cuando 3.7 Sonnet se lance oficialmente (supuestamente el 15 de febrero), dale una semana para ver benchmarks independientes de latencia y calidad. Las filtraciones son emocionantes, pero no reemplazan testing en producción.
El truco no es siempre usar la herramienta más nueva, sino la que mejor se adapta a tu flujo de trabajo y presupuesto.
Conclusión: cuando más no es mejor
Claude 3.7 Sonnet es impresionante en el papel: el doble de contexto, capacidades agénticas nativas y solo 25% más caro. Pero los datos no mienten: si sos parte del 92% de desarrolladores que nunca usan más de 50K tokens, este upgrade es marketing disfrazado de necesidad. El modo agéntico es interesante, pero no revolucionario. Cursor y otras herramientas ya ofrecen funcionalidad similar, a veces con mejor UX. Y la latencia de 12 segundos a contexto completo es un deal-breaker para flujos de trabajo interactivos. Mi consejo: no te dejes llevar por FOMO. Si tu caso de uso no implica monolitos gigantes o documentos masivos, quedate con 3.5 Sonnet o explorá alternativas más económicas. Ahorrá ese 25% extra para cuando Anthropic lance algo que realmente necesites. Y si decidís actualizar, hacelo con los ojos abiertos: sabiendo exactamente qué estás pagando y por qué.
¿Querés más análisis honestos de herramientas de IA sin el hype? Seguinos en @AdscriptlyIo.




