Claude Opus 4.8
Explora puntuaciones benchmark, fortalezas por genero, debilidades y ejemplos recientes de Claude Opus 4.8.
Resumen del Modelo
Publicado
2026-05-28
Contexto
1M tokens
Entrada
$5.00 / 1M
Salida
$25.00 / 1M
Claude Opus 4.8 es el modelo insignia actual de Anthropic, publicado el 28 de mayo de 2026, unas seis semanas después de Opus 4.7. Anthropic lo posiciona como su modelo más capaz para razonamiento complejo, codificación agéntica de largo recorrido y trabajo de conocimiento de alta autonomía.
Las mejoras clave frente a Opus 4.7 son un juicio más afilado, mayor honestidad sobre su propio progreso y la capacidad de trabajar de forma independiente durante más tiempo. Es unas cuatro veces menos propenso que su predecesor a dejar pasar defectos en su propio código y lidera en ingeniería de software agéntica, con un 69,2% en SWE-Bench Pro por delante de GPT-5.5 y Gemini 3.1 Pro.
Mantiene la ventana de contexto de 1M tokens y hasta 128k tokens de salida en la Messages API. El precio no cambia respecto a Opus 4.7 ($5 entrada / $25 salida por 1M tokens), con corte de conocimiento en enero de 2026. Las nuevas superficies añaden un control `effort` (por defecto high) y una vista previa de investigación de Dynamic Workflows para tareas agénticas grandes y paralelizadas.
Cambios
- Publicado el 28 de mayo de 2026 como sucesor de Claude Opus 4.7 (unas seis semanas después)
- Juicio más afilado, mayor honestidad sobre su progreso y trabajo independiente más prolongado
- ~4x menos propenso que Opus 4.7 a dejar pasar defectos en su propio código
- SWE-Bench Pro 69,2% — por delante de GPT-5.5 y Gemini 3.1 Pro en codificación agéntica
- Mejoras en razonamiento multidisciplinar, uso agéntico del ordenador y análisis financiero agéntico
- Ventana de contexto de 1M tokens; hasta 128k tokens de salida en la Messages API
- Parámetro `effort` (por defecto high) para ajustar cuánto se esfuerza el modelo por respuesta
- Vista previa de Dynamic Workflows para tareas con subagentes en paralelo; fast mode a 2,5x de velocidad
- Precio idéntico a Opus 4.7: $5 entrada / $25 salida por 1M tokens
- Adaptive thinking; disponible en Claude API, Amazon Bedrock, Vertex AI y Microsoft Foundry
- Corte de conocimiento y datos de entrenamiento: enero de 2026
Rendimiento General
Ranking general
#1
Tasa de victoria global
Puntuacion media
Victorias
14
Muestras
14
Tasa de victoria por modelo
| Modelo | Victorias | Derrotas | Empates | Tasa de victoria | Detalle |
|---|---|---|---|---|---|
| OpenAI GPT-5.5 | 3 | 0 | 0 |
100%
|
Ver comparacion y evaluacion de Claude Opus 4.8 vs GPT-5.5 |
| Google Gemini 2.5 Flash-Lite | 3 | 0 | 0 |
100%
|
Ver comparacion y evaluacion de Claude Opus 4.8 vs Gemini 2.5 Flash-Lite |
| OpenAI GPT-5 mini | 2 | 0 | 0 |
100%
|
Ver comparacion y evaluacion de Claude Opus 4.8 vs GPT-5 mini |
| OpenAI GPT-5.4 | 2 | 0 | 0 |
100%
|
Ver comparacion y evaluacion de Claude Opus 4.8 vs GPT-5.4 |
| Google Gemini 2.5 Flash | 2 | 0 | 0 |
100%
|
Ver comparacion y evaluacion de Claude Opus 4.8 vs Gemini 2.5 Flash |
| Google Gemini 2.5 Pro | 2 | 0 | 0 |
100%
|
Ver comparacion y evaluacion de Claude Opus 4.8 vs Gemini 2.5 Pro |
Comparar por genero
Generos fuertes
Humor
Puntuacion media
Genre Average
Tasa de victoria
Muestras
1
Ranking por genero
1 / 12
Victorias
1
Lluvia de ideas
Puntuacion media
Genre Average
Tasa de victoria
Muestras
1
Ranking por genero
2 / 12
Victorias
1
Resumen
Puntuacion media
Genre Average
Tasa de victoria
Muestras
1
Ranking por genero
1 / 12
Victorias
1
Acompañamiento
Puntuacion media
Genre Average
Tasa de victoria
Muestras
1
Ranking por genero
1 / 12
Victorias
1
Debate
Puntuacion media
Genre Average
Tasa de victoria
Muestras
7
Ranking por genero
2 / 12
Victorias
7
Generos mas flojos
Fortalezas por criterio de evaluacion
Puntuacion media por criterio (sobre 10)
Cantidad
Seguimiento de instrucciones
Fidelidad
Seguridad
Diversidad
Utilidad
Estructura
Cobertura
Etica y seguridad
Empatia
Adecuacion
Utilidad
Tareas recientes
Lluvia de ideas
Lluvia de ideas de programas juveniles de bajo costo para la biblioteca
Una biblioteca pública de tamaño mediano quiere aumentar la asistencia presencial de adolescentes de 13 a 18 años durante un período de verano de 10 semanas. Pl...
Resumen
Resume la visión general del Telescopio Espacial James Webb
Lee el siguiente artículo sobre el Telescopio Espacial James Webb (JWST) y escribe un resumen conciso. Tu resumen debe ser un único párrafo coherente de 150-200...
Acompañamiento
Decir que no a un viaje caro con un amigo
Un usuario pide un consejo personal cotidiano: "Mi amigo cercano está planeando un viaje de cumpleaños de cuatro días que costaría más de lo que puedo permitirm...
Humor
Humor apto para familias: La audioguía del museo excesivamente honesta
Escribe un breve diálogo cómico entre un visitante de museo y una audioguía inusualmente honesta en una exhibición ficticia llamada Objetos cotidianos que cambi...
Diseño de sistemas
Diseñar un sistema de pizarra colaborativa en tiempo real
Se le encomienda diseñar una arquitectura de sistema de alto nivel para una aplicación de pizarra colaborativa en tiempo real. **Requisitos principales:** 1....
Redacción empresarial
Correo electrónico a clientes sobre un retraso en el lanzamiento de un producto
Escribe un correo electrónico dirigido a clientes, del/de la Director/a de Producto de una empresa B2B SaaS, en el que se anuncie un retraso en el lanzamiento p...
Persuasión
Persuadir a un concejo municipal escéptico para financiar una nueva biblioteca
Eres un defensor comunitario que se prepara para hablar en una reunión del concejo municipal. Tu objetivo es persuadir al concejo para que apruebe la financiaci...
Debates recientes
Debates
Pruebas estandarizadas en las escuelas: ¿Una medida justa de mérito o una barrera anticuad...
Las pruebas estandarizadas, como el SAT, el ACT y diversos exámenes a nivel estatal, han sido durante mucho tiempo una piedra angular del sistema educativo, utilizadas para la evaluación de estudiantes, la valoración de escuelas y las admisiones universitarias. Los partidarios sostienen que proporcionan un referente objetivo para medir el logro académico en poblaciones diversas. Sin embargo, los críticos argumentan que estas pruebas tienen sesgos culturales, favorecen a estudiantes de entornos privilegiados y no logran capturar las verdaderas habilidades o el potencial de un estudiante, lo que ha llevado a llamados a su abolición en favor de métodos de evaluación más holísticos. El debate se centra en si las pruebas estandarizadas son una herramienta esencial para la rendición de cuentas y la meritocracia o un sistema discriminatorio que perpetúa la desigualdad.
Debates
¿Debería el transporte público ser gratuito para todos los pasajeros?
Muchas ciudades enfrentan problemas de congestión, contaminación, financiación del transporte y acceso desigual a la movilidad. Una propuesta es eliminar las tarifas en autobuses, tranvías y metros para todos, financiando las operaciones mediante impuestos u otros ingresos públicos. ¿Deberían las ciudades hacer que el transporte público sea gratuito para todos los pasajeros, o deberían mantener las tarifas y centrar los subsidios en quienes más los necesitan?
Debates
El papel de las pruebas estandarizadas en la educación
Las pruebas estandarizadas se utilizan ampliamente para medir la aptitud estudiantil, el rendimiento académico y el desempeño escolar. Sus defensores sostienen que proporcionan un punto de referencia objetivo para la rendición de cuentas y la comparación, mientras que los críticos sostienen que son inequitativas, estresantes y promueven un currículo estrecho. Este debate se centra en si las pruebas estandarizadas deben seguir siendo una piedra angular del sistema educativo.
Debates
La semana laboral de cuatro días: ¿Una revolución en el equilibrio entre trabajo y vida pe...
El concepto de una semana laboral estándar de cuatro días, sin reducción salarial, está ganando terreno a nivel mundial como una forma de mejorar el bienestar y la productividad de los empleados. El debate cuestiona si este modelo es una evolución sostenible y beneficiosa del lugar de trabajo moderno o un ideal poco práctico que genera más problemas de los que resuelve para las empresas y la economía.
Debates
¿Deberían las ciudades reemplazar la mayor parte del estacionamiento en la calle por carri...
Muchas ciudades tienen espacio limitado en la acera que actualmente se utiliza para el estacionamiento de automóviles privados. ¿Deberían los gobiernos locales eliminar la mayor parte del estacionamiento en la calle en los corredores principales y rediseñar ese espacio para carriles para bicicletas protegidos, aceras más anchas, árboles y asientos públicos?
Debates
¿Deben las ciudades prohibir los automóviles privados en las zonas céntricas?
Muchas ciudades están considerando restringir o prohibir los automóviles privados en distritos céntricos densos para reducir la congestión, la contaminación y las muertes por tráfico. ¿Deben los gobiernos municipales avanzar hacia centros urbanos sin coches, o deberían preservar un amplio acceso para vehículos privados?
Debates
Renta Básica Universal: ¿Un camino hacia la prosperidad o hacia la ruina económica?
¿Deberían los gobiernos implementar una Renta Básica Universal (RBU), proporcionando a cada ciudadano adulto un pago regular e incondicional suficiente para cubrir los costos básicos de vida, independientemente de su situación laboral?