GPT-5.5
Explora puntuaciones benchmark, fortalezas por genero, debilidades y ejemplos recientes de GPT-5.5.
Resumen del Modelo
Publicado
2026-04-23
Contexto
1M tokens
Entrada
$5.00 / 1M
Salida
$30.00 / 1M
El modelo insignia más reciente de OpenAI, publicado el 23 de abril de 2026. GPT-5.5 está ajustado para trabajo agéntico: codificación de largo recorrido, uso de la computadora, investigación web y ejecución de tareas encadenando herramientas son los focos.
Frente a GPT-5.4 las mejoras visibles están en ingeniería de software (SWE-Bench Pro 58.6% end-to-end en un solo paso, Expert-SWE 73.1% en tareas de ~20 horas) y en el manejo de software real (Terminal-Bench 2.0 82.7%, OSWorld-Verified 78.7%). Tau2-bench Telecom llega a 98.0% sin ajustar prompts.
Incluye ventana de contexto de 1M tokens en las APIs Responses y Chat Completions, salida máxima de 128k y un precio que duplica la tarifa de salida de 5.4 ($5 entrada / $30 salida por 1M tokens). Existe además una variante `gpt-5.5-pro` de mayor precisión a precio premium; Orivel utiliza solo `gpt-5.5` estándar.
Cambios
- Publicado el 23 de abril de 2026 como sucesor de GPT-5.4
- Énfasis en codificación agéntica y ejecución de tareas de largo recorrido
- SWE-Bench Pro 58.6% — más tareas resueltas end-to-end en un solo paso
- Expert-SWE 73.1% en tareas con tiempo humano estimado de ~20 horas
- Terminal-Bench 2.0 82.7%, OSWorld-Verified 78.7%, Tau2-bench Telecom 98.0%, GDPval 84.9%
- Contexto de 1M tokens en la API (400K en Codex); salida máxima 128k
- Precio: $5 entrada / $30 salida por 1M tokens — aprox. 2× la tarifa de salida de GPT-5.4
- Batch/Flex al 50% del estándar; Priority a 2,5× el estándar
- Corte de conocimiento sin cambios respecto a GPT-5.4
Rendimiento General
Ranking general
#5
Tasa de victoria global
Puntuacion media
Victorias
5
Muestras
7
Tasa de victoria por modelo
| Modelo | Victorias | Derrotas | Empates | Tasa de victoria | Detalle |
|---|---|---|---|---|---|
| Anthropic Claude Opus 4.7 | 0 | 2 | 0 |
0%
|
Ver comparacion y evaluacion de Claude Opus 4.7 vs GPT-5.5 |
| Anthropic Claude Haiku 4.5 | 1 | 0 | 0 |
100%
|
Ver comparacion y evaluacion de Claude Haiku 4.5 vs GPT-5.5 |
| Anthropic Claude Sonnet 4.6 | 1 | 0 | 0 |
100%
|
Ver comparacion y evaluacion de Claude Sonnet 4.6 vs GPT-5.5 |
| Google Gemini 2.5 Flash | 1 | 0 | 0 |
100%
|
Ver comparacion y evaluacion de Gemini 2.5 Flash vs GPT-5.5 |
| Google Gemini 2.5 Flash-Lite | 1 | 0 | 0 |
100%
|
Ver comparacion y evaluacion de Gemini 2.5 Flash-Lite vs GPT-5.5 |
| Google Gemini 2.5 Pro | 1 | 0 | 0 |
100%
|
Ver comparacion y evaluacion de Gemini 2.5 Pro vs GPT-5.5 |
Comparar por genero
Generos fuertes
Lluvia de ideas
Puntuacion media
Genre Average
Tasa de victoria
Muestras
1
Ranking por genero
1 / 10
Victorias
1
Diseño de sistemas
Puntuacion media
Genre Average
Tasa de victoria
Muestras
1
Ranking por genero
2 / 10
Victorias
1
Debate
Puntuacion media
Genre Average
Tasa de victoria
Muestras
3
Ranking por genero
6 / 11
Victorias
2
Resumen
Puntuacion media
Genre Average
Tasa de victoria
Muestras
1
Ranking por genero
2 / 11
Victorias
1
Fortalezas por criterio de evaluacion
Puntuacion media por criterio (sobre 10)
Cantidad
Diversidad
Calidad de la arquitectura
Escalabilidad y fiabilidad
Integridad
Analisis de compromisos
Utilidad
Fidelidad
Seguimiento de instrucciones
Originalidad
Cobertura
Claridad
Tareas recientes
Resumen
Resumen de la explicación de Darwin sobre la Selección Natural
Lea el siguiente extracto de Charles Darwin de 'Sobre el origen de las especies'. Escriba un resumen conciso del texto en un solo ensayo de no más de 250 palabr...
Juego de roles
Consejos de un detective noir sobre ser seguido
Eres el Detective Miles Corrigan, un investigador privado sacado de una película noir de la década de 1940. Tu oficina está débilmente iluminada, con olor a caf...
Diseño de sistemas
Diseñar un servicio de notificaciones escalable
Eres un ingeniero de software sénior en una empresa de redes sociales en rápido crecimiento. Tu tarea es diseñar un servicio de notificaciones escalable y fiabl...
Lluvia de ideas
Lluvia de ideas para el rediseño de una oficina bajo restricciones estrictas
Estás ayudando al responsable de operaciones de una pequeña empresa a rediseñar una sala de oficina compartida para mejorar la concentración, la colaboración y...
Debates recientes
Debates
Renta Básica Universal (RBU)
¿Deben los gobiernos implementar una Renta Básica Universal (RBU), proporcionando una suma regular e incondicional de dinero a todos los ciudadanos independientemente de su situación laboral?
Debates
¿Deberían las universidades abolir los requisitos de exámenes estandarizados?
Muchas universidades han pasado a admisiones con opción de presentar pruebas (test-optional) o admisiones ciegas respecto a las pruebas (test-blind), eliminando los requisitos de exámenes como el SAT y el ACT. Sus partidarios sostienen que esto amplía el acceso para estudiantes subrepresentados, mientras que los críticos dicen que elimina una de las pocas medidas objetivas de preparación académica. ¿Deberían las universidades abolir permanentemente los requisitos de exámenes estandarizados en las admisiones?
Debates
¿Debería ser obligatorio votar en las democracias?
Algunas democracias, como Australia y Bélgica, exigen legalmente que los ciudadanos elegibles voten en las elecciones nacionales, con multas por el incumplimiento. Otras, como Estados Unidos y el Reino Unido, consideran el voto un derecho voluntario. El debate se centra en si el voto obligatorio fortalece la legitimidad democrática y la participación cívica, o si vulnera la libertad individual y produce papeletas desinformadas. Esta cuestión toca la naturaleza de los derechos políticos, la calidad de los resultados democráticos y la relación adecuada entre los ciudadanos y el Estado.