GPT-5.5
Explora puntuaciones de benchmark, fortalezas por género, debilidades y ejemplos recientes de GPT-5.5.
Resumen del Modelo
Publicado
2026-04-23
Contexto
1M tokens
Entrada
$5.00 / 1M
Salida
$30.00 / 1M
El modelo insignia más reciente de OpenAI, publicado el 23 de abril de 2026. GPT-5.5 está ajustado para trabajo agéntico: codificación de largo recorrido, uso de la computadora, investigación web y ejecución de tareas encadenando herramientas son los focos.
Frente a GPT-5.4 las mejoras visibles están en ingeniería de software (SWE-Bench Pro 58.6% end-to-end en un solo paso, Expert-SWE 73.1% en tareas de ~20 horas) y en el manejo de software real (Terminal-Bench 2.0 82.7%, OSWorld-Verified 78.7%). Tau2-bench Telecom llega a 98.0% sin ajustar prompts.
Incluye ventana de contexto de 1M tokens en las APIs Responses y Chat Completions, salida máxima de 128k y un precio que duplica la tarifa de salida de 5.4 ($5 entrada / $30 salida por 1M tokens). Existe además una variante `gpt-5.5-pro` de mayor precisión a precio premium; Orivel utiliza solo `gpt-5.5` estándar.
Cambios
- Publicado el 23 de abril de 2026 como sucesor de GPT-5.4
- Énfasis en codificación agéntica y ejecución de tareas de largo recorrido
- SWE-Bench Pro 58.6% — más tareas resueltas end-to-end en un solo paso
- Expert-SWE 73.1% en tareas con tiempo humano estimado de ~20 horas
- Terminal-Bench 2.0 82.7%, OSWorld-Verified 78.7%, Tau2-bench Telecom 98.0%, GDPval 84.9%
- Contexto de 1M tokens en la API (400K en Codex); salida máxima 128k
- Precio: $5 entrada / $30 salida por 1M tokens — aprox. 2× la tarifa de salida de GPT-5.4
- Batch/Flex al 50% del estándar; Priority a 2,5× el estándar
- Corte de conocimiento sin cambios respecto a GPT-5.4
Rendimiento General
Ranking general
#6
Tasa de victoria global
Puntuacion media
Victorias
26
Muestras
41
Tasa de victoria por modelo
Comparar por genero
Generos fuertes
Planificación
Puntuacion media
Genre Average
Tasa de victoria
Muestras
1
Ranking por genero
1 / 11
Victorias
1
Programación
Puntuacion media
Genre Average
Tasa de victoria
Muestras
1
Ranking por genero
2 / 11
Victorias
1
Escritura creativa
Puntuacion media
Genre Average
Tasa de victoria
Muestras
1
Ranking por genero
3 / 11
Victorias
1
Lluvia de ideas
Puntuacion media
Genre Average
Tasa de victoria
Muestras
1
Ranking por genero
1 / 12
Victorias
1
Diseño de sistemas
Puntuacion media
Genre Average
Tasa de victoria
Muestras
1
Ranking por genero
3 / 12
Victorias
1
Generos mas flojos
Redacción empresarial
Puntuacion media
Genre Average
Tasa de victoria
Muestras
1
Ranking por genero
11 / 12
Victorias
0
Juego de roles
Puntuacion media
Genre Average
Tasa de victoria
Muestras
2
Ranking por genero
9 / 11
Victorias
0
Explicación
Puntuacion media
Genre Average
Tasa de victoria
Muestras
1
Ranking por genero
10 / 11
Victorias
0
Persuasión
Puntuacion media
Genre Average
Tasa de victoria
Muestras
1
Ranking por genero
10 / 12
Victorias
0
Resumen
Puntuacion media
Genre Average
Tasa de victoria
Muestras
1
Ranking por genero
4 / 13
Victorias
1
Fortalezas por criterio de evaluacion
Puntuacion media por criterio (sobre 10)
Cantidad
Seguridad
Profundidad
Calidad de la arquitectura
Escalabilidad y fiabilidad
Calidad del estilo
Priorizacion
Empatia
Correccion
Integridad
Seguimiento de instrucciones
Calidad del razonamiento
Tareas recientes
Juego de roles
Juego de roles de atención al cliente: El jugador frustrado
Eres un representante de atención al cliente de Nexus Games, llamado Alex. Tu personalidad es tranquila, empática y experta. Debes ceñirte a la política de la e...
Acompañamiento
Apoyar a un/a amigo/a que sigue cancelando planes
Una amiga/o cercana/o ha cancelado nuestros planes tres veces en los últimos dos meses, generalmente en el último momento, alegando estar "demasiado cansada/o"...
Persuasión
Carta persuasiva para un jardín comunitario
Escriba una carta persuasiva dirigida al consejo municipal local. Su objetivo es convencerlos de aprobar una propuesta para convertir el terreno vacío y cubiert...
Escritura creativa
La última carta del farero
Escribe un cuento corto (entre 600 y 900 palabras) titulado «La última carta del farero». Restricciones y requisitos: - La historia debe enmarcarse como una so...
Análisis
Elección de una base de datos para una startup SaaS en crecimiento
Estás asesorando al CTO de una startup B2B SaaS de dos años que ofrece software de gestión de proyectos a empresas medianas. La configuración actual utiliza una...
Redacción empresarial
Redacción de un anuncio interno para un nuevo programa de mentoría
Eres el/la Responsable de Operaciones de Personas en una empresa tecnológica de tamaño medio. Tu empresa está lanzando un nuevo programa interno de mentoría par...
Explicación
Explicar la tecnología GPS a un/a adolescente
Explica cómo funciona el Sistema de Posicionamiento Global (GPS) a un estudiante de secundaria curioso. Tu estudiante tiene una comprensión básica de la física...
Programación
Limitador de tasa con ventana deslizante y tolerancia a ráfagas
Diseña e implementa un limitador de tasa seguro para hilos en un lenguaje de tu elección (Python, Go, Java, TypeScript o Rust) que admita los siguientes requisi...
Debates recientes
Debates
Pruebas estandarizadas en las escuelas: ¿Una medida justa de mérito o una barrera anticuad...
Las pruebas estandarizadas, como el SAT, el ACT y diversos exámenes a nivel estatal, han sido durante mucho tiempo una piedra angular del sistema educativo, utilizadas para la evaluación de estudiantes, la valoración de escuelas y las admisiones universitarias. Los partidarios sostienen que proporcionan un referente objetivo para medir el logro académico en poblaciones diversas. Sin embargo, los críticos argumentan que estas pruebas tienen sesgos culturales, favorecen a estudiantes de entornos privilegiados y no logran capturar las verdaderas habilidades o el potencial de un estudiante, lo que ha llevado a llamados a su abolición en favor de métodos de evaluación más holísticos. El debate se centra en si las pruebas estandarizadas son una herramienta esencial para la rendición de cuentas y la meritocracia o un sistema discriminatorio que perpetúa la desigualdad.
Debates
La semana laboral de cuatro días: ¿Una revolución en el equilibrio entre trabajo y vida pe...
El concepto de una semana laboral estándar de cuatro días, sin reducción salarial, está ganando terreno a nivel mundial como una forma de mejorar el bienestar y la productividad de los empleados. El debate cuestiona si este modelo es una evolución sostenible y beneficiosa del lugar de trabajo moderno o un ideal poco práctico que genera más problemas de los que resuelve para las empresas y la economía.
Debates
Renta Básica Universal: ¿Un camino hacia la prosperidad o hacia la ruina económica?
¿Deberían los gobiernos implementar una Renta Básica Universal (RBU), proporcionando a cada ciudadano adulto un pago regular e incondicional suficiente para cubrir los costos básicos de vida, independientemente de su situación laboral?
Debates
La adopción de calendarios escolares durante todo el año
Este debate trata sobre si los distritos escolares K-12 deberían pasar del calendario académico tradicional de nueve meses con unas largas vacaciones de verano a un modelo de año completo. La escolarización durante todo el año implica el mismo número de días de instrucción pero repartidos a lo largo de todo el año con descansos más cortos y más frecuentes. Los partidarios creen que este sistema evita el «summer slide», es decir, la pérdida de aprendizaje que los estudiantes experimentan durante las largas vacaciones de verano, y permite una instrucción más continua. Los opositores sostienen que rompe la vida familiar, complica el cuidado infantil, limita las oportunidades para campamentos de verano y empleos veraniegos, y puede provocar agotamiento en profesores y estudiantes.
Debates
La IA como herramienta principal de contratación
¿Debería permitirse que las empresas utilicen algoritmos de inteligencia artificial (IA) como herramienta principal para filtrar, preseleccionar y seleccionar candidatos para el empleo?
Debates
Abolición de las calificaciones tradicionales con letras en la educación K-12
¿Deben las escuelas K-12 reemplazar el sistema tradicional de calificaciones con letras A-F por métodos de evaluación alternativos, como retroalimentación narrativa, portafolios o un sistema de aprobado/reprobado?
Debates
¿Deberían los países ricos abrir sus fronteras a los refugiados climáticos?
A medida que el aumento del nivel del mar, la desertificación y los fenómenos meteorológicos extremos desplazan a un número creciente de personas, existe una presión cada vez mayor sobre los países ricos y con altas emisiones para que acepten a quienes se ven obligados a huir de sus hogares debido al cambio climático. La legislación internacional de refugiados vigente no reconoce formalmente a los "refugiados climáticos", dejando a las poblaciones desplazadas en un limbo legal. El debate es si los países ricos tienen la obligación moral y práctica de abrir sus fronteras a las personas desplazadas por los impactos climáticos que ellos causaron de manera desproporcionada, o si una política así sería inviable y contraproducente.
Debates
¿Deberían los países ricos adoptar la semana laboral de cuatro días como norma?
Un número creciente de empresas y gobiernos han pilotado semanas laborales de cuatro días, en las que los empleados trabajan aproximadamente 32 horas repartidas en cuatro días manteniendo el mismo salario. Sus partidarios sostienen que mejora el bienestar, la productividad y la igualdad de género, mientras que los críticos advierten que podría dañar la competitividad, los servicios públicos y las industrias que dependen de una dotación de personal continua. ¿Deberían los países ricos avanzar para convertir la semana laboral de cuatro días en el estándar legal o cultural para el empleo a tiempo completo?