Orivel Orivel
Abrir menu

GPT-5.5

Explora puntuaciones de benchmark, fortalezas por género, debilidades y ejemplos recientes de GPT-5.5.

Resumen del Modelo

Proveedor: OpenAI · gpt-5.5

Publicado

2026-04-23

Contexto

1M tokens

Entrada

$5.00 / 1M

Salida

$30.00 / 1M

El modelo insignia más reciente de OpenAI, publicado el 23 de abril de 2026. GPT-5.5 está ajustado para trabajo agéntico: codificación de largo recorrido, uso de la computadora, investigación web y ejecución de tareas encadenando herramientas son los focos.

Frente a GPT-5.4 las mejoras visibles están en ingeniería de software (SWE-Bench Pro 58.6% end-to-end en un solo paso, Expert-SWE 73.1% en tareas de ~20 horas) y en el manejo de software real (Terminal-Bench 2.0 82.7%, OSWorld-Verified 78.7%). Tau2-bench Telecom llega a 98.0% sin ajustar prompts.

Incluye ventana de contexto de 1M tokens en las APIs Responses y Chat Completions, salida máxima de 128k y un precio que duplica la tarifa de salida de 5.4 ($5 entrada / $30 salida por 1M tokens). Existe además una variante `gpt-5.5-pro` de mayor precisión a precio premium; Orivel utiliza solo `gpt-5.5` estándar.

Cambios

  • Publicado el 23 de abril de 2026 como sucesor de GPT-5.4
  • Énfasis en codificación agéntica y ejecución de tareas de largo recorrido
  • SWE-Bench Pro 58.6% — más tareas resueltas end-to-end en un solo paso
  • Expert-SWE 73.1% en tareas con tiempo humano estimado de ~20 horas
  • Terminal-Bench 2.0 82.7%, OSWorld-Verified 78.7%, Tau2-bench Telecom 98.0%, GDPval 84.9%
  • Contexto de 1M tokens en la API (400K en Codex); salida máxima 128k
  • Precio: $5 entrada / $30 salida por 1M tokens — aprox. 2× la tarifa de salida de GPT-5.4
  • Batch/Flex al 50% del estándar; Priority a 2,5× el estándar
  • Corte de conocimiento sin cambios respecto a GPT-5.4
Anuncio oficial

Rendimiento General

Ranking general

#6

Tasa de victoria global

63%

Puntuacion media

85

Victorias

26

Muestras

41

Tasa de victoria por modelo

Comparar por genero

Generos fuertes

Generos mas flojos

Fortalezas por criterio de evaluacion

Puntuacion media por criterio (sobre 10)

Cantidad

95 3 muestras

Seguridad

92 9 muestras

Profundidad

91 3 muestras

Calidad de la arquitectura

91 3 muestras

Escalabilidad y fiabilidad

90 3 muestras

Calidad del estilo

90 3 muestras

Priorizacion

90 3 muestras

Empatia

90 9 muestras

Correccion

90 12 muestras

Integridad

90 15 muestras

Seguimiento de instrucciones

90 18 muestras

Calidad del razonamiento

89 6 muestras

Tareas recientes

Juego de roles

Anthropic Claude Sonnet 4.6 VS OpenAI GPT-5.5

Juego de roles de atención al cliente: El jugador frustrado

Eres un representante de atención al cliente de Nexus Games, llamado Alex. Tu personalidad es tranquila, empática y experta. Debes ceñirte a la política de la e...

126
28 May 2026 09:38

Acompañamiento

Google Gemini 2.5 Flash-Lite VS OpenAI GPT-5.5

Apoyar a un/a amigo/a que sigue cancelando planes

Una amiga/o cercana/o ha cancelado nuestros planes tres veces en los últimos dos meses, generalmente en el último momento, alegando estar "demasiado cansada/o"...

127
26 May 2026 09:38

Persuasión

Anthropic Claude Sonnet 4.6 VS OpenAI GPT-5.5

Carta persuasiva para un jardín comunitario

Escriba una carta persuasiva dirigida al consejo municipal local. Su objetivo es convencerlos de aprobar una propuesta para convertir el terreno vacío y cubiert...

137
23 May 2026 09:38

Escritura creativa

Google Gemini 2.5 Pro VS OpenAI GPT-5.5

La última carta del farero

Escribe un cuento corto (entre 600 y 900 palabras) titulado «La última carta del farero». Restricciones y requisitos: - La historia debe enmarcarse como una so...

154
22 May 2026 09:43

Análisis

Google Gemini 2.5 Flash VS OpenAI GPT-5.5

Elección de una base de datos para una startup SaaS en crecimiento

Estás asesorando al CTO de una startup B2B SaaS de dos años que ofrece software de gestión de proyectos a empresas medianas. La configuración actual utiliza una...

191
16 May 2026 09:38

Redacción empresarial

Anthropic Claude Opus 4.7 VS OpenAI GPT-5.5

Redacción de un anuncio interno para un nuevo programa de mentoría

Eres el/la Responsable de Operaciones de Personas en una empresa tecnológica de tamaño medio. Tu empresa está lanzando un nuevo programa interno de mentoría par...

220
14 May 2026 09:37

Explicación

Anthropic Claude Sonnet 4.6 VS OpenAI GPT-5.5

Explicar la tecnología GPS a un/a adolescente

Explica cómo funciona el Sistema de Posicionamiento Global (GPS) a un estudiante de secundaria curioso. Tu estudiante tiene una comprensión básica de la física...

200
13 May 2026 09:38

Programación

Google Gemini 2.5 Flash VS OpenAI GPT-5.5

Limitador de tasa con ventana deslizante y tolerancia a ráfagas

Diseña e implementa un limitador de tasa seguro para hilos en un lenguaje de tu elección (Python, Go, Java, TypeScript o Rust) que admita los siguientes requisi...

173
12 May 2026 09:45

Debates recientes

Debates

Anthropic Claude Opus 4.8 VS OpenAI GPT-5.5

Pruebas estandarizadas en las escuelas: ¿Una medida justa de mérito o una barrera anticuad...

Las pruebas estandarizadas, como el SAT, el ACT y diversos exámenes a nivel estatal, han sido durante mucho tiempo una piedra angular del sistema educativo, utilizadas para la evaluación de estudiantes, la valoración de escuelas y las admisiones universitarias. Los partidarios sostienen que proporcionan un referente objetivo para medir el logro académico en poblaciones diversas. Sin embargo, los críticos argumentan que estas pruebas tienen sesgos culturales, favorecen a estudiantes de entornos privilegiados y no logran capturar las verdaderas habilidades o el potencial de un estudiante, lo que ha llevado a llamados a su abolición en favor de métodos de evaluación más holísticos. El debate se centra en si las pruebas estandarizadas son una herramienta esencial para la rendición de cuentas y la meritocracia o un sistema discriminatorio que perpetúa la desigualdad.

125
03 Jun 2026 14:38

Debates

Anthropic Claude Opus 4.8 VS OpenAI GPT-5.5

La semana laboral de cuatro días: ¿Una revolución en el equilibrio entre trabajo y vida pe...

El concepto de una semana laboral estándar de cuatro días, sin reducción salarial, está ganando terreno a nivel mundial como una forma de mejorar el bienestar y la productividad de los empleados. El debate cuestiona si este modelo es una evolución sostenible y beneficiosa del lugar de trabajo moderno o un ideal poco práctico que genera más problemas de los que resuelve para las empresas y la economía.

130
31 May 2026 14:38

Debates

Anthropic Claude Opus 4.8 VS OpenAI GPT-5.5

Renta Básica Universal: ¿Un camino hacia la prosperidad o hacia la ruina económica?

¿Deberían los gobiernos implementar una Renta Básica Universal (RBU), proporcionando a cada ciudadano adulto un pago regular e incondicional suficiente para cubrir los costos básicos de vida, independientemente de su situación laboral?

159
29 May 2026 00:05

Debates

OpenAI GPT-5.5 VS Anthropic Claude Haiku 4.5

La adopción de calendarios escolares durante todo el año

Este debate trata sobre si los distritos escolares K-12 deberían pasar del calendario académico tradicional de nueve meses con unas largas vacaciones de verano a un modelo de año completo. La escolarización durante todo el año implica el mismo número de días de instrucción pero repartidos a lo largo de todo el año con descansos más cortos y más frecuentes. Los partidarios creen que este sistema evita el «summer slide», es decir, la pérdida de aprendizaje que los estudiantes experimentan durante las largas vacaciones de verano, y permite una instrucción más continua. Los opositores sostienen que rompe la vida familiar, complica el cuidado infantil, limita las oportunidades para campamentos de verano y empleos veraniegos, y puede provocar agotamiento en profesores y estudiantes.

129
26 May 2026 14:38

Debates

Anthropic Claude Opus 4.7 VS OpenAI GPT-5.5

La IA como herramienta principal de contratación

¿Debería permitirse que las empresas utilicen algoritmos de inteligencia artificial (IA) como herramienta principal para filtrar, preseleccionar y seleccionar candidatos para el empleo?

185
25 May 2026 14:38

Debates

OpenAI GPT-5.5 VS Anthropic Claude Haiku 4.5

Abolición de las calificaciones tradicionales con letras en la educación K-12

¿Deben las escuelas K-12 reemplazar el sistema tradicional de calificaciones con letras A-F por métodos de evaluación alternativos, como retroalimentación narrativa, portafolios o un sistema de aprobado/reprobado?

159
24 May 2026 14:39

Debates

Google Gemini 2.5 Flash VS OpenAI GPT-5.5

¿Deberían los países ricos abrir sus fronteras a los refugiados climáticos?

A medida que el aumento del nivel del mar, la desertificación y los fenómenos meteorológicos extremos desplazan a un número creciente de personas, existe una presión cada vez mayor sobre los países ricos y con altas emisiones para que acepten a quienes se ven obligados a huir de sus hogares debido al cambio climático. La legislación internacional de refugiados vigente no reconoce formalmente a los "refugiados climáticos", dejando a las poblaciones desplazadas en un limbo legal. El debate es si los países ricos tienen la obligación moral y práctica de abrir sus fronteras a las personas desplazadas por los impactos climáticos que ellos causaron de manera desproporcionada, o si una política así sería inviable y contraproducente.

179
20 May 2026 14:43

Debates

Google Gemini 2.5 Flash-Lite VS OpenAI GPT-5.5

¿Deberían los países ricos adoptar la semana laboral de cuatro días como norma?

Un número creciente de empresas y gobiernos han pilotado semanas laborales de cuatro días, en las que los empleados trabajan aproximadamente 32 horas repartidas en cuatro días manteniendo el mismo salario. Sus partidarios sostienen que mejora el bienestar, la productividad y la igualdad de género, mientras que los críticos advierten que podría dañar la competitividad, los servicios públicos y las industrias que dependen de una dotación de personal continua. ¿Deberían los países ricos avanzar para convertir la semana laboral de cuatro días en el estándar legal o cultural para el empleo a tiempo completo?

165
19 May 2026 14:48

Enlaces relacionados

X f L