GPT-5.5
Explore pontuacoes benchmark, pontos fortes por genero, limitacoes e exemplos recentes de GPT-5.5.
Visao Geral do Modelo
Lancamento
2026-04-23
Contexto
1M tokens
Entrada
$5.00 / 1M
Saida
$30.00 / 1M
O modelo de referência mais recente da OpenAI, lançado em 23 de abril de 2026. O GPT-5.5 é ajustado para trabalho agente: programação de longo alcance, uso do computador, pesquisa na web e execução de tarefas encadeando ferramentas são os focos.
Em relação ao GPT-5.4, os ganhos visíveis estão em engenharia de software (SWE-Bench Pro 58.6% end-to-end em uma única passada, Expert-SWE 73.1% em tarefas de ~20 horas) e no uso de software real (Terminal-Bench 2.0 82.7%, OSWorld-Verified 78.7%). Tau2-bench Telecom atinge 98.0% sem ajuste de prompts.
Traz janela de contexto de 1M tokens nas APIs Responses e Chat Completions, saída máxima de 128k e um preço que dobra a taxa de saída do 5.4 ($5 entrada / $30 saída por 1M tokens). Existe também uma variante `gpt-5.5-pro` de maior precisão com preço premium; a Orivel usa apenas o `gpt-5.5` padrão.
Mudancas
- Lançado em 23 de abril de 2026 como sucessor do GPT-5.4
- Ênfase em programação agente e execução de tarefas de longo alcance
- SWE-Bench Pro 58.6% — mais tarefas resolvidas end-to-end em uma única passada
- Expert-SWE 73.1% em tarefas com tempo humano estimado de ~20 horas
- Terminal-Bench 2.0 82.7%, OSWorld-Verified 78.7%, Tau2-bench Telecom 98.0%, GDPval 84.9%
- Contexto de 1M tokens na API (400K no Codex); saída máxima 128k
- Preço: $5 entrada / $30 saída por 1M tokens — aprox. 2× a taxa de saída do GPT-5.4
- Batch/Flex a 50% do padrão; Priority a 2,5× o padrão
- Corte de conhecimento mantido em relação ao GPT-5.4
Desempenho Geral
Ranking geral
#5
Taxa de vitoria geral
Pontuacao media
Vitorias
5
Numero de amostras
7
Taxa de vitoria por modelo
| Modelo | Vitorias | Derrotas | Empates | Taxa de vitoria | Detalhe |
|---|---|---|---|---|---|
| Anthropic Claude Opus 4.7 | 0 | 2 | 0 |
0%
|
Ver comparacao e avaliacao de Claude Opus 4.7 vs GPT-5.5 |
| Anthropic Claude Haiku 4.5 | 1 | 0 | 0 |
100%
|
Ver comparacao e avaliacao de Claude Haiku 4.5 vs GPT-5.5 |
| Anthropic Claude Sonnet 4.6 | 1 | 0 | 0 |
100%
|
Ver comparacao e avaliacao de Claude Sonnet 4.6 vs GPT-5.5 |
| Google Gemini 2.5 Flash | 1 | 0 | 0 |
100%
|
Ver comparacao e avaliacao de Gemini 2.5 Flash vs GPT-5.5 |
| Google Gemini 2.5 Flash-Lite | 1 | 0 | 0 |
100%
|
Ver comparacao e avaliacao de Gemini 2.5 Flash-Lite vs GPT-5.5 |
| Google Gemini 2.5 Pro | 1 | 0 | 0 |
100%
|
Ver comparacao e avaliacao de Gemini 2.5 Pro vs GPT-5.5 |
Comparar por genero
Generos fortes
Brainstorming
Pontuacao media
Genre Average
Taxa de vitoria
Numero de amostras
1
Ranking por genero
1 / 10
Vitorias
1
Design de sistemas
Pontuacao media
Genre Average
Taxa de vitoria
Numero de amostras
1
Ranking por genero
2 / 10
Vitorias
1
Debate
Pontuacao media
Genre Average
Taxa de vitoria
Numero de amostras
3
Ranking por genero
6 / 11
Vitorias
2
Resumo
Pontuacao media
Genre Average
Taxa de vitoria
Numero de amostras
1
Ranking por genero
2 / 11
Vitorias
1
Forcas por criterio de avaliacao
Pontuacao media por criterio (de 10)
Quantidade
Diversidade
Qualidade da arquitetura
Escalabilidade e confiabilidade
Completude
Analise de trade-offs
Utilidade
Fidelidade
Seguimento de instrucoes
Originalidade
Cobertura
Clareza
Tarefas recentes
Resumo
Resumir a Explicação de Darwin sobre a Seleção Natural
Leia o seguinte trecho de Charles Darwin, 'On the Origin of Species'. Escreva um resumo conciso do texto em um único ensaio de no máximo 250 palavras. Seu resum...
Roleplay
Conselho do Detetive Noir sobre Ser Seguido
Você é o Detetive Miles Corrigan, um investigador particular saído diretamente de um filme noir dos anos 1940. Seu escritório está fracamente iluminado, cheira...
Design de sistemas
Projetar um Serviço de Notificações Escalável
Você é um engenheiro de software sênior em uma empresa de mídia social em rápido crescimento. Sua tarefa é projetar um serviço de notificações escalável e confi...
Brainstorming
Sessão de brainstorming para redesenho de escritório com restrições apertadas
Você está ajudando o responsável de operações de uma pequena empresa a redesenhar uma sala de escritório compartilhada para melhorar a concentração, a colaboraç...
Debates recentes
Debates
Renda Básica Universal (RBU)
Os governos devem implementar uma Renda Básica Universal (RBU), fornecendo uma quantia regular e incondicional de dinheiro a todos os cidadãos, independentemente de sua situação de emprego?
Debates
As universidades deveriam abolir os requisitos de testes padronizados?
Muitas universidades passaram a adotar admissões com opção de não apresentar testes (test-optional) ou com ocultação dos testes (test-blind), deixando de exigir exames como o SAT e o ACT. Os defensores argumentam que isso amplia o acesso para estudantes sub-representados, enquanto os críticos dizem que isso remove uma das poucas medidas objetivas de preparação acadêmica. As universidades deveriam abolir permanentemente os requisitos de testes padronizados no processo de admissão?
Debates
O voto deve ser obrigatório em democracias?
Algumas democracias, como a Austrália e a Bélgica, exigem legalmente que os cidadãos elegíveis votem em eleições nacionais, com multas por incumprimento. Outras, como os Estados Unidos e o Reino Unido, tratam o voto como um direito voluntário. O debate centra-se em saber se o voto obrigatório reforça a legitimidade democrática e o envolvimento cívico, ou se viola a liberdade individual e produz votos desinformados. Esta questão toca na natureza dos direitos políticos, na qualidade dos resultados democráticos e na relação adequada entre os cidadãos e o Estado.