Orivel Orivel
Abrir menu

GPT-5.5

Explore pontuações de benchmark, pontos fortes por género, limitações e exemplos recentes de GPT-5.5.

Visao Geral do Modelo

Provedor: OpenAI · gpt-5.5

Lancamento

2026-04-23

Contexto

1M tokens

Entrada

$5.00 / 1M

Saida

$30.00 / 1M

O modelo de referência mais recente da OpenAI, lançado em 23 de abril de 2026. O GPT-5.5 é ajustado para trabalho agente: programação de longo alcance, uso do computador, pesquisa na web e execução de tarefas encadeando ferramentas são os focos.

Em relação ao GPT-5.4, os ganhos visíveis estão em engenharia de software (SWE-Bench Pro 58.6% end-to-end em uma única passada, Expert-SWE 73.1% em tarefas de ~20 horas) e no uso de software real (Terminal-Bench 2.0 82.7%, OSWorld-Verified 78.7%). Tau2-bench Telecom atinge 98.0% sem ajuste de prompts.

Traz janela de contexto de 1M tokens nas APIs Responses e Chat Completions, saída máxima de 128k e um preço que dobra a taxa de saída do 5.4 ($5 entrada / $30 saída por 1M tokens). Existe também uma variante `gpt-5.5-pro` de maior precisão com preço premium; a Orivel usa apenas o `gpt-5.5` padrão.

Mudancas

  • Lançado em 23 de abril de 2026 como sucessor do GPT-5.4
  • Ênfase em programação agente e execução de tarefas de longo alcance
  • SWE-Bench Pro 58.6% — mais tarefas resolvidas end-to-end em uma única passada
  • Expert-SWE 73.1% em tarefas com tempo humano estimado de ~20 horas
  • Terminal-Bench 2.0 82.7%, OSWorld-Verified 78.7%, Tau2-bench Telecom 98.0%, GDPval 84.9%
  • Contexto de 1M tokens na API (400K no Codex); saída máxima 128k
  • Preço: $5 entrada / $30 saída por 1M tokens — aprox. 2× a taxa de saída do GPT-5.4
  • Batch/Flex a 50% do padrão; Priority a 2,5× o padrão
  • Corte de conhecimento mantido em relação ao GPT-5.4
Anuncio oficial

Desempenho Geral

Ranking geral

#6

Taxa de vitoria geral

63%

Pontuacao media

85

Vitorias

26

Numero de amostras

41

Taxa de vitoria por modelo

Comparar por genero

Generos fortes

Generos mais fracos

Forcas por criterio de avaliacao

Pontuacao media por criterio (de 10)

Quantidade

95 3 amostras

Seguranca

92 9 amostras

Profundidade

91 3 amostras

Qualidade da arquitetura

91 3 amostras

Escalabilidade e confiabilidade

90 3 amostras

Qualidade do estilo

90 3 amostras

Priorizacao

90 3 amostras

Empatia

90 9 amostras

Correcao

90 12 amostras

Completude

90 15 amostras

Seguimento de instrucoes

90 18 amostras

Qualidade do raciocinio

89 6 amostras

Tarefas recentes

Roleplay

Anthropic Claude Sonnet 4.6 VS OpenAI GPT-5.5

Roleplay de Atendimento ao Cliente: O Jogador Frustrado

Você é um representante de atendimento ao cliente da Nexus Games, chamado Alex. Sua persona é calma, empática e conhecedora. Você deve aderir à política da empr...

126
28 May 2026 09:38

Aconselhamento

Google Gemini 2.5 Flash-Lite VS OpenAI GPT-5.5

Apoiar um amigo que continua cancelando planos

Um amigo próximo meu cancelou nossos planos três vezes nos últimos dois meses, geralmente em cima da hora, alegando estar "muito cansado" ou "sobrecarregado com...

127
26 May 2026 09:38

Persuasão

Anthropic Claude Sonnet 4.6 VS OpenAI GPT-5.5

Carta Persuasiva para uma Horta Comunitária

Escreva uma carta persuasiva ao conselho municipal local. O seu objetivo é convencê-los a aprovar uma proposta para converter o terreno vazio e cheio de mato na...

137
23 May 2026 09:38

Escrita criativa

Google Gemini 2.5 Pro VS OpenAI GPT-5.5

A Última Carta do Faroleiro

Escreva um conto curto (entre 600 e 900 palavras) intitulado "A Última Carta do Faroleiro". Restrições e requisitos: - A história deve estar enquadrada como um...

154
22 May 2026 09:43

Análise

Google Gemini 2.5 Flash VS OpenAI GPT-5.5

Escolhendo um Banco de Dados para uma Startup SaaS em Crescimento

Você está aconselhando o CTO de uma startup B2B SaaS de dois anos que fornece software de gestão de projetos para empresas de porte médio. A configuração atual...

191
16 May 2026 09:38

Redação empresarial

Anthropic Claude Opus 4.7 VS OpenAI GPT-5.5

Redação de um Anúncio Interno para um Novo Programa de Mentoria

Você é o Chefe de Operações de Pessoas em uma empresa de tecnologia de médio porte. Sua empresa está lançando um novo programa de mentoria interna para promover...

220
14 May 2026 09:37

Explicação

Anthropic Claude Sonnet 4.6 VS OpenAI GPT-5.5

Explicando a tecnologia GPS para um adolescente

Explique como o Sistema de Posicionamento Global (GPS) funciona para um estudante curioso do ensino médio. Seu aluno tem uma compreensão básica de física (por e...

200
13 May 2026 09:38

Programação

Google Gemini 2.5 Flash VS OpenAI GPT-5.5

Limitador de Taxa com Janela Deslizante e Tolerância a Rajada

Desenhe e implemente um limitador de taxa thread-safe numa linguagem à sua escolha (Python, Go, Java, TypeScript, ou Rust) que suporte os seguintes requisitos:...

173
12 May 2026 09:45

Debates recentes

Debates

Anthropic Claude Opus 4.8 VS OpenAI GPT-5.5

Testes padronizados nas escolas: uma medida justa de mérito ou uma barreira ultrapassada à...

Testes padronizados, como o SAT, o ACT e vários exames a nível estadual, têm sido durante muito tempo um pilar do sistema educativo, utilizados para avaliação de alunos, avaliação de escolas e admissão em universidades. Os defensores argumentam que proporcionam um referencial objetivo para medir o rendimento académico em populações diversas. No entanto, os críticos afirmam que esses testes são culturalmente tendenciosos, favorecem estudantes de origens privilegiadas e não conseguem captar as verdadeiras capacidades ou o potencial de um aluno, levando a pedidos de sua abolição em favor de métodos de avaliação mais holísticos. O debate centra-se em saber se os testes padronizados são uma ferramenta essencial para responsabilização e meritocracia ou um sistema discriminatório que perpetua a desigualdade.

125
03 Jun 2026 14:38

Debates

Anthropic Claude Opus 4.8 VS OpenAI GPT-5.5

A semana de trabalho de quatro dias: uma revolução no equilíbrio entre vida profissional e...

O conceito de uma semana de trabalho padrão de quatro dias, sem redução salarial, está ganhando adesão em todo o mundo como uma forma de melhorar o bem-estar e a produtividade dos funcionários. O debate questiona se esse modelo é uma evolução sustentável e benéfica do ambiente de trabalho moderno ou um ideal impraticável que cria mais problemas do que resolve para as empresas e para a economia.

130
31 May 2026 14:38

Debates

Anthropic Claude Opus 4.8 VS OpenAI GPT-5.5

Rendimento Básico Universal: Um Caminho para a Prosperidade ou Ruína Econômica?

Os governos deveriam implementar um Rendimento Básico Universal (UBI), fornecendo a todo cidadão adulto um pagamento regular e incondicional suficiente para cobrir os custos básicos de subsistência, independentemente do seu status de emprego?

159
29 May 2026 00:05

Debates

OpenAI GPT-5.5 VS Anthropic Claude Haiku 4.5

A Adoção de Calendários Escolares Durante Todo o Ano

Este debate diz respeito a se os distritos escolares K-12 devem fazer a transição do calendário académico tradicional de nove meses com uma longa pausa de verão para um modelo de ensino durante todo o ano. O ensino durante todo o ano envolve o mesmo número de dias letivos, mas distribui-os ao longo de todo o ano com pausas mais curtas e mais frequentes. Os defensores acreditam que este sistema previne o 'summer slide' — a perda de aprendizagem que os alunos experienciam durante a longa pausa de verão — e permite uma instrução mais contínua. Os opositores argumentam que isso perturba a vida familiar, complica os cuidados infantis, limita as oportunidades para campos de verão e empregos, e pode conduzir ao esgotamento de professores e alunos.

129
26 May 2026 14:38

Debates

Anthropic Claude Opus 4.7 VS OpenAI GPT-5.5

IA como a principal ferramenta de contratação

As empresas devem ser autorizadas a usar algoritmos de inteligência artificial (IA) como ferramenta principal para triagem, pré-seleção e seleção de candidatos para emprego?

185
25 May 2026 14:38

Debates

OpenAI GPT-5.5 VS Anthropic Claude Haiku 4.5

Abolir as Notas Alfabéticas Tradicionais na Educação K-12

As escolas K-12 devem substituir o sistema tradicional de avaliação por letras de A-F por métodos alternativos de avaliação, como feedback narrativo, portefólios ou um sistema de aprovado/reprovado?

159
24 May 2026 14:39

Debates

Google Gemini 2.5 Flash VS OpenAI GPT-5.5

Devem as Nações Ricas Abrir Suas Fronteiras para Refugiados Climáticos?

À medida que o aumento do nível do mar, a desertificação e eventos climáticos extremos deslocam um número crescente de pessoas, há uma pressão cada vez maior sobre nações ricas e com altas emissões para aceitar aqueles forçados a abandonar suas casas devido às mudanças climáticas. O atual direito internacional dos refugiados não reconhece formalmente os "refugiados climáticos", deixando populações deslocadas em um limbo jurídico. O debate é se os países ricos têm uma obrigação moral e prática de abrir suas fronteiras para pessoas deslocadas por impactos climáticos que eles causaram de forma desproporcional, ou se tal política seria impraticável e contraproducente.

179
20 May 2026 14:43

Debates

Google Gemini 2.5 Flash-Lite VS OpenAI GPT-5.5

Deveriam as nações ricas adotar a semana de trabalho de quatro dias como padrão?

Um número crescente de empresas e governos tem pilotado semanas de trabalho de quatro dias, nas quais os funcionários trabalham aproximadamente 32 horas ao longo de quatro dias mantendo o mesmo salário. Os defensores argumentam que isso melhora o bem‑estar, a produtividade e a equidade de gênero, enquanto os críticos avisam que pode prejudicar a competitividade, os serviços públicos e indústrias que dependem de pessoal contínuo. As nações ricas deveriam avançar para tornar a semana de trabalho de quatro dias o padrão legal ou cultural para o trabalho em tempo integral?

165
19 May 2026 14:48

Links relacionados

X f L