Claude Opus 4.8
Explore pontuacoes benchmark, pontos fortes por genero, limitacoes e exemplos recentes de Claude Opus 4.8.
Visao Geral do Modelo
Lancamento
2026-05-28
Contexto
1M tokens
Entrada
$5.00 / 1M
Saida
$25.00 / 1M
Claude Opus 4.8 é o modelo de referência atual da Anthropic, lançado em 28 de maio de 2026 — cerca de seis semanas após o Opus 4.7. A Anthropic o posiciona como seu modelo mais capaz para raciocínio complexo, programação agente de longo alcance e trabalho de conhecimento de alta autonomia.
Os principais ganhos sobre o Opus 4.7 são um julgamento mais apurado, mais honestidade sobre o próprio progresso e a capacidade de trabalhar de forma independente por mais tempo. É cerca de quatro vezes menos propenso que o antecessor a deixar passar falhas no próprio código e lidera em engenharia de software agente, com 69,2% no SWE-Bench Pro à frente de GPT-5.5 e Gemini 3.1 Pro.
Mantém a janela de contexto de 1M tokens e até 128k tokens de saída na Messages API. O preço não muda em relação ao Opus 4.7 ($5 entrada / $25 saída por 1M tokens), com corte de conhecimento em janeiro de 2026. As novas superfícies adicionam um controle `effort` (padrão high) e um preview de pesquisa de Dynamic Workflows para tarefas agentes grandes e paralelizadas.
Mudancas
- Lançado em 28 de maio de 2026 como sucessor do Claude Opus 4.7 (cerca de seis semanas depois)
- Julgamento mais apurado, mais honestidade sobre o progresso e trabalho independente mais longo
- ~4x menos propenso que o Opus 4.7 a deixar passar falhas no próprio código
- SWE-Bench Pro 69,2% — à frente de GPT-5.5 e Gemini 3.1 Pro em programação agente
- Ganhos em raciocínio multidisciplinar, uso agente do computador e análise financeira agente
- Janela de contexto de 1M tokens; até 128k tokens de saída na Messages API
- Parâmetro `effort` (padrão high) para ajustar o quanto o modelo se esforça por resposta
- Preview de Dynamic Workflows para tarefas com subagentes em paralelo; fast mode a 2,5x de velocidade
- Preço idêntico ao Opus 4.7: $5 entrada / $25 saída por 1M tokens
- Adaptive thinking; disponível no Claude API, Amazon Bedrock, Vertex AI e Microsoft Foundry
- Corte de conhecimento e dados de treinamento: janeiro de 2026
Desempenho Geral
Ranking geral
#1
Taxa de vitoria geral
Pontuacao media
Vitorias
14
Numero de amostras
14
Taxa de vitoria por modelo
| Modelo | Vitorias | Derrotas | Empates | Taxa de vitoria | Detalhe |
|---|---|---|---|---|---|
| OpenAI GPT-5.5 | 3 | 0 | 0 |
100%
|
Ver comparacao e avaliacao de Claude Opus 4.8 vs GPT-5.5 |
| Google Gemini 2.5 Flash-Lite | 3 | 0 | 0 |
100%
|
Ver comparacao e avaliacao de Claude Opus 4.8 vs Gemini 2.5 Flash-Lite |
| OpenAI GPT-5 mini | 2 | 0 | 0 |
100%
|
Ver comparacao e avaliacao de Claude Opus 4.8 vs GPT-5 mini |
| OpenAI GPT-5.4 | 2 | 0 | 0 |
100%
|
Ver comparacao e avaliacao de Claude Opus 4.8 vs GPT-5.4 |
| Google Gemini 2.5 Flash | 2 | 0 | 0 |
100%
|
Ver comparacao e avaliacao de Claude Opus 4.8 vs Gemini 2.5 Flash |
| Google Gemini 2.5 Pro | 2 | 0 | 0 |
100%
|
Ver comparacao e avaliacao de Claude Opus 4.8 vs Gemini 2.5 Pro |
Comparar por genero
Generos fortes
Humor
Pontuacao media
Genre Average
Taxa de vitoria
Numero de amostras
1
Ranking por genero
1 / 12
Vitorias
1
Brainstorming
Pontuacao media
Genre Average
Taxa de vitoria
Numero de amostras
1
Ranking por genero
2 / 12
Vitorias
1
Resumo
Pontuacao media
Genre Average
Taxa de vitoria
Numero de amostras
1
Ranking por genero
1 / 12
Vitorias
1
Aconselhamento
Pontuacao media
Genre Average
Taxa de vitoria
Numero de amostras
1
Ranking por genero
1 / 12
Vitorias
1
Debate
Pontuacao media
Genre Average
Taxa de vitoria
Numero de amostras
7
Ranking por genero
2 / 12
Vitorias
7
Generos mais fracos
Forcas por criterio de avaliacao
Pontuacao media por criterio (de 10)
Quantidade
Seguimento de instrucoes
Fidelidade
Seguranca
Diversidade
Utilidade
Estrutura
Cobertura
Etica e seguranca
Empatia
Adequacao
Utilidade
Tarefas recentes
Brainstorming
Chuva de ideias: Programas de Baixo Custo para Adolescentes na Biblioteca
Uma biblioteca pública de porte médio quer aumentar a presença presencial de adolescentes de 13 a 18 anos durante um período de verão de 10 semanas. Faça uma ch...
Resumo
Resuma a visão geral do Telescópio Espacial James Webb
Leia o artigo a seguir sobre o Telescópio Espacial James Webb (JWST) e escreva um resumo conciso. Seu resumo deve ser um único parágrafo coerente de 150 a 200 p...
Aconselhamento
Dizer Não a uma Viagem Cara com um Amigo Próximo
Um usuário pede um conselho pessoal cotidiano: “Meu amigo próximo está planejando uma viagem de aniversário de quatro dias que custaria mais do que eu posso con...
Humor
Humor Adequado para Famílias: O Guia de Áudio Excessivamente Honesto do Museu
Escreva um breve diálogo cômico entre um visitante de museu e um guia de áudio incomumente honesto em um expositor fictício chamado Objetos Cotidianos que Mudar...
Design de sistemas
Projetar um Sistema de Quadro Branco Colaborativo em Tempo Real
Você foi encarregado de projetar uma arquitetura de sistema de alto nível para uma aplicação de quadro branco colaborativo em tempo real. **Requisitos Princip...
Redação empresarial
E-mail ao Cliente sobre um Lançamento de Produto Atrasado
Escreva um e-mail direcionado a clientes assinado pelo Head of Product de uma empresa SaaS B2B anunciando um atraso no lançamento de uma funcionalidade planejad...
Persuasão
Convencer um Conselho Municipal Cético a Financiar uma Nova Biblioteca
Você é um defensor comunitário preparando-se para falar em uma reunião do conselho municipal. Seu objetivo é persuadir o conselho a aprovar o financiamento para...
Debates recentes
Debates
Testes padronizados nas escolas: uma medida justa de mérito ou uma barreira ultrapassada à...
Testes padronizados, como o SAT, o ACT e vários exames a nível estadual, têm sido durante muito tempo um pilar do sistema educativo, utilizados para avaliação de alunos, avaliação de escolas e admissão em universidades. Os defensores argumentam que proporcionam um referencial objetivo para medir o rendimento académico em populações diversas. No entanto, os críticos afirmam que esses testes são culturalmente tendenciosos, favorecem estudantes de origens privilegiadas e não conseguem captar as verdadeiras capacidades ou o potencial de um aluno, levando a pedidos de sua abolição em favor de métodos de avaliação mais holísticos. O debate centra-se em saber se os testes padronizados são uma ferramenta essencial para responsabilização e meritocracia ou um sistema discriminatório que perpetua a desigualdade.
Debates
O transporte público deveria ser gratuito para todos os passageiros?
Muitas cidades enfrentam congestionamento, poluição, financiamento do transporte e acesso desigual à mobilidade. Uma proposta é eliminar as tarifas em ônibus, bondes e metrôs para todos, financiando as operações por meio de impostos ou outras receitas públicas. As cidades deveriam tornar o transporte público gratuito para todos os passageiros, ou deveriam manter as tarifas e concentrar os subsídios naqueles que mais precisam?
Debates
O Papel dos Testes Padronizados na Educação
Os testes padronizados são amplamente utilizados para medir a aptidão dos alunos, o desempenho acadêmico e o rendimento das escolas. Os defensores argumentam que eles fornecem um referencial objetivo para responsabilização e comparação, enquanto os críticos sustentam que são injustos, estressantes e promovem um currículo estreito. Este debate centra‑se em saber se os testes padronizados devem permanecer como pedra angular do sistema educacional.
Debates
A semana de trabalho de quatro dias: uma revolução no equilíbrio entre vida profissional e...
O conceito de uma semana de trabalho padrão de quatro dias, sem redução salarial, está ganhando adesão em todo o mundo como uma forma de melhorar o bem-estar e a produtividade dos funcionários. O debate questiona se esse modelo é uma evolução sustentável e benéfica do ambiente de trabalho moderno ou um ideal impraticável que cria mais problemas do que resolve para as empresas e para a economia.
Debates
As cidades deveriam substituir a maior parte do estacionamento na rua por ciclovias proteg...
Muitas cidades têm espaço limitado junto ao meio-fio que atualmente é usado para estacionamento de carros particulares. Os governos locais deveriam remover a maior parte do estacionamento nas ruas em corredores principais e redesenhar esse espaço para faixas cicláveis protegidas, calçadas mais largas, árvores e assentos públicos?
Debates
As cidades deveriam proibir carros particulares nas áreas centrais?
Muitas cidades estão a considerar restringir ou proibir carros particulares em distritos centrais densos para reduzir o congestionamento, a poluição e as mortes no trânsito. Os governos municipais devem avançar para centros urbanos sem carros, ou devem preservar o amplo acesso de veículos particulares?
Debates
Rendimento Básico Universal: Um Caminho para a Prosperidade ou Ruína Econômica?
Os governos deveriam implementar um Rendimento Básico Universal (UBI), fornecendo a todo cidadão adulto um pagamento regular e incondicional suficiente para cobrir os custos básicos de subsistência, independentemente do seu status de emprego?