Orivel Orivel
Ouvrir le menu

GPT-5.5

Explorez les scores de benchmark, points forts par genre, limites et exemples récents de GPT-5.5.

Apercu du Modele

Fournisseur: OpenAI · gpt-5.5

Publie

2026-04-23

Contexte

1M tokens

Entree

$5.00 / 1M

Sortie

$30.00 / 1M

Le modèle phare le plus récent d'OpenAI, publié le 23 avril 2026. GPT-5.5 est calibré pour le travail agentique : codage de longue haleine, utilisation de l'ordinateur, recherche web et exécution de tâches enchaînant des outils sont les axes prioritaires.

Par rapport à GPT-5.4, les gains visibles concernent l'ingénierie logicielle (SWE-Bench Pro 58.6% end-to-end en une seule passe, Expert-SWE 73.1% sur des tâches de ~20 heures) et la maîtrise de logiciels réels (Terminal-Bench 2.0 82.7%, OSWorld-Verified 78.7%). Tau2-bench Telecom atteint 98.0% sans ajustement de prompt.

Le modèle offre un contexte de 1M tokens via les APIs Responses et Chat Completions, une sortie maximale de 128k, et une tarification qui double celle de 5.4 côté sortie ($5 entrée / $30 sortie par 1M tokens). Une variante `gpt-5.5-pro` plus précise existe séparément à tarif premium ; Orivel n'utilise que la variante standard `gpt-5.5`.

Changements

  • Publié le 23 avril 2026 comme successeur de GPT-5.4
  • Focus : codage agentique et exécution de tâches de longue haleine
  • SWE-Bench Pro 58.6% — davantage de tâches résolues end-to-end en une seule passe
  • Expert-SWE 73.1% sur des tâches au temps humain estimé à ~20 heures
  • Terminal-Bench 2.0 82.7%, OSWorld-Verified 78.7%, Tau2-bench Telecom 98.0%, GDPval 84.9%
  • Contexte 1M tokens dans l'API (400K dans Codex) ; sortie maximale 128k
  • Tarif : $5 entrée / $30 sortie par 1M tokens — environ 2× le tarif de sortie de GPT-5.4
  • Batch/Flex à 50% du standard ; Priority à 2,5× le standard
  • Date de coupe des connaissances inchangée par rapport à GPT-5.4
Annonce officielle

Performance Globale

Classement general

#6

Taux de victoire global

63%

Score moyen

85

Victoires

26

Nombre d exemples

41

Taux de victoire par modele

Comparer par genre

Genres forts

Genres plus faibles

Forces par critere d evaluation

Score moyen par critere (sur 10)

Quantite

95 3 echantillons

Securite

92 9 echantillons

Profondeur

91 3 echantillons

Qualite de l architecture

91 3 echantillons

Scalabilite et fiabilite

90 3 echantillons

Qualite du style

90 3 echantillons

Priorisation

90 3 echantillons

Empathie

90 9 echantillons

Exactitude

90 12 echantillons

Completude

90 15 echantillons

Respect des consignes

90 18 echantillons

Qualite du raisonnement

89 6 echantillons

Taches recentes

Jeu de rôle

Anthropic Claude Sonnet 4.6 VS OpenAI GPT-5.5

Jeu de rôle Service client : Le joueur frustré

Vous êtes un représentant du service client pour Nexus Games, nommé Alex. Votre persona est calme, empathique et compétent. Vous devez respecter la politique de...

126
28 May 2026 09:38

Accompagnement

Google Gemini 2.5 Flash-Lite VS OpenAI GPT-5.5

Un·e ami·e qui annule sans cesse des plans

Un·e ami·e proche a annulé nos plans trois fois au cours des deux derniers mois, généralement au dernier moment, en invoquant le fait d’être « trop fatigué·e »...

127
26 May 2026 09:38

Persuasion

Anthropic Claude Sonnet 4.6 VS OpenAI GPT-5.5

Lettre persuasive pour un jardin communautaire

Rédigez une lettre persuasive adressée à votre conseil municipal local. Votre objectif est de les convaincre d'approuver une proposition visant à convertir le t...

137
23 May 2026 09:38

Écriture créative

Google Gemini 2.5 Pro VS OpenAI GPT-5.5

La dernière lettre du gardien de phare

Écrivez une nouvelle (entre 600 et 900 mots) intitulée « La dernière lettre du gardien de phare ». Contraintes et exigences : - La nouvelle doit être encadrée...

154
22 May 2026 09:43

Analyse

Google Gemini 2.5 Flash VS OpenAI GPT-5.5

Choix d'une base de données pour une startup SaaS en croissance

Vous conseillez le CTO d'une startup B2B SaaS âgée de deux ans qui fournit un logiciel de gestion de projet à des entreprises de taille moyenne. La configuratio...

191
16 May 2026 09:38

Rédaction professionnelle

Anthropic Claude Opus 4.7 VS OpenAI GPT-5.5

Rédaction d'une annonce interne pour un nouveau programme de mentorat

Vous êtes le Responsable des opérations RH d'une entreprise tech de taille moyenne. Votre entreprise lance un nouveau programme de mentorat interne pour favoris...

220
14 May 2026 09:37

Explication

Anthropic Claude Sonnet 4.6 VS OpenAI GPT-5.5

Expliquer la technologie GPS à un lycéen

Expliquez comment le Système de Positionnement Global (GPS) fonctionne à un élève de lycée curieux. Votre élève a une compréhension de base de la physique (par...

200
13 May 2026 09:38

Programmation

Google Gemini 2.5 Flash VS OpenAI GPT-5.5

Limiteur de débit avec fenêtre glissante et tolérance de rafale

Concevez et implémentez un limiteur de débit sûr pour les threads dans un langage de votre choix (Python, Go, Java, TypeScript ou Rust) qui prend en charge les...

173
12 May 2026 09:45

Debats recents

Debats

Anthropic Claude Opus 4.8 VS OpenAI GPT-5.5

Les tests standardisés dans les écoles : une mesure équitable du mérite ou une barrière dé...

Les tests standardisés, tels que le SAT, l'ACT et divers examens au niveau des États, sont depuis longtemps une pierre angulaire du système éducatif, utilisés pour l'évaluation des élèves, l'évaluation des établissements et les admissions à l'université. Les partisans soutiennent qu'ils fournissent un référentiel objectif pour mesurer la réussite académique à travers des populations diverses. Cependant, les critiques affirment que ces tests sont culturellement biaisés, favorisent les élèves issus de milieux privilégiés et ne parviennent pas à saisir les véritables aptitudes ou le potentiel d'un élève, ce qui a conduit à des appels à leur abolition au profit de méthodes d'évaluation plus holistiques. Le débat porte sur la question de savoir si les tests standardisés sont un outil essentiel pour la responsabilisation et la méritocratie ou un système discriminatoire qui perpétue les inégalités.

125
03 Jun 2026 14:38

Debats

Anthropic Claude Opus 4.8 VS OpenAI GPT-5.5

La semaine de travail de quatre jours : une révolution de l'équilibre vie professionnelle-...

Le concept d'une semaine de travail standard de quatre jours, sans réduction de salaire, gagne du terrain à l'échelle mondiale comme moyen d'améliorer le bien-être et la productivité des employés. Le débat se demande si ce modèle est une évolution durable et bénéfique du lieu de travail moderne ou un idéal impraticable qui crée plus de problèmes qu'il n'en résout pour les entreprises et l'économie.

130
31 May 2026 14:38

Debats

Anthropic Claude Opus 4.8 VS OpenAI GPT-5.5

Revenu de base universel : une voie vers la prospérité ou la ruine économique ?

Les gouvernements devraient-ils mettre en place un revenu de base universel (RBU), versant à chaque citoyen adulte un paiement régulier et inconditionnel suffisant pour couvrir les frais de subsistance de base, indépendamment de leur situation professionnelle ?

159
29 May 2026 00:05

Debats

OpenAI GPT-5.5 VS Anthropic Claude Haiku 4.5

L'adoption de calendriers scolaires toute l'année

Ce débat porte sur la question de savoir si les districts scolaires K-12 devraient passer du calendrier académique traditionnel de neuf mois avec de longues vacances d'été à un modèle toute l'année. L'enseignement toute l'année implique le même nombre de journées d'instruction mais les répartit sur l'ensemble de l'année avec des pauses plus courtes et plus fréquentes. Les partisans estiment que ce système prévient la 'régression estivale' — la perte d'apprentissage que subissent les élèves pendant la longue pause estivale — et permet un enseignement plus continu. Les opposants soutiennent qu'il perturbe la vie familiale, complique la garde d'enfants, limite les possibilités de camps d'été et d'emplois, et peut conduire à l'épuisement des enseignants et des élèves.

129
26 May 2026 14:38

Debats

Anthropic Claude Opus 4.7 VS OpenAI GPT-5.5

L'IA comme principal outil de recrutement

Les entreprises devraient-elles être autorisées à utiliser des algorithmes d'intelligence artificielle (IA) comme principal outil pour le tri, la présélection et la sélection des candidats à un emploi ?

185
25 May 2026 14:38

Debats

OpenAI GPT-5.5 VS Anthropic Claude Haiku 4.5

Abolition des notes alphabétiques traditionnelles de la maternelle à la terminale

Les écoles de la maternelle à la terminale devraient-elles remplacer le système traditionnel de notation par lettres A-F par des méthodes d'évaluation alternatives, telles que des retours narratifs, des portfolios ou un système réussite/échec ?

159
24 May 2026 14:39

Debats

Google Gemini 2.5 Flash VS OpenAI GPT-5.5

Les pays riches devraient-ils ouvrir leurs frontières aux réfugiés climatiques ?

Alors que la montée du niveau de la mer, la désertification et les phénomènes météorologiques extrêmes déplacent un nombre croissant de personnes, la pression s'accroît sur les pays riches et fortement émetteurs pour qu'ils acceptent celles et ceux contraints de fuir leur foyer en raison du changement climatique. Le droit international actuel en matière de réfugiés ne reconnaît pas formellement les « réfugiés climatiques », laissant les populations déplacées dans un vide juridique. Le débat porte sur la question de savoir si les pays riches ont une obligation morale et pratique d'ouvrir leurs frontières aux personnes déplacées par des impacts climatiques qu'ils ont disproportionnellement causés, ou si une telle politique serait impraticable et contre-productive.

179
20 May 2026 14:43

Debats

Google Gemini 2.5 Flash-Lite VS OpenAI GPT-5.5

Les pays riches devraient-ils adopter la semaine de travail de quatre jours comme norme ?

Un nombre croissant d'entreprises et de gouvernements ont expérimenté la semaine de travail de quatre jours, dans laquelle les employés travaillent environ 32 heures réparties sur quatre jours tout en conservant le même salaire. Les partisans soutiennent que cela améliore le bien‑être, la productivité et l'équité entre les sexes, tandis que les critiques mettent en garde contre un risque pour la compétitivité, les services publics et les secteurs dépendant d'une présence continue. Les pays riches devraient‑ils évoluer pour faire de la semaine de travail de quatre jours la norme légale ou culturelle pour l'emploi à temps plein ?

165
19 May 2026 14:48

Liens associes

X f L