GPT-5.5
Explorez les scores de benchmark, points forts par genre, limites et exemples récents de GPT-5.5.
Apercu du Modele
Publie
2026-04-23
Contexte
1M tokens
Entree
$5.00 / 1M
Sortie
$30.00 / 1M
Le modèle phare le plus récent d'OpenAI, publié le 23 avril 2026. GPT-5.5 est calibré pour le travail agentique : codage de longue haleine, utilisation de l'ordinateur, recherche web et exécution de tâches enchaînant des outils sont les axes prioritaires.
Par rapport à GPT-5.4, les gains visibles concernent l'ingénierie logicielle (SWE-Bench Pro 58.6% end-to-end en une seule passe, Expert-SWE 73.1% sur des tâches de ~20 heures) et la maîtrise de logiciels réels (Terminal-Bench 2.0 82.7%, OSWorld-Verified 78.7%). Tau2-bench Telecom atteint 98.0% sans ajustement de prompt.
Le modèle offre un contexte de 1M tokens via les APIs Responses et Chat Completions, une sortie maximale de 128k, et une tarification qui double celle de 5.4 côté sortie ($5 entrée / $30 sortie par 1M tokens). Une variante `gpt-5.5-pro` plus précise existe séparément à tarif premium ; Orivel n'utilise que la variante standard `gpt-5.5`.
Changements
- Publié le 23 avril 2026 comme successeur de GPT-5.4
- Focus : codage agentique et exécution de tâches de longue haleine
- SWE-Bench Pro 58.6% — davantage de tâches résolues end-to-end en une seule passe
- Expert-SWE 73.1% sur des tâches au temps humain estimé à ~20 heures
- Terminal-Bench 2.0 82.7%, OSWorld-Verified 78.7%, Tau2-bench Telecom 98.0%, GDPval 84.9%
- Contexte 1M tokens dans l'API (400K dans Codex) ; sortie maximale 128k
- Tarif : $5 entrée / $30 sortie par 1M tokens — environ 2× le tarif de sortie de GPT-5.4
- Batch/Flex à 50% du standard ; Priority à 2,5× le standard
- Date de coupe des connaissances inchangée par rapport à GPT-5.4
Performance Globale
Classement general
#6
Taux de victoire global
Score moyen
Victoires
26
Nombre d exemples
41
Taux de victoire par modele
Comparer par genre
Genres forts
Planification
Score moyen
Genre Average
Taux de victoire
Nombre d exemples
1
Classement par genre
1 / 11
Victoires
1
Programmation
Score moyen
Genre Average
Taux de victoire
Nombre d exemples
1
Classement par genre
2 / 11
Victoires
1
Écriture créative
Score moyen
Genre Average
Taux de victoire
Nombre d exemples
1
Classement par genre
3 / 11
Victoires
1
Brainstorming
Score moyen
Genre Average
Taux de victoire
Nombre d exemples
1
Classement par genre
1 / 12
Victoires
1
Conception de systèmes
Score moyen
Genre Average
Taux de victoire
Nombre d exemples
1
Classement par genre
3 / 12
Victoires
1
Genres plus faibles
Rédaction professionnelle
Score moyen
Genre Average
Taux de victoire
Nombre d exemples
1
Classement par genre
11 / 12
Victoires
0
Jeu de rôle
Score moyen
Genre Average
Taux de victoire
Nombre d exemples
2
Classement par genre
9 / 11
Victoires
0
Explication
Score moyen
Genre Average
Taux de victoire
Nombre d exemples
1
Classement par genre
10 / 11
Victoires
0
Persuasion
Score moyen
Genre Average
Taux de victoire
Nombre d exemples
1
Classement par genre
10 / 12
Victoires
0
Résumé
Score moyen
Genre Average
Taux de victoire
Nombre d exemples
1
Classement par genre
4 / 13
Victoires
1
Forces par critere d evaluation
Score moyen par critere (sur 10)
Quantite
Securite
Profondeur
Qualite de l architecture
Scalabilite et fiabilite
Qualite du style
Priorisation
Empathie
Exactitude
Completude
Respect des consignes
Qualite du raisonnement
Taches recentes
Jeu de rôle
Jeu de rôle Service client : Le joueur frustré
Vous êtes un représentant du service client pour Nexus Games, nommé Alex. Votre persona est calme, empathique et compétent. Vous devez respecter la politique de...
Accompagnement
Un·e ami·e qui annule sans cesse des plans
Un·e ami·e proche a annulé nos plans trois fois au cours des deux derniers mois, généralement au dernier moment, en invoquant le fait d’être « trop fatigué·e »...
Persuasion
Lettre persuasive pour un jardin communautaire
Rédigez une lettre persuasive adressée à votre conseil municipal local. Votre objectif est de les convaincre d'approuver une proposition visant à convertir le t...
Écriture créative
La dernière lettre du gardien de phare
Écrivez une nouvelle (entre 600 et 900 mots) intitulée « La dernière lettre du gardien de phare ». Contraintes et exigences : - La nouvelle doit être encadrée...
Analyse
Choix d'une base de données pour une startup SaaS en croissance
Vous conseillez le CTO d'une startup B2B SaaS âgée de deux ans qui fournit un logiciel de gestion de projet à des entreprises de taille moyenne. La configuratio...
Rédaction professionnelle
Rédaction d'une annonce interne pour un nouveau programme de mentorat
Vous êtes le Responsable des opérations RH d'une entreprise tech de taille moyenne. Votre entreprise lance un nouveau programme de mentorat interne pour favoris...
Explication
Expliquer la technologie GPS à un lycéen
Expliquez comment le Système de Positionnement Global (GPS) fonctionne à un élève de lycée curieux. Votre élève a une compréhension de base de la physique (par...
Programmation
Limiteur de débit avec fenêtre glissante et tolérance de rafale
Concevez et implémentez un limiteur de débit sûr pour les threads dans un langage de votre choix (Python, Go, Java, TypeScript ou Rust) qui prend en charge les...
Debats recents
Debats
Les tests standardisés dans les écoles : une mesure équitable du mérite ou une barrière dé...
Les tests standardisés, tels que le SAT, l'ACT et divers examens au niveau des États, sont depuis longtemps une pierre angulaire du système éducatif, utilisés pour l'évaluation des élèves, l'évaluation des établissements et les admissions à l'université. Les partisans soutiennent qu'ils fournissent un référentiel objectif pour mesurer la réussite académique à travers des populations diverses. Cependant, les critiques affirment que ces tests sont culturellement biaisés, favorisent les élèves issus de milieux privilégiés et ne parviennent pas à saisir les véritables aptitudes ou le potentiel d'un élève, ce qui a conduit à des appels à leur abolition au profit de méthodes d'évaluation plus holistiques. Le débat porte sur la question de savoir si les tests standardisés sont un outil essentiel pour la responsabilisation et la méritocratie ou un système discriminatoire qui perpétue les inégalités.
Debats
La semaine de travail de quatre jours : une révolution de l'équilibre vie professionnelle-...
Le concept d'une semaine de travail standard de quatre jours, sans réduction de salaire, gagne du terrain à l'échelle mondiale comme moyen d'améliorer le bien-être et la productivité des employés. Le débat se demande si ce modèle est une évolution durable et bénéfique du lieu de travail moderne ou un idéal impraticable qui crée plus de problèmes qu'il n'en résout pour les entreprises et l'économie.
Debats
Revenu de base universel : une voie vers la prospérité ou la ruine économique ?
Les gouvernements devraient-ils mettre en place un revenu de base universel (RBU), versant à chaque citoyen adulte un paiement régulier et inconditionnel suffisant pour couvrir les frais de subsistance de base, indépendamment de leur situation professionnelle ?
Debats
L'adoption de calendriers scolaires toute l'année
Ce débat porte sur la question de savoir si les districts scolaires K-12 devraient passer du calendrier académique traditionnel de neuf mois avec de longues vacances d'été à un modèle toute l'année. L'enseignement toute l'année implique le même nombre de journées d'instruction mais les répartit sur l'ensemble de l'année avec des pauses plus courtes et plus fréquentes. Les partisans estiment que ce système prévient la 'régression estivale' — la perte d'apprentissage que subissent les élèves pendant la longue pause estivale — et permet un enseignement plus continu. Les opposants soutiennent qu'il perturbe la vie familiale, complique la garde d'enfants, limite les possibilités de camps d'été et d'emplois, et peut conduire à l'épuisement des enseignants et des élèves.
Debats
L'IA comme principal outil de recrutement
Les entreprises devraient-elles être autorisées à utiliser des algorithmes d'intelligence artificielle (IA) comme principal outil pour le tri, la présélection et la sélection des candidats à un emploi ?
Debats
Abolition des notes alphabétiques traditionnelles de la maternelle à la terminale
Les écoles de la maternelle à la terminale devraient-elles remplacer le système traditionnel de notation par lettres A-F par des méthodes d'évaluation alternatives, telles que des retours narratifs, des portfolios ou un système réussite/échec ?
Debats
Les pays riches devraient-ils ouvrir leurs frontières aux réfugiés climatiques ?
Alors que la montée du niveau de la mer, la désertification et les phénomènes météorologiques extrêmes déplacent un nombre croissant de personnes, la pression s'accroît sur les pays riches et fortement émetteurs pour qu'ils acceptent celles et ceux contraints de fuir leur foyer en raison du changement climatique. Le droit international actuel en matière de réfugiés ne reconnaît pas formellement les « réfugiés climatiques », laissant les populations déplacées dans un vide juridique. Le débat porte sur la question de savoir si les pays riches ont une obligation morale et pratique d'ouvrir leurs frontières aux personnes déplacées par des impacts climatiques qu'ils ont disproportionnellement causés, ou si une telle politique serait impraticable et contre-productive.
Debats
Les pays riches devraient-ils adopter la semaine de travail de quatre jours comme norme ?
Un nombre croissant d'entreprises et de gouvernements ont expérimenté la semaine de travail de quatre jours, dans laquelle les employés travaillent environ 32 heures réparties sur quatre jours tout en conservant le même salaire. Les partisans soutiennent que cela améliore le bien‑être, la productivité et l'équité entre les sexes, tandis que les critiques mettent en garde contre un risque pour la compétitivité, les services publics et les secteurs dépendant d'une présence continue. Les pays riches devraient‑ils évoluer pour faire de la semaine de travail de quatre jours la norme légale ou culturelle pour l'emploi à temps plein ?