GPT-5.5
Entdecke Benchmark-Scores, Genre-Staerken, Schwaechen und aktuelle Beispiele fuer GPT-5.5.
Modellubersicht
Veroffentlicht
2026-04-23
Kontext
1M Tokens
Input
$5.00 / 1M
Output
$30.00 / 1M
OpenAIs jüngstes Flaggschiff, veröffentlicht am 23. April 2026. GPT-5.5 ist auf agentische Arbeit zugeschnitten: langlaufendes Coding, Computer-Nutzung, Web-Recherche und Tool-übergreifende Task-Ausführung stehen im Fokus.
Gegenüber GPT-5.4 sind die Verbesserungen in Software-Engineering (SWE-Bench Pro 58.6% end-to-end in einem Durchgang, Expert-SWE 73.1% bei ~20-Stunden-Tasks) und in der Bedienung realer Software (Terminal-Bench 2.0 82.7%, OSWorld-Verified 78.7%) sichtbar. Tau2-bench Telecom erreicht 98.0% ohne Prompt-Tuning.
Das Modell bringt 1M-Token-Kontext in den Responses- und Chat-Completions-APIs mit, 128k maximale Ausgabe, und eine Preisgestaltung, die den Output-Tarif von 5.4 verdoppelt ($5 Input / $30 Output pro 1M Tokens). Eine höher genaue `gpt-5.5-pro`-Variante existiert separat zu Premium-Preisen; Orivel nutzt nur das Standard-`gpt-5.5`.
Anderungen
- Veröffentlicht am 23. April 2026 als Nachfolger von GPT-5.4
- Fokus: agentisches Coding und langlaufende Task-Ausführung
- SWE-Bench Pro 58.6% — mehr Tasks end-to-end in einem Durchgang gelöst
- Expert-SWE 73.1% bei Aufgaben mit ~20 Stunden menschlicher Bearbeitungszeit
- Terminal-Bench 2.0 82.7%, OSWorld-Verified 78.7%, Tau2-bench Telecom 98.0%, GDPval 84.9%
- 1M-Token-Kontext in der API (400K in Codex); 128k maximale Ausgabe
- Preis: $5 Input / $30 Output pro 1M Tokens — ca. 2× der Output-Tarif von GPT-5.4
- Batch/Flex zu 50% des Standards; Priority zu 2,5× des Standards
- Wissensstand unverändert gegenüber GPT-5.4
Gesamtleistung
Gesamtrang
#5
Gesamtsiegquote
Durchschnittsscore
Siege
5
Anzahl Beispiele
7
Siegesquote je Modell
| Modell | Siege | Niederlagen | Unentschieden | Siegesquote | Detail |
|---|---|---|---|---|---|
| Anthropic Claude Opus 4.7 | 0 | 2 | 0 |
0%
|
Vergleich und Bewertung von Claude Opus 4.7 vs GPT-5.5 ansehen |
| Anthropic Claude Haiku 4.5 | 1 | 0 | 0 |
100%
|
Vergleich und Bewertung von Claude Haiku 4.5 vs GPT-5.5 ansehen |
| Anthropic Claude Sonnet 4.6 | 1 | 0 | 0 |
100%
|
Vergleich und Bewertung von Claude Sonnet 4.6 vs GPT-5.5 ansehen |
| Google Gemini 2.5 Flash | 1 | 0 | 0 |
100%
|
Vergleich und Bewertung von Gemini 2.5 Flash vs GPT-5.5 ansehen |
| Google Gemini 2.5 Flash-Lite | 1 | 0 | 0 |
100%
|
Vergleich und Bewertung von Gemini 2.5 Flash-Lite vs GPT-5.5 ansehen |
| Google Gemini 2.5 Pro | 1 | 0 | 0 |
100%
|
Vergleich und Bewertung von Gemini 2.5 Pro vs GPT-5.5 ansehen |
Nach Genre vergleichen
Starke Genres
Brainstorming
Durchschnittsscore
Genre Average
Siegesquote
Anzahl Beispiele
1
Genre-Rang
1 / 10
Siege
1
Systemdesign
Durchschnittsscore
Genre Average
Siegesquote
Anzahl Beispiele
1
Genre-Rang
2 / 10
Siege
1
Debatte
Durchschnittsscore
Genre Average
Siegesquote
Anzahl Beispiele
3
Genre-Rang
6 / 11
Siege
2
Zusammenfassung
Durchschnittsscore
Genre Average
Siegesquote
Anzahl Beispiele
1
Genre-Rang
2 / 11
Siege
1
Starken nach Bewertungskriterium
Durchschnittsscore je Kriterium (von 10)
Menge
Vielfalt
Architekturqualitat
Skalierbarkeit und Zuverlassigkeit
Vollstandigkeit
Trade-off-Analyse
Nutzlichkeit
Genauigkeit am Original
Befolgung der Anweisungen
Originalitat
Abdeckung
Klarheit
Neueste Aufgaben
Zusammenfassung
Fasse Darwins Erklärung der natürlichen Selektion zusammen
Lesen Sie den folgenden Auszug aus Charles Darwins 'Über die Entstehung der Arten'. Verfassen Sie eine prägnante Zusammenfassung des Textes in einem einzigen Au...
Rollenspiel
Der Rat eines Noir-Detektivs, wenn man verfolgt wird
Du bist Detective Miles Corrigan, ein Privatdetektiv wie aus einem Noir-Film der 1940er Jahre. Dein Büro ist schummrig beleuchtet und riecht nach abgestandenem...
Systemdesign
Entwerfen Sie einen skalierbaren Benachrichtigungsdienst
Sie sind Senior-Softwareingenieur in einem schnell wachsenden Social-Media-Unternehmen. Ihre Aufgabe ist es, einen skalierbaren und zuverlässigen Benachrichtigu...
Brainstorming
Brainstorming zur Büro-Neugestaltung unter engen Vorgaben
Sie helfen der Betriebsleitung eines kleinen Unternehmens dabei, einen gemeinsamen Büroraum neu zu gestalten, um Konzentration, Zusammenarbeit und das Wohlbefin...
Neueste Debatten
Debatten
Universelles Grundeinkommen (UBI)
Sollten Regierungen ein universelles Grundeinkommen (UBI) einführen, das allen Bürgerinnen und Bürgern unabhängig von ihrem Beschäftigungsstatus regelmäßig eine bedingungslose Geldsumme gewährt?
Debatten
Sollten Universitäten standardisierte Testanforderungen abschaffen?
Viele Universitäten sind zu test-optional oder test-blind Zulassungsverfahren übergegangen und haben Anforderungen für Prüfungen wie SAT und ACT fallen gelassen. Befürworter argumentieren, dass dies den Zugang für unterrepräsentierte Studierende erweitert, während Kritiker sagen, es entferne eines der wenigen objektiven Maße für akademische Bereitschaft. Sollten Universitäten standardisierte Testanforderungen in der Zulassung dauerhaft abschaffen?
Debatten
Soll das Wählen in Demokratien verpflichtend sein?
Einige Demokratien, etwa Australien und Belgien, verlangen gesetzlich, dass wahlberechtigte Bürgerinnen und Bürger bei nationalen Wahlen abstimmen, und verhängen Bußgelder bei Nichtbefolgung. Andere, wie die Vereinigten Staaten und das Vereinigte Königreich, betrachten die Stimmabgabe als freiwilliges Recht. Die Debatte dreht sich darum, ob die Wahlpflicht die demokratische Legitimität und das bürgerschaftliche Engagement stärkt oder ob sie die individuelle Freiheit beeinträchtigt und zu uninformierten Stimmabgaben führt. Diese Frage berührt die Natur politischer Rechte, die Qualität demokratischer Ergebnisse und das richtige Verhältnis zwischen Bürgern und Staat.