GPT-5.5
Entdecke Benchmark-Scores, Genre-Stärken, Schwächen und aktuelle Beispiele für GPT-5.5.
Modellubersicht
Veroffentlicht
2026-04-23
Kontext
1M Tokens
Input
$5.00 / 1M
Output
$30.00 / 1M
OpenAIs jüngstes Flaggschiff, veröffentlicht am 23. April 2026. GPT-5.5 ist auf agentische Arbeit zugeschnitten: langlaufendes Coding, Computer-Nutzung, Web-Recherche und Tool-übergreifende Task-Ausführung stehen im Fokus.
Gegenüber GPT-5.4 sind die Verbesserungen in Software-Engineering (SWE-Bench Pro 58.6% end-to-end in einem Durchgang, Expert-SWE 73.1% bei ~20-Stunden-Tasks) und in der Bedienung realer Software (Terminal-Bench 2.0 82.7%, OSWorld-Verified 78.7%) sichtbar. Tau2-bench Telecom erreicht 98.0% ohne Prompt-Tuning.
Das Modell bringt 1M-Token-Kontext in den Responses- und Chat-Completions-APIs mit, 128k maximale Ausgabe, und eine Preisgestaltung, die den Output-Tarif von 5.4 verdoppelt ($5 Input / $30 Output pro 1M Tokens). Eine höher genaue `gpt-5.5-pro`-Variante existiert separat zu Premium-Preisen; Orivel nutzt nur das Standard-`gpt-5.5`.
Anderungen
- Veröffentlicht am 23. April 2026 als Nachfolger von GPT-5.4
- Fokus: agentisches Coding und langlaufende Task-Ausführung
- SWE-Bench Pro 58.6% — mehr Tasks end-to-end in einem Durchgang gelöst
- Expert-SWE 73.1% bei Aufgaben mit ~20 Stunden menschlicher Bearbeitungszeit
- Terminal-Bench 2.0 82.7%, OSWorld-Verified 78.7%, Tau2-bench Telecom 98.0%, GDPval 84.9%
- 1M-Token-Kontext in der API (400K in Codex); 128k maximale Ausgabe
- Preis: $5 Input / $30 Output pro 1M Tokens — ca. 2× der Output-Tarif von GPT-5.4
- Batch/Flex zu 50% des Standards; Priority zu 2,5× des Standards
- Wissensstand unverändert gegenüber GPT-5.4
Gesamtleistung
Gesamtrang
#6
Gesamtsiegquote
Durchschnittsscore
Siege
26
Anzahl Beispiele
41
Siegesquote je Modell
Nach Genre vergleichen
Starke Genres
Planung
Durchschnittsscore
Genre Average
Siegesquote
Anzahl Beispiele
1
Genre-Rang
1 / 11
Siege
1
Programmierung
Durchschnittsscore
Genre Average
Siegesquote
Anzahl Beispiele
1
Genre-Rang
2 / 11
Siege
1
Kreatives Schreiben
Durchschnittsscore
Genre Average
Siegesquote
Anzahl Beispiele
1
Genre-Rang
3 / 11
Siege
1
Brainstorming
Durchschnittsscore
Genre Average
Siegesquote
Anzahl Beispiele
1
Genre-Rang
1 / 12
Siege
1
Systemdesign
Durchschnittsscore
Genre Average
Siegesquote
Anzahl Beispiele
1
Genre-Rang
3 / 12
Siege
1
Schwachere Genres
Geschäftstexte
Durchschnittsscore
Genre Average
Siegesquote
Anzahl Beispiele
1
Genre-Rang
11 / 12
Siege
0
Rollenspiel
Durchschnittsscore
Genre Average
Siegesquote
Anzahl Beispiele
2
Genre-Rang
9 / 11
Siege
0
Erklärung
Durchschnittsscore
Genre Average
Siegesquote
Anzahl Beispiele
1
Genre-Rang
10 / 11
Siege
0
Überzeugung
Durchschnittsscore
Genre Average
Siegesquote
Anzahl Beispiele
1
Genre-Rang
10 / 12
Siege
0
Zusammenfassung
Durchschnittsscore
Genre Average
Siegesquote
Anzahl Beispiele
1
Genre-Rang
4 / 13
Siege
1
Starken nach Bewertungskriterium
Durchschnittsscore je Kriterium (von 10)
Menge
Sicherheit
Tiefe
Architekturqualitat
Skalierbarkeit und Zuverlassigkeit
Stilqualitat
Priorisierung
Empathie
Korrektheit
Vollstandigkeit
Befolgung der Anweisungen
Qualitat der Begrundung
Neueste Aufgaben
Rollenspiel
Kundendienst-Rollenspiel: Der frustrierte Gamer
Du bist ein Kundendienstmitarbeiter für Nexus Games mit dem Namen Alex. Deine Persona ist ruhig, einfühlsam und sachkundig. Du musst die Firmenrichtlinien einha...
Beratung
Einen Freund unterstützen, der ständig Pläne absagt
Eine enge Person aus meinem Freundeskreis hat in den letzten zwei Monaten unsere Verabredungen dreimal abgesagt, meist in letzter Minute, mit der Begründung, "z...
Überzeugung
Überzeugender Brief für einen Gemeinschaftsgarten
Schreiben Sie einen überzeugenden Brief an Ihren örtlichen Stadtrat. Ihr Ziel ist es, ihn davon zu überzeugen, einen Vorschlag zu genehmigen, das unbebaute, zug...
Kreatives Schreiben
Der letzte Brief des Leuchtturmwärters
Schreibe eine Kurzgeschichte (zwischen 600 und 900 Wörtern) mit dem Titel „Der letzte Brief des Leuchtturmwärters“. Einschränkungen und Anforderungen: - Die G...
Analyse
Auswahl einer Datenbank für ein wachsendes SaaS-Startup
Sie beraten den CTO eines zweijährigen B2B-SaaS-Startups, das Projektmanagement-Software für mittelgroße Unternehmen anbietet. Die aktuelle Architektur verwende...
Geschäftstexte
Entwurf einer internen Ankündigung für ein neues Mentoring‑Programm
Sie sind Leiter:in der People Operations in einem mittelgroßen Technologieunternehmen. Ihr Unternehmen startet ein neues internes Mentoring‑Programm, um das Wac...
Erklärung
GPS-Technologie einem Teenager erklären
Erkläre einem neugierigen Schüler der Oberstufe, wie das Globales Positionsbestimmungssystem (GPS) funktioniert. Dein Schüler hat ein grundlegendes Verständnis...
Programmierung
Ratenbegrenzer mit gleitendem Fenster und Burst-Zulassung
Entwerfen und implementieren Sie einen threadsicheren Ratenbegrenzer in einer Sprache Ihrer Wahl (Python, Go, Java, TypeScript oder Rust), der die folgenden Anf...
Neueste Debatten
Debatten
Standardisierte Tests in Schulen: Ein faires Maß für Leistung oder ein veraltetes Hinderni...
Standardisierte Tests, wie der SAT, ACT und verschiedene landesweite Prüfungen, sind seit langem ein Grundpfeiler des Bildungssystems und werden zur Beurteilung von Schülerinnen und Schülern, zur Evaluation von Schulen und für die Zulassung zu Hochschulen verwendet. Befürworter argumentieren, dass sie einen objektiven Maßstab zur Messung akademischer Leistungen über unterschiedliche Bevölkerungsgruppen hinweg bieten. Kritiker hingegen behaupten, dass diese Tests kulturell voreingenommen sind, Studierende aus privilegierten Verhältnissen begünstigen und die wahren Fähigkeiten oder das Potenzial eines Schülers nicht erfassen, was Forderungen nach ihrer Abschaffung zugunsten ganzheitlicherer Bewertungsmethoden ausgelöst hat. Die Debatte dreht sich darum, ob standardisierte Tests ein unverzichtbares Instrument für Rechenschaftspflicht und Meritokratie sind oder ein diskriminierendes System, das Ungleichheit fortschreibt.
Debatten
Die Vier-Tage-Arbeitswoche: Eine Revolution für die Work-Life-Balance oder ein logistische...
Das Konzept einer standardmäßigen Vier-Tage-Arbeitswoche, ohne Gehaltskürzung, gewinnt weltweit an Bedeutung als Mittel zur Verbesserung des Wohlbefindens der Mitarbeitenden und der Produktivität. Die Debatte fragt, ob dieses Modell eine nachhaltige und vorteilhafte Weiterentwicklung des modernen Arbeitsplatzes ist oder ein unpraktischer Idealismus, der für Unternehmen und die Wirtschaft mehr Probleme schafft, als er löst.
Debatten
Universelles Grundeinkommen: Ein Weg zum Wohlstand oder zum wirtschaftlichen Ruin?
Sollten Regierungen ein Universelles Grundeinkommen (UBI) einführen, das jedem erwachsenen Bürger eine regelmäßige, bedingungslose Zahlung gewährt, die ausreicht, um die grundlegenden Lebenshaltungskosten zu decken, unabhängig von seinem Beschäftigungsstatus?
Debatten
Die Einführung ganzjähriger Schulkalender
Diese Debatte betrifft, ob K-12-Schulbezirke vom traditionellen neunmonatigen Schuljahr mit einer langen Sommerferienzeit auf ein ganzjähriges Modell umstellen sollten. Ganzjähriger Schulbetrieb beinhaltet die gleiche Anzahl an Unterrichtstagen, verteilt über das gesamte Jahr mit kürzeren, dafür häufigeren Pausen. Befürworter glauben, dass dieses System das 'summer slide' — den Lernverlust, den Schüler während der langen Sommerferien erleben — verhindert und eine kontinuierlichere Unterrichtsfolge ermöglicht. Gegner argumentieren, dass es das Familienleben stört, die Kinderbetreuung komplizierter macht, die Möglichkeiten für Sommerfreizeiten und -jobs einschränkt und zu Burnout bei Lehrkräften und Schülern führen kann.
Debatten
KI als primäres Einstellungsinstrument
Sollten Unternehmen erlaubt sein, Algorithmen der künstlichen Intelligenz (KI) als primäres Instrument zur Vorauswahl, Shortlist-Erstellung und Auswahl von Bewerberinnen und Bewerbern für eine Anstellung zu verwenden?
Debatten
Abschaffung traditioneller Buchstabennoten im K-12-Bildungswesen
Sollten K-12-Schulen das traditionelle Buchstabennotensystem von A–F durch alternative Bewertungsmethoden wie narrative Rückmeldungen, Portfolios oder ein Bestehen/Nichtbestehen-System ersetzen?
Debatten
Sollten wohlhabende Staaten ihre Grenzen für Klimaflüchtlinge öffnen?
Da steigende Meeresspiegel, Desertifikation und extreme Wetterereignisse immer mehr Menschen vertreiben, wächst der Druck auf wohlhabende, stark emittierende Staaten, diejenigen aufzunehmen, die gezwungen sind, ihre Heimat aufgrund des Klimawandels zu verlassen. Das derzeitige internationale Flüchtlingsrecht erkennt „Klimaflüchtlinge“ nicht formell an, wodurch vertriebene Bevölkerungsgruppen rechtlich in der Schwebe bleiben. Die Debatte dreht sich darum, ob reiche Länder eine moralische und praktische Verpflichtung haben, ihre Grenzen für Menschen zu öffnen, die durch Klimafolgen vertrieben wurden, die sie unverhältnismäßig mitverursacht haben, oder ob eine solche Politik unrentabel und kontraproduktiv wäre.
Debatten
Sollten wohlhabende Länder die Vier-Tage-Woche zum Standard machen?
Eine wachsende Zahl von Unternehmen und Regierungen hat Pilotprojekte zur Vier-Tage-Woche durchgeführt, bei denen Beschäftigte etwa 32 Stunden auf vier Tage verteilt arbeiten, während das Gehalt gleich bleibt. Befürworter argumentieren, dass dies Wohlbefinden, Produktivität und Geschlechtergerechtigkeit verbessert, während Kritiker warnen, es könnte die Wettbewerbsfähigkeit, öffentliche Dienstleistungen und Branchen, die auf kontinuierliche Besetzung angewiesen sind, schädigen. Sollten wohlhabende Länder darauf hinarbeiten, die Vier-Tage-Woche zum gesetzlichen oder kulturellen Standard für Vollzeitarbeit zu machen?