GPT-5.5
GPT-5.5の総合成績、ジャンル別の強み・弱み、最新の比較結果を確認できます。
モデル概要
リリース
2026-04-23
コンテキスト
1M トークン
入力料金
$5.00 / 1M
出力料金
$30.00 / 1M
OpenAI の最新フラッグシップ。2026年4月23日リリース。GPT-5.5 はエージェント的な仕事——長時間のコーディング、コンピュータ操作、Web 調査、ツールを跨ぐタスク実行——に重点を置いてチューニングされています。
GPT-5.4 との差分として目立つのはソフトウェアエンジニアリング (SWE-Bench Pro 58.6%、Expert-SWE の20時間相当タスクで 73.1%) と実ソフトウェア操作 (Terminal-Bench 2.0 82.7%、OSWorld-Verified 78.7%) の向上です。Tau2-bench Telecom はプロンプトチューニングなしで 98.0% に到達します。
Responses / Chat Completions API で1Mトークンのコンテキスト、最大出力128kトークンに対応。価格は入力 $5 / 出力 $30 per 1M tokens で、5.4 の出力料金の約2倍です。より高精度な `gpt-5.5-pro` バリアントもありますが、Orivel では標準の `gpt-5.5` のみを採用しています。
変更点
- 2026年4月23日リリース、GPT-5.4 の後継
- 注力領域:エージェント的コーディングと長時間タスク実行
- SWE-Bench Pro 58.6% — end-to-end のワンパスで解けるタスクが増加
- Expert-SWE 73.1%(人が約20時間かかる課題)
- Terminal-Bench 2.0 82.7% / OSWorld-Verified 78.7% / Tau2-bench Telecom 98.0% / GDPval 84.9%
- API で1Mトークンのコンテキスト(Codex は400K)、最大出力128kトークン
- 価格:入力 $5 / 出力 $30 per 1M tokens(GPT-5.4 の出力料金の約2倍)
- Batch/Flex は標準の50%、Priority は標準の2.5倍
- 知識カットオフは GPT-5.4 と同じ
総合性能
総合ランキング
6位
全体勝率
平均スコア
勝利数
26
比較件数
41
モデル別の勝率
ジャンル別で詳しく見る
得意ジャンル
計画立案
平均スコア
ジャンル平均
勝率
比較件数
1
ジャンル別ランキング
1 / 11
勝利数
1
プログラミング
平均スコア
ジャンル平均
勝率
比較件数
1
ジャンル別ランキング
2 / 11
勝利数
1
小説・創作
平均スコア
ジャンル平均
勝率
比較件数
1
ジャンル別ランキング
3 / 11
勝利数
1
ブレインストーミング
平均スコア
ジャンル平均
勝率
比較件数
1
ジャンル別ランキング
1 / 12
勝利数
1
システム設計
平均スコア
ジャンル平均
勝率
比較件数
1
ジャンル別ランキング
3 / 12
勝利数
1
苦手ジャンル
ビジネス文書
平均スコア
ジャンル平均
勝率
比較件数
1
ジャンル別ランキング
11 / 12
勝利数
0
ロールプレイ
平均スコア
ジャンル平均
勝率
比較件数
2
ジャンル別ランキング
9 / 11
勝利数
0
解説
平均スコア
ジャンル平均
勝率
比較件数
1
ジャンル別ランキング
10 / 11
勝利数
0
説得
平均スコア
ジャンル平均
勝率
比較件数
1
ジャンル別ランキング
10 / 12
勝利数
0
要約
平均スコア
ジャンル平均
勝率
比較件数
1
ジャンル別ランキング
4 / 13
勝利数
1
評価項目ごとの強み
評価項目ごとの平均スコア(10点満点)
量
安全性
深さ
設計の質
拡張性・信頼性
文体の質
優先順位づけ
共感性
正確さ
完全性
指示遵守
推論の質
最新のお題
ロールプレイ
カスタマーサービスのロールプレイ:不満を抱えたゲーマー
あなたはNexus Gamesのカスタマーサービス担当者で、名前はAlexです。あなたのペルソナは、落ち着いていて、共感的で、知識が豊富です。会社のポリシーを順守しなければな...
カウンセリング
予定を繰り返しキャンセルする友人を支える
親しい友人がここ2か月で3回も私との予定をキャンセルしました。たいていは直前で、「疲れすぎている」や「仕事に追われている」といった理由を挙げます。私は傷つき、少し...
説得
コミュニティガーデン設置を求める説得の手紙
地元の市議会宛てに説得力のある手紙を書いてください。あなたの目的は、Elm Street と Oak Avenue の角にある空き地(草が繁茂している場所)をコミュニティガーデンに転...
小説・創作
灯台守の最後の手紙
タイトルを「灯台守の最後の手紙」とした短編(600~900語)を書いてください。 制約と要件: - 物語は、灯台が自動化され廃止される前夜に年老いた灯台守が書いた一通の...
分析
成長するSaaSスタートアップのためのデータベース選定
あなたは、中堅企業向けにプロジェクト管理ソフトを提供する創業2年目のB2B SaaSスタートアップのCTOに助言を行っています。現在の構成は単一のPostgreSQLインスタンスで、...
ビジネス文書
新しいメンターシッププログラムの社内告知文の作成
あなたは中規模のテック企業でPeople Operations(人事・組織運営)責任者です。御社は従業員の成長と協働を促進するため、新しい社内メンターシッププログラムを開始しま...
解説
十代の高校生にGPS技術を説明する
好奇心のある高校生に、グローバル・ポジショニング・システム(GPS)がどのように動作するかを説明してください。あなたの生徒は物理の基本的な理解(例:速度=距離/時...
プログラミング
スライディングウィンドウとバースト許容を備えたレートリミッタ
スライディングウィンドウ会計とバースト許容をサポートする、スレッドセーフなレートリミッタを選択した言語(Python, Go, Java, TypeScript, または Rust)のいずれかで...
最新のディスカッション
ディスカッション
学校における標準化試験:実力を公正に測る指標か、それとも平等への時代遅れの障壁か?
SAT、ACT、州レベルの各種試験などの標準化試験は長らく教育制度の基盤であり、学生の評価、学校の評価、大学入学のために用いられてきました。支持者は、これらが多様な集団間で学業成績を測る客観的な基準を提供すると主張します。しかし批判者は、これらの試験が文化的に偏っており、恵まれた背景を持つ学生に有利に働き、学生の真の能力や潜在力をとらえきれないと主張し、より総合的な評価方法への移行を求めています。論争は、標準化試験が説明責任と実力主義のための不可欠な手段であるのか、それとも不平等を助長する差別的な制度であるのかに集中しています。
ディスカッション
週4日労働制:ワークライフバランスの革命か、それとも運用上の悪夢か?
給与を減らさない標準的な週4日労働制の概念は、従業員の幸福と生産性を改善する方法として世界的に支持を集めつつある。この議論は、このモデルが現代の職場の持続可能で有益な進化であるか、それとも企業と経済にとって解決よりも多くの問題を生む非現実的な理想に過ぎないかを問うものである。
ディスカッション
ユニバーサル・ベーシックインカム:繁栄への道か、それとも経済破滅か?
政府は、就労状況にかかわらず、すべての成人市民に基本的な生活費を賄える定期的かつ無条件の支払いを提供するユニバーサル・ベーシックインカム(UBI)を実施すべきか?
ディスカッション
通年制の学年カレンダーの導入
この討論は、小中高に相当するK-12学区が、長い夏休みを伴う従来の9か月制の学年カレンダーから通年制モデルへ移行すべきかどうかに関するものです。通年制教育は、授業日数は同じであるものの、より短く頻繁な休暇を年間を通じて分散させるものです。支持者は、この制度が「サマースライド」—長い夏休みの間に生徒が経験する学力低下—を防ぎ、より継続的な指導を可能にすると主張します。反対者は、家族生活を乱し、育児を複雑にし、サマーキャンプや夏の仕事の機会を制限し、教員や生徒の燃え尽き(バーンアウト)を招く可能性があると主張します。
ディスカッション
採用の主要ツールとしてのAI
企業は候補者のスクリーニング、ショートリスト化、および採用選考の主要な手段として人工知能(AI)アルゴリズムを使用することを許可されるべきか?
ディスカッション
K-12教育における従来のアルファベット成績(A〜F)の廃止
K-12の学校は、従来のA〜Fのアルファベット評価制度を、ナラティブ(記述)フィードバック、ポートフォリオ、合格/不合格制度などの代替評価方法に置き換えるべきか?
ディスカッション
富裕国は気候難民に国境を開くべきか?
海面上昇、砂漠化、極端な気象現象によりますます多くの人々が住まいを追われる中、温室効果ガスを多く排出する富裕国には、気候変動のために自宅を離れざるを得なくなった人々を受け入れるよう求める圧力が高まっている。現在の国際難民法は「気候難民」を正式には認めておらず、追われた人々は法的に宙に浮いた状態に置かれている。議論は、豊かな国々が自らが不釣り合いに引き起こした気候影響で住まいを失った人々に国境を開く道徳的かつ実践的な義務を負うのか、それともそのような政策は実行不可能で逆効果になるのか、という点にある。
ディスカッション
裕福な国は週4日労働制を標準として採用すべきか?
企業や政府の間で、従業員が同じ給与を維持したまま4日間でおおよそ32時間働く週4日労働制の試行が増えています。支持者はそれが福祉、生産性、性別の公平性を改善すると主張する一方で、批判者は競争力や公共サービス、継続的な人員配置を必要とする産業に悪影響を及ぼすと警告しています。裕福な国は週4日労働制をフルタイム雇用の法的または文化的な標準に移行すべきでしょうか?