Claude Opus 4.8
Claude Opus 4.8の総合成績、ジャンル別の強み・弱み、最新の比較結果を確認できます。
モデル概要
リリース
2026-05-28
コンテキスト
1M トークン
入力料金
$5.00 / 1M
出力料金
$25.00 / 1M
Claude Opus 4.8 は Anthropic の現行フラッグシップで、2026年5月28日にリリースされました(Opus 4.7 の約6週間後)。Anthropic は本モデルを、複雑な推論、長時間のエージェント的コーディング、高い自律性が求められるナレッジワークに最も適したモデルと位置付けています。
Opus 4.7 からの最大の進化は、判断の鋭さ、自分の進捗に対する正直さ、そしてより長時間ひとりで作業を続けられる能力です。自分が書いたコードの欠陥を見逃す確率は前世代の約4分の1に下がり、エージェント的ソフトウェアエンジニアリングでは SWE-Bench Pro 69.2% を記録し、GPT-5.5 と Gemini 3.1 Pro を上回りました。
コンテキストは1Mトークン、Messages API の最大出力は128kトークンを維持。価格は Opus 4.7 と同一(入力 $5 / 出力 $25 per 1M tokens)、知識カットオフは2026年1月です。新たに応答にかける労力を制御する `effort` パラメータ(既定 high)と、大規模かつ並列なエージェントタスク向けの Dynamic Workflows(リサーチプレビュー)が追加されました。
変更点
- 2026年5月28日リリース、Claude Opus 4.7 の後継(約6週間後)
- 判断の鋭さ、進捗報告の正直さ、より長時間の自律作業が向上
- 自分のコードの欠陥を見逃す確率が Opus 4.7 比で約4分の1に
- SWE-Bench Pro 69.2% — エージェント的コーディングで GPT-5.5・Gemini 3.1 Pro を上回る
- 学際的推論、エージェント的コンピュータ操作、エージェント的金融分析でも向上
- コンテキスト1Mトークン、Messages API で最大出力128kトークン
- 応答ごとの労力を調整する `effort` パラメータ(既定 high)
- 大規模・並列サブエージェント向け Dynamic Workflows(リサーチプレビュー)、fast mode は2.5倍速
- 価格は Opus 4.7 と同一(入力 $5 / 出力 $25 per 1M tokens)
- Adaptive thinking 対応。Claude API / Amazon Bedrock / Vertex AI / Microsoft Foundry で利用可能
- 知識・学習データのカットオフは2026年1月
総合性能
総合ランキング
1位
全体勝率
平均スコア
勝利数
14
比較件数
14
モデル別の勝率
| モデル | 勝 | 敗 | 分 | 勝率 | 詳細 |
|---|---|---|---|---|---|
| OpenAI GPT-5.5 | 3 | 0 | 0 |
100%
|
Claude Opus 4.8 vs GPT-5.5 の比較・評価を見る |
| Google Gemini 2.5 Flash-Lite | 3 | 0 | 0 |
100%
|
Claude Opus 4.8 vs Gemini 2.5 Flash-Lite の比較・評価を見る |
| OpenAI GPT-5 mini | 2 | 0 | 0 |
100%
|
Claude Opus 4.8 vs GPT-5 mini の比較・評価を見る |
| OpenAI GPT-5.4 | 2 | 0 | 0 |
100%
|
Claude Opus 4.8 vs GPT-5.4 の比較・評価を見る |
| Google Gemini 2.5 Flash | 2 | 0 | 0 |
100%
|
Claude Opus 4.8 vs Gemini 2.5 Flash の比較・評価を見る |
| Google Gemini 2.5 Pro | 2 | 0 | 0 |
100%
|
Claude Opus 4.8 vs Gemini 2.5 Pro の比較・評価を見る |
ジャンル別で詳しく見る
得意ジャンル
お笑い
平均スコア
ジャンル平均
勝率
比較件数
1
ジャンル別ランキング
1 / 12
勝利数
1
ブレインストーミング
平均スコア
ジャンル平均
勝率
比較件数
1
ジャンル別ランキング
2 / 12
勝利数
1
要約
平均スコア
ジャンル平均
勝率
比較件数
1
ジャンル別ランキング
1 / 12
勝利数
1
カウンセリング
平均スコア
ジャンル平均
勝率
比較件数
1
ジャンル別ランキング
1 / 12
勝利数
1
ディスカッション
平均スコア
ジャンル平均
勝率
比較件数
7
ジャンル別ランキング
2 / 12
勝利数
7
苦手ジャンル
評価項目ごとの強み
評価項目ごとの平均スコア(10点満点)
量
指示遵守
原文への忠実さ
安全性
多様性
助けになる度合い
構成
重要点の網羅
倫理性・安全性
共感性
適切さ
有用性
最新のお題
ブレインストーミング
低コストのティーン向け図書館プログラムのアイデア出し
中規模の公共図書館が、10週間の夏期間中に13歳から18歳のティーンの来館(対面参加)を増やしたいと考えています。図書館が現実的に実施できる、30個の異なるプログラムま...
要約
ジェームズ・ウェッブ宇宙望遠鏡の概要を要約する
次のジェームズ・ウェッブ宇宙望遠鏡(JWST)に関する記事を読み、簡潔な要約を書いてください。要約は150~200語の単一の整合した段落であること。望遠鏡の主な目的、鏡と...
カウンセリング
高額な友人旅行を断る
利用者が日常の個人的なアドバイスを求めています:「親しい友人が4日間の誕生日旅行を計画していて、私が無理なく出せる額よりも費用がかかります。がっかりさせたくなく...
お笑い
家族向けユーモア:正直すぎる美術館の音声ガイド
来館者と、異様に正直な音声ガイドとの短いコメディ対話を書いてください。舞台は架空の展覧「歴史を変えた日常品」です。来館者は真面目な文化体験をしようとしている一方...
システム設計
リアルタイム共同ホワイトボードシステムを設計する
あなたは、リアルタイム共同ホワイトボードアプリケーションの高レベルなシステムアーキテクチャを設計する任務を負っています。 **中核要件:** 1. **リアルタイム共同編...
ビジネス文書
製品ローンチ遅延に関する顧客向けメール
B2BのSaaS企業であるプロダクト責任者(Head of Product)として、計画していた機能のローンチ遅延を発表する顧客向けメールを書いてください。受信者は中規模クライアント...
説得
懐疑的な市議会を説得して新しい図書館への資金を承認させる
あなたは市議会の会議で発言する準備をしている地域の擁護者です。あなたの目標は、サービスが行き届いていないNorthwood地区に新しい公共図書館の支所を設けるための資金...
最新のディスカッション
ディスカッション
学校における標準化試験:実力を公正に測る指標か、それとも平等への時代遅れの障壁か?
SAT、ACT、州レベルの各種試験などの標準化試験は長らく教育制度の基盤であり、学生の評価、学校の評価、大学入学のために用いられてきました。支持者は、これらが多様な集団間で学業成績を測る客観的な基準を提供すると主張します。しかし批判者は、これらの試験が文化的に偏っており、恵まれた背景を持つ学生に有利に働き、学生の真の能力や潜在力をとらえきれないと主張し、より総合的な評価方法への移行を求めています。論争は、標準化試験が説明責任と実力主義のための不可欠な手段であるのか、それとも不平等を助長する差別的な制度であるのかに集中しています。
ディスカッション
公共交通機関を全ての利用者に対して無料にするべきか?
多くの都市は渋滞、汚染、交通機関の資金調達、交通アクセスの不平等に直面している。提案の一つは、バス、路面電車、地下鉄などの運賃をすべての人に対して撤廃し、運営費を税金やその他の公的収入で賄うというものだ。都市は公共交通を全利用者に無料にすべきか、それとも運賃は維持して、補助を最も必要とする人々に集中させるべきか?
ディスカッション
教育における標準化テストの役割
標準化テストは、学生の適性、学業成績、および学校のパフォーマンスを測るために広く用いられている。支持者は、それらが説明責任と比較のための客観的な基準を提供すると主張する一方で、批評家は不公平でストレスが大きく、カリキュラムを狭めると主張する。この議論は、標準化テストが教育制度の基盤として存続すべきかどうかを中心に展開している。
ディスカッション
週4日労働制:ワークライフバランスの革命か、それとも運用上の悪夢か?
給与を減らさない標準的な週4日労働制の概念は、従業員の幸福と生産性を改善する方法として世界的に支持を集めつつある。この議論は、このモデルが現代の職場の持続可能で有益な進化であるか、それとも企業と経済にとって解決よりも多くの問題を生む非現実的な理想に過ぎないかを問うものである。
ディスカッション
都市は路上駐車の大部分を保護された自転車レーンや広い歩道に置き換えるべきか?
多くの都市では縁石沿いのスペースが限られており、現在は私的な自動車の駐車に使われている。地方自治体は主要幹線の路上駐車の大部分を撤去し、そのスペースを保護された自転車レーン、広い歩道、街路樹、公共の座席などに再設計すべきか?
ディスカッション
都市は中心部で私用車を禁止すべきか?
多くの都市が混雑、汚染、交通死亡を減らすために、密集した中心部地区で私用車を制限または禁止することを検討している。市政府は自動車のない中心市街地へと移行するべきか、それとも広範な私用車のアクセスを維持すべきか?
ディスカッション
ユニバーサル・ベーシックインカム:繁栄への道か、それとも経済破滅か?
政府は、就労状況にかかわらず、すべての成人市民に基本的な生活費を賄える定期的かつ無条件の支払いを提供するユニバーサル・ベーシックインカム(UBI)を実施すべきか?