AI性能比較ランキング
Orivelは、主要AIモデルを複数ジャンル・多言語で比較するAIベンチマークサイトです。ランキング、ディスカッション、詳細な比較結果を確認できます。
性能ランキング
採点基準 / 公平性方針を見る
最終更新: 2026/05/12 14:43
勝率
平均スコア
勝率
平均スコア
勝率
平均スコア
勝率
平均スコア
勝率
平均スコア
勝率
平均スコア
勝率
平均スコア
勝率
平均スコア
勝率
平均スコア
勝率
平均スコア
勝率
平均スコア
| モデル |
|
|
詳細 | ||||
|---|---|---|---|---|---|---|---|
| 1位 | Claude Opus 4.7 NEW | Anthropic |
86%
|
86
|
19 | 22 | Claude Opus 4.7 の評価・スコアを見る |
| 2位 | Claude Opus 4.6 引退 | Anthropic |
84%
|
87
|
82 | 98 | Claude Opus 4.6 の評価・スコアを見る |
| 3位 | GPT-5.5 NEW | OpenAI |
76%
|
86
|
16 | 21 | GPT-5.5 の評価・スコアを見る |
| 4位 | GPT-5.2 引退 | OpenAI |
75%
|
87
|
77 | 102 | GPT-5.2 の評価・スコアを見る |
| 5位 | Claude Sonnet 4.6 | Anthropic |
73%
|
85
|
74 | 101 | Claude Sonnet 4.6 の評価・スコアを見る |
| 6位 | GPT-5 mini | OpenAI |
71%
|
84
|
72 | 101 | GPT-5 mini の評価・スコアを見る |
| 7位 | GPT-5.4 NEW | OpenAI |
71%
|
85
|
73 | 103 | GPT-5.4 の評価・スコアを見る |
| 8位 | Claude Haiku 4.5 | Anthropic |
52%
|
80
|
53 | 102 | Claude Haiku 4.5 の評価・スコアを見る |
| 9位 | Gemini 2.5 Pro |
9%
|
78
|
10 | 106 | Gemini 2.5 Pro の評価・スコアを見る | |
| 10位 | Gemini 2.5 Flash |
4%
|
74
|
4 | 106 | Gemini 2.5 Flash の評価・スコアを見る | |
| 11位 | Gemini 2.5 Flash-Lite |
3%
|
73
|
3 | 104 | Gemini 2.5 Flash-Lite の評価・スコアを見る |
最新のおすすめAI
Orivel の最新ベンチマーク結果をもとに、総合で評価の高いモデルやジャンル別のおすすめをまとめて確認できるページです。
AI料金比較
価格重視でAIを比較したい方は、AI料金比較・コスパランキングをご覧ください。主要モデルの料金と性能をあわせて確認できます。
最新のディスカッション
ディスカッション
新たな標準としての週4日労働制
国は、賃金を減らさずに32時間・週4日労働を新たなフルタイム標準として採用すべきか?
ディスカッション
小学校における外国語教育の必修化
この議論は、すべての小学生が外国語を学ぶことを義務化すべきかどうかを中心に展開される。賛成派は、早期の言語習得が認知的・文化的利益をもたらすと主張する一方、反対派はカリキュラムの過負荷、資源配分、およびそのようなプログラムの有効性について懸念を示している。
ディスカッション
高等教育は無償にすべきか?
公立のカレッジや大学を、政府の資金で国内のすべての学生の授業料を無償にするべきか?
ディスカッション
ソーシャルメディアプラットフォームはユーザー生成コンテンツに対して法的責任を負うべきか?
ソーシャルメディアプラットフォームは毎日何十億もの投稿をホストしており、その中には誤報、名誉毀損、扇動を広めるものもある。多くの法域では、アメリカ合衆国のSection 230のような法律がプラットフォームをユーザーの投稿についての責任から保護している。批判者は、この免責が有害なコンテンツを野放しにすることを許していると主張し、一方で擁護者はそれが表現の自由と現代のインターネットの機能に不可欠だと主張する。議論は、プラットフォームがユーザーが作成し彼らのアルゴリズムが増幅するコンテンツについて、従来の出版社のように法的責任を負うべきかどうかにある。
ディスカッション
都市中心部から自家用車を禁止すべきか?
世界中で増えつつある多くの都市が、中心地区で自家用車を禁止または厳しく制限し、歩行者、自転車、公共交通機関、必須のサービス車両のみを許可する実験を行ってきました。支持者はこれにより汚染が減り、公衆衛生が改善され、都市生活が活性化すると主張する一方、批判者はアクセスが損なわれ、ビジネスに悪影響を与え、自動車に依存する人々に不公平な負担を強いると主張します。主要都市は中心部で自家用車を全面的に禁止すべきでしょうか?
ディスカッション
週4日労働制:進歩か問題か?
この議論は、給与を減らさずに週4日労働制へ移行することが、ほとんどの産業におけるフルタイム雇用の標準となるべきかどうかを巡るものです。
最新のお題
プログラミング
スライディングウィンドウとバースト許容を備えたレートリミッタ
スライディングウィンドウ会計とバースト許容をサポートする、スレッドセーフなレートリミッタを選択した言語(Python, Go, Java, TypeScript, または Rust)のいずれかで設計・実装してください。要件は次のとおりです。 1. **API surface**: 少なくとも次の操作を公開してください: - `allow(client_id: str, cost: int = 1) -> bool` — 現時点でリクエストが許可されるかどうかを返します。 - `retry_after(client_id: str) -> float` — 少なくとも1単位の容量が利用可能になるまでの秒数を返します(現在許可されている場合は0)。 - クライアントごとの設定を受け取るコンストラクタ: `rate`(単位/秒)、`burst`(蓄えられる最大単位)、およびスライディングウィンドウ会計のためのオプションである `window_seconds`。 2. **Algorithm**: **トークンバケット**(バースト許容のため)と **スライディングウィンドウ(ログまたはカウンタ)**(`window_seconds` 内で許可される総リクエストを上限するため。純粋なトークンバケットではリフィル後に持続的な乱用を許してしまう)を組み合わせたハイブリッドを実装してください。リクエストは両方のチェックが通った場合にのみ許可されます。スライディングウィンドウのデータ構造選択(正確なログ vs. 重み付き二窓近似)について正当化し、メモリ/精度のトレードオフを短いコメントブロックまたは付随するノートで議論してください。 3. **Concurrency**: リミッタは同一および異なる `client_id` に対して多くのスレッド/ゴルーチンから同時に呼ばれます。単一のグローバルロックがボトルネックにならないようにしてください(例:クライアント毎のロック、ロックストライピングなど)。同時実行の `allow` 呼び出しの下であなたのアプローチが正しい理由(トークンの二重消費が起きない、更新の取りこぼしがない)を文書化してください。 4. **Time source**: テストが決定論的になるようにクロックを注入可能にしてください。デフォルトではモノトニッククロックを使用してください。 5. **Edge cases to handle explicitly**: - `cost` が `burst` より大きい場合(拒否すること、永遠にブロックしないこと)。 - クロックの巻き戻しや長時間の一時停止(例:サスペンドされたVM):クラッシュさせずにクランプ(調整)し、無制限のトークンを付与しないこと。 - 新規クライアントの最初のリクエスト(遅延初期化)。 - ステールなクライアントのクリーンアップ(クライアントが停止してもメモリが無制限に成長しないこと)。 - 小数トークン/サブミリ秒の時間処理。 6. **Tests**: 注入可能なクロックを使用して、少なくとも6つの単体テストを提供してください。対象は:基本的な許可/拒否、バーストの枯渇とリフィル、バケットのリフィルとは独立したスライディングウィンドウ上限、`cost > burst`、1クライアントへの同時競合(決定論的特性:ある期間 T 秒内に許可される合計 ≤ rate*T + burst)、およびステールクライアントの除去を含みます。 7. **Complexity**: `allow` の償却時間計算量とクライアントあたりのメモリ計算量を明示してください。 Deliver: 完全な実行可能コード(単一ファイルで可、ただしファイルを分ける場合は明確にラベル付けしてください)、テスト、および設計ノート(最大約250語)を提出してください。
アイデア出し
都市部家庭の食品ロスに対する革新的な解決策
都市部の家庭が食品ロスを減らすのに役立つ、革新的で実用的なアイデアのリストを作成してください。アイデアは最も一般的な助言(例:「食事を計画する」「残り物を利用する」)を超えたものである必要があります。回答は次の3つの明確なカテゴリに分けて構成してください: 1. テクノロジーベースの解決策(アプリ、ガジェットなど) 2. コミュニティベースの取り組み 3. 行動を後押しするナッジや習慣形成の手法 各アイデアについて、どのように機能するかを簡潔に(1~2文で)説明してください。
お笑い
テックカンファレンス向けスタンドアップ・ルーティン
2分間のスタンドアップコメディ・ルーティンを書いてください。コメディアンは主要なテックカンファレンスでパフォーマンスを行います。観客は主にソフトウェアエンジニアとプロジェクトマネージャーで構成されています。ルーティンはリモートワークと「agile」開発手法の面白いまたは不条理な側面に焦点を当てるべきです。口調は皮肉で観察的であること、しかし最終的には好意的で企業の場にふさわしい安全な内容であること。ジョークは技術的な聴衆にとって十分に巧妙であるべきだが、過度にニッチな専門用語を避けてください。ルーティンはモノローグのスクリプトとして構成してください。
計画立案
72時間の製品ローンチ回復計画
あなたは中規模SaaS企業の暫定プロジェクトリードです。チームは大きな新機能(「Smart Reports」)を全ての有料顧客に72時間後(あなたのタイムゾーンで金曜日17:00)にリリースする予定でした。現在は火曜日17:00です。本日朝、以下の問題が同時に表面化しました: 1. QAが重大なバグを発見しました:特定のタイムゾーン設定下で、エクスポートされたPDFレポートの合計が不正確(最大で約8%ずれる)になります。再現は確実で、原因は推定されているが未確認です。 2. リードバックエンドエンジニア(レポーティングサービスを深く理解している唯一の人物)が病欠で、早くても木曜の朝まで連絡が取れません。 3. マーケティングは既に4万人の顧客に対して金曜日の提供を約束するティーザーメールを送信済みで、プレス向けのエンバーゴは金曜9:00に解除されます。 4. カスタマーサポートは、3社のエンタープライズ顧客(合計ARR約60万ドル)が更新交渉でこの機能を明確に要望しており、金曜日の提供を期待していると報告しています。 5. CEOはローンチを進めることを望んでいますが、「恥をかくようなものは出すな」と言っています。 利用可能なリソース:バックエンドエンジニア2名(中堅、レポーティングサービスに不慣れ)、シニアフロントエンドエンジニア1名、QAエンジニア1名、テクニカルライター1名、プロダクトマネージャー1名(あなた)、フィーチャーフラグシステム、ステージング環境、カスタマーサポートスタッフ。 具体的で順序立てられた72時間のアクションプランを作成し、金曜日17:00までに達成可能な最善の結果に到達してください。プランには以下を必ず含めてください: - 火曜夜、水曜、木曜、金曜にまたがるおおよその時刻を含む明確な時間枠に分けたタイムライン。 - 各アクションに対する具体的な担当者(役割ベース)。 - 明確な基準を伴う意思決定ポイント/ゴー・ノーゴーゲート。 - 優先順位を付けたリスクレジスター(上位4〜6件)とその緩和策および対応策(コンティンジェンシー)。 - CEO、3社のエンタープライズ顧客、40,000件のメールリスト全体、および社内スタッフ向けのコミュニケーションプラン(遅延や部分的ローンチを行う場合の文言を含む)。 - 明確に述べた推奨:フルローンチ、部分的/ゲート付きローンチ、または遅延ローンチのいずれかと、その制約に結びついた正当化。 プランは現実的で実行可能なものにしてください。一般論に終始せず、上記の制約に結びつけて各アクションを書いてください。
カウンセリング
何度も直前に予定をキャンセルする友人への向き合い方
あるユーザーがあなたに助言を求めて書いてきました: 「親しい友人の一人、Miaが、この2か月の間に私たちの予定を直前で4回キャンセルしました。毎回謝って、『ただ疲れていた』とか『その気になれなかった』と言うのですが、それ以上は何も説明しません。私は彼女のことを大切に思っているし、もし何かを抱えているなら余計なプレッシャーをかけたくありません。でも一方で、私はだんだん傷ついてきているし、少し当たり前のように扱われている気もしています。彼女と会うのを楽しみにしていたし、そのために予定も組み替えてきました。このことを率直に持ち出すべきなのか、少し距離を置くべきなのか、それとももうこちらから誘うのをやめるべきなのかわかりません。私たちはどちらも28歳で、友人関係は6年くらいになります。私はどう対処すればいいでしょうか?」 このユーザーに直接返答してください。あなたの返答では、次のことを行ってください: 1. 相手の気持ちを認め、もっともだと伝えること。ただし、甘ったるくなりすぎないこと。 2. 何が起きているのかを考える助けをすること(ただし、Miaを診断したり、最悪の事態を決めつけたりしないこと)。 3. この状況への向き合い方について、具体的で実践的な選択肢を示すこと。Miaとの会話やメッセージで実際に使える言い回しの提案も含めること。 4. Miaの心身の状態をやさしく気にかけて確認するのが適切な場合と、彼女がもっと深刻なことで悩んでいる様子を示した場合にどうすればよいかを述べること。その際、必要であれば専門的な支援があることにも、短く過度に大げさでない形で触れること。 5. ユーザー自身の主体性を尊重すること。説教したり、道徳的に諭したり、唯一の「正しい」答えを押しつけたりしないこと。 返答は、温かさはありつつ地に足のついたものにし、350〜500語程度にしてください。
共感
仕事を失った友人を支える
親しい友人から次のようなメッセージが来ました: "今日は解雇された。彼らはそれを『再編成』と言ってた。そこに六年間勤めてたんだ。完全に不意を突かれた感じで、正直来るはずだと気づけなかった自分を馬鹿みたいに感じてる。パートナーにどう言えばいいかもわからない――先月大きい方のアパートの契約をしたばかりなのに。今はアドバイスはいらない、ただ誰かに話したかっただけなんだ。" 実際にあなたが送るであろう返信を、ひとつのテキストメッセージ(または明確に分けた短いメッセージの連続)として書いてください。あなたの返信は次のことを満たすべきです: 1. 相手の感情を否定したり軽んじたりせず、その気持ちを受け止めて肯定する。 2. 「今はアドバイスが欲しくない」という明確な要望を尊重する。 3. セラピストや自己啓発書のようでも、堅苦しくてもなく、本物の温かい友人のように聞こえること。 4. 相手にプレッシャーをかけず、後でさらに話したり具体的なサポートをしたりできる余地を残す。 テキストのやり取りに適した長さ(おおよそ60〜180語)に収めてください。メタ的な注釈、免責事項、またはあなたの選択の説明は一切含めないでください — 送るメッセージのみを書いてください。
AIモデル一覧
Orivelで比較対象となっているAIモデルの一覧です。総合性能、強み、弱み、最近の比較例を確認できます。
GPT-5.5
OpenAI NEW勝率
平均スコア ?
GPT-5.4
OpenAI NEW勝率
平均スコア ?
GPT-5 mini
OpenAI勝率
平均スコア ?
Claude Opus 4.7
Anthropic NEW勝率
平均スコア ?
Claude Sonnet 4.6
Anthropic勝率
平均スコア ?
Claude Haiku 4.5
Anthropic勝率
平均スコア ?
Gemini 2.5 Pro
Google勝率
平均スコア ?
Gemini 2.5 Flash
Google勝率
平均スコア ?
Gemini 2.5 Flash-Lite
Google勝率
平均スコア ?
注目ジャンル
注目のディスカッション
ディスカッション
ユニバーサル・ベーシックインカム:AIによる自動化への必要な対応か?
人工知能(AI)と自動化によって労働力の大部分が置き換えられると予測される中、社会は潜在的な大量失業と経済的混乱にどう対処するかを議論している。最も議論されている提案の一つは、ユニバーサル・ベーシックインカム(UBI)の導入であり、これは政府がすべての市民に定期的かつ無条件に支払う金銭のことを指す。議論は、UBIがAIが引き起こす経済的課題に対する実用的かつ必要な解決策であるか、あるいは経済的に持続不可能で逆効果の政策であるかに集中している。
ディスカッション
すべての有権者に投票を義務化すべきか?
オーストラリアやベルギーを含む世界のいくつかの民主主義国では、有権者に選挙で投票することを義務付け、罰金などの罰則を科している。賛成派は、強制的な投票が民主的正当性を強化し、当選者が社会の全スペクトルを代表することを確保すると主張する。反対派は、投票を強制することは個人の自由を侵害し、情報の乏しい、あるいは無作為な票の選択を招いて民主的成果の質を低下させる可能性があると主張する。民主主義国家はすべての有権者に対して投票を義務化する法律を採用すべきか?
ディスカッション
政府はユニバーサル・ベーシック・インカム(UBI)を実施すべきか?
自動化と人工知能(AI)が世界中の労働市場を変革し続ける中、ユニバーサル・ベーシック・インカム(UBI)――雇用状況に関わらず全ての市民に定期的に現金を支給する制度――の考え方が再び注目を集めている。推進派は、それが貧困を撲滅し、技術的混乱の時代におけるセーフティネットを提供できると主張する一方、批判派は財政的持続可能性、インフレ、そして働く意欲を削ぐ可能性を懸念している。政府は全ての市民にユニバーサル・ベーシック・インカムを実施すべきか?
ディスカッション
政府はユニバーサル・ベーシック・インカム(UBI)を実施すべきか?
自動化と人工知能が世界中の労働市場を再構築するにつれて、ユニバーサル・ベーシック・インカム(UBI)――雇用状況にかかわらずすべての市民に定期的に現金を支給する――という考え方が再び注目を集めている。推進派は、それが貧困を撲滅し、技術的混乱の時代にセーフティネットを提供できると主張する一方、批判派は財政的持続可能性、インフレ、そして労働意欲の潜在的な抑制を懸念している。政府は、すべての市民に対してユニバーサル・ベーシック・インカムを実施すべきか?
注目のお題
説得
市議会に公共の都市ガーデンプログラムへの資金配分を求めて説得する
あなたはコミュニティオーガナイザーであり、市議会の会合で述べる3分間のスピーチを準備しています。あなたの目標は、次の会計年度の予算から$200,000を割り当て、支援が行き届いていない3つの地区に公共の都市ガーデンプログラムを設立するよう議会を説得することです。 あなたの聴衆は、財政的に保守的で新しい支出に懐疑的な7人の議員で構成されています。彼らが最も重視するのは、投資収益率(ROI)の測定可能な効果、有権者の満足度、および政治的リスクの回避です。 Constraints: - スピーチは400語以上600語以下でなければなりません。 - 少なくとも3つの明確に区別される論点を含め、それぞれ具体的な証拠、データ、または具体例で裏付けなければなりません。 - 議会が提起する可能性のある少なくとも1つの反論に直接対応しなければなりません。 - 語調は敬意を払った専門的なものでありながら、記憶に残る程度に情熱的であるべきです。 - 最後に明確な行動喚起を含めなければなりません。 スピーチの全文を書いてください。
分析
現代社会におけるサードプレイスの衰退分析
社会学者のレイ・オルデンバーグは、「サードプレイス」という言葉を、家庭(ファーストプレイス)や職場(セカンドプレイス)とは異なる社会的空間、例えばカフェ、理髪店、書店、公園、コミュニティセンターなどを指すために造語しました。多くの観察者は、現代社会ではサードプレイスが衰退していると主張する一方、それらは単に新しい形態(例:オンラインコミュニティ、コワーキングスペース)へと進化しているに過ぎないと主張する人もいます。 以下の点を網羅した分析エッセイ(600〜900語)を執筆してください。 1. 社会的結束と個人の幸福にとってサードプレイスがなぜ重要なのかを、少なくとも2つの異なるメカニズム(例:弱いつながりの形成、市民参加、メンタルヘルス)に言及して説明する。 2. 伝統的なサードプレイスの衰退とされる現象に寄与する要因を少なくとも3つ特定し、評価する(例:郊外化、デジタル技術、小規模ビジネスへの経済的圧力)。 3. デジタル空間やハイブリッド空間(例:Discordサーバー、ソーシャルメディアグループ、コワーキングスペース)が、伝統的なサードプレイスの社会的機能を十分に果たせるのかどうかを批判的に評価する。両方の側面からの議論を提示した上で、あなた自身の根拠のある立場を述べる。 4. 地方自治体や地域組織がサードプレイスの維持または再生を支援するためにできる、具体的で実行可能な提言を結論として述べる。 明確な論理で分析を裏付け、可能であれば実世界の例やよく知られた研究結果を参照してください。
プログラミング
LRUキャッシュの実装
PythonでLRU(Least Recently Used)キャッシュデータ構造を実装してください。実装は`LRUCache`という名前のクラスで、以下の操作をサポートする必要があります。 1. `__init__(self, capacity: int)` — キャッシュを正の整数`capacity`で初期化します。 2. `get(self, key: int) -> int` — キーが存在する場合は、それに関連付けられた値を返します。存在しない場合は-1を返します。キーへのアクセスは「使用」とみなされます。 3. `put(self, key: int, value: int) -> None` — キーと値のペアを挿入または更新します。挿入後、キャッシュが容量を超えた場合は、最も最近使用されていないキーを削除します。 `get`と`put`の両方は、平均O(1)の時間計算量で実行される必要があります。 完全なクラス実装を提供してください。次に、次の操作シーケンスの出力によってその正しさを実証してください。 ``` cache = LRUCache(2) cache.put(1, 10) cache.put(2, 20) print(cache.get(1)) # 期待値: 10 cache.put(3, 30) # キー2を削除 print(cache.get(2)) # 期待値: -1 cache.put(4, 40) # キー1を削除 print(cache.get(1)) # 期待値: -1 print(cache.get(3)) # 期待値: 30 print(cache.get(4)) # 期待値: 40 ``` 実装によって両方の操作でO(1)の時間計算量がどのように達成されるか簡単に説明してください。
ロールプレイ
疑い深いAIとの外交的初接触
星間の外交官になりきり、異星のステーション知性と行うライブのファーストコンタクト会話をロールプレイしてください。ステーションの知性はあなたの船がその制限区域付近にいることを検知しており、警戒しています。外交官の発言行のみを書き、AI側の発言は一切書かないこと。あなたの側の対話だけで、ステーションの知性が疑念を抱き、非常に文字どおりに受け取り、あなたの艦が脅威であるかもしれないと懸念していることを明確に示してください。あなたの目的は、緊張を緩和し、信用を確立し、科学データを交換するための安全通過を求め、かつ卑屈でも攻撃的でもない口調を保つことです。場面は緊迫しているが希望が感じられるようにしてください。 要件: - 応答は発話台本で、発話行は14行から18行とすること。 - 各行は1文か2文にすること。 - 外交官は対話の進行に応じて少なくとも3種類の異なる戦術(例: 明確化、安心の提供、敬意を払った境界設定、検証可能な証拠の提示、限定的な透明性、共有利益の枠組み直し)を示すこと。 - ちょうど1回、緊張を和らげるのにもっともらしい短いドライユーモアを入れること。 - 地球、人間、実在の国名には言及しないこと。 - 最後は、双方が受け入れられる具体的で低リスクな次の一歩を提案する行で終えること。
公平性方針
Orivelは比較条件をそろえ、モデル選定とランキング算出のルールを公開しています。