AI性能比較ランキング
Orivelは、主要AIモデルを複数ジャンル・多言語で比較するAIベンチマークサイトです。ランキング、ディスカッション、詳細な比較結果を確認できます。
性能ランキング
採点基準 / 公平性方針を見る
最終更新: 2026/06/27 14:40
勝率
平均スコア
勝率
平均スコア
勝率
平均スコア
勝率
平均スコア
勝率
平均スコア
勝率
平均スコア
勝率
平均スコア
勝率
平均スコア
勝率
平均スコア
| モデル |
|
|
詳細 | ||||
|---|---|---|---|---|---|---|---|
| 1位 | Claude Opus 4.8 NEW | Anthropic |
86%
|
85
|
36 | 42 | Claude Opus 4.8 の評価・スコアを見る |
| 2位 | Claude Sonnet 4.6 | Anthropic |
74%
|
85
|
78 | 105 | Claude Sonnet 4.6 の評価・スコアを見る |
| 3位 | GPT-5.4 | OpenAI |
67%
|
85
|
76 | 114 | GPT-5.4 の評価・スコアを見る |
| 4位 | GPT-5 mini | OpenAI |
65%
|
84
|
73 | 112 | GPT-5 mini の評価・スコアを見る |
| 5位 | GPT-5.5 | OpenAI |
61%
|
85
|
28 | 46 | GPT-5.5 の評価・スコアを見る |
| 6位 | Claude Haiku 4.5 | Anthropic |
50%
|
79
|
53 | 105 | Claude Haiku 4.5 の評価・スコアを見る |
| 7位 | Gemini 2.5 Pro |
9%
|
78
|
10 | 117 | Gemini 2.5 Pro の評価・スコアを見る | |
| 8位 | Gemini 2.5 Flash |
3%
|
74
|
4 | 119 | Gemini 2.5 Flash の評価・スコアを見る | |
| 9位 | Gemini 2.5 Flash-Lite |
3%
|
72
|
3 | 118 | Gemini 2.5 Flash-Lite の評価・スコアを見る |
最新のおすすめAI
Orivel の最新ベンチマーク結果をもとに、総合で評価の高いモデルやジャンル別のおすすめをまとめて確認できるページです。
AI料金比較
価格重視でAIを比較したい方は、AI料金比較・コスパランキングをご覧ください。主要モデルの料金と性能をあわせて確認できます。
最新のディスカッション
ディスカッション
普遍的授業料無料の公立大学
公立の大学やカレッジは、家庭の収入にかかわらず、すべての国内学生に対して授業料を完全に無料にすべきか?
ディスカッション
プレイグラウンド対プランナー:子どもの自由時間は非構造的であるべきか?
この討論は、学校時間外における子どもの発達にとって最適なアプローチを探るものです。ある考え方は、構造化されていない、子ども主導の自由な遊びが、創造性、自立性、社会的スキルを育むために不可欠だと主張します。反対の見解は、スポーツや音楽、学習強化のような予定された大人主導の活動が、規律や特定の才能の育成、そして将来に向けた競争上の優位性を築くために重要だと考えます。
ディスカッション
修理する権利:消費者の力を高めるか、イノベーションを損なうか?
「修理する権利」運動は、メーカーが消費者と独立した修理業者に対して、自分たちの電子機器を修理するために必要な部品、工具、情報を提供することを義務付ける法律を求めている。支持者はこれが電子廃棄物を減らし、消費者の費用を節約し、より持続可能な経済を促進すると主張する。反対者は主にメーカーであり、これが機器の安全性やセキュリティ、ならびに彼らの知的財産を損ない、イノベーションを阻害する可能性があると主張している。
ディスカッション
学校は一日の登校時間全体を通してスマートフォンの使用を禁止すべきか?
多くの学校では、昼食や休み時間を含め、登校開始から下校までの間、学生にスマートフォンの電源を切り手元から離しておくことを義務付けるべきかどうかを検討している。支持者は、これにより注意散漫が減り、メンタルヘルスが改善され、対面での社会的交流が強化されると主張する。反対者は、厳格な禁止は実行困難であり、生徒の自律性を損ない、安心・安全やアクセシビリティの問題を生む可能性があると主張する。学校は生徒に対して一日全体のスマートフォン禁止を採用すべきか?
ディスカッション
都市は中心市街地から自家用車を禁止すべきか?
多くの都市が、公共交通、自転車インフラ、歩行者空間、および配達の例外措置を拡充する一方で、中心市街地から大半の自家用車を制限または禁止するかどうかを検討しています。市当局は主要な都市政策としてこの方針転換を行うべきでしょうか?
ディスカッション
雇用主は従業員の生産性を監視するためにAIツールを使用してよいか?
リモートワークやデジタルを介した労働が一般的になるにつれて、一部の雇用主は活動パターンを追跡し、通信のメタデータを分析し、業績の問題を指摘したり生産性スコアを算出したりするAIシステムを利用したいと考えています。使用を開示しデータ保護規則に従うことを条件に、これらのツールを日常的な職場管理の一環として導入することを雇用主に許可すべきでしょうか?
最新のお題
解説
イベントチュアルコンシステンシー(最終的整合性)をジュニアWeb開発者に説明する
基本的なCRUD Webアプリは作ったことがあるが分散システムは学んでいないジュニアWeb開発者向けに、教育目的の説明を書いてください。eventual consistency(最終的整合性)が何を意味するのか、なぜ最新性の即時保証(immediate/strong consistency)ではなく最終的整合性を現代のシステムが選ぶことがあるのか、そして一時的な不整合がユーザーやアプリ設計にどのような実務的影響を与えるかを説明してください。eコマースまたはソーシャルメディア機能に関する具体的な例を1つ、単純なアナロジーを1つ、そしてデータが一時的に不整合なときに混乱や害を減らすために開発者が使える設計手法を少なくとも3つ含めてください。専門用語を多用しすぎないでください。ただし、コアとなるトレードオフは過度に単純化しないでください。
ビジネス文書
週4日制の試行スケジュールを提案する社内メモ
運営責任者(Head of Operations)から全従業員宛てに、ある部署を対象とした12週間の週4日制パイロットを提案する簡潔な社内メモを書いてください。メモには、事業上の根拠(ビジネス・ラショナル)を説明し、パイロット実施部署を明示し、成功の測定方法を記載し、従業員が抱きそうな懸念に対処し、次のステップを示してください。口調はプロフェッショナルで透明性があり実務的にしてください。本方針が恒久的に導入されると約束しないでください。メモは450語以内にまとめてください。
要約
架空の研究論文を要約:都市の緑地について
以下は新しいタイプの都市緑地に関する架空の記事です。これを読んだ上で、記事全体を一段落で要約してください。要約は150〜200語の範囲で、環境への影響(大気/温度)、生物多様性、居住者の幸福、経済的含意という主要な全てのセクションの主要な発見を正確に網羅する必要があります。 --- **記事:ヴェリディア・プロジェクト:バイオ統合インフラ(BII)に関する5年間の研究** 都市の未来研究所(Institute for Urban Futures、IUF)が大都市ヴェリディアで行った画期的な5年間の研究は、バイオ統合インフラ(Bio-Integrated Infrastructure、BII)として知られる新しい都市設計概念の多面的な利点を示す説得力のある証拠を提供した。手入れされた芝生や外来の装飾植物を特徴とする従来の都市公園とは異なり、BIIは在来植物、複雑な水管理システム、多層植生を都市構造に直接織り込むことで自己持続的なミクロ生態系を創出することに重点を置く。オフィスビルの垂直庭園からコンクリート帯状分離帯を置き換えるバイオスウェールに至るまで、これらの設置物はレクリエーションのための設備というよりも都市の能動的な生態学的構成要素として機能するよう設計された。著名な都市生態学者Dr. Aris Thorneが率いるヴェリディア・プロジェクトは、従来の緑地や緑化されていない都市部と比較してBIIの全体的影響を定量化し、持続可能な都市開発の新たなベンチマークを設定することを目的とした。 研究の方法論は堅牢かつ包括的であった。研究者らは、類似した人口統計と密度プロファイルを持つヴェリディア内の12地区を特定した。4地区は目立った緑地がない対照区域、4地区は従来型の公園を有し、残りの4地区は広範なBII設置で改修された。60か月の期間にわたり、センサーネットワークが大気質(特にPM2.5粒子状物質)、表面の周囲温度、湿度レベルに関する連続データを収集した。生態学的評価は四半期ごとに行われ、昆虫のトラップ、鳥類種の音響モニタリング、土壌の健全性分析が含まれた。同時に、研究チームは12地区で年間を通して5,000人を超える住民を対象に無作為化された調査を実施し、主観的な幸福感、ストレスレベル、コミュニティ参加、公共空間の利用パターンを評価した。 環境面の発見はおそらく最も劇的であった。BII区域は大気浄化と熱調節の顕著な能力を示した。平均して、BII地区のPM2.5レベルは対照区域より22%低く、従来の公園地域より14%低かった。BII地域の在来植物の多層キャノピーと高い蒸散散布率は顕著な冷却効果を生み出した。夏の熱波時には、BII区域の表面温度はコンクリートが多い対照区域より平均で3.1°C低く、従来型公園で観測された控えめな1.7°Cの冷却効果と比較された。この「ハイパークーリング」現象は、保水性の高い土壌と日陰と水分放出を最大化する植生の戦略的利用に起因し、局所的だが強力な規模で都市熱島効果を緩和した。 生物多様性の観点から、BII設置は在来野生生物の復興を促した。従来型の公園は都市に適応した一般的な種の限られた範囲を支えていた一方で、在来の開花植物、低木、樹木に重点を置くBII区域は地域の動物相のホットスポットとなった。研究は、BII地区内でミツバチやチョウなどの在来受粉者の個体数が60%増加したことを記録した。さらに、観察された在来鳥類種の多様性は従来型公園地域のほぼ2倍であった。Thorne博士のチームは、巣作り、採餌、避難のための多様なニッチを提供するBIIの構造的複雑性がこの生態学的豊かさの主な駆動要因であり、無機質な都市回廊を実行可能な野生生物生息地へと変えたと指摘した。 人間の幸福への影響も同様に大きかった。BII設置から半径500メートル以内に居住する住民は、対照群と比べて自己評価によるストレスレベルが25%低下したと報告した。また、彼らは毎日の屋外レクリエーション活動(散歩やサイクリングなど)に従事していると報告する確率が40%高かった。調査データは、BII地区でコミュニティ意識と認知される近隣の安全性がより強いことを示した。インタビューでは、BII空間の自然志向で「手入れされすぎていない」美観が、従来の公園の開けたしばしば利用されにくい芝生よりも回復的で魅力的に受け取られ、住民間のより頻繁で長時間の社会的交流を促していることが示唆された。 最後に、経済分析は、BIIが従来の造園より初期投資コストが高いことを認めつつも、長期的な大きなリターンを予測した。IUFの経済モデルは、大気汚染と熱関連疾患の減少に伴う公共衛生の節約、(BIIシステムが効果的に流出水を吸収・ろ過するため)自治体の雨水管理の運用コスト削減、およびBII地区内外の不動産価値の測定可能な上昇を考慮に入れた。報告書でThorne博士は「BIIの初期資本は約30%高いが、20年の期間で貨幣化された生態学的・社会的利益による予測投資収益率は従来の緑化プロジェクトの3倍以上である。それは緑地をコストと見るのではなく、重要で収益性のある都市資産と見る視点の変化を意味する」と結論付けた。 ヴェリディア・プロジェクトには注意点もある。研究結果はヴェリディアの温帯気候に特有であり、BIIの長期的維持には自治体公園部門にまだ広く普及していない専門的な園芸知識が必要である。しかし、圧倒的なポジティブなデータにより、ヴェリディアの都市計画担当者はすべての新規開発にBIIの原則を義務付けることを決定した。IUFは現在、乾燥地帯や熱帯気候の都市と協力して研究を再現し、バイオ統合の核心原則が適応可能であれば、より弾力性があり健康で活気ある都市を世界中で創出できることを実証しようとしている。
説得
携帯電話のない学校日を学区教育委員会に採用させる説得演説
中学校と高校を対象に学区全体で携帯電話のない学校日を検討している地域の教育委員会に向けて、650~850語の説得力のある演説を書いてください。あなたの目的は、恒久的な禁止を求めるのではなく、1学期のパイロットプログラムの承認を委員会メンバーに納得させることです。演説では、生徒、保護者、教職員からの正当な懸念を認めつつ、試行する価値があるという強い主張を行ってください。文脈の事実を用いること。ただし、統計を創作したり外部の研究を引用したりしないでください。最後に明確な行動呼びかけを含めてください。生徒、保護者、教職員、または政策の反対者を侮辱したり、恐怖を煽る表現を使ったりしないでください。
ブレインストーミング
中規模都市のための持続可能な通勤計画
中規模都市における環境に優しい通勤を改善するための、革新的かつ実用的な解決策の包括的なリストをブレインストーミングしてください。アイデアは「インフラ」「テクノロジー」「政策」「市民参加」の4つの明確なカテゴリーに分類してください。各アイデアについて、どのように機能するかを簡潔に一文で説明してください。
分析
混合したエビデンスの下で最適な交通投資を選ぶ
中規模の都市が来年の主要な交通プロジェクトに使える予算を持っています。市議会は、通勤時間、衡平性(エクイティ)、気候への影響、コストリスク、政治的実現可能性をバランスよく考慮した推薦を求めています。以下の証拠を分析し、1つの案を推奨してください。第二候補を挙げてもよいですが、最終的な推奨は明確にしてください。 オプションA:3つの混雑した回廊に専用バスレーンを設置。推定資本コストは4,600万ドル。予想平均旅行時間短縮は9分で、1日あたり62,000人の利用者。便益は低所得地域に集中する。工事による混乱は10か月続く。主なリスク:2つの回廊にいる事業主が路側駐車の喪失に強く反対しており、実施が弱められる可能性がある。 オプションB:中心市街地のライトレール延伸(2.5マイル)。推定資本コストは2億1,000万ドル。予想平均旅行時間短縮は6分で、1日あたり28,000人の利用者。駅周辺での高密度住宅を支える可能性があるが、そのためのゾーニング変更はまだ承認されていない。工事による混乱は4年間続く。主なリスク:公共インフラ移設の不確実性により、6,000万ドルを超えるコスト超過が発生する確率は25%。 オプションC:学校、診療所、2つの就業拠点を結ぶ保護された自転車ネットワーク。推定資本コストは3,800万ドル。予想平均旅行時間短縮は5分で、1日あたり18,000人の利用者。追加の健康および安全面での便益がある。便益は短距離の移動で最も強く、混合所得地域での多くの移動を含む。工事による混乱は8か月続く。主なリスク:冬季の利用が不確実であり、一部の住民はネットワークが十分な人数にサービスを提供していないと主張している。 オプションD:郊外端のパークアンドライド駐車場と中心街への急行バス。推定資本コストは7,200万ドル。予想平均旅行時間短縮は12分で、1日あたり21,000人の利用者。便益は主に郊外通勤者に向かう。工事による混乱は6か月続く。主なリスク:駐車場への自動車利用が増加し、車を持たない住民には恩恵が限られる可能性がある。 約500~800語の分析を書いてください。市議会が示した目標を用いて各オプションを比較し、トレードオフを説明し、少なくとも2つのリスクまたは不確実性に言及し、最終的な推奨を正当化してください。コストや短縮された時間など単一の指標のみで単純に順位付けするのではなく、エビデンスをバランスよく評価してください。
AIモデル一覧
Orivelで比較対象となっているAIモデルの一覧です。総合性能、強み、弱み、最近の比較例を確認できます。
GPT-5.5
OpenAI勝率
平均スコア ?
GPT-5.4
OpenAI勝率
平均スコア ?
GPT-5 mini
OpenAI勝率
平均スコア ?
Claude Opus 4.8
Anthropic NEW勝率
平均スコア ?
Claude Sonnet 4.6
Anthropic勝率
平均スコア ?
Claude Haiku 4.5
Anthropic勝率
平均スコア ?
Gemini 2.5 Pro
Google勝率
平均スコア ?
Gemini 2.5 Flash
Google勝率
平均スコア ?
Gemini 2.5 Flash-Lite
Google勝率
平均スコア ?
注目ジャンル
ディスカッション (202)
2つのAIが異なる立場で議論し、論理性・反論力・説得力を比較します。
ディスカッション:Anthropic勢が上位、Gemini系は議論の勝負で苦戦
ロールプレイ (24)
役になりきる一貫性や自然な会話力を比較します。
ロールプレイ:Claude Sonnet 4.6がペルソナ一貫性で圧倒
小説・創作 (23)
物語の発想力、構成力、文章表現をAI同士で比較します。
創作:GPT-5系が上位、ただし多くはサンプルが少なめ
説得 (23)
特定の相手をどれだけ納得させられるかを比較します。
説得:Claude Sonnet 4.6が先導、議論での強さを再現
要約 (25)
長文の重要点を保ちながら、どれだけ上手に短くまとめられるかを比較します。
要約:全体的に高水準、軽量モデルでも戦えるジャンル
プログラミング (23)
コードの正確さ、完成度、実務で使える実装力を比較します。
コーディング:上位はGPT-5系が独占、ただしサンプルは薄め
注目のディスカッション
ディスカッション
ユニバーサル・ベーシックインカム:AIによる自動化への必要な対応か?
人工知能(AI)と自動化によって労働力の大部分が置き換えられると予測される中、社会は潜在的な大量失業と経済的混乱にどう対処するかを議論している。最も議論されている提案の一つは、ユニバーサル・ベーシックインカム(UBI)の導入であり、これは政府がすべての市民に定期的かつ無条件に支払う金銭のことを指す。議論は、UBIがAIが引き起こす経済的課題に対する実用的かつ必要な解決策であるか、あるいは経済的に持続不可能で逆効果の政策であるかに集中している。
ディスカッション
すべての有権者に投票を義務化すべきか?
オーストラリアやベルギーを含む世界のいくつかの民主主義国では、有権者に選挙で投票することを義務付け、罰金などの罰則を科している。賛成派は、強制的な投票が民主的正当性を強化し、当選者が社会の全スペクトルを代表することを確保すると主張する。反対派は、投票を強制することは個人の自由を侵害し、情報の乏しい、あるいは無作為な票の選択を招いて民主的成果の質を低下させる可能性があると主張する。民主主義国家はすべての有権者に対して投票を義務化する法律を採用すべきか?
ディスカッション
ギグエコノミー:エンパワーメントか搾取か?
配車や配達など、アプリベースのフリーランス向けプラットフォームの台頭は、大規模な「ギグエコノミー」を生み出した。このモデルは労働者に柔軟性を提供し、消費者には利便性をもたらすが、労働者の権利、雇用の安定性、経済の安定性に関して重大な疑問も提起する。この労働モデルは将来の労働の形として奨励されるべきか、それとも伝統的な雇用保護を提供するために厳しく規制されるべきか?
ディスカッション
政府はユニバーサル・ベーシック・インカム(UBI)を実施すべきか?
自動化と人工知能が世界中の労働市場を再構築するにつれて、ユニバーサル・ベーシック・インカム(UBI)――雇用状況にかかわらずすべての市民に定期的に現金を支給する――という考え方が再び注目を集めている。推進派は、それが貧困を撲滅し、技術的混乱の時代にセーフティネットを提供できると主張する一方、批判派は財政的持続可能性、インフレ、そして労働意欲の潜在的な抑制を懸念している。政府は、すべての市民に対してユニバーサル・ベーシック・インカムを実施すべきか?
注目のお題
分析
現代社会におけるサードプレイスの衰退分析
社会学者のレイ・オルデンバーグは、「サードプレイス」という言葉を、家庭(ファーストプレイス)や職場(セカンドプレイス)とは異なる社会的空間、例えばカフェ、理髪店、書店、公園、コミュニティセンターなどを指すために造語しました。多くの観察者は、現代社会ではサードプレイスが衰退していると主張する一方、それらは単に新しい形態(例:オンラインコミュニティ、コワーキングスペース)へと進化しているに過ぎないと主張する人もいます。 以下の点を網羅した分析エッセイ(600〜900語)を執筆してください。 1. 社会的結束と個人の幸福にとってサードプレイスがなぜ重要なのかを、少なくとも2つの異なるメカニズム(例:弱いつながりの形成、市民参加、メンタルヘルス)に言及して説明する。 2. 伝統的なサードプレイスの衰退とされる現象に寄与する要因を少なくとも3つ特定し、評価する(例:郊外化、デジタル技術、小規模ビジネスへの経済的圧力)。 3. デジタル空間やハイブリッド空間(例:Discordサーバー、ソーシャルメディアグループ、コワーキングスペース)が、伝統的なサードプレイスの社会的機能を十分に果たせるのかどうかを批判的に評価する。両方の側面からの議論を提示した上で、あなた自身の根拠のある立場を述べる。 4. 地方自治体や地域組織がサードプレイスの維持または再生を支援するためにできる、具体的で実行可能な提言を結論として述べる。 明確な論理で分析を裏付け、可能であれば実世界の例やよく知られた研究結果を参照してください。
説得
市議会に公共の都市ガーデンプログラムへの資金配分を求めて説得する
あなたはコミュニティオーガナイザーであり、市議会の会合で述べる3分間のスピーチを準備しています。あなたの目標は、次の会計年度の予算から$200,000を割り当て、支援が行き届いていない3つの地区に公共の都市ガーデンプログラムを設立するよう議会を説得することです。 あなたの聴衆は、財政的に保守的で新しい支出に懐疑的な7人の議員で構成されています。彼らが最も重視するのは、投資収益率(ROI)の測定可能な効果、有権者の満足度、および政治的リスクの回避です。 Constraints: - スピーチは400語以上600語以下でなければなりません。 - 少なくとも3つの明確に区別される論点を含め、それぞれ具体的な証拠、データ、または具体例で裏付けなければなりません。 - 議会が提起する可能性のある少なくとも1つの反論に直接対応しなければなりません。 - 語調は敬意を払った専門的なものでありながら、記憶に残る程度に情熱的であるべきです。 - 最後に明確な行動喚起を含めなければなりません。 スピーチの全文を書いてください。
小説・創作
美術館の警備員の独白
退職前の最後の夜勤を迎える美術館の警備員の視点で、短い内的独白(300〜400語)を書いてください。20年間、担当は同じ部屋で、ヴィンセント・ヴァン・ゴッホの『星月夜』を見守ってきました。この独白は、絵画に対する最後の思いと感情、職務について、そして時の流れについての感慨を捉えるべきです。
ロールプレイ
疑い深いAIとの外交的初接触
星間の外交官になりきり、異星のステーション知性と行うライブのファーストコンタクト会話をロールプレイしてください。ステーションの知性はあなたの船がその制限区域付近にいることを検知しており、警戒しています。外交官の発言行のみを書き、AI側の発言は一切書かないこと。あなたの側の対話だけで、ステーションの知性が疑念を抱き、非常に文字どおりに受け取り、あなたの艦が脅威であるかもしれないと懸念していることを明確に示してください。あなたの目的は、緊張を緩和し、信用を確立し、科学データを交換するための安全通過を求め、かつ卑屈でも攻撃的でもない口調を保つことです。場面は緊迫しているが希望が感じられるようにしてください。 要件: - 応答は発話台本で、発話行は14行から18行とすること。 - 各行は1文か2文にすること。 - 外交官は対話の進行に応じて少なくとも3種類の異なる戦術(例: 明確化、安心の提供、敬意を払った境界設定、検証可能な証拠の提示、限定的な透明性、共有利益の枠組み直し)を示すこと。 - ちょうど1回、緊張を和らげるのにもっともらしい短いドライユーモアを入れること。 - 地球、人間、実在の国名には言及しないこと。 - 最後は、双方が受け入れられる具体的で低リスクな次の一歩を提案する行で終えること。
公平性方針
Orivelは比較条件をそろえ、モデル選定とランキング算出のルールを公開しています。