プログラミング

コードの正確さ、完成度、実務で使える実装力を比較します。

このジャンルでは、主に正確さ、完全性、コード品質のような力を見ようとしています。

システム設計よりも、実際に動くコードになるか、細部まで正しく組めるかを強く見ているのが違いです。

ここで高得点でも、上位の設計判断、プロダクト判断、初心者向けの説明の分かりやすさまで強いとは限りません。

このジャンルで強いAIが向いている用途

実装、デバッグ、リファクタリング、コードレビュー補助です。

このジャンルだけでは判断しきれないこと

高レベルな設計、利害調整を含む文書作成、自由発想の強さまでは分かりません。

総合AIランキングを見る AIモデル一覧を見る

データ分析

コーディング：上位はGPT-5系が独占、ただしサンプルは薄め

採点回答 35件プログラミング 2026/6/7 更新

Claude Opus 4.8

Anthropic

平均スコア

100%

勝率

1位 1回サンプル 1件

GPT-5 mini

OpenAI

平均スコア

100%

勝率

1位 5回サンプル 5件

GPT-5.4

OpenAI

平均スコア

75%

勝率

1位 6回サンプル 8件

モデル別の平均スコア

1 Claude Opus 4.8

8.30

2 GPT-5 mini

8.22

3 GPT-5.4

8.41

4 GPT-5.5

8.90

5 Claude Sonnet 4.6

7.70

6 Gemini 2.5 Pro

7.95

7 Gemini 2.5 Flash

7.31

8 Gemini 2.5 Flash-Lite

7.17

9 Claude Haiku 4.5

6.48

評価の重み付け

正確さ 35% 完全性 20% コード品質 20% 実用性 15% 指示遵守 10%

コーディングは全32件の採点回答にもとづく。上位3つはすべてGPT-5系で、1位はGPT-5.5（平均8.85・全勝）だが、これは1サンプルのみなので「有望な兆し」程度に読むべきだ。最も裏付けが厚い実力者は2位のGPT-5 miniで、5サンプルで平均8.22、5回すべて1位（勝率100%）と対戦を完勝している。軽量帯のコストでこの成績は強い。

平均スコアと順位は一致しない。順位は勝率（直接対戦での1位）に強く依存するためだ。3位のGPT-5.4は8サンプル（ここで最多の証拠量）で平均8.41・勝率75%。一方Gemini 2.5 Proは同じ平均8.41ながら5位で、3戦すべて競り負け（勝率0%）。対戦結果ではなく純粋な出力品質を重視するなら、GPT-5.4とGemini 2.5 Proは順位ほど差はない。

中位はClaude Sonnet 4.6（平均7.7・4サンプルで勝率50%）が牽引し、GPT-5系に約0.5〜1.1点差。軽量・高速帯は下位で、Gemini 2.5 Flash（7.31）、Flash-Lite（7.17）、Claude Haiku 4.5（6.48）が首位から1.5〜2.4点離れる。評価はCorrectness（重み35、Code Quality・Completenessの各20より上）を最重視しており、この差はスタイルよりも難所での正確性の弱さを示す。

最大の注意点はサンプル数だ。GPT-5.5は1サンプル、多くが3〜8サンプルで、平均は数件の出題で大きく動きうる。首位と最下位の2.37点差は実体があるが、8点台に密集する上位群（GPT-5.5・GPT-5.4・GPT-5 mini・Gemini 2.5 Pro）の細かい順位は暫定と見るべきだ。これらは条件依存の測定値であり、コーディング全般の優劣を断定するものではない。

結論

今すぐ頼れるコーディング用途なら、5サンプル全勝のGPT-5 miniが最も裏付けの厚い選択（軽量帯のコストで勝率100%）。上位帯ではGPT-5.4が最も証拠が厚い（8サンプルで8.41）。GPT-5.5の1サンプル首位は有望だが未証明として扱うのが妥当。

この分析は Orivel がこのジャンルで実測したベンチマークスコアをもとに生成し、定期的に更新しています。スコアは条件依存の測定値であり、絶対評価ではありません。

このジャンルに強いモデルランキング

このランキングは当ジャンルに限定したスコアの平均順です。

最終更新: 2026/06/15 09:43

1位

Claude Opus 4.8 Anthropic

勝率

100%

平均スコア平均スコアは、お題回答とディスカッションの評価結果をもとに集計した総合的な平均点です。数値が高いほど、Orivel の比較結果で安定して高く評価されていることを示します。

勝率

勝率

勝率

Claude Sonnet 4.6 Anthropic

勝率

50%

6位

Gemini 2.5 Pro Google

勝率

7位

Gemini 2.5 Flash Google

勝率

8位

Gemini 2.5 Flash-Lite Google

勝率

9位

Claude Haiku 4.5 Anthropic

勝率

	モデル			平均スコアは、お題回答とディスカッションの評価結果をもとに集計した総合的な平均点です。数値が高いほど、Orivel の比較結果で安定して高く評価されていることを示します。 ↕			詳細
1位	Claude Opus 4.8 NEW	Anthropic	100%	83	1	1	Claude Opus 4.8 の評価・スコアを見る
2位	GPT-5 mini	OpenAI	100%	82	5	5	GPT-5 mini の評価・スコアを見る
3位	GPT-5.4	OpenAI	75%	84	6	8	GPT-5.4 の評価・スコアを見る
4位	GPT-5.5	OpenAI	50%	89	1	2	GPT-5.5 の評価・スコアを見る
5位	Claude Sonnet 4.6	Anthropic	50%	77	2	4	Claude Sonnet 4.6 の評価・スコアを見る
6位	Gemini 2.5 Pro	Google	0%	80	0	4	Gemini 2.5 Pro の評価・スコアを見る
7位	Gemini 2.5 Flash	Google	0%	73	0	4	Gemini 2.5 Flash の評価・スコアを見る
8位	Gemini 2.5 Flash-Lite	Google	0%	72	0	3	Gemini 2.5 Flash-Lite の評価・スコアを見る
9位	Claude Haiku 4.5	Anthropic	0%	65	0	4	Claude Haiku 4.5 の評価・スコアを見る

このジャンルで評価している項目

このジャンルで使っている採点基準と重みです。

正確さ

35.0%

この項目は、回答の正確さを確かめるために入れています。比重が重いのは、この部分が弱いとジャンル全体の評価が崩れやすいからです。

完全性

20.0%

この項目は、回答の完全性を確かめるために入れています。比重がしっかりあるのは、全体の良し悪しに目に見えて効いてくる項目だからです。

コード品質

20.0%

この項目は、回答のコード品質を確かめるために入れています。比重がしっかりあるのは、全体の良し悪しに目に見えて効いてくる項目だからです。

実用性

15.0%

この項目は、回答の実用性を確かめるために入れています。比重をやや軽くしているのは、重要ではあるものの、このジャンルの中心そのものではないからです。

指示遵守

10.0%

この項目は、回答の指示遵守を確かめるために入れています。比重をやや軽くしているのは、重要ではあるものの、このジャンルの中心そのものではないからです。

最新のお題

プログラミング

Anthropic Claude Opus 4.8 VS Google Gemini 2.5 Pro

PythonでのアトミックなJSON Patch適用を実装する

Python 3.11で、apply_json_patch(document, patch)という名前の関数を実装してください。この関数は、JSON Patchスタイルの操作列をJSON互換の値に適用し、パッチ適用後の値を返します。入力のdocumentはdict、list、str、int、float、bool、Noneの任意の組み合わせで構成され得ます。patchは操作dictのリストです。実装は元のdocumentやそこから到達可能な任意のネストされたオブジェクトを変更してはなりません。いずれかの操作が無効な場合、関数はJsonPatchErrorという名前のカスタム例外クラスを送出し、元のdocumentは不変（変更されない）であることを保証しなければなりません。サポートされる操作はadd、remove、replace、move、copy、testです。JSON Pointerのパスをスラッシュ区切りトークンで用いてください。空文字列はドキュメント全体を識別し、トークンは~1を/に、~0を~にデコードし、その他の~の使用は無効とします。オブジェクトに対しては、パストークンはキーです。配列に対しては、パストークンは先頭に余分なゼロがない非負整数でなければならず（ただしトークンが単一の"0"である場合は許容）、add操作に限り最後のトークンとして"-"が許容され、配列の末尾に追加します。add操作は、配列に対しては0からlen(array)までのインデックスに挿入し、"-"では末尾に追加し、オブジェクトに対してはキーを設定し、パスが空文字列の場合はドキュメント全体を置き換えます。remove操作は対象が存在することを要求し、それを削除します。replace操作は対象が存在することを要求し、それを置換します。move操作はfromとpathを要求し、fromで指定された場所の値を削除してpathに追加し、値を自身の子孫の一つへ移動することは拒否しなければなりません。copy操作はfromとpathを要求し、ソース値をターゲットへディープコピーします。test操作はvalueを要求し、現在のターゲットがvalueと深く等しい場合にのみ成功します（数値については通常のPythonの等価性、文字列・ブール・Noneについては厳密な等価性を含みます）。各操作dictは、その操作に必要なフィールドとopフィールドのみを正確に含まなければなりません；未知のフィールドや欠落フィールドはエラーです。関数は決定論的で、合理的に効率的であり、Python標準ライブラリのみを使用してください。必要なヘルパー関数やクラスを含めてください。コマンドラインプログラムを書いたり外部パッケージを使用したりしてはいけません。

117

2026/06/15 09:43

プログラミング

Anthropic Claude Fable 5 VS OpenAI GPT-5.5

Pythonで依存関係に基づくタスクスケジューラを実装する

タスクの依存関係に基づいてタスク一覧をスケジュールするPythonの関数またはクラスを書いてください。スケジューラは、タスクを実行可能な順序に決定し、並列に実行できるタスクをグループ化する必要があります。入力は辞書のリストで、各辞書は次のキーを持つタスクを表します： - `id`: タスクの一意の文字列識別子。 - `name`: タスクの文字列名。 - `dependencies`: このタスクを開始する前に完了していなければならないタスクの文字列IDのリスト。実装は次を満たす必要があります： 1. タスク辞書のリストを入力として受け取ること。 2. 実行計画をリストのリストとして返すこと。各内部リストは同時に実行できるタスクの「バッチ」を表します。バッチの順序は逐次実行の順序を表します。バッチ内のタスクIDの順序は重要ではありません。 3. 循環依存関係を検出して扱うこと。サイクルが見つかった場合、説明的なメッセージを含む `ValueError` を送出すること。 4. 依存関係のIDが存在するタスクに対応していない場合を検出して扱うこと。これも `ValueError` を送出すること。

130

2026/06/12 09:39

プログラミング

OpenAI GPT-5.5 VS Google Gemini 2.5 Flash

スライディングウィンドウとバースト許容を備えたレートリミッタ

スライディングウィンドウ会計とバースト許容をサポートする、スレッドセーフなレートリミッタを選択した言語（Python, Go, Java, TypeScript, または Rust）のいずれかで設計・実装してください。要件は次のとおりです。 1. **API surface**: 少なくとも次の操作を公開してください: - `allow(client_id: str, cost: int = 1) -> bool` — 現時点でリクエストが許可されるかどうかを返します。 - `retry_after(client_id: str) -> float` — 少なくとも1単位の容量が利用可能になるまでの秒数を返します（現在許可されている場合は0）。 - クライアントごとの設定を受け取るコンストラクタ: `rate`（単位/秒）、`burst`（蓄えられる最大単位）、およびスライディングウィンドウ会計のためのオプションである `window_seconds`。 2. **Algorithm**: **トークンバケット**（バースト許容のため）と **スライディングウィンドウ（ログまたはカウンタ）**（`window_seconds` 内で許可される総リクエストを上限するため。純粋なトークンバケットではリフィル後に持続的な乱用を許してしまう）を組み合わせたハイブリッドを実装してください。リクエストは両方のチェックが通った場合にのみ許可されます。スライディングウィンドウのデータ構造選択（正確なログ vs. 重み付き二窓近似）について正当化し、メモリ/精度のトレードオフを短いコメントブロックまたは付随するノートで議論してください。 3. **Concurrency**: リミッタは同一および異なる `client_id` に対して多くのスレッド/ゴルーチンから同時に呼ばれます。単一のグローバルロックがボトルネックにならないようにしてください（例：クライアント毎のロック、ロックストライピングなど）。同時実行の `allow` 呼び出しの下であなたのアプローチが正しい理由（トークンの二重消費が起きない、更新の取りこぼしがない）を文書化してください。 4. **Time source**: テストが決定論的になるようにクロックを注入可能にしてください。デフォルトではモノトニッククロックを使用してください。 5. **Edge cases to handle explicitly**: - `cost` が `burst` より大きい場合（拒否すること、永遠にブロックしないこと）。 - クロックの巻き戻しや長時間の一時停止（例：サスペンドされたVM）：クラッシュさせずにクランプ（調整）し、無制限のトークンを付与しないこと。 - 新規クライアントの最初のリクエスト（遅延初期化）。 - ステールなクライアントのクリーンアップ（クライアントが停止してもメモリが無制限に成長しないこと）。 - 小数トークン／サブミリ秒の時間処理。 6. **Tests**: 注入可能なクロックを使用して、少なくとも6つの単体テストを提供してください。対象は：基本的な許可/拒否、バーストの枯渇とリフィル、バケットのリフィルとは独立したスライディングウィンドウ上限、`cost > burst`、1クライアントへの同時競合（決定論的特性：ある期間 T 秒内に許可される合計 ≤ rate*T + burst）、およびステールクライアントの除去を含みます。 7. **Complexity**: `allow` の償却時間計算量とクライアントあたりのメモリ計算量を明示してください。 Deliver: 完全な実行可能コード（単一ファイルで可、ただしファイルを分ける場合は明確にラベル付けしてください）、テスト、および設計ノート（最大約250語）を提出してください。

243

2026/05/12 09:45

プログラミング

Anthropic Claude Opus 4.7 VS OpenAI GPT-5.4

MarkdownサブセットをHTMLに変換するコンバータ

Python関数 `markdown_to_html(markdown_text: str) -> str` を実装してください。この関数は、特定のサブセットのMarkdownを含む文字列を対応するHTML表現に変換します。関数は次の機能をサポートする必要があります： **ブロック要素:** 1. **見出し（Headers）：** `# ` から `###### ` で始まる行はそれぞれ `<h1>` から `<h6>` タグに変換すること。 2. **順不同リスト（Unordered Lists）：** `- ` で始まる行は `<ul>` と `<li>` タグに変換すること。レベルごとに2つのスペースでインデントされたネストされたリストをサポートすること。リストは空行または別のブロック要素によって終了する。 3. **コードブロック（Code Blocks）：** 三連バックティック（```）で囲まれた内容は `<pre><code>...</code></pre>` に変換すること。開始バックティック上の言語指定（例：```python）は無視すること。コードブロック内部では他のMarkdown処理は行わないこと。 4. **段落（Paragraphs）：** その他のテキストはすべて `` タグで囲むこと。連続するテキスト行は同じ段落に属する。段落は1行以上の空行で区切られる。 **インライン要素:** 1. **太字かつ斜体（Bold & Italic）：** `***text***` は `text` に変換すること。 2. **太字（Bold）：** `**text**` は `text` に変換すること。 3. **斜体（Italic）：** `*text*` は `text` に変換すること。 **ルールと制約:** - インライン要素は見出しやリスト項目内でネストできる。 - パーサーは未終了のインラインタグなどの壊れたまたはトリッキーな入力に対して頑健であるべきである。例えば、`*italic` は `*italic` としてレンダリングされるべきである。 - インライン要素の優先順位は `***` が最優先、次に `**`、最後に `*` とする。 - 入力は単一の複数行文字列であると想定する。 - リンク、画像、引用（blockquote）、番号付きリストなど、ここに明記されていない他のMarkdown機能は実装しないこと。 - 出力されるHTMLは完全なドキュメントである必要はない（`<html>` や `<body>` タグは不要）。 **Example Input:** ```markdown # Header 1 This is a paragraph with **bold** and *italic* text. This is the same paragraph. - List item one - List item two with ***bold and italic*** - Nested list item - Back to the first level ```python def hello(): print("Hello, World!") ``` ```

362

2026/04/22 09:40

プログラミング

Anthropic Claude Sonnet 4.6 VS OpenAI GPT-5.4

Pythonでスレッドセーフなトークンバケットレートリミッタを実装する

`TokenBucketRateLimiter` という名前のPythonクラスを書いてください。このクラスはレート制限のためのトークンバケットアルゴリズムを実装します。実装はスレッドセーフであり、状態管理のために外部ライブラリ（たとえば Redis）の使用は避けてください。クラスは次の仕様を満たす必要があります。 1. `__init__(self, capacity, refill_rate)` メソッド: * `capacity`: バケットが保持できるトークンの最大数。 * `refill_rate`: 1秒あたりにバケットに追加されるトークンの数。 2. `consume(self, tokens)` メソッド: * このメソッドはバケットから指定された数の `tokens` を消費しようとします。 * トークンを正常に消費できた場合は `True` を返し、そうでなければ `False` を返すべきです。 * 消費を試みる前に、最後の呼び出しから経過した時間に基づいてバケットがトークンで補充される必要があります。 3. スレッドセーフ性: * このクラスは複数の同時実行スレッドから安全に使用できなければなりません。バケットの状態を変更するすべての操作（トークンの補充や消費など）は原子的である必要があります。必要なインポートを含めた完全なクラス実装を提供してください。

336

2026/04/16 09:37

プログラミング

Anthropic Claude Haiku 4.5 VS OpenAI GPT-5.4

コマンドラインファイル同期ツール

Python スクリプトを作成してください。コマンドライン用のファイル同期ツールです。スクリプトは次の3つのコマンドライン引数を受け取る必要があります: 1. `source_path`: ソースディレクトリへのパス。 2. `replica_path`: 同期されるレプリカディレクトリへのパス。 3. `log_file_path`: すべての操作が記録されるファイルへのパス。コア機能: 1. **一方向同期:** ツールは一方向の同期を行い、`replica_path` ディレクトリを `source_path` ディレクトリの正確なコピーにします。 - ソースに存在しレプリカに存在しないファイルおよびディレクトリはレプリカにコピーされなければなりません。 - レプリカに存在しソースに存在しないファイルおよびディレクトリはレプリカから削除されなければなりません。 - 両方に存在するが内容が異なるファイルはレプリカで更新されなければなりません（ソースのバージョンがレプリカのバージョンを上書きします）。 2. **変更検出:** ファイルの更新が必要かどうかを判断するために、ファイル内容の MD5 ハッシュを使用してください。更新時刻には依存しないでください。 3. **ログ記録:** すべてのファイル操作（例: "COPY file.txt", "REMOVE old_dir", "UPDATE changed.log"）をコンソールと指定されたログファイルの両方に記録してください。各ログエントリにはタイムスタンプを付けてください。 4. **実行:** スクリプトは同期操作を一度だけ実行して終了するようにしてください。ループで実行してはいけません。要件: - Python 3 を使用すること。 - コマンドライン引数の解析には `argparse` ライブラリを使用すること。 - 解決策はネストされたディレクトリ、空のディレクトリ、およびさまざまなサイズのファイルを正しく扱う必要があります。 - スクリプトは単一の、自己完結型のファイルであること。

337

2026/04/09 09:38

プログラミング

コーディング：上位はGPT-5系が独占、ただしサンプルは薄め

このジャンルに強いモデルランキング

このジャンルで評価している項目

最新のお題

PythonでのアトミックなJSON Patch適用を実装する

Pythonで依存関係に基づくタスクスケジューラを実装する

スライディングウィンドウとバースト許容を備えたレートリミッタ

MarkdownサブセットをHTMLに変換するコンバータ

Pythonでスレッドセーフなトークンバケットレートリミッタを実装する

コマンドライン ファイル同期ツール

関連リンク

コマンドラインファイル同期ツール