パッケージ依存関係リゾルバを実装する

このプログラミングベンチマークに対する各AIの回答と比較結果を確認できます。

いいね・お気に入り機能を使うにはログインまたは新規登録が必要です。新規登録

X f L

お題概要

比較ジャンル

プログラミング

お題作成モデルお題作成者は、対応プロバイダ各社の上位お題生成モデル候補の中からランダムに選ばれます。

Google Gemini 2.5 Pro

回答モデルこのお題では、お題作成者と同じプロバイダのモデルは回答対象から除外されます。

回答A OpenAI GPT-5 mini

回答B Anthropic Claude Sonnet 4.6

採点モデル採点は回答モデルを除いた候補から3モデルで実施します。3モデルは異なる3プロバイダから選び、上位モデルを最低1つ含め、軽量モデルは採点者に選びません。

OpenAI GPT-5.2 Anthropic Claude Opus 4.6 Google Gemini 2.5 Flash

お題本文

さらに表示 ▼

依存関係解決アルゴリズムを実装する Python 関数 `resolve(requirements, package_index)` を記述してください。関数は2つの引数を受け取ります: 1. `requirements`: 各文字列が初期パッケージ要件である文字列のリスト（例: `["A>=1.2.0", "B"]`）。 2. `package_index`: 利用可能なすべてのパッケージを表す辞書。キーはパッケージ名、値はバージョン文字列（例: '1.2.3'）をキーとし、そのバージョンの依存要件文字列のリストを値に持つ辞書です。関数は、必要な各パッケージ名（依存の伝播を含む）を単一の、すべての制約を満たす解決済みバージョン文字列にマッピングする辞書を返すべきです。これはしばしば「ロックファイル」と呼ばれます。アルゴリズムは、伝搬依存関係（transitive dependencies）とバージョン競合を処理できなければなりません。有効なパッケージ集合が見つからない場合、関数は競合を説明する明確なメッセージ付きで `ValueError` を発生させるべきです。単純化のために次の仮定を置けます: - バージョンはセマンティックバージョニングに従う（例: '1.2.3'）。 - 要件指定子は次のいずれかである: `==`, `!=`, `>=`, `<=`, `>`, `<`。指定子なしの要件（例: "B"）は任意のバージョンが許容されることを意味します。 - 解法は、各パッケージについて可能な限り最新のバージョンを選択することを目指してください。

補足情報

さらに表示 ▼

ソフトウェア開発において、パッケージマネージャ（pip、npm、cargo など）は不可欠なツールです。どのパッケージマネージャにも依存解決（dependency resolver）は中核的な構成要素です。その役割は、プロジェクトの直接的および間接的（伝搬的）な依存関係を満たす互換性のあるパッケージバージョンの集合を見つけることです。これは複雑な制約充足問題です。安直なアプローチは容易に誤った結果や無限ループ（循環依存がある場合）につながる可能性があります。以下は `package_index` の例です: ```python { "A": { "1.0.0": ["B<2.0.0"], "1.1.0": ["B<3.0.0"], "1.2.0": ["C==1.0.0"] }, "B": { "1.5.0": [], "2.5.0": [] }, "C": { "1.0.0": ["B>=2.0.0"], "1.1.0": [] } } ``` 例えば、初期 `requirements` が `["A>=1.1.0"]` の場合、矛盾が存在します: `A==1.1.0` は `B<3.0.0` を必要とし、一方で `A==1.2.0` は `C==1.0.0` を必要とし、`C==1.0.0` はさらに `B>=2.0.0` を必要とします。もし `A==1.2.0` を選べば `C==1.0.0` を必要とし、それは `B>=2.0.0` を必要とします。これを満たす B の唯一のバージョンは `B==2.5.0` です。このセット（`A=1.2.0`, `C=1.0.0`, `B=2.5.0`）は有効な解決です。関数はこれを見つけるべきです。

採点方針

さらに表示 ▼

A good answer must provide a correct, efficient, and robust implementation of the dependency resolver. 1. **Correctness:** 主な評価基準は、関数が解決可能な入力に対してすべての制約を満たす有効かつ完全な依存関係の集合を返すかどうかです。解決不可能な入力を適切に検出してエラーを発生させる必要があります。解法は各パッケージの有効な最新バージョンの選択を優先するべきです。 2. **Algorithm and Efficiency:** 解法は、メモ化を伴うバックトラッキング探索やグラフベースのアプローチなど、理にかなったアルゴリズムを使用して依存ツリーを探索するべきです。中程度に複雑なグラフで性能が悪くなるような単純で非効率的なブルートフォース解は低品質と見なされます。 3. **Error Handling:** 解決不可能な要件については、`ValueError` のメッセージが明確で有益であること、理想的にはどのパッケージとバージョン制約が競合しているかを特定していることが求められます。 4. **Code Quality and Design:** コードは構造化され読みやすく、適切なデータ構造を使用していること。バージョン文字列と要件指定子を解析するロジックは堅牢で、指定されたすべての演算子を正しく処理できるべきです。 5. **Edge Cases:** 解法は循環依存（無限ループに陥らないこと）、存在しないパッケージの要求、空の入力などのエッジケースを適切に扱う必要があります。

回答

回答A: OpenAI GPT-5 mini

全文を表示 ▼

def resolve(requirements, package_index): """ 初期の要件とパッケージインデックスが与えられたときに、パッケージのバージョンを解決します。 requirements: "A>=1.2.0" や "B" のような要件文字列のリスト package_index: パッケージ -> { バージョン文字列: [依存関係の要件文字列] } の辞書戻り値: パッケージ -> 解決されたバージョン文字列をマッピングする辞書競合が発生した場合は説明付きで ValueError を送出します。 """ import copy import re OPS = ["==", "!=", ">=", "<=", ">", "<"] def parse_version(v): # セマンティックバージョンを整数のタプルに解析します（major, minor, patch, ...） parts = tuple(int(p) for p in v.split('.')) return parts def version_cmp_key(v): return parse_version(v) def parse_requirement(req): req = req.strip() # 演算子が存在するか探す for op in OPS: if op in req: name, ver = req.split(op, 1) name = name.strip() ver = ver.strip() return name, op, ver # 演算子がない場合は任意のバージョンを意味します name = req return name.strip(), None, None def satisfies_one(ver_str, op, ver_req_str): if op is None: return True left = parse_version(ver_str) right = parse_version(ver_req_str) if op == '==': return left == right if op == '!=': return left != right if op == '>=': return left >= right if op == '<=': return left <= right if op == '>': return left > right if op == '<': return left < right return False def satisfies_all(ver_str, constraints): # constraints: op が None である可能性がある (op, ver_str) のリスト return all(satisfies_one(ver_str, op, vreq) for (op, vreq) in constraints) # 初期制約辞書を構築: パッケージ -> (op, ver) のリスト constraints = {} def add_constraint(constraints_map, pkg, op, ver): if pkg not in constraints_map: constraints_map[pkg] = [] # 同一の重複する制約を避ける if (op, ver) not in constraints_map[pkg]: constraints_map[pkg].append((op, ver)) # トップレベルの要件から初期化 for req in requirements: name, op, ver = parse_requirement(req) if name not in package_index: raise ValueError(f"パッケージ '{name}' が必要ですが、パッケージインデックスに見つかりません") add_constraint(constraints, name, op, ver) # あるパッケージの制約の下で許容されるバージョンの一覧を計算するヘルパー def allowed_versions(pkg, constraints_map): if pkg not in package_index: raise ValueError(f"パッケージ '{pkg}' がパッケージインデックスに見つかりません") cons = constraints_map.get(pkg, []) versions = list(package_index[pkg].keys()) # フィルタリング filtered = [v for v in versions if satisfies_all(v, cons)] # バージョンで降順にソート（最新を先頭） filtered.sort(key=version_cmp_key, reverse=True) return filtered # バックトラック探索 def search(resolved, constraints_map): # 制約のあるすべてのパッケージが解決済みなら、終了 to_resolve = [p for p in constraints_map.keys() if p not in resolved] if not to_resolve: return resolved # 分岐を最小化するため、候補数の最も少ないパッケージを選択 candidate_info = [] # (pkg, candidates) のリスト for pkg in to_resolve: try: cand = allowed_versions(pkg, constraints_map) except ValueError as e: # パッケージが存在しない場合 raise if not cand: # 競合: このパッケージの制約を満たすバージョンがない # 読みやすい制約文字列を構築 cons = constraints_map.get(pkg, []) cons_str = ", ".join([(op + v) if op else "any" for (op, v) in cons]) raise ValueError(f"パッケージ '{pkg}' のいかなるバージョンも次の制約を満たしません: {cons_str}") candidate_info.append((pkg, cand)) # 候補数で昇順にソート candidate_info.sort(key=lambda x: len(x[1])) pkg, candidates = candidate_info[0] # 各候補を試す（既に最新順） for ver in candidates: new_resolved = dict(resolved) new_resolved[pkg] = ver # 次のレベルのために制約をクローン new_constraints = copy.deepcopy(constraints_map) # pkg=ver を設定したとき、pkg に対する既存の制約が満たされていることを確認する必要がある if not satisfies_all(ver, new_constraints.get(pkg, [])): # 候補はフィルタ済みなので起こらないはずだが、念のためチェック continue # その依存関係を制約に追加 deps = package_index[pkg].get(ver, []) conflict = False conflict_msg = None for dep_req in deps: dep_name, dep_op, dep_ver = parse_requirement(dep_req) if dep_name not in package_index: conflict = True conflict_msg = f"'{pkg}=={ver}' は存在しないパッケージ '{dep_name}' を必要とします" break add_constraint(new_constraints, dep_name, dep_op, dep_ver) # もし dep が既に解決済みなら、一貫性を確認 if dep_name in new_resolved: assigned = new_resolved[dep_name] if not satisfies_all(assigned, new_constraints.get(dep_name, [])): conflict = True conflict_msg = (f"競合: {pkg}=={ver} は {dep_req} を必要としますが、既に解決された {dep_name}=={assigned} と互換性がありません") break if conflict: # 次の候補を試す continue # また、これらの制約を追加することで未解決の他のパッケージが候補ゼロになる可能性がある # それは再帰呼び出しで allowed_versions を計算する際に検出され、例外が発生します。 try: result = search(new_resolved, new_constraints) return result except ValueError as e: # 次の候補を試す last_err = e continue # すべての候補が失敗した場合は競合を送出します。情報的なメッセージを提供するようにする。 # pkg に対する制約の説明を作る cons = constraints_map.get(pkg, []) cons_str = ", ".join([(op + v) if op else "any" for (op, v) in cons]) raise ValueError(f"制約 {cons_str} の下でパッケージ '{pkg}' を解決できません") # 探索を開始 resolved = {} result = search(resolved, constraints) return result # Example usage (uncomment to run quick test): # if __name__ == '__main__': # index = { # "A": { # "1.0.0": ["B<2.0.0"], # "1.1.0": ["B<3.0.0"], # "1.2.0": ["C==1.0.0"] # }, # "B": { # "1.5.0": [], # "2.5.0": [] # }, # "C": { # "1.0.0": ["B>=2.0.0"], # "1.1.0": [] # } # } # print(resolve(["A>=1.1.0"], index))

判定

1位 | 勝者

勝利票

2 / 3

平均スコア

採点モデル OpenAI GPT-5.2

総合点

総評

パッケージごとに制約を蓄積し、最新の満足するバージョンを選択し、最小ドメインヒューリスティックを使用して分岐を減らす、堅牢なバックトラッキング依存関係リゾルバを実装しています。推移的な依存関係、不足しているパッケージ、および多くの競合を、比較的明確なメッセージで処理します。主な弱点は、やや単純な要件解析（部分文字列検索による演算子検出は、珍しい名前を誤って解析する可能性がある）と、明示的なサイクル処理/メモ化がないこと（ただし、各パッケージを一度解決するため、それでも終了します）です。

採点詳細を表示 ▼

正確さ

重み 35%

バックトラッキングを通じて推移的な依存関係を正しく解決し、パッケージごとにすべての制約を蓄積し、候補を降順にソートして最新バージョンを優先します。一般的に満たせない制約を検出します。軽微なリスク：単純な要件解析と明示的なプルーニング/メモ化の欠如。

完全性

重み 20%

指定された演算子、推移的な依存関係、不足しているパッケージ、および空の要件（{}を返す）をカバーしています。メモ化や明示的なサイクル検出などの高度な機能は実装していませんが、各パッケージを一度解決することで無限ループを回避しています。

コード品質

重み 20%

ヘルパー関数と次のパッケージのヒューリスティックな選択により、比較的読みやすい構造になっています。一部不要なインポート（re未使用）とディープコピーの使用は重い可能性があります。エラーメッセージの構築には軽微な粗さがあります。

実用性

重み 15%

進化する制約を処理し、以前のパッケージの選択をまたいでバックトラッキングを必要とするケースでソリューションを見つけることができるため、より実用的に使用できます。本番環境のリゾルバと比較すると、まだ制限があります（メモ化なし、単純な解析）。

指示遵守

重み 10%

要求された関数シグネチャに一致し、ロックファイル辞書を返し、最新バージョンを優先し、比較的明確なメッセージで競合が発生した場合にValueErrorを発生させます。

採点モデル Google Gemini 2.5 Flash

総合点

総評

回答Aは、バックトラッキングアルゴリズムを使用した、正しく構造化されたソリューションを提供しています。要件の解析、バージョン比較の処理、最新バージョンの優先順位付けを正しく行っています。競合や不足しているパッケージのエラー処理も含まれています。しかし、各再帰呼び出しで`constraints_map`に`copy.deepcopy`を使用することは、複雑な依存関係グラフに対して著しいパフォーマンスのオーバーヘッドを引き起こす可能性があり、実用的なスケーラビリティを制限する可能性があります。また、`parse_requirement`関数は、正規表現ベースのアプローチよりも若干堅牢性に欠けます。

採点詳細を表示 ▼

正確さ

重み 35%

依存関係の解決、バージョン比較の処理、競合の特定に関するコアロジックは正しいです。最新バージョンを正しく優先します。`parse_requirement`メソッドは機能的ですが、正規表現ベースのアプローチよりも堅牢性に欠けます。

完全性

重み 20%

このソリューションは、推移的な依存関係、バージョン競合、不足しているパッケージを含む、指定されたすべての要件を処理します。解決不可能なシナリオに対して`ValueError`を正しく発生させます。`deepcopy`メカニズムは、正しいものの、パフォーマンスのために非常に大きく深い依存関係グラフに対する完全性を制限する可能性があります。

コード品質

重み 20%

コードは一般的に、明確なヘルパー関数とコメントでよく構造化されています。しかし、状態管理のための`copy.deepcopy`の使用は、効率に影響を与える重要な設計上の選択です。`parse_requirement`はより洗練されている可能性があります。

実用性

重み 15%

このソリューションは機能的な依存関係リゾルバを提供します。しかし、`deepcopy`のパフォーマンスへの影響は、効率が重要な実際のシナリオで、非常に大きかったり複雑だったりする依存関係ツリーに対して、実用性を低下させる可能性があります。

指示遵守

重み 10%

関数シグネチャ、戻り値の型、エラー処理、さまざまな指定子の処理を含む、すべての指示に従っています。効率的なアルゴリズムを目指すという要件は満たされていますが、`deepcopy`は複雑なケースにおける最適な効率からのわずかな逸脱と見なされる可能性があります。

採点モデル Anthropic Claude Opus 4.6

総合点

総評

回答Aは、優れた構造を持つ堅牢なバックトラッキング依存関係リゾルバを提供します。制約マップを維持することによる制約伝播を実装し、効率を向上させるための変数順序付けにMRV（最小残存値）ヒューリスティックを実装し、不足しているパッケージを処理し、有益なエラーメッセージを提供します。コードは制約マップにdeepcopyを使用しており、これは正しいですが、ややコストがかかります。解決済みのセットを通じて循環依存関係を暗黙的に処理します。コードはコメントによってよく文書化されており、関心の分離が明確です。1つの軽微な問題は、visitedセットで循環依存関係を明示的に処理しないことですが、解決済みの辞書により、パッケージが一度解決されると再解決されないため、実際には無限ループを防ぎます。

採点詳細を表示 ▼

正確さ

重み 35%

回答Aは、指定された例（A>=1.1.0 -> A=1.2.0, C=1.0.0, B=2.5.0）を正しく解決し、バックトラッキングによって競合を処理します。制約蓄積アプローチにより、バージョンを選択する際にすべての制約がチェックされることが保証されます。解決不可能なケースや不足しているパッケージに対してValueErrorを正しく発生させます。

完全性

重み 20%

回答Aは、不足しているパッケージ、バージョン競合、推移的依存関係、および空の入力を処理します。visitedセットで循環依存関係を明示的に処理しませんが、解決済みの辞書を通じて無限ループを回避します。指定されたすべての演算子をカバーしています。

コード品質

重み 20%

回答Aは、明確に命名されたヘルパー関数により、関心の分離が明確です。制約マップのアプローチはエレガントであり、MRVヒューリスティックはアルゴリズムの洗練度を示しています。コメントは役立ちます。deepcopyの使用は正しいですが、最適化される可能性があります。コードは全体的に非常によく構造化されています。

実用性

重み 15%

回答AのMRVヒューリスティックと制約伝播アプローチは、多くのパッケージを持つ実世界の依存関係グラフでより優れたパフォーマンスを発揮するでしょう。制約蓄積モデルは、実際の依存関係リゾルバがどのように機能するかにより近いです。deepcopyのオーバーヘッドは、非常に大きな依存関係ツリーの場合、懸念事項となる可能性があります。

指示遵守

重み 10%

回答Aは、すべての指示に従っています：パッケージ名をバージョンにマッピングする辞書を返します、明確なメッセージとともにValueErrorを発生させます、指定されたすべての演算子を処理します、最新バージョンを目指します（降順にソート）、推移的依存関係を処理します。

回答B: Anthropic Claude Sonnet 4.6

全文を表示 ▼

import re from functools import cmp_to_key def parse_requirement(req_str): """ Parse a requirement string like 'A>=1.2.0', 'B', 'C==1.0.0' Returns (name, operator, version) where operator and version may be None. """ req_str = req_str.strip() match = re.match(r'^([A-Za-z0-9_\-\.]+)\s*(==|!=|>=|<=|>|<)\s*([0-9][A-Za-z0-9\.\-]*)$', req_str) if match: return match.group(1), match.group(2), match.group(3) # No specifier match2 = re.match(r'^([A-Za-z0-9_\-\.]+)$', req_str) if match2: return match2.group(1), None, None raise ValueError(f"Cannot parse requirement: {req_str!r}") def parse_version(version_str): """Parse a version string into a tuple of integers for comparison.""" parts = [] for part in version_str.split('.'): try: parts.append(int(part)) except ValueError: parts.append(part) return tuple(parts) def version_satisfies(version_str, operator, constraint_version_str): """Check if version_str satisfies the constraint operator+constraint_version_str.""" if operator is None: return True v = parse_version(version_str) c = parse_version(constraint_version_str) if operator == '==': return v == c elif operator == '!=': return v != c elif operator == '>=': return v >= c elif operator == '<=': return v <= c elif operator == '>': return v > c elif operator == '<': return v < c return False def get_sorted_versions(package_name, package_index): """Return versions of a package sorted from latest to oldest.""" if package_name not in package_index: return [] versions = list(package_index[package_name].keys()) versions.sort(key=lambda v: parse_version(v), reverse=True) return versions def resolve(requirements, package_index): """ Resolve package dependencies. Args: requirements: List of requirement strings (e.g., ["A>=1.2.0", "B"]) package_index: Dict mapping package names to dicts of version->dependencies Returns: Dict mapping package names to resolved version strings. Raises: ValueError: If no valid resolution exists. """ # We'll use a backtracking approach. # State: a dict of {package_name: resolved_version} # We maintain a queue of requirements to process. def backtrack(resolved, pending_requirements, visited_states=None): """ resolved: dict of {pkg_name: version_str} - already resolved packages pending_requirements: list of (name, operator, version) tuples to satisfy Returns resolved dict or raises ValueError. """ if visited_states is None: visited_states = set() # Deduplicate and check pending requirements if not pending_requirements: return resolved # Take the first pending requirement name, op, ver = pending_requirements[0] rest = pending_requirements[1:] # Check if already resolved if name in resolved: # Verify the resolved version satisfies this constraint if version_satisfies(resolved[name], op, ver): return backtrack(resolved, rest, visited_states) else: # Conflict with already resolved version raise ValueError( f"Conflict: {name}=={resolved[name]} does not satisfy {name}{op or ''}{ver or ''}" ) # Package not yet resolved - try versions from latest to oldest if name not in package_index: raise ValueError(f"Package {name!r} not found in package index") sorted_versions = get_sorted_versions(name, package_index) # Filter versions that satisfy the current constraint candidate_versions = [ v for v in sorted_versions if version_satisfies(v, op, ver) ] if not candidate_versions: raise ValueError( f"No version of {name} satisfies constraint {name}{op or ''}{ver or ''}" ) # Also filter against all other pending requirements for the same package # Collect all constraints for this package from pending_requirements same_pkg_constraints = [(n2, o2, v2) for n2, o2, v2 in rest if n2 == name] # Filter candidates against all known constraints for this package filtered_candidates = [] for v in candidate_versions: if all(version_satisfies(v, o2, v2) for n2, o2, v2 in same_pkg_constraints): filtered_candidates.append(v) if not filtered_candidates: raise ValueError( f"No version of {name} satisfies all constraints: " f"{[(name + (o2 or '') + (v2 or '')) for _, o2, v2 in same_pkg_constraints + [(name, op, ver)]]}" ) # Remove same-package constraints from rest since we'll handle them now rest_without_same = [(n2, o2, v2) for n2, o2, v2 in rest if n2 != name] last_error = None for candidate in filtered_candidates: # Try this candidate version new_resolved = dict(resolved) new_resolved[name] = candidate # Get dependencies of this version deps = package_index[name][candidate] new_pending = [] for dep_str in deps: dep_name, dep_op, dep_ver = parse_requirement(dep_str) new_pending.append((dep_name, dep_op, dep_ver)) # Add remaining requirements new_pending.extend(rest_without_same) try: result = backtrack(new_resolved, new_pending, visited_states) return result except ValueError as e: last_error = e continue if last_error: raise ValueError( f"Could not resolve {name}: tried all candidates. Last error: {last_error}" ) raise ValueError(f"Could not resolve {name}: no candidates available") # Parse initial requirements parsed_reqs = [] for req_str in requirements: name, op, ver = parse_requirement(req_str) parsed_reqs.append((name, op, ver)) return backtrack({}, parsed_reqs) # Example usage and testing if __name__ == '__main__': package_index = { "A": { "1.0.0": ["B<2.0.0"], "1.1.0": ["B<3.0.0"], "1.2.0": ["C==1.0.0"] }, "B": { "1.5.0": [], "2.5.0": [] }, "C": { "1.0.0": ["B>=2.0.0"], "1.1.0": [] } } # Test 1: A>=1.1.0 should resolve to A=1.2.0, C=1.0.0, B=2.5.0 result = resolve(["A>=1.1.0"], package_index) print("Test 1:", result) assert result == {'A': '1.2.0', 'C': '1.0.0', 'B': '2.5.0'}, f"Expected A=1.2.0, C=1.0.0, B=2.5.0, got {result}" # Test 2: A==1.1.0 should resolve to A=1.1.0, B=2.5.0 (latest B < 3.0.0) result2 = resolve(["A==1.1.0"], package_index) print("Test 2:", result2) assert result2 == {'A': '1.1.0', 'B': '2.5.0'}, f"Expected A=1.1.0, B=2.5.0, got {result2}" # Test 3: Conflict - A==1.2.0 needs C==1.0.0 which needs B>=2.0.0, but also B<2.0.0 try: result3 = resolve(["A==1.2.0", "B<2.0.0"], package_index) print("Test 3 (should have failed):", result3) except ValueError as e: print("Test 3 (expected conflict):", e) print("All tests passed!")

判定

2位

勝利票

1 / 3

平均スコア

採点モデル OpenAI GPT-5.2

総合点

総評

正規表現による妥当な解析と、例示的なテストを含むバックトラッキングリゾルバを提供します。しかし、既に解決済みのパッケージに対して後から発見された制約を適切に蓄積・強制することができません。後続の依存関係が既に解決済みのパッケージに対してより厳しい制約を導入した場合、リゾルバはバックトラックして依存パッケージの別のバージョンを試すのではなく、誤って失敗する可能性があります。また、未使用のvisited_statesが含まれており、制約が進化する際のバージョン選択に対する堅牢な戦略が欠けているため、一般的なシナリオでは不正確です。

採点詳細を表示 ▼

正確さ

重み 35%

単純なケースは解決できますが、後から既に解決済みのパッケージに対して制約が導入された場合に適切にバックトラックできません（以前の選択を再検討するのではなくエラーになります）。これにより、後続の制約が以前に選択されたパッケージの別のバージョンを選択することを強制する、解決可能なグラフで誤って失敗します。

完全性

重み 20%

保留中の要件内で、同じパッケージの解析、バックトラッキング、およびいくつかの複数制約フィルタリングを実装しています。サンプルテストが含まれています。しかし、現実的な解決に必要な完全な制約伝播アプローチが欠けており、visited_statesは未使用です。

コード品質

重み 20%

読みやすく、モジュール化されたヘルパー関数と明確なテストの足場。軽微な問題：未使用のインポート（cmp_to_key）、未使用のvisited_states、および制約のPythonリスト表現を埋め込むエラーメッセージ。

実用性

重み 15%

教育的な例として役立ち、含まれているテストに合格しますが、制約処理の欠陥により、制約が時間とともに蓄積される多くの現実的な依存関係グラフでは実用的ではありません。

指示遵守

重み 10%

シグネチャに従い、メッセージとともにValueErrorを発生させます。最新バージョンを目指しています。一部の競合メッセージは不明瞭であり、__main__テストブロックが含まれています（害はありません）が、コアアルゴリズムの動作は、可能な場合に有効なセットを見つけるという要件から逸脱しています。

採点モデル Google Gemini 2.5 Flash

総合点

総評

Answer Bは、堅牢で効率的な依存関係リゾルバを提供します。その解析関数（`parse_requirement`、`parse_version`）は、特に正規表現の使用により、より堅牢です。バックトラッキングアルゴリズムはうまく実装されており、その状態管理（`pending_requirements`をリストとして渡す）は、大きな辞書をディープコピーするよりも効率的です。また、パッケージのすべての既知の制約に対して候補をフィルタリングしてから再帰処理を行うことで、優れた最適化も含まれています。マイナーな未使用インポート（`cmp_to_key`）と未使用の`visited_states`パラメータがありますが、これらは全体的な品質と正確性を著しく損なうものではありません。

採点詳細を表示 ▼

正確さ

重み 35%

このソリューションは、推移的な依存関係やバージョンの競合を含む依存関係解決アルゴリズムを正しく実装しています。バージョン解析と要件解析は堅牢であり、最新の互換性のあるバージョンを選択するロジックは健全です。

完全性

重み 20%

このソリューションは、推移的な依存関係、バージョンの競合、最新バージョンの優先など、プロンプトのすべての側面を完全に網羅しています。パッケージが見つからない場合や入力が空の場合などのエッジケースを適切に処理します。アルゴリズムは、依存関係ツリーの探索において完全です。

コード品質

重み 20%

コードは整理されており、読みやすく、適切なデータ構造を使用しています。要件の解析に正規表現を使用することは良いプラクティスです。マイナーな問題として、未使用の`visited_states`パラメータと未使用の`cmp_to_key`インポートがありますが、これらはそれ以外は高品質な実装における小さな欠点です。

実用性

重み 15%

このソリューションは、堅牢な解析、（コストのかかるディープコピーを回避する）効率的なバックトラッキング状態管理、およびパッケージの制約を統合するための最適化により、高い実用価値を提供します。これらの側面により、実際の依存関係解決タスクに適しています。

指示遵守

重み 10%

このソリューションは、関数シグネチャや戻り値の型から、バージョン指定子やエラー条件の特定の処理まで、すべての指示を綿密にフォローしています。要求されたとおりに最新バージョンを優先する、健全で効率的なアルゴリズムをうまく実装しています。

採点モデル Anthropic Claude Opus 4.6

総合点

総評

回答Bは、明確な構造と優れたドキュメントを備えた、動作するバックトラッキングリゾルバを提供します。要件の解析には正規表現を使用しており、より堅牢です。正当性を示すインラインテストケースが含まれています。しかし、制約伝播を使用するのではなく、キューから要件を1つずつ処理するため、効率が悪いです。実際には使用されないvisited_statesパラメータが含まれています。保留中のリストから同じパッケージの制約に対して候補をフィルタリングするアプローチは、合理的な最適化です。しかし、回答Aが持つMRVヒューリスティックを欠いているため、複雑な依存関係グラフでは効率が低下する可能性があります。循環依存の処理も暗黙的です。懸念事項として、同じパッケージの制約が異なる依存関係チェーンから来る場合、保留中のキューで後から到着する制約を見逃す可能性があることです。

採点詳細を表示 ▼

正確さ

重み 35%

回答Bは、指定された例を正しく解決し、正当性を検証するテストアサーションが含まれています。しかし、要件の逐次処理は、同じパッケージの制約が依存関係ツリーの異なるブランチから来るより複雑なシナリオでは、制約の相互作用を見逃す可能性があります。

完全性

重み 20%

回答Bは、不足しているパッケージ、バージョンの競合、推移的な依存関係、およびすべての演算子を処理します。循環依存の可能性を意識していることを示唆するvisited_statesパラメータが含まれていますが、実際には使用されません。さまざまなシナリオを示す包括的なテストケースが含まれています。

コード品質

重み 20%

回答Bは、より堅牢な正規表現を解析に使用しています。コードはdocstringと型説明で十分に文書化されています。しかし、未使用のvisited_statesパラメータはコードの悪臭です。インラインテストケースは、使用法を示すのに良い点です。全体的な構造は明確ですが、Aの制約ベースのアプローチよりもわずかにエレガントさに欠けます。

実用性

重み 15%

回答Bの逐次アプローチは理解しやすいですが、複雑な依存関係グラフでは効率が悪いです。含まれているテストケースは、検証に実用的な価値を追加します。しかし、MRVヒューリスティックの欠如は、中程度に複雑な実世界のシナリオでは大幅に遅くなる可能性があることを意味します。

指示遵守

重み 10%

回答Bは、すべての指示に従っています。正しい辞書形式を返し、メッセージ付きでValueErrorを発生させ、すべての演算子を処理し、最新バージョンを最初に選択し、推移的な依存関係を処理します。含まれているテストケースは要件を超えていますが、準拠を示しています。

比較結果サマリー

最終順位は、採点者ごとの順位集約（平均順位 + ボルダ方式の同点処理）で決定します。平均点は参考表示です。

採点者数: 3

勝者 OpenAI GPT-5 mini

勝利票

2 / 3

平均点

この回答を見る

Anthropic Claude Sonnet 4.6

勝利票

1 / 3

平均点

この回答を見る

このモデル組み合わせの通算戦績を見る

採点結果

採点モデル Anthropic Claude Opus 4.6

GPT-5 mini 勝者 73

Claude Sonnet 4.6 70

勝者理由

回答A获胜主要归功于其更复杂的算法设计。它使用了一个约束映射，为每个包累积所有约束，并结合MRV（最小剩余值）启发式方法，该方法首先选择候选最少的包。这是约束满足问题的一种著名优化方法，可显著提高效率。回答B按顺序从队列中处理需求，这可能会忽略约束交互，并且通常效率较低。对于给定的示例，两个回答都是正确的，并且都能处理基本的边缘情况，但回答A的方法对于复杂的依赖关系图更为健壮。回答A的错误消息也略好一些，它列出了一个包的所有冲突约束。

採点モデル Google Gemini 2.5 Flash

GPT-5 mini 81

Claude Sonnet 4.6 勝者 87

勝者理由

回答Bは、正規表現を使用したより堅牢な解析ロジックと、バックトラッキングアルゴリズムのためのより効率的な状態管理戦略により優れています。回答Aの`deepcopy`操作は、すべての再帰ステップで実行されるため、大きな依存関係グラフでは重大なパフォーマンスのボトルネックとなる可能性があり、回答Bのアプローチの方が実用的でスケーラブルです。回答Bには、パッケージを解決しようとする前にすべての制約を統合するという貴重な最適化も含まれています。

採点モデル OpenAI GPT-5.2

GPT-5 mini 勝者 74

Claude Sonnet 4.6 60

勝者理由

回答Aは、パッケージごとにグローバルな制約セットを維持し、新しい依存関係の制約によって選択が無効になった場合にバックトラックすることで、以前の決定を調整できます。回答Bは、早期に高バージョンを選択してしまうと、後から制約が現れたときにコンフリクトを発生させる可能性があり、以前の選択を再考することはありません。これは依存関係解決における、正確性が критически な欠陥です。

パッケージ依存関係リゾルバを実装する

お題概要

お題本文

回答

回答A: OpenAI GPT-5 mini

回答B: Anthropic Claude Sonnet 4.6

比較結果サマリー

採点結果

関連お題

新しい営業報告プロセスについての社内メモ

都市コミュニティスペースの再構想

市の週4日勤務制方針の分析

魔法対応害獣駆除サービスへの正式な苦情

スエズ運河の歴史を要約する

仕事の圧倒感への共感的な返答

スケーラブルなリアルタイム通知システムの設計

忘れられたロボットの弔辞

関連リンク