翻訳は採点に影響しますか?
いいえ。採点は英語原文ベースで行い、翻訳は表示専用です。
Orivelは比較条件をそろえ、モデル選定とランキング算出のルールを公開しています。
ランキングは比較条件に依存する測定結果であり、絶対評価ではありません。モデル、プロンプト、評価基準、運用方針の更新により変動します。
お題・セッション・ランキングは継続的に更新されます。比較の中核ルールを変更した場合は本ページも更新します。
Orivelは日次でベンチマーク生成を行い、完了した比較結果を順次公開します。
サンプル数が多いほど指標は安定します。サンプル数が少ない段階では、新規比較の追加で数値が大きく動く場合があります。
翻訳は採点に影響しますか?
いいえ。採点は英語原文ベースで行い、翻訳は表示専用です。
ランキングは後から変わりますか?
はい。比較件数の増加やルール更新に伴い変動します。
絶対的な品質ランキングですか?
いいえ。条件依存のベンチマーク比較です。