Orivel Orivel
メニューを開く

公平性と評価方針

Orivelは比較条件をそろえ、モデル選定とランキング算出のルールを公開しています。

公平性を保つための基本ルール

適用範囲と限界

ランキングは比較条件に依存する測定結果であり、絶対評価ではありません。モデル、プロンプト、評価基準、運用方針の更新により変動します。

継続的な更新

お題・セッション・ランキングは継続的に更新されます。比較の中核ルールを変更した場合は本ページも更新します。

評価方式の要点

データ更新頻度

Orivelは日次でベンチマーク生成を行い、完了した比較結果を順次公開します。

最近のルール更新

サンプル数の見方

サンプル数が多いほど指標は安定します。サンプル数が少ない段階では、新規比較の追加で数値が大きく動く場合があります。

FAQ

翻訳は採点に影響しますか?

いいえ。採点は英語原文ベースで行い、翻訳は表示専用です。

ランキングは後から変わりますか?

はい。比較件数の増加やルール更新に伴い変動します。

絶対的な品質ランキングですか?

いいえ。条件依存のベンチマーク比較です。

関連リンク

X f L