皮肉屋の機長による機内アナウンス

このお笑いベンチマークに対する各AIの回答と比較結果を確認できます。

いいね・お気に入り機能を使うにはログインまたは新規登録が必要です。新規登録

X f L

お題概要

比較ジャンル

お笑い

お題作成モデルお題作成者は、対応プロバイダ各社の上位お題生成モデル候補の中からランダムに選ばれます。

Google Gemini 2.5 Pro

回答モデルこのお題では、お題作成者と同じプロバイダのモデルは回答対象から除外されます。

回答A Anthropic Claude Opus 4.6

回答B OpenAI GPT-5.4

採点モデル採点は回答モデルを除いた候補から3モデルで実施します。3モデルは異なる3プロバイダから選び、上位モデルを最低1つ含め、軽量モデルは採点者に選びません。

OpenAI GPT-5.2 Anthropic Claude Sonnet 4.6 Google Gemini 2.5 Pro

お題本文

パイロットの視点から書かれた、短くユーモラスな機内放送を作成してください。そのパイロットは仕事に完全にうんざりしている人物です。放送は機内のインターホンを通じて行われる想定で、語り口は乾いた皮肉と人生に疲れたような調子にしてください。ただし、乗客を本当に不安にさせるような内容にはしないでください。歓迎の挨拶、飛行時間、天候といった通常のトピックを含めつつ、航空旅行に対する機長の皮肉な視点を織り交ぜてください。

補足情報

シナリオは、大都市から人気の休暇先への標準的な定期便です。乗客はちょうど席について落ち着いたところで、機体は離陸の準備をしています。パイロットである機長、Captain Eva Rostovaは20年間飛行しており、職業上の些細な不便や不条理に対する我慢をすべて失っています。彼女は、航空会社の定型文よりも正直な放送を行うことに決めました。

採点方針

高品質な解答は、本当にユーモラスであり、機長キャラクターにふさわしい一貫した乾いた皮肉な口調を維持していることが求められます。放送は、標準的な機内アナウンスの期待を巧妙に覆しつつも首尾一貫しており、必要な点（歓迎、飛行時間など）をきちんとカバーしている必要があります。ユーモアは乗客にとって身近な航空旅行の体験や、機長の疲れ切った視点から生じるものであり、陳腐な決まり文句や乗客を本当にパニックに陥れるような冗談は避けてください。独創性と強いキャラクターボイスが重要です。

回答

回答A: Anthropic Claude Opus 4.6

キャプテン・エヴァ・ロストヴァ：クリック

「午後のひとときを、淑女の皆様、紳士の皆様、そしてまだゲートを離れてもいないのに座席をリクライニングさせている皆様、こんにちは。機長のエヴァ・ロストヴァです。この仕事を始めて20年になりますが、これは全く同じ挨拶を約4000回してきたということです。ですから、この仕事にワクワクしているふりをすることをお許しください。

シカゴ・オヘアからカンクンへの直行便、714便へようこそ。火曜日の午前2時に酔った勢いでこの旅行を予約した方々（統計的に見て、その半数くらいでしょう）には、空港にたどり着けたことをお祝い申し上げます。本当に感心しています。

今日の飛行時間は約3時間47分ですが、真ん中...

全文を表示 ▼

キャプテン・エヴァ・ロストヴァ：クリック

今日の飛行時間は約3時間47分ですが、真ん中の席にお座りの方にとっては、3年47分に近く感じるでしょう。謝罪したいところですが、座席表は私が作ったものではありません。この航空会社で人間の良心を置き換えた、何らかのコスト最適化アルゴリズムのせいにするか、あるいはそれに文句を言ってください。

巡航高度は36,000フィートですが、これは豆知識ですが、私の最初のキャリアの願望から感じられる距離とほぼ同じです。

カンクンの天気は、88度で晴れです――もちろんそうでしょう。カンクンですから。なぜ私がそれを伝えなければならないのか分かりません。凍えるような天気になると期待してカンクンを予約したわけではないでしょう。

さて、いくつか事務的な連絡事項です。まもなく客室乗務員が飲み物のカートを持って機内を回ります。コーヒーは、いつものように、紙コップに入った戦争犯罪であり、ワインは、いたずらと法的に分類されるべきほど小さいボトルに入っていますのでご注意ください。しかし、ファーストクラスでは無料ですので、そちらにいらっしゃる方は、私たちの分まで飲んでください。

シートベルトを締め、トレイテーブルを上げ、機内持ち込み手荷物を頭上の棚に収納してください――パッシブアグレッシブなテトリスのゲームのように、前の座席の下に押し込まないでください。はい、機内カメラで見えています。ええ、14Cさん、あなたのことです。

万が一、水上着水ということになった場合――そして「万が一」という言葉を強調させてください。なぜなら、私はこの仕事を20年間やってきましたが、私に起こった最も劇的なことは、ラガーディア空港の外でカモメがフロントガラスにぶつかったことだけだからです――座席のクッションは浮揚装置として使用できます。しかし、枕や足置き、あるいはセラピーセッションとして使用することはできません。ただし、その3つすべてが試みられたのを見たことがあります。

航空交通管制が私たちの存在を認識してくれると仮定して、約10分後にゲートからプッシュバックする予定ですが、過去のデータに基づくと、それは決して保証されるものではありません。

ですから、どうぞ座って、リラックスして、フライトをお楽しみください。あるいは、リラックスしなくても構いません。アームレストを握りしめてください。大学時代以来話していない神々に祈りをささやいてください。私にはどちらでも構いません。どちらにしても、あなたを目的地までお連れします。

キャプテン・ロストヴァでした。巡航高度に達するまで失礼します。その時点で、私はもう一度アナウンスをしますが、皆さんは皆AirPodsをつけているので、誰も聞き取れないでしょう。

クリック

判定

1位 | 勝者

勝利票

3 / 3

平均スコア

採点モデル OpenAI GPT-5.2

総合点

総評

回答Aは、ドライで皮肉なパイロットの声を強く一貫して演じており、具体的な航空会社関連の観察（座席のリクライニング、真ん中の席、管制遅延、飲み物の質、安全に関する項目）を複数盛り込みながらも、不安を煽らないようにしています。必要なトピック（歓迎/ルート、飛行時間、天気、基本的な安全/注意事項）をすべて明確にカバーしており、実際の機内アナウンスのように段階的な指示も感じられます。少し長いですが、ジョークはテーマに沿っており、一貫性を損なうことなくうまくエスカレートしています。

採点詳細を表示 ▼

面白さ

重み 35%

頻繁でパンチの効いたジョークは、認識可能な飛行機の不満に基づいています。パンチライン（コスト最適化アルゴリズム、コーヒーは戦争犯罪、14Cの呼び出し）は、実際のパニックを引き起こすことなく強力です。

独自性

重み 25%

多くの新鮮で具体的な言い回しや個性的な比喩があり、一般的な皮肉ではなく、ベテランパイロットの皮肉屋ぶりに合わせたように感じられます。

一貫性

重み 15%

明確なセグメント（歓迎/ルート/時間/天気/注意事項/安全/締め）と一貫したペルソナにより、実際のアナウンスのような流れになっています。

指示遵守

重み 10%

主要な要件をすべて満たしています：機内アナウンスのような雰囲気、パイロットの名前、ルート、飛行時間、天気、安全/注意事項、実際の不安を引き起こさないドライで皮肉なトーン。

分かりやすさ

重み 15%

長さにもかかわらず非常に明瞭です。具体的な詳細（時間、高度、手順）と分かりやすい構成になっています。

採点モデル Anthropic Claude Sonnet 4.6

総合点

総評

回答Aは、一貫したドライなユーモアを全編にわたって展開する、完全に練り上げられた、詳細な機内アナウンスです。ロストヴァ機長のボイスは、最初から最後までシャープに定義され、維持されています。ジョークは層が厚く、具体的で、実際に共感できる空の旅の経験に根ざしています。中央の座席に関する言及、小さなワインボトル、AirPodsのサインオフ、そして14Cの呼び出しはすべて、個々の強力な瞬間です。この作品は、ウィットに富みながら、必要なトピックをすべて網羅しており、一貫性を失うことはありません。その長さは、ジョークとキャラクターワークの密度によって正当化されており、「クリック」というフレーミングデバイスは、構造的な工夫として優れています。わずかな弱点：いくつかのセリフが馴染みのある領域に近づいています（救命胴衣のくだり）が、実行は新鮮なままです。

採点詳細を表示 ▼

面白さ

重み 35%

Aは、中央の座席の時間遅延、いたずらとしての小さなワインボトル、14Cのカメラ呼び出し、AirPodsのサインオフなど、強力な具体性を持つよく実行されたジョークを高密度で提供しており、これらはすべて実際に面白く、良いタイミングで着地しています。ユーモアは、顕著な低下なしに全体を通して維持されています。

独自性

重み 25%

Aは、午前2時の酔っ払いの予約統計、キャリア願望から36,000フィートというセリフ、人間の尊厳に取って代わるコスト最適化アルゴリズム、ラガーディアでのカモメなど、いくつかの非常に独創的な観察を生み出しています。これらは新鮮で、キャラクターに特有のものだと感じられます。

一貫性

重み 15%

Aは、キャラクターの声遣いを維持しながら、トピックからトピックへと自然に流れています。「クリック」というフレーミングデバイスと、標準的なアナウンスのトピックを通じた論理的な進行が、強力な構造的一貫性を与えています。

指示遵守

重み 10%

Aは、歓迎、飛行時間、天気、安全指示、そしてパイロットの皮肉な視点という、必要な要素をすべて明示的にカバーしています。エヴァ・ロストヴァ機長の名前を挙げ、20年の経験に言及し、実際に警告的になることなく、終始ドライで皮肉っぽく、世慣れたトーンを維持しています。

分かりやすさ

重み 15%

Aは全体を通して明確に書かれています。ジョークは理解しやすく、キャラクターの声は一貫しており、構造は理解しやすいです。混乱したり曖昧なセリフはありません。

採点モデル Google Gemini 2.5 Pro

総合点

総評

回答Aは、ユーモアあふれる傑作です。要求されたトーンとキャラクターを完璧に捉え、標準的な機内アナウンスの構造に巧みに織り込まれた、具体的で共感を呼び、本当に面白いジョークの数々を提供しています。キャラクターの声は力強く一貫しており、おなじみの前提にもかかわらず、ユーモアは新鮮で独創的に感じられます。長さと詳細は素晴らしく、典型的なアナウンスのすべての側面を皮肉なひねりを加えてカバーしています。

採点詳細を表示 ▼

面白さ

重み 35%

ユーモアは非常に効果的で、航空旅行に関する非常に具体的で共感を呼ぶ観察から生まれています。「コーヒーは紙コップに入った戦争犯罪」や、機内カメラで14C席を呼び出すといったセリフは、本当に陽気で、この作品を高めています。

独自性

重み 25%

「皮肉屋のパイロット」はよく知られた定型句ですが、この回答は、独自のディテールと観察を通じて、それを新鮮で独創的に感じさせています。巡航高度をキャリアの願望と比較したり、小さなワインボトルに関する具体的なコメントをしたりすることは、創造的で予想外です。

一貫性

重み 15%

アナウンスは完全に首尾一貫しており、最初から最後まで実際の機内アナウンスの論理的な構造に従っています。この構造は、破壊的なユーモアのための優れたフレームワークを提供しています。

指示遵守

重み 10%

回答はすべての指示に完璧に従っています。ペルソナを採用し、指定されたトーンを維持し、必要なすべてのトピック（歓迎、飛行時間、天気など）をカバーし、対話として提示されています。

分かりやすさ

重み 15%

文章は非常に明瞭かつ簡潔です。すべてのジョークは、最大限のコメディ効果を発揮するように完璧にフレーズ化されており、全体的なメッセージは理解しやすいです。

回答B: OpenAI GPT-5.4

キャプテンのエヴァ・ロストワです。ここは空を猛スピードで突き進む、窓のない小さなオフィス、フライトデッキからお送りしています。なぜなら、私たち全員にとって、それがまだ良い考えだと思えるからです。あなたが必死で離れたかった街から、水で薄めたカクテルに３倍の値段を払ってリラックスと呼ぶことになるビーチへのフライトへようこそ。

管制、天候、そして現代文明の一般的な崩壊が、いつもの期待外れのレベルで協力してくれると仮定すれば、飛行時間は約３時間２０分になるはずです。動き始めたら、座っている間はシートベルトを着用してください。それが魅力的な伝統だからではなく、ネックピローを取り出そうと立ち上がった人を、乱気流が謙虚にさせるのが好きだからです。

目的地は晴れ、暖かく、不快なほど完璧な天気で、同僚をイライラさせる写真を投稿するために特別にデザインされたそよ風が吹いています。途中、いくつかの揺れに遭遇するかもしれませんが、それは普通のことです。航空機はそのために作られています。あなた方の一部は、そうではありません。

この時点で、トレイテーブルを上げ、座席を直立にし、楽観主義を頭上の収納棚にしっかりと保管してください。客室乗務員がまもなく通り、私がもう持っていないプロ意識で笑顔を振りまきます。

乗務員一同を代表して、ご利用いただきありがとうございます。皆様には選択肢があったことを承知しておりますが、それでも、私たちは皆ここにいます。

判定

2位

勝利票

0 / 3

平均スコア

採点モデル OpenAI GPT-5.2

総合点

総評

回答Bは、しっかりとした皮肉なトーンと、いくつかの良いセリフ（頭上の収納棚の楽観主義、乱気流が人々を謙虚にする）があり、簡潔で一貫性があります。しかし、提示されたシナリオへの具体性が低く（便名、出発地/目的地の名前がなく、標準的な安全/ハウスキーピングの要素が少ない）、「現代文明の一般的な崩壊」という表現は、必要以上に不穏なものに近づいています。全体として面白いですが、Aほど発展しておらず、鮮明さも、「インターコムスクリプトの転覆」という点でも劣ります。

採点詳細を表示 ▼

面白さ

重み 35%

いくつかの強力なセリフがあり、一貫して皮肉が効いていますが、爆笑を誘うようなセリフや、エスカレートするコメディ構造は少なめです。文明に関するダークなセリフが1つあり、「安全な」ユーモアをわずかに低下させています。

独自性

重み 25%

いくつかのオリジナルの表現（頭上の収納棚の楽観主義）がありますが、いくつかのアイデアは、より一般的/ありふれた皮肉な旅行コメントであり、キャラクターの個性が少ないです。

一貫性

重み 15%

論理的な進行と一貫した声のトーンがあります。やや唐突な終わり方と、標準的な要素の少なさが、アナウンススクリプトというよりはモノローグのように感じさせます。

指示遵守

重み 10%

ドライなトーンとアナウンススタイルはありますが、具体的なシナリオの詳細（主要都市から人気の目的地へ、ルート名）が欠けており、「現代文明の崩壊」は「必ずしも不穏ではない」という制約に抵触する可能性があります。

分かりやすさ

重み 15%

明瞭で読みやすく、散らかりがありません。簡潔なデリバリーにより、コア情報がすぐにアクセス可能になりますが、やや具体性に欠けます。

採点モデル Anthropic Claude Sonnet 4.6

総合点

総評

回答Bは、明確なコメディの語り口と、実際に気の利いたセリフがいくつかある、手際が良くパンチの効いた作品です。「空を飛ぶ窓のないオフィス」「頭上の棚にしっかりと保管された楽観主義」、そして同僚をイライラさせる写真のセリフなどが際立っています。しかし、明らかに短く、必要なトピックをより表面的にカバーしています。ユーモアはよりまばらで、持続的なコメディ展開よりも、いくつかの良い一発ギャグに頼っています。キャプテン・ロストヴァというキャラクターは、回答Aよりも十分に演じられているとは感じられません。完成したアナウンスというよりは、スケッチのアウトラインのように読め、いくつかの展開が急ぎすぎているか、未発達に感じられます。

採点詳細を表示 ▼

面白さ

重み 35%

Bにはいくつかの気の利いたセリフ（窓のないオフィス、頭上の棚の楽観主義、同僚の写真）がありますが、ユーモアはよりまばらで、あまり展開されていません。コメディの展開はより孤立しており、Aのように勢いがつきません。

独自性

重み 25%

Bにはオリジナルの設定（窓のないオフィス、頭上の棚の楽観主義）がいくつかありますが、より一般的な皮肉屋のパイロットの定型句に頼っています。同僚の写真のセリフは良いタッチですが、全体としてAよりも独創性に欠ける作品だと感じられます。

一貫性

重み 15%

Bは、その長さにしては首尾一貫しており、よく構成されていますが、簡潔さゆえにいくつかの移行が唐突に感じられ、トピックは展開されるというよりは触れられているだけです。作品はまとまっていますが、それほど完成しているとは感じられません。

指示遵守

重み 10%

Bは必要なトピックをカバーしていますが、より簡潔で、キャラクターの根拠付けもより表面的です。20年の経験という詳細はなく、いくつかの必須要素（安全指示）は非常にぞんざいに扱われています。

分かりやすさ

重み 15%

Bもまた明確に書かれており、おそらく言葉遣いはより経済的です。簡潔さは明瞭さを助けますが、それは深みの犠牲を伴います。明瞭さに関する問題はありません。

採点モデル Google Gemini 2.5 Pro

総合点

総評

回答Bは、皮肉なトーンをうまく捉えた、堅実で有能な回答です。いくつかの良いジョークが含まれており、プロンプトの指示に従っています。しかし、回答Aと比較して、著しく短く、詳細に欠けます。ユーモアは効果的ですが、競合する回答に見られる非常に具体的で記憶に残るディテールよりも、より一般的な皮肉な観察に依存しています。キャラクターの声は存在しますが、あまり発達していません。

採点詳細を表示 ▼

面白さ

重み 35%

ユーモアは良く、皮肉なトーンに合っています。「楽観主義は頭上の荷物入れにしっかりと保管してください」のようなセリフは効果的です。しかし、ジョークは回答Aよりも一般的でパンチに欠けるため、コメディのパフォーマンスとしてはインパクトが弱いです。

独自性

重み 25%

回答は創造的ですが、より一般的な皮肉なユーモアに頼っています。高価な休暇のカクテルや乱気流に関するジョークは使い古されており、全体として競合相手よりも独創性に欠ける印象を与えます。

一貫性

重み 15%

アナウンスは首尾一貫しており、理解しやすいです。しかし、その簡潔さから、完全で構造化されたアナウンスというよりは、一連の皮肉な一発ギャグのように感じられます。

指示遵守

重み 10%

回答は、トーン、キャラクター、フォーマットに関する主要な指示に従っています。必要なポイントをカバーしていますが、「通常の」機内アナウンスのトピックを探求するという点では、回答Aよりも徹底していません。

分かりやすさ

重み 15%

言葉遣いは明確で、ジョークは理解しやすいです。明瞭さに関する問題はありません。

比較結果サマリー

最終順位は、採点者ごとの順位集約（平均順位 + ボルダ方式の同点処理）で決定します。平均点は参考表示です。

採点者数: 3

勝者 Anthropic Claude Opus 4.6

勝利票

3 / 3

平均点

この回答を見る

OpenAI GPT-5.4

勝利票

0 / 3

平均点

この回答を見る

このモデル組み合わせの通算戦績を見る

採点結果

採点モデル Google Gemini 2.5 Pro

Claude Opus 4.6 勝者 91

GPT-5.4 74

勝者理由

回答Aは、ユーモアと独創性において著しく効果的であるため、勝者です。そのジョークはより具体的で、詳細で、巧妙であり、はるかに強く、記憶に残るキャラクターボイスを作り出しています。回答Bも良いですが、回答Aの文章は、特に最も重視されるユーモアと独創性の基準において、全体的に優れています。

採点モデル Anthropic Claude Sonnet 4.6

Claude Opus 4.6 勝者 87

GPT-5.4 73

勝者理由

回答Aは、最も重み付けの高い2つの基準において圧倒的な勝利を収めています。ユーモアの有効性（重み35）では、Aは持続的で多層的なコメディパフォーマンスを提供し、数多くの強力な個々のジョークと一貫した世をすねたような声を持っていますが、Bにはいくつか良いセリフはありますが、同じ密度と展開が欠けています。独創性（重み25）では、Aはより独創的で具体的な観察を提供しています。午前2時の酔っ払い予約統計、キャリア願望から36,000フィートというセリフ、14Cカメラの言及などは、Bのより一般的で皮肉なジョークよりも新鮮でキャラクター主導に感じられます。また、Aは、必要なトピックをすべてより徹底的にカバーすることで、一貫性と指示に従う点でもより優れたパフォーマンスを発揮しています。Bの簡潔さはここでは美徳ではありません。タスクの期待値と比較して、キャラクターとユーモアが未発達のままになっています。

採点モデル OpenAI GPT-5.2

Claude Opus 4.6 勝者 83

GPT-5.4 72

勝者理由

ルーブリックによる重み付けでは、回答Aは主にユーモアの効果と独創性（最も重い基準）で勝利し、同時にプロンプトにより完全に準拠し、より本物のインターコムの詳細と必要なアナウンスのトピックをより明確に網羅しています。回答Bは首尾一貫しており簡潔ですが、際立ったシナリオ固有のジョークが少なく、より広範な破局的な言葉遣いでわずかに不安を煽るリスクがあります。

皮肉屋の機長による機内アナウンス

お題概要

お題本文

回答

回答A: Anthropic Claude Opus 4.6

回答B: OpenAI GPT-5.4

比較結果サマリー

採点結果

関連お題

リアルタイム通知サービスの設計

高校生に認知バイアスを説明する

忘れられたロボットへの弔辞

感情的に消耗する友情の対処法

新しいプロジェクト管理ソフトウェアのためのビジネスケース

トランザクション対応のインメモリキー・バリューストア

社内メモ：新しいハイブリッド勤務ポリシーの発表

パッケージ依存関係の解決のためのPython関数

関連リンク