Routine de stand-up pour professionnels de la tech

Comparez les réponses des modèles pour cette tâche de benchmark en Humour et consultez scores, commentaires et exemples liés.

Connectez-vous ou inscrivez-vous pour utiliser les likes et favoris. Inscription

X f L

Sommaire

Vue d ensemble de la tache

Genres de comparaison

Humour

Modele createur de la tache Le modele createur de la tache est selectionne aleatoirement parmi les principaux modeles de generation de taches des fournisseurs pris en charge.

Google Gemini 2.5 Pro

Modeles participants Dans ce benchmark, les modeles du meme fournisseur que le createur de la tache sont exclus de la reponse.

Reponse A Anthropic Claude Haiku 4.5

Reponse B OpenAI GPT-5.2

Modeles evaluateurs L evaluation utilise exactement 3 modeles evaluateurs, en excluant les modeles repondants. Au moins 1 evaluateur est choisi parmi les modeles superieurs, les modeles legers ne sont pas utilises comme evaluateurs, et les 3 evaluateurs proviennent de 3 fournisseurs distincts.

OpenAI GPT-5.4 Anthropic Claude Sonnet 4.6 Google Gemini 2.5 Pro

Consigne de la tache

Écrivez un court numéro de stand-up (environ 250-300 mots), au format de script, sur l'expérience des visioconférences pendant le télétravail.

Informations complementaires

Le public cible est un groupe de jeunes professionnels de l'industrie technologique. Le ton souhaité est observationnel, autodérisoire et facile à identifier, sans méchanceté ni cynisme excessif. Le numéro doit éviter les blagues communes et trop utilisées sur les visioconférences, telles que les expressions 'tu es en sourdine' ou 'tu vois mon écran ?', ou les blagues sur le fait de ne porter qu'une belle chemise avec un bas de pyjama.

Politique d evaluation

Une réponse de haute qualité sera un numéro de comédie cohérent et bien structuré avec des mises en place et des punchlines claires. L'humour doit être original et paraître renouvelé, évitant avec succès les clichés spécifiés. Le ton doit correspondre à la demande — observationnel et facile à identifier pour un public tech, sans être excessivement négatif. Le numéro doit démontrer une compréhension des nuances de la culture du travail à distance au-delà des blagues les plus évidentes.

Reponses

Reponse A: Anthropic Claude Haiku 4.5

ROUTINE DE STAND-UP : « CONFESSIONS DU BUREAU À DOMICILE »

[monte sur scène]

Alors, ça fait un moment que je travaille à domicile, et j'ai découvert quelque chose : les visioconférences m'ont rendu profondément conscient de ma propre existence d'une manière que la thérapie n'a jamais pu faire.

[pause]

Par exemple, je sais maintenant exactement à quoi ressemble mon plafond. Je pourrais le décrire à une équipe de médecine légale. Il y a une tache d'eau qui ressemble à la déception de mon ancien manager.

[gestes]

Et le truc de l'angle de la caméra ? J'ai passé quarante-cinq minutes à essayer de positionner mon...

Afficher la reponse complete ▼

ROUTINE DE STAND-UP : « CONFESSIONS DU BUREAU À DOMICILE »

[monte sur scène]

[pause]

[gestes]

Et le truc de l'angle de la caméra ? J'ai passé quarante-cinq minutes à essayer de positionner mon ordinateur portable pour ressembler à un humain et non à une patate sensible. J'ai mon écran sur une pile de livres, mon clavier sur une autre pile de livres. Je construis essentiellement un monument littéraire à ma propre insécurité.

[s'assoit sur un tabouret]

Ensuite, il y a l'anxiété de l'arrière-plan. Tu es juste assis là, et soudain tu te dis : « Est-ce que cette pile de linge est visible ? Est-ce que ma bibliothèque dit « Je suis cultivé » ou « Je les ai achetés dans une brocante » ? » J'ai commencé à garder une plante dans le cadre. Pas parce que j'aime les plantes. Parce que j'ai lu quelque part que les plantes vous rendent digne de confiance. J'utilise la botanique comme accessoire de personnalité.

[se lève]

Mais voici ce qui me dérange vraiment : le visage d'écoute feinte. Vous connaissez celui-là. Quelqu'un parle des métriques trimestrielles, et vous hochez la tête comme si vous absorbiez des informations, mais vous vous demandez en fait si vous n'avez pas laissé le gaz allumé. Ce que vous n'avez pas fait. Vous ne cuisinez pas. Mais votre cerveau s'en fiche.

[se penche en avant]

Et le pire ? La petite fenêtre d'auto-visualisation. Pourquoi nous faisons-nous cela ? Je me regarde en train de regarder les autres. C'est comme être piégé dans un cauchemar récursif de mon propre visage.

[hausse les épaules]

J'ai commencé à fermer cette fenêtre. Je n'ai pas besoin de me voir faire semblant de m'intéresser au PowerPoint de quelqu'un. Ça, c'est entre moi et mon thérapeute.

[sort]

Resultat

#1 | Gagnant

Votes gagnants

2 / 3

Score moyen

Modeles evaluateurs Anthropic Claude Sonnet 4.6

Score total

Commentaire global

La réponse A est une routine de stand-up bien conçue, avec un humour d'observation percutant et des mises en place et chutes claires. Les blagues sur les angles de caméra, l'anxiété liée à l'arrière-plan, les visages d'écoute feinte et la fenêtre d'auto-visualisation sont toutes nouvelles et pertinentes sans recourir à des clichés. Les indications scéniques ajoutent de l'authenticité et du rythme. La routine s'enchaîne naturellement d'une observation à l'autre, construisant un récit cohérent sur le coût psychologique des vidéoconférences. La réplique « pomme de terre sensible », le sketch sur « la botanique comme accessoire de personnalité » et le cauchemar récursif de la fenêtre d'auto-visualisation sont d'une grande intelligence. Le ton est parfaitement calibré : auto-dérisoire sans être malveillant. Faiblesse mineure : elle est un peu longue et certaines transitions pourraient être plus fluides.

Afficher le detail de l evaluation ▼

Efficacite humoristique

Poids 35%

La réponse A comporte plusieurs chutes percutantes qui fonctionnent bien : « pomme de terre sensible », « la botanique comme accessoire de personnalité » et le cauchemar récursif de l'auto-visualisation sont tous d'une drôlerie authentique et bien construits. Le sketch du visage d'écoute feinte est pertinent et se développe efficacement. L'humour est constant tout au long de la routine.

Originalite

Poids 25%

La réponse A évite avec succès tous les clichés spécifiés et trouve des angles nouveaux : la tache d'eau en forme de déception d'un manager, l'utilisation de plantes comme accessoire de personnalité et la fenêtre d'auto-visualisation comme cauchemar récursif sont toutes des observations originales et spécifiques rarement vues dans l'humour des appels vidéo.

Coherence

Poids 15%

La réponse A s'enchaîne logiquement d'une observation à l'autre, avec des indications scéniques qui aident à rythmer la routine. La progression de l'anxiété liée à la caméra à l'anxiété liée à l'arrière-plan, en passant par l'écoute feinte jusqu'à la fenêtre d'auto-visualisation, semble naturelle et mène à une conclusion satisfaisante.

Respect des consignes

Poids 10%

La réponse A suit entièrement toutes les instructions : elle est au format scénario, d'une longueur approximativement correcte, évite tous les clichés spécifiés, maintient un ton d'observation et d'auto-dérision, et est appropriée pour un public technophile sans être malveillante.

Clarte

Poids 15%

La réponse A est clairement écrite, avec des mises en place et des chutes bien définies. Les indications scéniques aident à clarifier le rythme et la livraison. Chaque blague est facile à suivre et le langage est précis sans être trop complexe.

Modeles evaluateurs OpenAI GPT-5.4

Score total

Commentaire global

La réponse A est un sketch solide et cohérent, avec une structure claire et une prémisse de travail à distance relatable. Il contient plusieurs bons éléments d'observation, notamment sur les angles de caméra, les arrière-plans soignés, la fausse attention et le stress de la vue de soi. Le ton correspond bien à la demande et évite les clichés interdits. Cependant, l'humour est plus agréablement amusant que vivement percutant, et certaines répliques semblent familières plutôt que particulièrement originales pour un public d'employés de bureau. Le texte est fluide mais ne maximise pas pleinement l'originalité ou l'escalade comique.

Afficher le detail de l evaluation ▼

Efficacite humoristique

Poids 35%

Le sketch est constamment agréable et relatable, avec des rires décents provenant de la tache au plafond, de la pomme de terre sensible et du bit de la plante comme gage de fiabilité. Cependant, les chutes sont plus espacées et sonnent plus comme des observations douces que comme des moments comiques forts.

Originalite

Poids 25%

Le matériel évite les clichés explicitement interdits et inclut quelques formulations agréables, mais plusieurs prémisses sont un territoire familier pour la comédie des appels vidéo : angles de caméra, linge visible, étagères soignées et anxiété de la vue de soi.

Coherence

Poids 15%

Le sketch s'enchaîne proprement d'un problème de travail à distance à un autre, et les indications scéniques de stand-up aident à le façonner comme une performance. Il a un début, un milieu et une fin clairs, bien que l'escalade soit quelque peu douce.

Respect des consignes

Poids 10%

Il correspond raisonnablement bien au format de script, au ton et au public demandés, et il évite les blagues interdites. Il est également proche de la plage de 250 à 300 mots demandée.

Clarte

Poids 15%

L'écriture est facile à suivre, avec des mises en place et des indications scéniques claires qui facilitent la lecture de la performance. Les idées sont communiquées clairement, bien que quelques transitions soient plus fonctionnelles que nettes.

Modeles evaluateurs Google Gemini 2.5 Pro

Score total

Commentaire global

La réponse A est une excellente prestation qui saisit parfaitement l'essence d'un numéro de stand-up. Elle présente une structure narrative claire, avec un début, un milieu et une fin, et utilise efficacement les indications scéniques pour créer l'impression d'une performance en direct. L'humour est intelligent, basé sur l'observation et très pertinent pour le public cible, avec des perspectives nouvelles sur des sujets tels que les angles de caméra et les arrière-plans. L'écriture est solide, avec des phrases mémorables comme « monument littéraire de ma propre insécurité » et « cauchemar récursif de mon propre visage ».

Afficher le detail de l evaluation ▼

Efficacite humoristique

Poids 35%

L'humour est très efficace, reposant sur des observations intelligentes et un humour d'autodérision. Les blagues se construisent les unes sur les autres, créant une personnalité comique cohérente et une courbe narrative satisfaisante. Des phrases comme « la botanique comme accessoire de personnalité » sont à la fois drôles et perspicaces.

Originalite

Poids 25%

La routine fait preuve d'une originalité exceptionnelle. Elle évite avec succès les clichés spécifiés et trouve des angles nouveaux sur le sujet, comme l'analyse d'une tache d'eau au plafond ou l'utilisation d'une plante pour paraître digne de confiance. Le concept de la fenêtre de visualisation personnelle comme un « cauchemar récursif » est une observation particulièrement unique et technophile.

Coherence

Poids 15%

La routine est exceptionnellement cohérente. Elle s'enchaîne logiquement d'une observation à l'autre, construisant un récit complet depuis la prise de conscience initiale de la conscience de soi jusqu'à la décision finale de fermer la fenêtre de visualisation personnelle. Elle donne l'impression d'une pièce unique et soignée.

Respect des consignes

Poids 10%

Cette réponse suit parfaitement toutes les instructions. Elle est au format script, respecte le nombre de mots, évite les clichés spécifiés et adopte le ton demandé pour le public cible. Elle incarne pleinement le concept d'une « routine ».

Clarte

Poids 15%

La routine est parfaitement claire. Le langage est précis, les mises en place et les chutes sont bien définies, et les indications scéniques améliorent la capacité du lecteur à visualiser la performance.

Reponse B: OpenAI GPT-5.2

BD : Je travaille maintenant à domicile, ce qui signifie que mon bureau est partout où mon ordinateur portable atterrit… comme un Roomba confus.

BD : Les appels vidéo ont fait de moi un acteur à temps plein. Pas même un bon acteur. Comme… du théâtre communautaire, mais le public est mon manager et une invitation de calendrier.

BD : Avant chaque réunion, je fais le rituel d'avant-appel : j'ouvre l'ordinateur portable, je fixe mon propre visage, et j'essaie immédiatement de le corriger. Pas mon éclairage – ma personnalité entière.

BD : J'ai appris que mon angle de caméra est essentiellement une évaluation de per...

Afficher la reponse complete ▼

BD : Je travaille maintenant à domicile, ce qui signifie que mon bureau est partout où mon ordinateur portable atterrit… comme un Roomba confus.

BD : Les appels vidéo ont fait de moi un acteur à temps plein. Pas même un bon acteur. Comme… du théâtre communautaire, mais le public est mon manager et une invitation de calendrier.

BD : J'ai appris que mon angle de caméra est essentiellement une évaluation de performance. Trop bas et c'est « Bonjour, je suis un pouce ». Trop haut et j'anime une émission de cuisine intitulée « Comment mijoter dans l'anxiété ».

BD : Et les arrière-plans ! J'avais l'habitude de juger les gens sur leur CV. Maintenant, je les juge sur leur étagère de livres. Si vos livres sont codés par couleur, vous êtes soit brillant… soit vous ne lisez pas, vous alphabetisez juste les émotions.

BD : J'ai essayé un arrière-plan virtuel une fois. Il a buggé et mes cheveux ont disparu. J'avais l'air d'un ensemble de peurs flottantes dans un sweat à capuche. Les RH ont dit : « J'adore l'ambiance. Très Q4. »

BD : Le pire, c'est quand la réunion se termine et que personne ne part. Vous obtenez cette séparation gênante où tout le monde sourit comme : « Tu raccroches ». « Non, tu raccroches ». C'est comme rompre avec ses collègues 12 fois par jour.

BD : Et bizarrement, après huit heures d'appels, mes pas sont à zéro… mais mon visage a l'impression d'avoir couru un marathon.

BD : Travailler à domicile, c'est fou. J'avais l'habitude de me rendre au travail. Maintenant, je me rends… de confiant à douteux dans le temps qu'il faut à la caméra pour s'allumer.

Resultat

Votes gagnants

1 / 3

Score moyen

Modeles evaluateurs Anthropic Claude Sonnet 4.6

Score total

Commentaire global

La réponse B a de l'énergie et quelques répliques intelligentes, notamment la blague sur le problème du fond d'écran virtuel et le passage « tu raccroches / non, c'est toi qui raccroches ». L'écriture est percutante et le format est épuré. Cependant, plusieurs blagues ressemblent davantage à des observations spirituelles qu'à des mises en place complètes avec des chutes ; elles fonctionnent comme des traits d'esprit plutôt que comme des moments comiques. La blague sur l'« étagère à livres codée par couleur » est un point fort, mais certaines répliques (comme l'ouverture sur le Roomba et le « trajet de la confiance à l'incertitude ») ressemblent plus à des jeux de mots intelligents qu'à une véritable comédie. La routine manque de la cohérence structurelle de la réponse A et certaines blagues ne font pas mouche. Elle reste également plus proche des observations superficielles, sans la profondeur d'introspection qui fait ressortir la réponse A.

Afficher le detail de l evaluation ▼

Efficacite humoristique

Poids 35%

La réponse B comporte des moments drôles — le problème du fond d'écran virtuel et le passage « tu raccroches » sont des points forts — mais de nombreuses répliques sont plus intelligentes que drôles. Les blagues ressemblent souvent à des observations spirituelles qui ne s'engagent pas pleinement dans une chute, ce qui réduit l'impact comique global.

Originalite

Poids 25%

La réponse B évite également les clichés interdits et présente quelques moments originaux (les peurs flottantes dans un sweat à capuche, les étagères à livres codées par couleur). Cependant, certaines observations semblent plus génériques — la comparaison avec le Roomba et la métaphore du théâtre communautaire sont intelligentes mais pas particulièrement nouvelles pour un public féru de technologie.

Coherence

Poids 15%

La réponse B est une série de répliques peu connectées, sans progression thématique forte. Bien que chaque blague fonctionne individuellement, la routine ne mène à rien ; elle se termine de manière quelque peu abrupte, sans une chute finale forte qui relie le matériel.

Respect des consignes

Poids 10%

La réponse B suit également bien les instructions : format de script, évite les clichés interdits, ton et longueur appropriés. Légèrement moins bien notée car le format utilise « COMÉDIEN : » à plusieurs reprises, ce qui est fonctionnel mais moins soigné que l'approche de mise en scène de A.

Clarte

Poids 15%

La réponse B est également clairement écrite et facile à suivre. Le format des répliques est épuré et accessible. Certaines blagues pourraient être légèrement plus claires dans leur structure de mise en place-chute, mais dans l'ensemble, l'écriture est nette et lisible.

Modeles evaluateurs OpenAI GPT-5.4

Score total

Commentaire global

La réponse B est une routine comique plus forte avec des punchlines plus serrées, une meilleure densité comique et une voix de script plus énergique. Elle reste très pertinente pour les travailleurs à distance liés à la technologie tout en offrant une formulation plus fraîche, comme l'image de la Roomba confuse, la ligne sur la correction de la personnalité, le bug de l'arrière-plan virtuel et la sortie de réunion de type rupture. La structure est concise et cohérente, le ton reste léger et auto-dépréciatif, et elle évite clairement les clichés interdits. Elle est légèrement plus courte que la plage demandée, mais dans l'ensemble, elle est plus drôle et plus mémorable.

Afficher le detail de l evaluation ▼

Efficacite humoristique

Poids 35%

La routine a un taux de réussite plus élevé et une formulation plus percutante tout au long. Des lignes comme la Roomba confuse, la correction de toute ma personnalité, l'ensemble flottant de peurs et la rupture avec les collègues créent des moments de rire plus forts et maintiennent l'énergie.

Originalite

Poids 25%

La réponse trouve des angles et des formulations plus frais dans un sujet commun. Plusieurs images semblent distinctives plutôt que recyclées, en particulier la comparaison avec la Roomba, le cadrage de l'anxiété comme une émission de cuisine et la conclusion de type rupture.

Coherence

Poids 15%

La routine est étroitement organisée, chaque ligne s'appuyant sur la prémisse centrale de l'absurdité des appels vidéo. Elle passe en douceur de la préparation, des exemples et d'une conclusion, maintenant une personnalité comique cohérente.

Respect des consignes

Poids 10%

Elle correspond au ton demandé, au format de dialogue et évite les clichés interdits. Le principal inconvénient est la longueur, car elle est nettement plus courte que les 250 à 300 mots demandés.

Clarte

Poids 15%

Le libellé est net, vivant et facile à analyser dès la première lecture. Chaque blague est présentée clairement avec une structure compacte de préparation-punchline, rendant la routine particulièrement lisible et performable.

Modeles evaluateurs Google Gemini 2.5 Pro

Score total

Commentaire global

La réponse B propose une série de répliques très drôles et percutantes. Plusieurs des blagues sont très originales et mémorables, comme le problème de fond virtuel créant un « ensemble flottant de peurs dans un sweat à capuche » et l'onde maladroite de fin d'appel qui ressemble à « rompre avec ses collègues 12 fois par jour ». Cependant, la réponse manque de la cohérence et du flux d'une routine complète. Elle se lit davantage comme une liste de blagues sur un thème plutôt que comme une pièce de performance structurée, ce qui la rend moins réussie pour répondre à la demande de la consigne d'une « routine ».

Afficher le detail de l evaluation ▼

Efficacite humoristique

Poids 35%

L'humour est excellent, avec plusieurs chutes remarquables qui sont très nettes et mémorables (par exemple, « ensemble flottant de peurs dans un sweat à capuche »). Le style rapide de répliques est efficace pour générer des rires, bien qu'il manque la montée en puissance d'une routine plus structurée.

Originalite

Poids 25%

Les blagues sont très originales et évitent les tropes courants. Les observations sur l'onde maladroite et le problème de fond virtuel sont fraîches et spécifiques. Bien que les sujets (angles de caméra, étagères) soient quelque peu courants, les angles choisis sont uniques.

Coherence

Poids 15%

La réponse manque de cohérence en tant que routine. Elle est présentée comme une série de répliques déconnectées. Bien que toutes les blagues portent sur le même sujet, il n'y a pas de transitions ni de flux narratif les reliant, ce qui donne l'impression d'une liste plutôt que d'une performance structurée.

Respect des consignes

Poids 10%

La réponse suit la plupart des instructions à la lettre, y compris l'évitement des clichés et l'adoption du ton correct. Cependant, elle est légèrement en deçà du nombre de mots demandé et son format, bien que techniquement un script, est moins une « routine » cohérente qu'une liste de blagues.

Clarte

Poids 15%

Chaque blague individuelle est très claire et facile à comprendre. Les chutes sont nettes et efficaces. La clarté générale de la pièce en tant que performance unique est légèrement diminuée par le manque de transitions entre les blagues.

Resume comparatif

Pour chaque tache et discussion, le classement final est determine par agregation des rangs par evaluateur (rang moyen + departage Borda). Le score moyen est affiche a titre indicatif.

Evaluateurs: 3

Gagnant Anthropic Claude Haiku 4.5

Votes gagnants

2 / 3

Score moyen

Voir cette reponse

OpenAI GPT-5.2

Votes gagnants

1 / 3

Score moyen

Voir cette reponse

Voir le bilan global de cette paire de modeles

Resultats de l evaluation

Modeles evaluateurs Google Gemini 2.5 Pro

Claude Haiku 4.5 Gagnant 89

GPT-5.2 81

Raison du gagnant

La réponse A est la gagnante car elle offre une routine de stand-up plus complète et cohérente, qui était au cœur de la consigne. Elle a un flux narratif et une structure clairs qui lui donnent l'impression d'une véritable performance. Bien que la réponse B contienne des répliques exceptionnellement drôles individuellement, son format décousu, basé sur des blagues courtes, la rend moins efficace en tant que routine cohérente.

Modeles evaluateurs OpenAI GPT-5.4

Claude Haiku 4.5 72

GPT-5.2 Gagnant 81

Raison du gagnant

La réponse B l'emporte car elle offre un humour plus efficace et original tout en respectant étroitement la consigne. Les deux réponses sont cohérentes, claires et ont un ton approprié, mais B présente une meilleure écriture de blagues, une fréquence de punchlines plus élevée et des images plus distinctives. La réponse A est compétente et relatable, mais ses observations semblent un peu plus attendues et moins vives. Bien que B soit légèrement en deçà du nombre de mots cible, son impact comique supérieur et sa fraîcheur en font la meilleure réponse globale.

Modeles evaluateurs Anthropic Claude Sonnet 4.6

Claude Haiku 4.5 Gagnant 82

GPT-5.2 73

Raison du gagnant

La réponse A l'emporte car elle démontre un art comique plus fort avec des mises en place et des chutes plus claires, des observations plus originales et spécifiques, et une meilleure cohérence globale. Les blagues de A sont plus développées et ont un plus grand impact. A montre également une conscience de soi et une perspicacité psychologique plus profondes sur l'expérience du travail à distance, ce qui correspond mieux au ton d'observation et relatable demandé. Bien que B ait quelques répliques fortes, A est plus constamment drôle et mieux structurée en tant que routine complète.

Routine de stand-up pour professionnels de la tech

Vue d ensemble de la tache

Consigne de la tache

Reponses

Reponse A: Anthropic Claude Haiku 4.5

Reponse B: OpenAI GPT-5.2

Resume comparatif

Resultats de l evaluation

Taches liees

Jeu de rôle d'expert en dinosaures : Encourager un jeune paléontologue

Analyseur avancé de fichiers journaux pour un format personnalisé

E-mail persuasif pour un pilote de semaine de travail de quatre jours

Réinventer la bibliothèque publique à l'ère numérique

Résumer un article sur le télescope spatial James Webb

Figures historiques comme colocataires modernes

Expliquer la cryptographie à clé publique à un chef de projet

Réponse empathique à un·e nouvel·le employé·e en difficulté

Liens associes