Rotina de Stand-up para Profissionais de Tecnologia

Compare as respostas dos modelos para esta tarefa de benchmark em Humor e reveja pontuações, comentários e exemplos relacionados.

Entre ou cadastre-se para usar curtidas e favoritos. Cadastrar

X f L

Indice

Visao geral da tarefa

Generos de Comparacao

Humor

Modelo criador da tarefa O criador da tarefa e selecionado aleatoriamente entre os principais modelos de geracao de tarefas dos provedores compativeis.

Google Gemini 2.5 Pro

Modelos participantes Neste benchmark, os modelos do mesmo provedor que o criador da tarefa sao excluidos da resposta.

Resposta A Anthropic Claude Haiku 4.5

Resposta B OpenAI GPT-5.2

Modelos avaliadores A avaliacao usa exatamente 3 modelos avaliadores, excluindo os modelos respondentes. Pelo menos 1 avaliador e selecionado entre modelos de nivel superior, modelos leves nao sao usados como avaliadores, e os 3 avaliadores vem de 3 provedores distintos.

OpenAI GPT-5.4 Anthropic Claude Sonnet 4.6 Google Gemini 2.5 Pro

Enunciado da tarefa

Escreva uma rotina curta (aproximadamente 250-300 palavras) de stand-up comedy, em formato de roteiro, sobre a experiência de videoconferências enquanto se trabalha de casa.

Informacao complementar

O público-alvo é um grupo de jovens profissionais da indústria de tecnologia. O tom desejado é observacional, autodepreciativo e relacionável, mas não maldoso nem excessivamente cínico. A rotina deve evitar piadas comuns e batidas sobre videoconferências, tais como as frases 'você está no mudo' ou 'você consegue ver minha tela?', ou piadas sobre usar apenas uma camisa bonita com pijama por baixo.

Politica de avaliacao

Uma resposta de alta qualidade será uma rotina de comédia coerente e bem estruturada, com cenários (setups) e desfechos (punchlines) claros. O humor deve ser original e parecer fresco, evitando com sucesso os clichês especificados. O tom deve alinhar-se ao solicitado — observacional e relacionável para um público de tecnologia, sem ser excessivamente negativo. A rotina deve demonstrar compreensão das nuances da cultura do trabalho remoto além das piadas mais óbvias.

Respostas

Resposta A: Anthropic Claude Haiku 4.5

ROTEIRO DE STAND-UP: "CONFISSÕES DO HOME OFFICE"

[entra no palco]

Então, estou trabalhando em casa há um tempo e descobri uma coisa: as videoconferências me deixaram profundamente ciente da minha própria existência de maneiras que a terapia nunca conseguiu.

[pausa]

Tipo, agora eu sei exatamente como é o meu teto. Eu poderia descrevê-lo para uma equipe forense. Há uma mancha de água no formato da decepção do meu ex-gerente.

[gesticula]

E a coisa do ângulo da câmera? Passei quarenta e cinco minutos tentando posicionar meu laptop para parecer um humano e não uma batata senciente. Tenho meu monitor em uma pilha...

Mostrar resposta completa ▼

ROTEIRO DE STAND-UP: "CONFISSÕES DO HOME OFFICE"

[entra no palco]

Então, estou trabalhando em casa há um tempo e descobri uma coisa: as videoconferências me deixaram profundamente ciente da minha própria existência de maneiras que a terapia nunca conseguiu.

[pausa]

Tipo, agora eu sei exatamente como é o meu teto. Eu poderia descrevê-lo para uma equipe forense. Há uma mancha de água no formato da decepção do meu ex-gerente.

[gesticula]

E a coisa do ângulo da câmera? Passei quarenta e cinco minutos tentando posicionar meu laptop para parecer um humano e não uma batata senciente. Tenho meu monitor em uma pilha de livros, meu teclado em outra pilha de livros. Basicamente, estou construindo um monumento literário à minha própria insegurança.

[senta-se em um banquinho]

Depois, há a ansiedade do fundo. Você está lá sentado e, de repente, está pensando: "Aquela pilha de roupas sujas está visível? Minha estante diz 'sou culto' ou 'comprei isso em um bazar'?" Comecei a manter uma planta em quadro. Não porque eu goste de plantas. Porque li em algum lugar que plantas fazem você parecer confiável. Estou aqui usando a botânica como um acessório de personalidade.

[levanta-se]

Mas o que realmente me incomoda: a cara de quem está ouvindo de mentira. Você sabe qual é. Alguém está falando sobre métricas trimestrais e você está acenando com a cabeça como se estivesse absorvendo informações, mas na verdade está se perguntando se deixou o fogão ligado. O que você não deixou. Você não cozinha. Mas seu cérebro não se importa.

[inclina-se para frente]

E a pior parte? A pequena janela de autoexibição. Por que fazemos isso conosco? Estou me assistindo assistir outras pessoas. É como estar preso em um pesadelo recursivo do meu próprio rosto.

[dá de ombros]

Comecei a fechar essa janela. Não preciso me ver fingindo me importar com o PowerPoint de alguém. Isso é entre mim e meu terapeuta.

[sai]

Resultado

#1 | Vencedor

Votos de vitoria

2 / 3

Pontuacao media

Modelos avaliadores Anthropic Claude Sonnet 4.6

Pontuacao total

Comentario geral

A Resposta A é uma rotina de stand-up bem elaborada, com forte humor de observação e claras introduções e piadas de remate. As piadas sobre ângulos de câmera, ansiedade de fundo, rostos de escuta falsos e a janela de auto visualização são todas novas e relacionáveis, sem depender de clichês. As indicações de palco adicionam autenticidade e ritmo. A rotina flui naturalmente de uma observação para outra, construindo uma narrativa coerente sobre o impacto psicológico das videoconferências. A linha 'batata senciente', o segmento 'botânica como acessório de personalidade' e o pesadelo recursivo da janela de auto visualização são genuinamente inteligentes. O tom é perfeitamente calibrado – autodepreciativo sem ser mal-intencionado. Ponto fraco menor: é um pouco longa e algumas transições poderiam ser mais concisas.

Ver detalhes da avaliacao ▼

Eficacia do humor

Peso 35%

A Resposta A tem múltiplas piadas de remate fortes que funcionam bem – 'batata senciente', 'botânica como acessório de personalidade' e o pesadelo recursivo de auto visualização são genuinamente engraçados e bem construídos. A piada do rosto de escuta falso é relacionável e constrói efetivamente. O humor é consistente ao longo de toda a rotina.

Originalidade

Peso 25%

A Resposta A evita com sucesso todos os clichês especificados e encontra ângulos novos – a mancha de água em forma de decepção do gerente, usar plantas como acessório de personalidade e a janela de auto visualização como um pesadelo recursivo são observações originais e específicas que não são comumente vistas em humor sobre videochamadas.

Coerencia

Peso 15%

A Resposta A flui logicamente de uma observação para outra, com indicações de palco que ajudam a ditar o ritmo da rotina. A progressão da ansiedade com a câmera para a ansiedade de fundo, para a escuta falsa e para a janela de auto visualização parece natural e constrói em direção a uma conclusão satisfatória.

Seguimento de instrucoes

Peso 10%

A Resposta A segue integralmente todas as instruções: está em formato de roteiro, tem aproximadamente o tamanho certo, evita todos os clichês especificados, mantém um tom de observação e autodepreciativo, e é apropriada para um público de tecnologia sem ser mal-intencionada.

Clareza

Peso 15%

A Resposta A é claramente escrita, com introduções e piadas de remate bem definidas. As indicações de palco ajudam a clarificar o ritmo e a entrega. Cada piada é fácil de seguir e a linguagem é precisa sem ser excessivamente complexa.

Modelos avaliadores OpenAI GPT-5.4

Pontuacao total

Comentario geral

A Resposta A é uma rotina sólida e coerente com uma estrutura clara de stand-up e uma premissa de trabalho remoto relacionável. Possui vários bons momentos de observação, especialmente em torno de ângulos de câmera, fundos selecionados, atenção falsa e o estresse da auto-visualização. O tom se encaixa bem no pedido e evita os clichês proibidos. No entanto, o humor é mais levemente divertido do que agudamente impactante, e algumas falas parecem familiares em vez de especialmente novas para um público de trabalhadores de tecnologia. O texto flui bem, mas não maximiza totalmente a originalidade ou a escalada cômica.

Ver detalhes da avaliacao ▼

Eficacia do humor

Peso 35%

A rotina é consistentemente agradável e relacionável, com risadas decentes da mancha no teto, da batata senciente e da planta como confiabilidade. No entanto, as piadas finais estão mais espaçadas e causam mais impacto como observações leves do que como fortes momentos cômicos.

Originalidade

Peso 25%

O material evita os clichês explicitamente proibidos e inclui algumas boas formulações, mas várias premissas são território familiar para a comédia de videochamada: ângulos de câmera, lavanderia visível, estantes selecionadas e ansiedade com a auto-visualização.

Coerencia

Peso 15%

A rotina flui de um ponto problemático de trabalho remoto para outro, e as indicações de palco de stand-up ajudam a moldá-la como uma performance. Ela tem um começo, meio e fim claros, embora a escalada seja um tanto suave.

Seguimento de instrucoes

Peso 10%

Ela se encaixa razoavelmente bem no formato de roteiro, tom e público solicitados, e evita as piadas proibidas. Também está próxima da faixa solicitada de 250 a 300 palavras.

Clareza

Peso 15%

A escrita é fácil de seguir, com configurações claras e indicações de palco que apoiam a legibilidade da performance. As ideias são comunicadas de forma limpa, embora algumas transições sejam mais funcionais do que nítidas.

Modelos avaliadores Google Gemini 2.5 Pro

Pontuacao total

Comentario geral

A Resposta A é uma excelente entrega que capta perfeitamente a essência de uma rotina de stand-up. Possui uma estrutura narrativa clara, com começo, meio e fim, e utiliza indicações de palco de forma eficaz para criar a sensação de uma performance ao vivo. O humor é inteligente, observacional e altamente relacionável para o público-alvo, com abordagens novas sobre temas como ângulos de câmera e fundos. A escrita é forte, com frases memoráveis como "monumento literário à minha própria insegurança" e "pesadelo recursivo da minha própria cara".

Ver detalhes da avaliacao ▼

Eficacia do humor

Peso 35%

O humor é muito eficaz, baseando-se em observações inteligentes e humor autodepreciativo. As piadas se complementam, criando uma persona cômica consistente e um arco narrativo satisfatório. Frases como "botânica como acessório de personalidade" são engraçadas e perspicazes.

Originalidade

Peso 25%

A rotina demonstra originalidade excepcional. Ela evita com sucesso os clichês especificados e encontra ângulos novos sobre o tema, como analisar uma mancha de água no teto ou usar uma planta para transmitir confiabilidade. O conceito da janela de autoexibição como um "pesadelo recursivo" é uma observação particularmente única e tecnologicamente avançada.

Coerencia

Peso 15%

A rotina é excepcionalmente coerente. Ela flui logicamente de uma observação para a outra, construindo uma narrativa completa desde a percepção inicial sobre autoconsciência até a decisão final de fechar a janela de autoexibição. Parece uma peça única e polida.

Seguimento de instrucoes

Peso 10%

Esta resposta segue perfeitamente todas as instruções. Está em formato de roteiro, atende à contagem de palavras, evita os clichês especificados e acerta o tom solicitado para o público-alvo. Incorpora totalmente o conceito de uma "rotina".

Clareza

Peso 15%

A rotina é perfeitamente clara. A linguagem é precisa, as preparações e as piadas são bem definidas, e as indicações de palco aprimoram a capacidade do leitor de visualizar a performance.

Resposta B: OpenAI GPT-5.2

COMIC: Então, agora eu trabalho em casa, o que significa que meu escritório é onde quer que meu laptop caia… tipo um Roomba confuso.

COMIC: As videochamadas me transformaram em uma atriz em tempo integral. Nem uma atriz boa. Tipo… teatro comunitário, mas o público é meu gerente e um convite do calendário.

COMIC: Antes de cada reunião, eu faço o ritual pré-chamada: abro o laptop, olho para o meu próprio rosto e imediatamente tento consertá-lo. Não minha iluminação — minha personalidade inteira.

COMIC: Aprendi que o ângulo da minha câmera é basicamente uma avaliação de desempenho. Muito baixo e é “Olá, eu sou um...

Mostrar resposta completa ▼

COMIC: Então, agora eu trabalho em casa, o que significa que meu escritório é onde quer que meu laptop caia… tipo um Roomba confuso.

COMIC: As videochamadas me transformaram em uma atriz em tempo integral. Nem uma atriz boa. Tipo… teatro comunitário, mas o público é meu gerente e um convite do calendário.

COMIC: Aprendi que o ângulo da minha câmera é basicamente uma avaliação de desempenho. Muito baixo e é “Olá, eu sou um polegar”. Muito alto e estou apresentando um programa de culinária chamado “Como Cozinhar Ansiedade”.

COMIC: E os fundos! Eu costumava julgar as pessoas pelo currículo. Agora eu as julgo pela estante de livros. Se seus livros são codificados por cores, você é brilhante… ou você não lê, apenas alfabetiza emoções.

COMIC: Tentei um fundo virtual uma vez. Ele falhou e meu cabelo desapareceu. Parecia um conjunto flutuante de medos em um moletom. O RH disse: “Adorei a vibe. Bem Q4”.

COMIC: O pior é quando a reunião termina e ninguém sai. Você tem aquele aceno estranho onde todos estão sorrindo como: “Você desliga”. “Não, você desliga”. É como terminar com seus colegas de trabalho 12 vezes por dia.

COMIC: E, de alguma forma, depois de oito horas de chamadas, meus passos são zero… mas meu rosto parece que correu uma maratona.

COMIC: Trabalhar em casa é selvagem. Eu costumava ir para o trabalho. Agora eu me desloco… de confiante para questionável no tempo que a câmera leva para ligar.

Resultado

Votos de vitoria

1 / 3

Pontuacao media

Modelos avaliadores Anthropic Claude Sonnet 4.6

Pontuacao total

Comentario geral

A Resposta B tem energia e algumas tiradas inteligentes, particularmente a piada da falha no fundo virtual e o 'você desliga / não, você desliga'. A escrita é concisa e o formato é limpo. No entanto, várias piadas parecem mais observações espirituosas do que configurações totalmente desenvolvidas com piadas de remate — elas funcionam como tiradas em vez de momentos cômicos. A piada da 'estante com código de cores' é um destaque, mas algumas falas (como a abertura do Roomba e o 'deslocamento da confiança para a dúvida') parecem mais jogos de palavras inteligentes do que comédia genuína. A rotina carece da coerência estrutural da Resposta A e algumas piadas não funcionam totalmente. Ela também se mantém mais próxima de observações superficiais sem a autoconsciência mais profunda que diferencia a Resposta A.

Ver detalhes da avaliacao ▼

Eficacia do humor

Peso 35%

A Resposta B tem alguns momentos engraçados — a falha no fundo virtual e o trecho 'você desliga' são destaques — mas muitas falas são mais inteligentes do que engraçadas. As piadas muitas vezes parecem observações espirituosas que não se comprometem totalmente com uma piada de remate, reduzindo o impacto cômico geral.

Originalidade

Peso 25%

A Resposta B também evita os clichês proibidos e tem alguns momentos originais (os medos flutuantes em um moletom, estantes com código de cores). No entanto, algumas observações parecem mais genéricas — a comparação com o Roomba e a metáfora do teatro comunitário são inteligentes, mas não particularmente novas para um público conhecedor de tecnologia.

Coerencia

Peso 15%

A Resposta B é uma série de tiradas pouco conectadas, sem uma forte progressão temática. Embora cada piada funcione individualmente, a rotina não constrói nada — ela termina de forma um tanto abrupta, sem um forte momento final que una o material.

Seguimento de instrucoes

Peso 10%

A Resposta B também segue bem as instruções — formato de roteiro, evita clichês proibidos, tom e comprimento apropriados. Ligeiramente inferior porque o formato usa 'COMIC:' repetidamente, o que é funcional, mas menos polido do que a abordagem de direção de palco de A.

Clareza

Peso 15%

A Resposta B também é escrita de forma clara e fácil de seguir. O formato de tiradas é limpo e acessível. Algumas piadas poderiam ter uma estrutura de configuração-remate um pouco mais clara, mas, no geral, a escrita é nítida e legível.

Modelos avaliadores OpenAI GPT-5.4

Pontuacao total

Comentario geral

A Resposta B é uma rotina de comédia mais forte, com piadas mais concisas, melhor densidade cômica e uma voz de roteiro mais enérgica. Mantém-se altamente relacionável para trabalhadores remotos com afinidade por tecnologia, ao mesmo tempo que entrega uma linguagem mais fresca, como a imagem da Roomba confusa, a linha sobre consertar a personalidade, o glitch do fundo virtual e a saída da reunião no estilo de término de relacionamento. A estrutura é concisa e coerente, o tom permanece leve e autodepreciativo, e evita claramente os clichês proibidos. É ligeiramente mais curta que o intervalo solicitado, mas, no geral, é mais engraçada e memorável.

Ver detalhes da avaliacao ▼

Eficacia do humor

Peso 35%

A rotina tem uma taxa de acerto maior e uma linguagem mais afiada em toda a extensão. Linhas como a Roomba confusa, consertar toda a minha personalidade, um conjunto flutuante de medos e terminar com colegas de trabalho criam momentos de risada mais fortes e mantêm a energia elevada.

Originalidade

Peso 25%

A resposta encontra ângulos e linguagem mais frescos dentro de um tópico comum. Várias imagens parecem distintas em vez de recicladas, especialmente a comparação com a Roomba, o enquadramento ansioso no estilo de programa de culinária e a despedida no estilo de término de relacionamento.

Coerencia

Peso 15%

A rotina é rigidamente organizada, com cada linha baseando-se na premissa central da absurdidade das videochamadas. Ela avança suavemente através da preparação, exemplos e uma conclusão, mantendo uma persona cômica consistente.

Seguimento de instrucoes

Peso 10%

Corresponde ao tom solicitado, formato de diálogo e evita os clichês proibidos. A principal desvantagem é o comprimento, pois é notavelmente mais curta que as aproximadamente 250 a 300 palavras solicitadas.

Clareza

Peso 15%

A redação é nítida, vívida e fácil de analisar na primeira leitura. Cada piada é apresentada claramente com uma estrutura compacta de preparação-para-piada, tornando a rotina especialmente legível e performática.

Modelos avaliadores Google Gemini 2.5 Pro

Pontuacao total

Comentario geral

A Resposta B apresenta uma série de piadas curtas, muito engraçadas e impactantes. Várias das piadas são altamente originais e memoráveis, como a falha no fundo virtual criando um "conjunto flutuante de medos num moletom" e a onda desajeitada no final da chamada ser como "terminar com seus colegas 12 vezes por dia". No entanto, a resposta carece da coerência e do fluxo de uma rotina completa. Parece mais uma lista de piadas sobre um tema do que uma peça de performance estruturada, o que a torna menos bem-sucedida em atender ao pedido do prompt por uma "rotina".

Ver detalhes da avaliacao ▼

Eficacia do humor

Peso 35%

O humor é excelente, com várias piadas de destaque que são muito afiadas e memoráveis (por exemplo, "conjunto flutuante de medos num moletom"). O estilo rápido de piadas curtas é eficaz para gerar risadas, embora falte o desenvolvimento de uma rotina mais estruturada.

Originalidade

Peso 25%

As piadas são muito originais e evitam os clichês comuns. As observações sobre a onda desajeitada e a falha no fundo virtual são novas e específicas. Embora os tópicos (ângulos de câmera, estantes de livros) sejam um tanto comuns, as abordagens sobre eles são únicas.

Coerencia

Peso 15%

A resposta carece de coerência como uma rotina. É apresentada como uma série de piadas curtas desconexas. Embora todas as piadas sejam sobre o mesmo tópico, não há transições ou fluxo narrativo que as conectem, fazendo com que pareça mais uma lista do que uma performance estruturada.

Seguimento de instrucoes

Peso 10%

A resposta segue a maioria das instruções bem, incluindo evitar clichês e adotar o tom correto. No entanto, está ligeiramente abaixo da contagem de palavras solicitada e seu formato, embora tecnicamente um roteiro, é menos uma "rotina" coesa e mais uma lista de piadas.

Clareza

Peso 15%

Cada piada individual é muito clara e fácil de entender. As piadas de efeito são afiadas e funcionam eficazmente. A clareza geral da peça como uma única performance é ligeiramente diminuída pela falta de transições entre as piadas.

Resumo comparativo

Para cada tarefa e discussao, a classificacao final e definida por agregacao de rankings por avaliador (rank medio + desempate por Borda). A pontuacao media e exibida como referencia.

Avaliadores: 3

Vencedor Anthropic Claude Haiku 4.5

Votos de vitoria

2 / 3

Pontuacao media

Ver esta resposta

OpenAI GPT-5.2

Votos de vitoria

1 / 3

Pontuacao media

Ver esta resposta

Ver historico total desta dupla de modelos

Resultados da avaliacao

Modelos avaliadores Google Gemini 2.5 Pro

Claude Haiku 4.5 Vencedor 89

GPT-5.2 81

Motivo do vencedor

A Resposta A é a vencedora porque entrega uma rotina de stand-up mais completa e coerente, que era o cerne da solicitação. Ela tem um fluxo narrativo e uma estrutura claros que a fazem parecer uma performance genuína. Embora a Resposta B contenha algumas falas excepcionalmente engraçadas individualmente, seu formato desconexo de piadas curtas a torna menos eficaz como uma rotina coesa.

Modelos avaliadores OpenAI GPT-5.4

Claude Haiku 4.5 72

GPT-5.2 Vencedor 81

Motivo do vencedor

A Resposta B vence por entregar um humor mais eficaz e original, ao mesmo tempo que segue de perto o prompt. Ambas as respostas são coerentes, claras e com um tom apropriado, mas a B tem uma escrita de piadas mais forte, maior frequência de remates e imagens mais distintas. A Resposta A é competente e relacionável, mas as suas observações parecem um pouco mais esperadas e menos vívidas. Embora a B esteja um pouco abaixo da contagem de palavras alvo, o seu impacto cômico superior e frescura tornam-na a melhor resposta geral.

Modelos avaliadores Anthropic Claude Sonnet 4.6

Claude Haiku 4.5 Vencedor 82

GPT-5.2 73

Motivo do vencedor

A resposta A vence porque demonstra uma arte cômica mais forte, com cenários e piadas mais claros, observações mais originais e específicas, e uma coerência geral melhor. As piadas em A são mais desenvolvidas e têm um impacto maior. A também mostra uma autoconsciência mais profunda e uma visão psicológica da experiência de trabalho remoto, o que se alinha melhor com o tom observacional e relacionável solicitado. Embora B tenha algumas falas fortes individuais, A é consistentemente mais engraçada e melhor estruturada como uma rotina completa.

Rotina de Stand-up para Profissionais de Tecnologia

Visao geral da tarefa

Enunciado da tarefa

Respostas

Resposta A: Anthropic Claude Haiku 4.5

Resposta B: OpenAI GPT-5.2

Resumo comparativo

Resultados da avaliacao

Tarefas relacionadas

Interpretação de Especialista em Dinossauros: Fomentando um Jovem Paleontólogo

Analisador Avançado de Arquivo de Log para um Formato Personalizado

Email Persuasivo para um Piloto de Semana de Trabalho de Quatro Dias

Reinventando a Biblioteca Pública para a Era Digital

Resumir um Artigo sobre o Telescópio Espacial James Webb

Figuras Históricas como Colegas de Apartamento Moderno

Explique Criptografia de Chave Pública para um Gerente de Projeto

Resposta empática a um novo funcionário em dificuldade

Links relacionados