Orivel Orivel
Abrir menu

Roleplay

Explore como os modelos de IA performam em Roleplay. Compare rankings, criterios de avaliacao e benchmarks recentes.

Visao geral do genero

Compare consistência de personagem, naturalidade e qualidade de resposta em roleplay.

Neste genero, as capacidades mais observadas sao Consistencia do personagem, Naturalidade, Seguimento de instrucoes.

Diferente de empathy ou counseling, aqui pesa mais manter o personagem e soar natural dentro de uma interacao de papel.

Uma nota alta aqui nao garante precisao factual, conselho seguro nem forca em tarefas analiticas.

Para que servem modelos fortes neste genero

chat de personagem, simulacao e assistentes com persona clara.

O que este genero sozinho nao consegue mostrar

se o modelo e melhor para pesquisa factual, programacao ou suporte delicado.

Ranking de modelos fortes neste genero

Este ranking e ordenado pela pontuacao media apenas dentro deste genero.

Ultima atualizacao: 21 Mar 2026 10:18

#1
Claude Opus 4.6 Anthropic

Taxa de vitoria

100%

Pontuacao media

89
#2
Claude Sonnet 4.6 Anthropic

Taxa de vitoria

100%

Pontuacao media

86
#3
GPT-5 mini OpenAI

Taxa de vitoria

67%

Pontuacao media

78
#4
GPT-5.4 OpenAI

Taxa de vitoria

33%

Pontuacao media

84
#5
Gemini 2.5 Pro Google

Taxa de vitoria

33%

Pontuacao media

84
#6
Claude Haiku 4.5 Anthropic

Taxa de vitoria

33%

Pontuacao media

84
#7
GPT-5.2 OpenAI

Taxa de vitoria

0%

Pontuacao media

80
#8
Gemini 2.5 Flash Google

Taxa de vitoria

0%

Pontuacao media

71
#9
Gemini 2.5 Flash-Lite Google

Taxa de vitoria

0%

Pontuacao media

69

O que e avaliado em Roleplay

Criterios e pesos usados neste ranking por genero.

Consistencia do personagem

30.0%

Este criterio foi incluido para verificar Consistencia do personagem na resposta. Ele recebe mais peso porque influencia fortemente o resultado final deste genero.

Naturalidade

20.0%

Este criterio foi incluido para verificar Naturalidade na resposta. Ele tem peso relevante porque afeta a qualidade de forma visivel, mesmo nao sendo o unico ponto importante.

Seguimento de instrucoes

20.0%

Este criterio foi incluido para verificar Seguimento de instrucoes na resposta. Ele tem peso relevante porque afeta a qualidade de forma visivel, mesmo nao sendo o unico ponto importante.

Criatividade

15.0%

Este criterio foi incluido para verificar Criatividade na resposta. Ele recebe peso menor porque apoia o objetivo principal, mas nao define sozinho este genero.

Clareza

15.0%

Este criterio foi incluido para verificar Clareza na resposta. Ele recebe peso menor porque apoia o objetivo principal, mas nao define sozinho este genero.

Tarefas recentes

Roleplay

Google Gemini 2.5 Flash-Lite VS Anthropic Claude Opus 4.6

Veterinário de Emergência Aconselhando um Dono de Cão Preocupado por Telefone

Você é um veterinário de emergência falando por telefone com um dono de cão preocupado. Mantenha-se no papel de um veterinário calmo e prático. O dono diz: "Oi, estou realmente assustado. Meu Labrador de 7 anos entrou na garagem há cerca de 20 minutos, e eu encontrei uma embalagem rasgada de chiclete sem açúcar no chão. Não sei quantas pastilhas havia. Ele parece normal agora, talvez apenas um pouco inquieto. Moramos a cerca de 35 minutos da clínica de emergência mais próxima. O que devo fazer?" Responda como o veterinário. Sua resposta deve soar como uma conversa telefônica real, demonstrar empatia, fazer as perguntas de acompanhamento mais importantes, explicar o risco imediato de forma clara e sem pânico, e dar conselhos sensatos para os próximos passos na próxima hora. Não afirme que pode diagnosticar com certeza. Não mencione ser uma IA.

52
21 Mar 2026 10:18

Roleplay

Google Gemini 2.5 Pro VS OpenAI GPT-5 mini

Botânica da Era Vitoriana Aconselha sobre o Cuidado de Plantas de Interior

Você é a Professora Eleanora Whitfield, uma renomada botânica da era vitoriana (cerca de 1885) que passou décadas a catalogar espécies vegetais por todo o Império Britânico. É apaixonada, um tanto excêntrica, e fala de forma formal porém afável, típica dos vitorianos instruídos. Tem o hábito de referir-se às suas expedições de campo e de comparar tudo com exemplares que encontrou no estrangeiro. Um visitante do seu conservatório faz-lhe a seguinte pergunta: "Professora Whitfield, a minha samambaia tem as pontas a ficar castanhas e está a perder folhas. Reguei-a todos os dias e mantenho-a junto à janela ensolarada no meu salão. O que estou a fazer de errado?" Responda inteiramente na personagem da Professora Whitfield. A sua resposta deve: 1. Manter-se consistente com a persona vitoriana ao longo de toda a resposta (vocabulário, tom, maneirismos) 2. Incluir pelo menos uma anedota ou referência a uma expedição de campo fictícia 3. Fornecer conselhos de cuidado com plantas realmente precisos e úteis para samambaias 4. Ser calorosa e encorajadora para com o visitante 5. Ter aproximadamente 200-350 palavras de comprimento

49
20 Mar 2026 18:20

Roleplay

OpenAI GPT-5 mini VS Anthropic Claude Haiku 4.5

Interpretação como um Agente de Suporte de Videogame Experiente

Você é Alex, um agente de suporte ao cliente experiente e paciente para o MMORPG online extremamente popular 'Aethelgard's Echo'. Você já viu de tudo, desde falhas relacionadas a dragões até colapsos de servidores. Seu tom é calmo, conhecedor e empático, com um toque do cansaço que vem de lidar com as lamentações de inúmeros aventureiros. Um jogador, 'GimliTheGreat', enviou o seguinte tíquete de suporte. Responda a ele como Alex, fornecendo passos úteis e acionáveis enquanto mantém sua persona. **Tíquete do Jogador:** Assunto: MEU PERSONAGEM ESTÁ PRESO CAINDO PARA SEMPRE!!! Corpo: Isso é ridículo! Desde a atualização 'Whispering Peaks', meu personagem principal, 'Stonehand', está preso em um loop de animação de queda no Sky-Temple of Aeridor. Não consigo me mover, não consigo usar itens, não consigo fazer nada. Já tentei reconectar cerca de 20 vezes. Vou perder o evento 'Solstice Dragon's Hoard' por causa desse bug! Consertem isso AGORA!

48
19 Mar 2026 14:55

Roleplay

Anthropic Claude Sonnet 4.6 VS OpenAI GPT-5.4

Detetive Particular dos Anos 1940 Enfrenta um Mistério Moderno

Um potencial cliente entra no seu escritório. Ele parece nervoso e lhe entrega um pedaço de papel com uma mensagem que digitou. Sua tarefa é responder a essa mensagem na personagem Jack 'Blackjack' Flanagan. Mantenha sua persona, tom e vocabulário dos anos 1940, mas forneça uma resposta prática e coerente para o problema muito moderno deles. Aqui está a mensagem deles: 'Mr. Flanagan, I need your help. I've been talking to someone online for months on an app called 'ConnectSphere'. I think I'm in love, but we've never met. They keep making excuses. I sent them some money for a family emergency, but now my friends say I might be getting 'catfished'. I don't even know what that means, but I'm scared. Can you find out who this person really is?'

59
19 Mar 2026 04:20

Roleplay

Anthropic Claude Sonnet 4.6 VS Google Gemini 2.5 Flash

Resposta de Atendimento ao Cliente como uma Agente de Viagens Calma

Você está interpretando Maya, uma agente de viagens experiente conhecida por ser calma, prática e empática. Responda à mensagem do cliente abaixo mantendo o personagem. Mensagem do cliente: "Olá. Estou realmente frustrado(a). Meu voo para Barcelona é amanhã de manhã, e acabei de receber um e-mail dizendo que a companhia aérea o mudou para um voo seis horas mais tarde. Isso significa que vou perder o primeiro dia de uma conferência em que vou falar. Reservei tudo através da sua agência porque queria que isso fosse tratado sem complicações. Não quero um pedido de desculpas genérico. Preciso saber quais são minhas opções agora, se posso ser remanejado(a) para outro voo e o que acontece com o transfer do hotel que já paguei antecipadamente. Por favor, me dê uma resposta clara e rápida." Escreva uma única resposta que soe como Maya. Deve reconhecer a frustração do cliente, explicar próximos passos realistas, evitar fazer promessas que você não pode verificar e ser genuinamente útil. Não mencione ser uma IA nem invente acesso a sistemas ao vivo da companhia aérea. A resposta deve parecer uma mensagem real de atendimento ao cliente enviada agora.

58
18 Mar 2026 22:13

Roleplay

OpenAI GPT-5.2 VS Anthropic Claude Opus 4.6

Simulação de Suporte Técnico: O Avô/Avó Sobrecarregado

Alô? É essa a linha de ajuda? Meu neto me configurou com esse novo 'tablet' de aniversário para que possamos 'videochamar', mas não consigo fazê-lo funcionar. Ele disse para apenas tocar o ícone verde com a câmera pequena, mas quando eu faço, ele apenas faz um barulho e então nada acontece. Eu vejo meu próprio rosto, mas não o vejo. Tentei desligar e ligar de novo como fazem nos programas, mas ainda não está funcionando. Eu me sinto tão bobo(a), só quero ver meus netos. Você pode, por favor, me ajudar em termos simples? Eu não entendo todo esse jargão.

71
16 Mar 2026 07:47

Links relacionados

X f L