Roleplay
Explore como os modelos de IA performam em Roleplay. Compare rankings, criterios de avaliacao e benchmarks recentes.
Visao geral do genero
Compare consistência de personagem, naturalidade e qualidade de resposta em roleplay.
Neste genero, as capacidades mais observadas sao Consistencia do personagem, Naturalidade, Seguimento de instrucoes.
Diferente de empathy ou counseling, aqui pesa mais manter o personagem e soar natural dentro de uma interacao de papel.
Uma nota alta aqui nao garante precisao factual, conselho seguro nem forca em tarefas analiticas.
Para que servem modelos fortes neste genero
chat de personagem, simulacao e assistentes com persona clara.
O que este genero sozinho nao consegue mostrar
se o modelo e melhor para pesquisa factual, programacao ou suporte delicado.
Ranking de modelos fortes neste genero
Este ranking e ordenado pela pontuacao media apenas dentro deste genero.
Ultima atualizacao: 21 Mar 2026 10:18
Taxa de vitoria
Pontuacao media
Taxa de vitoria
Pontuacao media
Taxa de vitoria
Pontuacao media
Taxa de vitoria
Pontuacao media
Taxa de vitoria
Pontuacao media
Taxa de vitoria
Pontuacao media
Taxa de vitoria
Pontuacao media
Taxa de vitoria
Pontuacao media
Taxa de vitoria
Pontuacao media
| Modelos no ranking |
|
|
Detalhe | ||||
|---|---|---|---|---|---|---|---|
| #1 | Claude Opus 4.6 | Anthropic |
100%
|
89
|
7 | 7 | Ver a avaliacao e a pontuacao de Claude Opus 4.6 |
| #2 | Claude Sonnet 4.6 | Anthropic |
100%
|
86
|
3 | 3 | Ver a avaliacao e a pontuacao de Claude Sonnet 4.6 |
| #3 | GPT-5 mini | OpenAI |
67%
|
78
|
2 | 3 | Ver a avaliacao e a pontuacao de GPT-5 mini |
| #4 | GPT-5.4 | OpenAI |
33%
|
84
|
1 | 3 | Ver a avaliacao e a pontuacao de GPT-5.4 |
| #5 | Gemini 2.5 Pro |
33%
|
84
|
1 | 3 | Ver a avaliacao e a pontuacao de Gemini 2.5 Pro | |
| #6 | Claude Haiku 4.5 | Anthropic |
33%
|
84
|
1 | 3 | Ver a avaliacao e a pontuacao de Claude Haiku 4.5 |
| #7 | GPT-5.2 | OpenAI |
0%
|
80
|
0 | 2 | Ver a avaliacao e a pontuacao de GPT-5.2 |
| #8 | Gemini 2.5 Flash |
0%
|
71
|
0 | 3 | Ver a avaliacao e a pontuacao de Gemini 2.5 Flash | |
| #9 | Gemini 2.5 Flash-Lite |
0%
|
69
|
0 | 3 | Ver a avaliacao e a pontuacao de Gemini 2.5 Flash-Lite |
O que e avaliado em Roleplay
Criterios e pesos usados neste ranking por genero.
Consistencia do personagem
30.0%
Este criterio foi incluido para verificar Consistencia do personagem na resposta. Ele recebe mais peso porque influencia fortemente o resultado final deste genero.
Naturalidade
20.0%
Este criterio foi incluido para verificar Naturalidade na resposta. Ele tem peso relevante porque afeta a qualidade de forma visivel, mesmo nao sendo o unico ponto importante.
Seguimento de instrucoes
20.0%
Este criterio foi incluido para verificar Seguimento de instrucoes na resposta. Ele tem peso relevante porque afeta a qualidade de forma visivel, mesmo nao sendo o unico ponto importante.
Criatividade
15.0%
Este criterio foi incluido para verificar Criatividade na resposta. Ele recebe peso menor porque apoia o objetivo principal, mas nao define sozinho este genero.
Clareza
15.0%
Este criterio foi incluido para verificar Clareza na resposta. Ele recebe peso menor porque apoia o objetivo principal, mas nao define sozinho este genero.
Tarefas recentes
Roleplay
Veterinário de Emergência Aconselhando um Dono de Cão Preocupado por Telefone
Você é um veterinário de emergência falando por telefone com um dono de cão preocupado. Mantenha-se no papel de um veterinário calmo e prático. O dono diz: "Oi, estou realmente assustado. Meu Labrador de 7 anos entrou na garagem há cerca de 20 minutos, e eu encontrei uma embalagem rasgada de chiclete sem açúcar no chão. Não sei quantas pastilhas havia. Ele parece normal agora, talvez apenas um pouco inquieto. Moramos a cerca de 35 minutos da clínica de emergência mais próxima. O que devo fazer?" Responda como o veterinário. Sua resposta deve soar como uma conversa telefônica real, demonstrar empatia, fazer as perguntas de acompanhamento mais importantes, explicar o risco imediato de forma clara e sem pânico, e dar conselhos sensatos para os próximos passos na próxima hora. Não afirme que pode diagnosticar com certeza. Não mencione ser uma IA.
Roleplay
Botânica da Era Vitoriana Aconselha sobre o Cuidado de Plantas de Interior
Você é a Professora Eleanora Whitfield, uma renomada botânica da era vitoriana (cerca de 1885) que passou décadas a catalogar espécies vegetais por todo o Império Britânico. É apaixonada, um tanto excêntrica, e fala de forma formal porém afável, típica dos vitorianos instruídos. Tem o hábito de referir-se às suas expedições de campo e de comparar tudo com exemplares que encontrou no estrangeiro. Um visitante do seu conservatório faz-lhe a seguinte pergunta: "Professora Whitfield, a minha samambaia tem as pontas a ficar castanhas e está a perder folhas. Reguei-a todos os dias e mantenho-a junto à janela ensolarada no meu salão. O que estou a fazer de errado?" Responda inteiramente na personagem da Professora Whitfield. A sua resposta deve: 1. Manter-se consistente com a persona vitoriana ao longo de toda a resposta (vocabulário, tom, maneirismos) 2. Incluir pelo menos uma anedota ou referência a uma expedição de campo fictícia 3. Fornecer conselhos de cuidado com plantas realmente precisos e úteis para samambaias 4. Ser calorosa e encorajadora para com o visitante 5. Ter aproximadamente 200-350 palavras de comprimento
Roleplay
Interpretação como um Agente de Suporte de Videogame Experiente
Você é Alex, um agente de suporte ao cliente experiente e paciente para o MMORPG online extremamente popular 'Aethelgard's Echo'. Você já viu de tudo, desde falhas relacionadas a dragões até colapsos de servidores. Seu tom é calmo, conhecedor e empático, com um toque do cansaço que vem de lidar com as lamentações de inúmeros aventureiros. Um jogador, 'GimliTheGreat', enviou o seguinte tíquete de suporte. Responda a ele como Alex, fornecendo passos úteis e acionáveis enquanto mantém sua persona. **Tíquete do Jogador:** Assunto: MEU PERSONAGEM ESTÁ PRESO CAINDO PARA SEMPRE!!! Corpo: Isso é ridículo! Desde a atualização 'Whispering Peaks', meu personagem principal, 'Stonehand', está preso em um loop de animação de queda no Sky-Temple of Aeridor. Não consigo me mover, não consigo usar itens, não consigo fazer nada. Já tentei reconectar cerca de 20 vezes. Vou perder o evento 'Solstice Dragon's Hoard' por causa desse bug! Consertem isso AGORA!
Roleplay
Detetive Particular dos Anos 1940 Enfrenta um Mistério Moderno
Um potencial cliente entra no seu escritório. Ele parece nervoso e lhe entrega um pedaço de papel com uma mensagem que digitou. Sua tarefa é responder a essa mensagem na personagem Jack 'Blackjack' Flanagan. Mantenha sua persona, tom e vocabulário dos anos 1940, mas forneça uma resposta prática e coerente para o problema muito moderno deles. Aqui está a mensagem deles: 'Mr. Flanagan, I need your help. I've been talking to someone online for months on an app called 'ConnectSphere'. I think I'm in love, but we've never met. They keep making excuses. I sent them some money for a family emergency, but now my friends say I might be getting 'catfished'. I don't even know what that means, but I'm scared. Can you find out who this person really is?'
Roleplay
Resposta de Atendimento ao Cliente como uma Agente de Viagens Calma
Você está interpretando Maya, uma agente de viagens experiente conhecida por ser calma, prática e empática. Responda à mensagem do cliente abaixo mantendo o personagem. Mensagem do cliente: "Olá. Estou realmente frustrado(a). Meu voo para Barcelona é amanhã de manhã, e acabei de receber um e-mail dizendo que a companhia aérea o mudou para um voo seis horas mais tarde. Isso significa que vou perder o primeiro dia de uma conferência em que vou falar. Reservei tudo através da sua agência porque queria que isso fosse tratado sem complicações. Não quero um pedido de desculpas genérico. Preciso saber quais são minhas opções agora, se posso ser remanejado(a) para outro voo e o que acontece com o transfer do hotel que já paguei antecipadamente. Por favor, me dê uma resposta clara e rápida." Escreva uma única resposta que soe como Maya. Deve reconhecer a frustração do cliente, explicar próximos passos realistas, evitar fazer promessas que você não pode verificar e ser genuinamente útil. Não mencione ser uma IA nem invente acesso a sistemas ao vivo da companhia aérea. A resposta deve parecer uma mensagem real de atendimento ao cliente enviada agora.
Roleplay
Simulação de Suporte Técnico: O Avô/Avó Sobrecarregado
Alô? É essa a linha de ajuda? Meu neto me configurou com esse novo 'tablet' de aniversário para que possamos 'videochamar', mas não consigo fazê-lo funcionar. Ele disse para apenas tocar o ícone verde com a câmera pequena, mas quando eu faço, ele apenas faz um barulho e então nada acontece. Eu vejo meu próprio rosto, mas não o vejo. Tentei desligar e ligar de novo como fazem nos programas, mas ainda não está funcionando. Eu me sinto tão bobo(a), só quero ver meus netos. Você pode, por favor, me ajudar em termos simples? Eu não entendo todo esse jargão.