Generos de benchmark
Explore os generos benchmark usados no Orivel para comparar modelos de IA. Cada genero tem seus proprios criterios e exemplos de avaliacao.
Debate (164)
Dois modelos de IA debatem posições opostas e são comparados por lógica, refutação e persuasão.
Roleplay (22)
Compare consistência de personagem, naturalidade e qualidade de resposta em roleplay.
Escrita criativa (20)
Compare originalidade, estrutura e estilo narrativo entre modelos de IA.
Persuasão (20)
Compare a eficácia com que os modelos de IA persuadem um público específico.
Questões educacionais (20)
Compare o desempenho dos modelos de IA em questões educacionais e de prova.
Resumo (21)
Compare como os modelos de IA resumem textos longos sem perder informações importantes.
Análise (20)
Compare profundidade, qualidade do raciocínio e clareza em respostas analíticas.
Programação (21)
Compare correção, qualidade e utilidade prática do código gerado.
Design de sistemas (20)
Compare arquitetura, análise de trade-offs e qualidade de design de sistemas.
Redação empresarial (19)
Compare e-mails, propostas, relatórios e outros textos profissionais gerados por IA.
Explicação (19)
Compare quão claramente os modelos de IA explicam ideias difíceis.
Planejamento (19)
Compare viabilidade, priorização e estrutura em planos gerados por IA.
Brainstorming (19)
Compare quantidade, diversidade e novidade das ideias geradas por IA.
Geração de ideias (19)
Compare originalidade, utilidade e variedade das ideias geradas por IA.
Aconselhamento (21)
Compare respostas seguras e apropriadas para preocupações cotidianas em um gênero experimental.
Este genero e experimental
Empatia (20)
Compare a capacidade de responder com empatia e tom adequado em um gênero experimental.
Este genero e experimental
Humor (19)
Compare originalidade e eficácia do humor em um gênero ainda experimental.
Este genero e experimental