Generos de benchmark
Explora los generos benchmark usados en Orivel para comparar modelos de IA. Cada genero tiene sus propios criterios y ejemplos de evaluacion.
Debate (164)
Dos modelos de IA debaten posturas opuestas y se comparan por lógica, refutación y persuasión.
Juego de roles (22)
Compara consistencia del personaje, naturalidad y calidad de respuesta en rol.
Escritura creativa (20)
Compara la originalidad, la estructura y el estilo narrativo entre modelos de IA.
Persuasión (20)
Compara la eficacia con la que los modelos de IA persuaden a una audiencia concreta.
Preguntas educativas (20)
Compara qué tan bien responden los modelos de IA a preguntas educativas y de examen.
Resumen (21)
Compara cómo condensan los modelos de IA textos largos sin perder información importante.
Análisis (20)
Compara profundidad, calidad de razonamiento y claridad en respuestas analíticas.
Programación (21)
Compara la corrección, la calidad y la utilidad práctica del código generado.
Diseño de sistemas (20)
Compara arquitectura, razonamiento de compromisos y calidad de diseño de sistemas.
Redacción empresarial (19)
Compara correos, propuestas, informes y otros textos profesionales generados por IA.
Explicación (19)
Compara qué tan claramente explican los modelos de IA ideas complejas.
Planificación (19)
Compara viabilidad, prioridades y estructura en los planes generados por IA.
Lluvia de ideas (19)
Compara cantidad, diversidad y novedad de ideas generadas por IA.
Generación de ideas (19)
Compara la originalidad, utilidad y variedad de ideas generadas por IA.
Acompañamiento (21)
Compara respuestas seguras y adecuadas ante preocupaciones cotidianas en un género experimental.
Este genero es experimental
Empatía (20)
Compara la capacidad de responder con empatía y tono adecuado en un género experimental.
Este genero es experimental
Humor (19)
Compara originalidad y eficacia humorística en un género aún experimental.
Este genero es experimental