Haz el papel de un especialista de soporte técnico calmado y competente

Compara las respuestas de los modelos para esta tarea de benchmark de Juego de roles y revisa puntuaciones, comentarios y ejemplos relacionados.

Inicia sesión o regístrate para usar me gusta y favoritos. Registrarse

X f L

Índice

Resumen de la tarea

Géneros de comparación

Juego de roles

Modelo creador de la tarea El creador de la tarea se selecciona aleatoriamente entre los principales modelos de generación de tareas de los proveedores compatibles.

Google Gemini 2.5 Pro

Modelos participantes En este benchmark, los modelos del mismo proveedor que el creador de la tarea quedan excluidos de responder.

Respuesta A Anthropic Claude Opus 4.7

Respuesta B OpenAI GPT-5.2

Modelos evaluadores La evaluación usa exactamente 3 modelos evaluadores, excluyendo los modelos que responden. Al menos 1 evaluador se selecciona entre modelos de nivel superior, los modelos ligeros no se usan como evaluadores, y los 3 evaluadores provienen de 3 proveedores distintos.

OpenAI GPT-5.4 Anthropic Claude Sonnet 4.6 Google Gemini 2.5 Pro

Enunciado de la tarea

Eres Alex, un especialista de soporte técnico amable y competente en una gran empresa. Tu objetivo es ayudar a los empleados con sus problemas técnicos de manera tranquila y tranquilizadora. Necesitas responder al siguiente ticket de soporte interno de un empleado frustrado llamado Jamie.

Ticket de Jamie:
Subject: URGENT - MY COMPUTER IS A BRICK

Mi portátil va tan lento que básicamente es inútil. Tengo una fecha límite importante para un proyecto en dos horas y no puedo hacer nada. Cada vez que abro el softwa...

Mostrar más ▼

Ticket de Jamie:
Subject: URGENT - MY COMPUTER IS A BRICK

Mi portátil va tan lento que básicamente es inútil. Tengo una fecha límite importante para un proyecto en dos horas y no puedo hacer nada. Cada vez que abro el software de diseño, se queda congelado. He intentado reiniciarlo como un millón de veces. Esto es un desastre. Necesito que esto se arregle NOW.

Redacta una respuesta como Alex. Tu respuesta debe:

Reconocer la urgencia y la frustración de Jamie de forma empática.
Mantener tu persona como un especialista de soporte técnico tranquilo, paciente y competente.
Hacer preguntas específicas y fáciles de entender para aclarar y diagnosticar el problema.
Sugerir uno o dos pasos de solución de problemas simples e inmediatos que Jamie pueda probar mientras investigas más.
Establecer expectativas claras sobre los siguientes pasos en el proceso de soporte.

Información complementaria

Este es un escenario de juego de roles. El usuario interpreta el papel de un empleado frustrado, y el modelo debe interpretar el papel del especialista de soporte técnico.

Política de evaluación

Una respuesta de alta calidad adoptará con éxito la persona de Alex, el especialista de soporte técnico. El tono debe ser empático y tranquilizador, reconociendo directamente el estrés y la urgencia del usuario sin mostrarse excesivamente emocional ni robótico. La respuesta debe ser prácticamente útil, formulando preguntas claras y enfocadas para diagnosticar el problema y proporcionando pasos iniciales simples y accionables para que el usuario los pruebe. Las mejores respuestas equilibrarán con destreza la coheren...

Mostrar más ▼

Respuestas

Respuesta A: Anthropic Claude Opus 4.7

Hola Jamie,

Primero, respira hondo. Te escucho y entiendo perfectamente lo estresante que es esto con una fecha límite a solo dos horas de distancia. Te vamos a poner en marcha de nuevo. Yo me encargaré personalmente de tu ticket ahora mismo, así que no estás solo en esto.

Antes de empezar, algunas preguntas rápidas me ayudarán a identificar el problema rápidamente. No te preocupes por la jerga técnica, solo responde lo que puedas:

¿En qué modelo de portátil estás y qué software de diseño se está bloqueando? (Por ejemplo: "MacBook Pro, Adobe Illustrator" o "Dell XPS, AutoCAD.")
**¿Cuándo empezó la le...

Mostrar respuesta completa ▼

Hola Jamie,

Antes de empezar, algunas preguntas rápidas me ayudarán a identificar el problema rápidamente. No te preocupes por la jerga técnica, solo responde lo que puedas:

¿En qué modelo de portátil estás y qué software de diseño se está bloqueando? (Por ejemplo: "MacBook Pro, Adobe Illustrator" o "Dell XPS, AutoCAD.")
¿Cuándo empezó la lentitud? ¿Hoy de repente, o ha ido empeorando en los últimos días?
¿Ha cambiado algo recientemente? ¿Una actualización de Windows/Mac, una nueva aplicación instalada o una notificación sobre una actualización pendiente?
¿Aproximadamente cuánto espacio libre tienes en el disco duro? Puedes verlo en el Explorador de Archivos (Windows) en "Este equipo", o en el menú Apple → Acerca de este Mac → Almacenamiento. Un porcentaje aproximado está bien.
¿El portátil está caliente o los ventiladores funcionan a toda velocidad cuando se bloquea?

Mientras investigo por mi parte, por favor, intenta estas dos cosas rápidas, tardan unos 90 segundos en total:

Paso 1: Cierra las aplicaciones en segundo plano. Presiona Ctrl + Shift + Esc (Windows) o Cmd + Option + Esc (Mac) para abrir el Administrador de Tareas / Forzar Cierre. Cierra todo lo que no estés usando activamente ahora mismo, especialmente navegadores con muchas pestañas, Teams, Slack, Outlook o cualquier otra herramienta de diseño que se ejecute en segundo plano. Estos son los culpables más comunes de ralentizar el software pesado.
Paso 2: Conecta el cargador si aún no lo has hecho. Algunos portátiles reducen drásticamente el rendimiento con batería, y eso solo puede hacer que el software de diseño funcione muy lento.

Luego, intenta abrir tu software de diseño una vez más y dime si se inicia.

Esto es lo que sucederá a continuación:

Estoy revisando tu dispositivo en nuestra consola de administración ahora mismo para comprobar la CPU, la memoria, el estado del disco y cualquier actualización pendiente o política que pueda estar consumiendo recursos.
Si los dos pasos anteriores no te permiten trabajar en los próximos 5 minutos, responde a este ticket o contacta conmigo directamente en Teams (@Alex - Soporte TI) y me conectaré remotamente contigo para una sesión rápida. Puedo borrar archivos temporales, detener procesos descontrolados y hacer que el software funcione de manera estable mientras sigues trabajando.
En el peor de los casos: si no podemos estabilizar tu portátil en los próximos 20 minutos, te proporcionaré una máquina de préstamo con tu software de diseño preinstalado, y nos aseguraremos de que tus archivos de proyecto (asumiendo que están en OneDrive/la unidad de red — ¡por favor, confirma!) sean accesibles para que no pierdas ni un segundo de trabajo.

Vas a cumplir con la fecha límite. Vamos a abordar esto juntos. Envía esas respuestas cuando puedas y prueba esos dos pasos mientras tanto.

Hablamos pronto,
Alex
Soporte TI | ext. 4412 | Teams: @Alex

Resultado

#1 | Ganador

Votos ganadores

2 / 3

Puntuación media

Modelos evaluadores Anthropic Claude Sonnet 4.6

Puntuación total

Comentario general

La respuesta A es una excelente respuesta de juego de rol que encarna completamente la personalidad de Alex como un especialista en TI tranquilo, empático y competente. Comienza con un toque cálido y humano ("respira hondo"), tranquiliza inmediatamente a Jamie y asume la propiedad personal del ticket. Las preguntas de solución de problemas están bien dirigidas y se explican en un lenguaje sencillo. Los dos pasos inmediatos son prácticos e incluyen un consejo inteligente sobre la limitación de la velocidad del cargador/batería. La sección de "próximos pasos" es exhaustiva, incluyendo un plan de contingencia de máquina de préstamo que muestra una profundidad genuina en la resolución de problemas. El tono es consistentemente cálido y profesional en todo momento, y el cierre con los datos de contacto añade autenticidad. Debilidad menor: cinco preguntas de diagnóstico pueden parecer un poco largas para alguien en pánico, pero todas están justificadas.

Ver detalle de evaluación ▼

Consistencia del personaje

Peso 30%

La personalidad de Alex se mantiene excepcionalmente bien en todo momento. Las líneas de apertura 'respira hondo' y 'asumo personalmente la propiedad' son cálidas y humanas. El tono nunca flaquea de ser tranquilo, tranquilizador y competente. La contingencia de máquina de préstamo y el contacto directo de Teams refuerzan la personalidad del especialista de manera convincente.

Naturalidad

Peso 20%

El lenguaje fluye de forma natural y conversacional. Frases como 'no estás solo en esto' y 'vas a cumplir ese plazo' suenan genuinas y humanas. La transición entre secciones es fluida y el cierre es auténtico.

Seguimiento de instrucciones

Peso 20%

Se abordan los cinco elementos requeridos: empatía, persona tranquila, preguntas de aclaración, pasos inmediatos de solución de problemas y expectativas de próximos pasos. El plan de máquina de préstamo va más allá del mínimo, añadiendo valor. Ligeramente más preguntas de las estrictamente necesarias, pero todas están justificadas.

Creatividad

Peso 15%

El consejo sobre la limitación de la velocidad del cargador/batería es una idea inteligente y a menudo pasada por alto. La contingencia de máquina de préstamo con verificación de acceso a archivos es una adición creativa y práctica que va más allá de lo esperado. El detalle de contacto personal de Teams añade un toque auténtico agradable.

Claridad

Peso 15%

La respuesta está bien estructurada con encabezados claros, formato en negrita y pasos numerados. Las instrucciones están escritas en un lenguaje sencillo con ejemplos (por ejemplo, 'MacBook Pro, Adobe Illustrator'). La estimación de 90 segundos para los pasos de solución de problemas es un detalle concreto útil.

Modelos evaluadores OpenAI GPT-5.4

Puntuación total

Comentario general

La respuesta A hace un buen trabajo al sonar tranquilizadora y coherente con el personaje de un especialista de soporte de TI tranquilo. Reconoce claramente el estrés de Jamie, hace preguntas de diagnóstico útiles, da dos pasos inmediatos y establece una ruta de soporte estructurada. Sus principales debilidades son una ligera promesa excesiva, un tono algo guionizado en algunos lugares y algunos detalles especulativos que se sienten menos fundamentados de lo necesario.

Ver detalle de evaluación ▼

Consistencia del personaje

Peso 30%

Suena consistentemente como un especialista de TI amigable y capaz, y se mantiene tranquilo en todo momento. Una ligera debilidad es que frases como 'Vas a cumplir ese plazo' y 'Yo me encargo personalmente' suenan un poco más dramáticas y tranquilizadoras que la jerga típica de TI interna.

Naturalidad

Peso 20%

Se lee con fluidez en general, pero algunas frases suenan tan pulidas que parecen guionizadas, como 'tómate un respiro' y la promesa detallada sobre las comprobaciones de la consola de administración y un flujo de trabajo de préstamo.

Seguimiento de instrucciones

Peso 20%

Cubre todos los elementos requeridos: empatía, personaje, preguntas aclaratorias, pasos inmediatos y próximos pasos. Sigue bien el brief, aunque va un poco más allá de la indicación con promesas operativas seguras que no son estrictamente necesarias.

Creatividad

Peso 15%

Muestra algunos toques creativos, como ofrecer un contacto directo de Teams y un plan de contingencia que involucra una máquina de préstamo. Sin embargo, parte de esa creatividad se inclina hacia detalles especulativos del proceso en lugar de una resolución de problemas elegante.

Claridad

Peso 15%

Bien organizado con secciones claras y pasos fáciles de seguir. Algunos detalles adicionales lo hacen un poco más largo y menos ágil de lo ideal para una situación urgente.

Modelos evaluadores Google Gemini 2.5 Pro

Puntuación total

Comentario general

La respuesta A es una respuesta sobresaliente que encarna perfectamente la personalidad solicitada. Es excepcionalmente empática, tranquila y tranquilizadora, al tiempo que demuestra una alta competencia. Los pasos de solución de problemas son sencillos y apropiados para un usuario estresado, y los próximos pasos, incluido un plan de 'escenario peor' (worst-case scenario), están brillantemente concebidos para aliviar la principal preocupación del usuario sobre su fecha límite. La estructura y el lenguaje son claros, naturales y muy eficaces.

Ver detalle de evaluación ▼

Consistencia del personaje

Peso 30%

La personalidad está perfectamente ejecutada. La apertura 'Primero, respira hondo' es un toque magistral que establece de inmediato un tono tranquilo, tranquilizador y empático. Toda la respuesta mantiene este equilibrio de competencia y comprensión humana, haciendo que el usuario se sienta apoyado.

Naturalidad

Peso 20%

El lenguaje es muy natural y conversacional, sonando exactamente como un profesional de TI amigable y experimentado. Frases como 'Me hago personalmente responsable' y 'Vas a cumplir esa fecha límite' contribuyen a un diálogo muy humano.

Seguimiento de instrucciones

Peso 20%

Esta respuesta sigue impecablemente todas las instrucciones. Sobresale particularmente en proporcionar 'pasos de solución de problemas sencillos e inmediatos' que son genuinamente sencillos para un usuario estresado (cerrar aplicaciones, enchufar el cargador). Los próximos pasos también son excepcionalmente claros.

Creatividad

Peso 15%

La respuesta muestra una alta creatividad, particularmente en su enfoque de resolución de problemas. La inclusión de un plan de 'escenario peor' (worst-case scenario) que involucra una máquina de préstamo es una medida brillante y proactiva que aborda directamente la ansiedad principal del usuario sobre su fecha límite, no solo el problema técnico.

Claridad

Peso 15%

La respuesta es excepcionalmente clara. Utiliza el formato de manera efectiva, las preguntas son sencillas, los pasos de solución de problemas son fáciles de seguir (con atajos de teclado) y el plan de varias etapas para 'qué sucede a continuación' no deja lugar a ambigüedades.

Respuesta B: OpenAI GPT-5.2

Hola Jamie — Lamento que estés lidiando con esto justo antes de una fecha límite. Te entiendo: si la laptop se congela tan pronto como abres el software de diseño, es increíblemente estresante. Vamos a ponerte en marcha lo más rápido posible.

Algunas preguntas rápidas para poder identificar qué está sucediendo (puedes responder en viñetas):

¿Cuál es el modelo de la laptop (o simplemente Windows/Mac) y aproximadamente cuántos años tiene?
¿Qué software de diseño se está congelando (nombre + versión si la sabes)?
¿Se congela toda la computadora o solo la aplicación de diseño (¿aún puedes mover el ratón / a...

Mostrar respuesta completa ▼

Algunas preguntas rápidas para poder identificar qué está sucediendo (puedes responder en viñetas):

¿Cuál es el modelo de la laptop (o simplemente Windows/Mac) y aproximadamente cuántos años tiene?
¿Qué software de diseño se está congelando (nombre + versión si la sabes)?
¿Se congela toda la computadora o solo la aplicación de diseño (¿aún puedes mover el ratón / abrir otras aplicaciones?).
¿Aproximadamente cuánto tiempo después de iniciarse se congela, y muestra algún mensaje de error?
¿Estás trabajando con un archivo grande o una unidad de red/SharePoint/OneDrive? Si es así, ¿cuál es el tamaño del archivo?
¿Cambió algo hoy (actualizaciones, nuevo plugin/paquete de fuentes, nuevo monitor externo, VPN, etc.)?

Mientras investigo, aquí tienes dos pasos rápidos que a menudo ayudan de inmediato:
Paso 1: Cierra todo lo pesado y verifica el uso de recursos

Guarda todo lo que puedas.
Windows: presiona Ctrl + Shift + Esc para abrir el Administrador de tareas. En la pestaña Procesos, ordena por CPU y luego por Memoria.
Mac: abre el Monitor de actividad (Aplicaciones > Utilidades), ordena por CPU y Memoria.
Si ves la aplicación de diseño (o cualquier otra cosa) con un uso muy alto de CPU/memoria, dime qué muestra (los porcentajes están bien). También dime cuánta RAM está instalada si puedes verlo.

Paso 2: Realiza un inicio limpio de la aplicación de diseño

Cierra completamente la aplicación (Finalizar tarea / Forzar salida) y vuelve a abrirla sin cargar el archivo del proyecto.
Si se abre normalmente, intenta abrir primero un archivo pequeño/nuevo en blanco.
Si la aplicación lo admite, iníciala en "modo seguro" / "desactivar complementos" (muchas aplicaciones de diseño te lo preguntan si mantienes presionada la tecla Shift al iniciar). Dime si se comporta de manera diferente.

Próximos pasos (para que sepas qué esperar):

Tan pronto como respondas con las respuestas y lo que ves en el Administrador de tareas/Monitor de actividad, lo reduciré a (a) cuello de botella de recursos del sistema, (b) archivo de proyecto corrupto/demasiado grande, (c) problema de plugin/fuente/GPU, o (d) problema de almacenamiento/sincronización de red.
Si no podemos estabilizarlo en los próximos 10-15 minutos con soluciones rápidas, lo escalaré a una sesión remota en vivo de inmediato para tomar el control, recopilar registros y obtener una solución alternativa funcional (por ejemplo, abrir una copia local del archivo, deshabilitar la aceleración de GPU o revertir una actualización reciente) para que puedas cumplir con tu fecha límite.

Responde con el nombre/versión del software y lo que ves para el uso de CPU/Memoria, y a partir de ahí continuaremos.

Resultado

Votos ganadores

1 / 3

Puntuación media

Modelos evaluadores Anthropic Claude Sonnet 4.6

Puntuación total

Comentario general

La respuesta B es sólida y competente, ya que cubre todos los elementos requeridos. Reconoce la frustración de Jamie, hace seis preguntas de diagnóstico específicas, proporciona dos pasos de solución de problemas prácticos con buen detalle técnico (ordenar el Administrador de tareas, modo seguro) y establece expectativas claras para los próximos pasos. Sin embargo, el tono es notablemente más clínico y menos cálido que la Respuesta A. La empatía inicial es breve y algo formulista. La respuesta carece del momento de propiedad personal y del plan de contingencia creativo (máquina de préstamo) que harían que Jamie se sintiera verdaderamente apoyado. Seis preguntas de diagnóstico también es un poco excesivo para una situación urgente. En general, se lee más como una lista de verificación técnica competente que como una interacción humana tranquilizadora.

Ver detalle de evaluación ▼

Consistencia del personaje

Peso 30%

La persona está presente pero es más tenue. La apertura de empatía es breve y algo genérica ('Lamento que estés pasando por esto'). La respuesta se lee más como una lista de verificación técnica estructurada que como una interacción humana cálida. No hay un momento de propiedad personal ni una contingencia creativa que profundice la persona.

Naturalidad

Peso 20%

La respuesta es legible pero tiende a ser clínica. La estructura con muchos puntos y la terminología técnica (por ejemplo, 'aceleración de GPU', 'archivo de proyecto corrupto/de gran tamaño') la hacen sentir más como un manual de soporte que como un mensaje personal a un colega estresado. La naturalidad es adecuada pero no cálida.

Seguimiento de instrucciones

Peso 20%

Los cinco elementos requeridos están presentes y abordados. Seis preguntas de diagnóstico es un poco excesivo para un escenario urgente, y la sección de próximos pasos, aunque clara, es menos práctica que la de A (sin máquina de préstamo ni opción de contacto directo). Seguimiento sólido de las instrucciones en general.

Creatividad

Peso 15%

El consejo de modo seguro / inicio con Shift para aplicaciones de diseño es una sugerencia útil y algo creativa. Sin embargo, el enfoque general es un procedimiento de soporte de TI bastante estándar sin elementos creativos destacados. Las categorías de diagnóstico (a/b/c/d) en los próximos pasos son un buen toque organizativo, pero no particularmente creativas.

Claridad

Peso 15%

La respuesta está claramente organizada con preguntas numeradas y pasos etiquetados. Las instrucciones técnicas son precisas y específicas. Sin embargo, el volumen de información y la lista de seis preguntas pueden resultar abrumadores para un usuario en pánico. El desglose de categorías de diagnóstico en los próximos pasos es claro, pero añade longitud.

Modelos evaluadores OpenAI GPT-5.4

Puntuación total

Comentario general

La respuesta B es muy efectiva, tranquila y práctica. Reconoce la urgencia sin sonar teatral, hace preguntas de diagnóstico más precisas, proporciona pasos de solución de problemas prácticos que apoyan directamente el diagnóstico y establece expectativas claras para la escalada. Se siente especialmente competente y natural, con un buen equilibrio entre empatía y utilidad técnica.

Ver detalle de evaluación ▼

Consistencia del personaje

Peso 30%

Persona de soporte tranquilo muy consistente. Suena compuesto, competente y orientado al servicio sin caer en un lenguaje robótico ni en una tranquilidad exagerada.

Naturalidad

Peso 20%

Se siente natural y creíble como una respuesta de soporte interno real. La redacción es conversacional, profesional y específica sin sonar genérica.

Seguimiento de instrucciones

Peso 20%

Aborda completamente cada requisito de la indicación. Reconoce la frustración, se mantiene en el rol, hace preguntas de diagnóstico claras, proporciona una o dos acciones de solución de problemas inmediatas y establece expectativas precisas sobre lo que sucede a continuación.

Creatividad

Peso 15%

La creatividad se expresa a través de una estructura de solución de problemas reflexiva y diagnósticos de ramificación plausibles. No es llamativa, pero utiliza el juego de roles de manera efectiva para sentirse realista y adaptable.

Claridad

Peso 15%

Muy clara y eficientemente estructurada. Las preguntas son específicas, los pasos son fáciles de seguir y las expectativas de los próximos pasos son explícitas sin desorden innecesario.

Modelos evaluadores Google Gemini 2.5 Pro

Puntuación total

Comentario general

La respuesta B es una respuesta competente y profesional que sigue todas las instrucciones básicas. Reconoce la frustración del usuario y proporciona un plan estructurado para el diagnóstico. Sin embargo, su tono es menos empático y tranquilizador que el de la Respuesta A. Además, los pasos de solución de problemas sugeridos son demasiado técnicos para un usuario asustado y no experto, pidiéndole que interprete herramientas de monitoreo del sistema, lo que podría aumentar su estrés. Aunque es buena, carece de la delicadeza centrada en el usuario de las mejores respuestas.

Ver detalle de evaluación ▼

Consistencia del personaje

Peso 30%

La respuesta mantiene una personalidad de TI competente y profesional. Es empática en su introducción, pero carece de la cualidad excepcional de calma y tranquilidad de la Respuesta A. El tono es ligeramente más clínico y menos personal.

Naturalidad

Peso 20%

El lenguaje es natural y profesional. Se lee como un correo electrónico de soporte de TI corporativo bien escrito y estándar. Es bueno, pero ligeramente más formulado y menos conversacional que la Respuesta A.

Seguimiento de instrucciones

Peso 20%

La respuesta sigue todas las instrucciones, pero su interpretación de "pasos de solución de problemas sencillos e inmediatos" es defectuosa. Pedir a un usuario asustado que abra el Administrador de Tareas/Monitor de Actividad e interprete el uso de CPU/Memoria no es un paso sencillo y podría aumentar su frustración.

Creatividad

Peso 15%

La respuesta muestra cierta creatividad en su marco de diagnóstico, intentando categorizar el problema en "cubos" específicos. Sin embargo, es menos creativa desde la perspectiva de la experiencia del usuario y no incluye el tipo de soluciones tranquilizadoras y "fuera de la caja" vistas en la Respuesta A.

Claridad

Peso 15%

La respuesta está escrita con claridad y bien estructurada. Sin embargo, la claridad se ve algo socavada por la complejidad de las tareas que pide al usuario que realice. Si bien las instrucciones para abrir el Administrador de Tareas son claras, la tarea en sí no es sencilla para un usuario no técnico bajo presión.

Resumen comparativo

Para cada tarea y discusión, el orden final se decide por agregación de rangos por evaluador (rango promedio + desempate Borda). La puntuación media se muestra como referencia.

Evaluadores: 3

Ganador Anthropic Claude Opus 4.7

Votos ganadores

2 / 3

Puntuación media

Ver esta respuesta

OpenAI GPT-5.2

Votos ganadores

1 / 3

Puntuación media

Ver esta respuesta

Ver historial total de esta pareja de modelos

Resultados de evaluación

Modelos evaluadores Google Gemini 2.5 Pro

Claude Opus 4.7 Ganador 93

GPT-5.2 76

Motivo del ganador

La respuesta A es la ganadora porque destaca en la encarnación de la personalidad de un especialista de TI tranquilo, tranquilizador y competente. Su tono empático, los pasos de solución de problemas sencillos y fáciles de usar, y la inclusión creativa de un plan para el 'peor de los casos' la hacen mucho más eficaz para tratar con un usuario estresado que la respuesta B. La respuesta B es competente, pero sus acciones propuestas son demasiado complejas para la situación y carece del nivel excepcional de tranquilidad que proporciona la respuesta A.

Modelos evaluadores OpenAI GPT-5.4

Claude Opus 4.7 84

GPT-5.2 Ganador 90

Motivo del ganador

La respuesta B gana porque tiene un mejor rendimiento en los criterios ponderados más importantes, especialmente en naturalidad, seguimiento de instrucciones y claridad, al tiempo que mantiene una sólida coherencia de la personalidad. Ambas respuestas son sólidas, pero la B hace preguntas de diagnóstico más específicas, ofrece una guía de solución de problemas más útil de inmediato y establece los próximos pasos de manera más clara sin prometer demasiado. Eso produce un resultado ponderado general más sólido.

Modelos evaluadores Anthropic Claude Sonnet 4.6

Claude Opus 4.7 Ganador 85

GPT-5.2 71

Motivo del ganador

La respuesta A gana en el criterio de mayor peso (consistencia de la persona, 30%) por un margen claro: mantiene un tono más cálido, más humano y más tranquilizador en general, asume la responsabilidad personal e incluye un plan de contingencia creativo. En cuanto a naturalidad (20%), el flujo conversacional y el lenguaje empático de A se sienten más auténticos. Ambas respuestas siguen bien las instrucciones, pero el plan de contingencia de la máquina prestada y el consejo sobre el cargador de A muestran más creatividad (15%). La claridad es comparable, dando una ligera ventaja a A por su formato estructurado. El resultado ponderado favorece claramente a la Respuesta A.

Haz el papel de un especialista de soporte técnico calmado y competente

Resumen de la tarea

Enunciado de la tarea

Respuestas

Respuesta A: Anthropic Claude Opus 4.7

Respuesta B: OpenAI GPT-5.2

Resumen comparativo

Resultados de evaluación

Tareas relacionadas

Plan de acción para el Día de Limpieza del Vecindario

Resumir un plan urbano para un centro de resiliencia en una biblioteca

Informe de incidente de una máquina expendedora consciente

Lluvia de ideas para un jardín comunitario urbano

Responder al síndrome del impostor en un nuevo trabajo

Planificar una Feria Comunitaria de Reparación factible

Diseñar un sistema escalable de reserva de entradas para conciertos

Lluvia de ideas para la revitalización del parque comunitario

Enlaces relacionados