Convertidor de un subconjunto de Markdown a HTML

Compara las respuestas de los modelos para esta tarea de benchmark de Programación y revisa puntuaciones, comentarios y ejemplos relacionados.

Inicia sesión o regístrate para usar me gusta y favoritos. Registrarse

X f L

Índice

Resumen de la tarea

Géneros de comparación

Programación

Modelo creador de la tarea El creador de la tarea se selecciona aleatoriamente entre los principales modelos de generación de tareas de los proveedores compatibles.

Google Gemini 2.5 Pro

Modelos participantes En este benchmark, los modelos del mismo proveedor que el creador de la tarea quedan excluidos de responder.

Respuesta A Anthropic Claude Opus 4.7

Respuesta B OpenAI GPT-5.4

Modelos evaluadores La evaluación usa exactamente 3 modelos evaluadores, excluyendo los modelos que responden. Al menos 1 evaluador se selecciona entre modelos de nivel superior, los modelos ligeros no se usan como evaluadores, y los 3 evaluadores provienen de 3 proveedores distintos.

OpenAI GPT-5.2 Anthropic Claude Sonnet 4.6 Google Gemini 2.5 Pro

Enunciado de la tarea

Escribe una función en Python markdown_to_html(markdown_text: str) -> str que convierta una cadena que contiene un subconjunto específico de Markdown en su representación HTML correspondiente.

La función debe soportar las siguientes características:

Elementos de bloque:

Encabezados: Las líneas que comienzan con # hasta ###### deben convertirse en etiquetas <h1> a <h6>.
Listas no ordenadas: Las líneas que comienzan con - deben convertirse en <ul> y <li> tags. Las listas anida...

Mostrar más ▼

Escribe una función en Python markdown_to_html(markdown_text: str) -> str que convierta una cadena que contiene un subconjunto específico de Markdown en su representación HTML correspondiente.

La función debe soportar las siguientes características:

Elementos de bloque:

Encabezados: Las líneas que comienzan con # hasta ###### deben convertirse en etiquetas <h1> a <h6>.
Listas no ordenadas: Las líneas que comienzan con - deben convertirse en <ul> y <li> tags. Las listas anidadas, indentadas por dos espacios por nivel, deben ser soportadas. Una lista termina con una línea en blanco o con un elemento de bloque diferente.
Bloques de código: El contenido encerrado entre líneas de tres backticks () debe convertirse a `<pre><code>...</code></pre>`. El especificador de lenguaje en los backticks de apertura (por ejemplo, python) debe ser ignorado. No debe aplicarse ningún otro procesamiento de Markdown dentro de un bloque de código.
Párrafos: Cualquier otro texto debe envolverse en etiquetas <p>. Líneas consecutivas de texto pertenecen al mismo párrafo. Los párrafos se separan por una o más líneas en blanco.

Elementos en línea:

Negrita y cursiva: ***text*** debe convertirse en <strong><em>text</em></strong>.
Negrita: **text** debe convertirse en <strong>text</strong>.
Cursiva: *text* debe convertirse en <em>text</em>.

Reglas y restricciones:

Los elementos en línea pueden anidarse dentro de encabezados y elementos de lista.
El parser debe ser robusto ante entradas malformadas o engañosas, como etiquetas en línea sin cerrar. Por ejemplo, *italic debe renderizarse como <p>*italic</p>.
El orden de precedencia para los elementos en línea es ***, luego **, luego *.
Asuma que la entrada es una única cadena con varias líneas.
No implemente soporte para ninguna otra característica de Markdown como enlaces, imágenes, citas en bloque o listas ordenadas.
El HTML de salida no necesita ser un documento completo (no se requieren etiquetas <html> o <body>).

Ejemplo de entrada:

# Header 1

This is a paragraph with **bold** and *italic* text.
This is the same paragraph.

- List item one
- List item two with ***bold and italic***
  - Nested list item
- Back to the first level

```python
def hello():
    print("Hello, World!")

Información complementaria

Esta tarea evalúa la capacidad de escribir un parser para un lenguaje simple y bien definido. Requiere manejar cuidadosamente diferentes estados (por ejemplo, dentro de una lista, dentro de un bloque de código), analizar elementos tanto a nivel de bloque como en línea, y gestionar estructuras anidadas. Una solución exitosa demostrará buen diseño algorítmico, atención a casos límite y una estructura de código robusta.

Política de evaluación

Una respuesta de alta calidad implementará correctamente todas las características especificadas. La solución debe ser robusta y manejar casos límite con elegancia, como listas anidadas, formatos en línea anidados y sintaxis malformada. El código debe estar bien estructurado, legible y eficiente.

Corrección: El HTML generado debe reflejar con precisión la entrada Markdown conforme a todas las reglas. Preste especial atención al correcto anidamiento de listas y estilos en línea.
Robustez: El código no d...

Mostrar más ▼

Corrección: El HTML generado debe reflejar con precisión la entrada Markdown conforme a todas las reglas. Preste especial atención al correcto anidamiento de listas y estilos en línea.
Robustez: El código no debe fallar ante entradas complicadas o malformadas. Por ejemplo, un * sin cerrar debe tratarse como un carácter literal.
Calidad del código: La solución debe estar bien organizada y ser fácil de entender. Usar expresiones regulares es una aproximación válida, pero también son aceptables máquinas de estados u otras técnicas de análisis. La elección del algoritmo y la calidad de su implementación serán evaluadas.
Completitud: Todas las características especificadas (encabezados, párrafos, listas con anidamiento, bloques de código y los tres estilos en línea) deben implementarse.

Respuestas

Respuesta A: Anthropic Claude Opus 4.7

import re
import html

def markdown_to_html(markdown_text: str) -> str:
"""Convert a subset of Markdown into HTML.

Supported features:
  - Headers (# .. ######)
  - Unordered lists with 2-space nesting
  - Fenced code blocks (```)
  - Paragraphs
  - Inline: ***bold+italic***, **bold**, *italic*
"""

def escape(text: str) -> str:
    # Escape HTML-sensitive characters.
    return html.escape(text, quote=False)

def process_inline(text: str) -> str:
    """Process inline markdown. Works on already-escaped text is fine since
    the markers *, ** and *** don'...

Mostrar respuesta completa ▼

import re
import html

def markdown_to_html(markdown_text: str) -> str:
"""Convert a subset of Markdown into HTML.

Supported features:
  - Headers (# .. ######)
  - Unordered lists with 2-space nesting
  - Fenced code blocks (```)
  - Paragraphs
  - Inline: ***bold+italic***, **bold**, *italic*
"""

def escape(text: str) -> str:
    # Escape HTML-sensitive characters.
    return html.escape(text, quote=False)

def process_inline(text: str) -> str:
    """Process inline markdown. Works on already-escaped text is fine since
    the markers *, ** and *** don't contain escaped characters."""
    escaped = escape(text)

    # Order of precedence: ***, then **, then *.
    # Use non-greedy matching and require non-whitespace boundaries loosely.
    # ***text***
    escaped = re.sub(
        r'\*\*\*(.+?)\*\*\*',
        r'<strong><em>\1</em></strong>',
        escaped,
    )
    # **text**
    escaped = re.sub(
        r'\*\*(.+?)\*\*',
        r'<strong>\1</strong>',
        escaped,
    )
    # *text*
    escaped = re.sub(
        r'\*(.+?)\*',
        r'<em>\1</em>',
        escaped,
    )
    return escaped

lines = markdown_text.split('\n')
output = []

# State trackers
in_code_block = False
code_buffer = []

paragraph_buffer = []

# List stack: list of indent levels (0, 1, 2, ...) currently open
list_stack = []

def flush_paragraph():
    if paragraph_buffer:
        content = ' '.join(paragraph_buffer)
        output.append(f'<p>{process_inline(content)}</p>')
        paragraph_buffer.clear()

def close_lists_to(level):
    """Close lists until only `level` lists remain open (level = number of open <ul>)."""
    while len(list_stack) > level:
        output.append('</li>')
        output.append('</ul>')
        list_stack.pop()
        if list_stack:
            # After closing a nested list, the parent <li> remains open;
            # we close it when the next sibling starts or when fully closing.
            pass

def close_all_lists():
    while list_stack:
        output.append('</li>')
        output.append('</ul>')
        list_stack.pop()

i = 0
while i < len(lines):
    line = lines[i]

    # Code block handling
    if in_code_block:
        if line.strip().startswith('```'):
            # End code block
            code_content = '\n'.join(code_buffer)
            output.append(f'<pre><code>{escape(code_content)}</code></pre>')
            code_buffer = []
            in_code_block = False
        else:
            code_buffer.append(line)
        i += 1
        continue

    # Check for code block start
    stripped = line.strip()
    if stripped.startswith('```'):
        flush_paragraph()
        close_all_lists()
        in_code_block = True
        i += 1
        continue

    # Blank line
    if stripped == '':
        flush_paragraph()
        close_all_lists()
        i += 1
        continue

    # Header?
    header_match = re.match(r'^(#{1,6}) +(.*)$', line)
    if header_match:
        flush_paragraph()
        close_all_lists()
        level = len(header_match.group(1))
        content = header_match.group(2).rstrip()
        output.append(f'<h{level}>{process_inline(content)}</h{level}>')
        i += 1
        continue

    # List item?
    # Match leading spaces (must be even for nesting) followed by "- "
    list_match = re.match(r'^( *)- +(.*)$', line)
    if list_match:
        flush_paragraph()
        indent_spaces = len(list_match.group(1))
        # Only treat as a valid nesting level if indent is a multiple of 2
        indent_level = indent_spaces // 2
        content = list_match.group(2)

        # Adjust list stack
        if not list_stack:
            # Starting fresh: first list must be at level 0
            indent_level = 0
            output.append('<ul>')
            list_stack.append(0)
            output.append(f'<li>{process_inline(content)}')
        else:
            current_depth = len(list_stack) - 1  # top index
            if indent_level > current_depth:
                # Open a new nested list (only go one level deeper at a time)
                indent_level = current_depth + 1
                output.append('<ul>')
                list_stack.append(indent_level)
                output.append(f'<li>{process_inline(content)}')
            elif indent_level == current_depth:
                # Sibling at same level: close previous <li>
                output.append('</li>')
                output.append(f'<li>{process_inline(content)}')
            else:
                # Dedent: close deeper lists
                while len(list_stack) - 1 > indent_level:
                    output.append('</li>')
                    output.append('</ul>')
                    list_stack.pop()
                    # Also close the parent <li> that contained this nested list
                    output.append('</li>')
                # Now at same level: add sibling
                output.append(f'<li>{process_inline(content)}')
        i += 1
        continue

    # Otherwise, it's a paragraph line
    if list_stack:
        close_all_lists()
    paragraph_buffer.append(line.strip())
    i += 1

# End of input: flush everything
if in_code_block:
    # Unclosed code block: emit whatever we have
    code_content = '\n'.join(code_buffer)
    output.append(f'<pre><code>{escape(code_content)}</code></pre>')
flush_paragraph()
close_all_lists()

return '\n'.join(output)

if name == 'main':
sample = '''# Header 1

This is a paragraph with bold and italic text.
This is the same paragraph.

List item one
List item two with bold and italic
- Nested list item
Back to the first level

def hello():
    print("Hello, World!")

'''
print(markdown_to_html(sample))

Resultado

Votos ganadores

0 / 3

Puntuación media

Modelos evaluadores Anthropic Claude Sonnet 4.6

Puntuación total

Comentario general

La respuesta A implementa todas las características requeridas y está bien estructurada con comentarios claros. El analizador en línea utiliza sustituciones de expresiones regulares en orden de precedencia, lo que funciona para la mayoría de los casos pero tiene un defecto sutil: no escapa los caracteres HTML antes de aplicar los patrones en línea, y el escape se aplica primero, lo que podría interferir con los patrones. Más críticamente, la lógica de cierre de listas tiene un error al retroceder (dedent): emite un </li> adicional para el elemento padre antes de reabrir en el mismo nivel, lo que puede producir HTML malformado. La detección de bloques de código utiliza line.strip().startswith('```'), que es un poco más permisivo de lo necesario. En general, es un intento sólido con algunos problemas en casos de borde en el manejo de listas.

Ver detalle de evaluación ▼

Corrección

Peso 35%

La respuesta A maneja correctamente encabezados, párrafos, bloques de código y formato en línea básico. Sin embargo, la lógica de retroceso de listas tiene un error: al cerrar listas anidadas, emite un `</li>` adicional para el elemento padre, lo que puede producir HTML malformado. El enfoque de expresiones regulares en línea también puede coincidir en límites no deseados para marcadores no cerrados como `*cursiva`, que potencialmente coinciden con un `*` posterior en el texto.

Integridad

Peso 20%

Se implementan todas las características requeridas: encabezados (h1-h6), listas desordenadas con anidamiento, bloques de código con especificador de idioma ignorado, párrafos y los tres estilos en línea (negrita+cursiva, negrita, cursiva). Se maneja la muestra principal de la tarea.

Calidad del código

Peso 20%

El código está bien organizado con funciones auxiliares claras y buenos comentarios. La cadena de documentación es útil. Sin embargo, la lógica de gestión de listas es algo compleja y tiene errores sutiles. El enfoque de expresiones regulares para el análisis en línea es más simple pero menos robusto. La función `close_lists_to` está definida pero no se utiliza en el bucle principal (solo se utiliza `close_all_lists`).

Valor práctico

Peso 15%

La solución funciona para casos comunes e incluye un bloque `__main__` ejecutable con la entrada de muestra, lo que es útil para probar. Sin embargo, los errores de anidamiento de listas y los posibles problemas de expresiones regulares en línea reducen la fiabilidad práctica para casos de borde.

Seguimiento de instrucciones

Peso 10%

Sigue todas las instrucciones especificadas: firma de función correcta, admite todas las características requeridas, maneja el orden de precedencia en línea especificado, no implementa características no admitidas y maneja etiquetas no cerradas (aunque imperfectamente con expresiones regulares). Se aplica el escape HTML.

Modelos evaluadores OpenAI GPT-5.2

Puntuación total

Comentario general

Implementa los tipos de bloque y el formato en línea requeridos con una máquina de estados simple y sustituciones en línea basadas en expresiones regulares, y escapa correctamente HTML, incluso dentro de bloques de código. Sin embargo, la generación de listas tiene múltiples problemas estructurales: emite secuencias de y que pueden llevar a anidaciones inválidas, maneja mal las sangrías ( adicionales) y puede abrir anidados sin estar dentro de un padre. El manejo en línea a través de expresiones regulares no es robusto para casos complicados/malformados (por ejemplo, marcadores superpuestos como negrita cursiva), y no admite anidación recursiva de elementos en línea como se requiere/espera.

Ver detalle de evaluación ▼

Corrección

Peso 35%

Correcto para encabezados/párrafos/bloques de código básicos y énfasis simple, pero la anidación/cierre de listas es frecuentemente inválida (</li> adicionales, problemas de ubicación de <ul> anidados) y el énfasis con expresiones regulares puede manejar mal casos superpuestos/anidados (por ejemplo, **negrita *cursiva***).

Integridad

Peso 20%

Cubre todas las categorías de características solicitadas, pero el soporte de anidación de listas no es confiable y la anidación en línea no se admite realmente más allá de patrones simples, lo que reduce la completitud efectiva.

Calidad del código

Peso 20%

Legible y modular, pero la lógica de la pila de listas es complicada con una función auxiliar (close_lists_to) no utilizada/ineficaz y transiciones de estado frágiles; las sustituciones intensivas con expresiones regulares reducen la claridad/robustez.

Valor práctico

Peso 15%

Útil para entradas simples, pero el HTML de lista inválido y los casos extremos de énfasis limitan la usabilidad en el mundo real para el subconjunto indicado.

Seguimiento de instrucciones

Peso 10%

Implementa el subconjunto solicitado e ignora el especificador de idioma del bloque de código; sin embargo, el requisito de robustez para entradas en línea complicadas y la anidación/terminación correcta de listas no se cumplen bien.

Modelos evaluadores Google Gemini 2.5 Pro

Puntuación total

Comentario general

La respuesta A presenta una solución bien estructurada basada en máquinas de estado que maneja correctamente la mayoría de los elementos de bloque como encabezados, párrafos y bloques de código. Sin embargo, su enfoque para analizar elementos en línea mediante sustituciones secuenciales de expresiones regulares es fundamentalmente defectuoso. Este método no maneja correctamente los estilos en línea anidados (por ejemplo, negrita que contiene cursiva), lo que representa un problema significativo de corrección. La lógica de manejo de listas también es compleja y menos robusta que la alternativa.

Ver detalle de evaluación ▼

Corrección

Peso 35%

La solución no analiza correctamente los estilos en línea anidados. Por ejemplo, `**negrita *cursiva* negrita**` se representa incorrectamente porque las llamadas secuenciales `re.sub` operan sobre la cadena intermedia que contiene etiquetas HTML recién agregadas. Esta es una falla de corrección significativa en la lógica de análisis.

Integridad

Peso 20%

La solución intenta implementar todas las características requeridas. Sin embargo, dado que la implementación de estilos en línea anidados es incorrecta, no se puede considerar completamente completa en su funcionalidad.

Calidad del código

Peso 20%

El código está generalmente bien estructurado con funciones auxiliares y variables de estado. Sin embargo, la elección de una sustitución secuencial de regex para el análisis es una mala elección algorítmica para este problema, lo que demuestra una falta de comprensión de sus peligros. La lógica de manejo de listas también es bastante complicada.

Valor práctico

Peso 15%

El manejo incorrecto del analizador de un caso de uso común (estilos en línea anidados) limita severamente su valor práctico. No sería confiable para convertir documentos de markdown del mundo real.

Seguimiento de instrucciones

Peso 10%

100

La solución se adhiere a todas las instrucciones del prompt, incluida la firma de la función, el subconjunto específico de Markdown a soportar y el formato de salida.

Respuesta B: OpenAI GPT-5.4

def markdown_to_html(markdown_text: str) -> str:
import re
from html import escape

lines = markdown_text.splitlines()
out = []
paragraph_lines = []
list_stack = []
i = 0
in_code_block = False
code_lines = []

def parse_inline(text: str) -> str:
    parts = []
    i = 0
    n = len(text)
    while i < n:
        if text.startswith('***', i):
            j = text.find('***', i + 3)
            if j != -1:
                inner = parse_inline(text[i + 3:j])
                parts.append(f'<strong><em>{inner}</em></strong>')...

Mostrar respuesta completa ▼

def markdown_to_html(markdown_text: str) -> str:
import re
from html import escape

lines = markdown_text.splitlines()
out = []
paragraph_lines = []
list_stack = []
i = 0
in_code_block = False
code_lines = []

def parse_inline(text: str) -> str:
    parts = []
    i = 0
    n = len(text)
    while i < n:
        if text.startswith('***', i):
            j = text.find('***', i + 3)
            if j != -1:
                inner = parse_inline(text[i + 3:j])
                parts.append(f'<strong><em>{inner}</em></strong>')
                i = j + 3
                continue
        if text.startswith('**', i):
            j = text.find('**', i + 2)
            if j != -1:
                inner = parse_inline(text[i + 2:j])
                parts.append(f'<strong>{inner}</strong>')
                i = j + 2
                continue
        if text.startswith('*', i):
            j = text.find('*', i + 1)
            if j != -1:
                inner = parse_inline(text[i + 1:j])
                parts.append(f'<em>{inner}</em>')
                i = j + 1
                continue
        parts.append(escape(text[i]))
        i += 1
    return ''.join(parts)

def flush_paragraph():
    nonlocal paragraph_lines
    if paragraph_lines:
        text = ' '.join(line.strip() for line in paragraph_lines)
        out.append(f'<p>{parse_inline(text)}</p>')
        paragraph_lines = []

def close_lists_to(level: int):
    while len(list_stack) > level:
        out.append('</li>')
        out.append('</ul>')
        list_stack.pop()

def handle_list_item(indent_spaces: int, content: str):
    level = indent_spaces // 2
    if indent_spaces % 2 != 0:
        return False

    if level > len(list_stack):
        if level != len(list_stack) + 1:
            return False
        out.append('<ul>')
        list_stack.append(True)
    elif level < len(list_stack):
        close_lists_to(level)
        out.append('</li>')
    else:
        if list_stack:
            out.append('</li>')
        else:
            out.append('<ul>')
            list_stack.append(True)

    while len(list_stack) < level + 1:
        out.append('<ul>')
        list_stack.append(True)

    out.append(f'<li>{parse_inline(content)}')
    return True

while i < len(lines):
    line = lines[i]

    if in_code_block:
        if line.startswith('```'):
            out.append(f'<pre><code>{escape("\n".join(code_lines))}</code></pre>')
            code_lines = []
            in_code_block = False
        else:
            code_lines.append(line)
        i += 1
        continue

    if line.startswith('```'):
        flush_paragraph()
        close_lists_to(0)
        in_code_block = True
        code_lines = []
        i += 1
        continue

    if not line.strip():
        flush_paragraph()
        close_lists_to(0)
        i += 1
        continue

    header_match = re.match(r'^(#{1,6})\s+(.*)$', line)
    if header_match:
        flush_paragraph()
        close_lists_to(0)
        level = len(header_match.group(1))
        content = parse_inline(header_match.group(2).strip())
        out.append(f'<h{level}>{content}</h{level}>')
        i += 1
        continue

    list_match = re.match(r'^( *)(- )(.+)$', line)
    if list_match:
        flush_paragraph()
        indent = len(list_match.group(1))
        content = list_match.group(3)
        if handle_list_item(indent, content):
            i += 1
            continue

    if list_stack:
        close_lists_to(0)

    paragraph_lines.append(line)
    i += 1

if in_code_block:
    out.append(f'<pre><code>{escape("\n".join(code_lines))}</code></pre>')

flush_paragraph()
close_lists_to(0)

return '\n'.join(out)

Resultado

#1 | Ganador

Votos ganadores

3 / 3

Puntuación media

Modelos evaluadores Anthropic Claude Sonnet 4.6

Puntuación total

Comentario general

La respuesta B implementa un analizador en línea carácter por carácter que maneja correctamente los elementos en línea anidados y recurre con gracia a caracteres literales para marcadores no cerrados. Este es un enfoque más robusto que las expresiones regulares para el análisis en línea. La lógica de manejo de listas es más limpia y correcta. La detección de bloques de código utiliza line.startswith('```') lo cual es correcto según la especificación. La función handle_list_item tiene un problema de lógica en la rama else donde solo agrega <ul> cuando list_stack está vacío, pero el bucle while posterior maneja el caso donde level > len(list_stack), lo que lo hace ligeramente redundante pero funcional. El analizador en línea escapa correctamente caracteres individuales que no forman parte de patrones de markdown, proporcionando un escape HTML adecuado. En general, esta es una implementación más robusta y correcta.

Ver detalle de evaluación ▼

Corrección

Peso 35%

La respuesta B maneja correctamente todos los elementos de bloque. El analizador en línea carácter por carácter maneja correctamente los marcadores no cerrados recurriendo a caracteres literales. El manejo de listas es generalmente correcto, aunque la rama `else` de `handle_list_item` tiene un problema de lógica menor. La detección de bloques de código es correcta. En general, es más correcto que A en los requisitos clave de robustez.

Integridad

Peso 20%

Se implementan todas las características requeridas: encabezados, listas desordenadas con anidamiento, bloques de código, párrafos y los tres estilos en línea. La implementación cubre todas las características especificadas en la indicación de la tarea.

Calidad del código

Peso 20%

El código está bien organizado con una clara separación de responsabilidades. El analizador en línea carácter por carácter es más sofisticado y correcto. La función `handle_list_item` encapsula bien la lógica de listas. Problema menor: la rama `else` en `handle_list_item` tiene lógica redundante. En general, es más limpio y mantenible.

Valor práctico

Peso 15%

La solución es práctica y maneja bien los casos comunes. La robustez del analizador en línea para marcadores no cerrados lo hace más confiable en el uso del mundo real. No hay bloque `__main__` pero la función es autocontenida e importable.

Seguimiento de instrucciones

Peso 10%

Sigue todas las instrucciones especificadas: firma de función correcta, admite todas las características requeridas, maneja el orden de precedencia en línea especificado, no implementa características no admitidas y maneja explícitamente las etiquetas en línea no cerradas tratándolas como caracteres literales. El escape HTML se aplica por carácter.

Modelos evaluadores OpenAI GPT-5.2

Puntuación total

Comentario general

Implementa una máquina de estados más clara para bloques de código, encabezados, listas y párrafos, y utiliza un analizador en línea recursivo que respeta la precedencia () luego () luego () mientras se mantiene robusto ante marcadores sin cerrar (dejados como literales). El escape HTML se maneja de forma segura a nivel de carácter para texto normal y mediante html.escape para bloques de código. El manejo de listas está más cerca de ser correcto que A, pero aún es imperfecto: los saltos de indentación y algunas secuencias de cierre/apertura pueden producir HTML cuestionable, y no garantiza claramente que anidado aparezca dentro de un padre en todos los casos. En general, es más robusto y fiel a la especificación que A.

Ver detalle de evaluación ▼

Corrección

Peso 35%

Correcto para encabezados/párrafos/bloques de código; el énfasis en línea se analiza con la precedencia y recursión adecuadas y es robusto ante marcadores mal formados. El anidamiento de listas todavía no es HTML completamente correcto en todos los casos (<ul> anidado no siempre bajo un <li> abierto, casos extremos con cambios de nivel), pero en general está más cerca de la especificación que A.

Integridad

Peso 20%

Cubre todos los bloques especificados y los tres estilos en línea con soporte de anidamiento a través de recursión; la brecha restante son principalmente casos extremos de la estructura HTML de listas.

Calidad del código

Peso 20%

Bien estructurado con funciones auxiliares y un analizador en línea determinista; el manejo de listas es un poco complejo pero más coherente que A, y el escape se maneja de manera consistente.

Valor práctico

Peso 15%

Más usable en la práctica gracias a un manejo en línea robusto y un escape más seguro; las imperfecciones restantes en el anidamiento de listas aún limitan la fiabilidad, pero menos que A.

Seguimiento de instrucciones

Peso 10%

Sigue de cerca los requisitos del subconjunto, incluido el manejo de precedencia y en línea mal formado, y deshabilita correctamente el análisis en línea dentro de los bloques de código; las desviaciones menores se encuentran principalmente en detalles estrictos de anidamiento HTML de listas.

Modelos evaluadores Google Gemini 2.5 Pro

Puntuación total

Comentario general

La respuesta B es una solución excelente y robusta. Su principal fortaleza reside en la función parse_inline, que utiliza un enfoque de descenso recursivo para manejar correctamente los estilos en línea, incluyendo anidamiento complejo y reglas de precedencia. Esta es una técnica mucho más apropiada y potente que la sustitución de expresiones regulares utilizada por la Respuesta A. El análisis de bloques también es muy sólido, con comprobaciones más robustas para la indentación de listas. El único problema estilístico menor es la colocación de las importaciones dentro de la función, pero esto no afecta la superioridad en corrección y calidad de la implementación.

Ver detalle de evaluación ▼

Corrección

Peso 35%

La solución es muy correcta. La función recursiva `parse_inline` maneja correctamente la precedencia y el anidamiento de todos los estilos en línea, lo cual es una parte difícil de la tarea. El análisis de bloques, incluido el anidamiento de listas, también se implementa de forma correcta y robusta.

Integridad

Peso 20%

100

Todas las características especificadas, incluyendo encabezados, párrafos, bloques de código, listas anidadas y las tres variaciones de estilo en línea con la precedencia y el anidamiento correctos, se implementan de forma completa y correcta.

Calidad del código

Peso 20%

El código está bien organizado y demuestra un gran conocimiento de las técnicas de análisis. El uso de una función recursiva para el análisis en línea es una elección algorítmica excelente y apropiada. El código es legible y robusto. Se realiza una pequeña deducción por la colocación poco convencional de las importaciones dentro de la función.

Valor práctico

Peso 15%

Esta solución es lo suficientemente robusta y correcta como para ser utilizada para su subconjunto especificado de Markdown. Su sólida base algorítmica significa que podría extenderse de manera confiable para soportar más características, lo que le otorga un alto valor práctico.

Seguimiento de instrucciones

Peso 10%

100

La solución sigue perfectamente todas las instrucciones dadas en el prompt, implementando la función requerida con la firma correcta y soportando el conjunto exacto de características solicitadas.

Resumen comparativo

Para cada tarea y discusión, el orden final se decide por agregación de rangos por evaluador (rango promedio + desempate Borda). La puntuación media se muestra como referencia.

Evaluadores: 3

Anthropic Claude Opus 4.7

Votos ganadores

0 / 3

Puntuación media

Ver esta respuesta

Ganador OpenAI GPT-5.4

Votos ganadores

3 / 3

Puntuación media

Ver esta respuesta

Ver historial total de esta pareja de modelos

Resultados de evaluación

Modelos evaluadores Google Gemini 2.5 Pro

Claude Opus 4.7 63

GPT-5.4 Ganador 91

Motivo del ganador

La respuesta B es la clara ganadora debido a su superioridad en corrección y robustez, particularmente en su manejo de elementos de markdown en línea. La respuesta A utiliza un método de sustitución de expresiones regulares secuencial que falla en estilos en línea anidados, un defecto crítico para un analizador. En contraste, la respuesta B implementa un analizador recursivo adecuado para elementos en línea, que maneja correctamente el anidamiento y la precedencia según lo requerido. Además, la lógica de manejo de listas de la respuesta B es más robusta, con comprobaciones explícitas de indentación válida, lo que la convierte en una solución de mayor calidad y más fiable en general.

Modelos evaluadores OpenAI GPT-5.2

Claude Opus 4.7 59

GPT-5.4 Ganador 71

Motivo del ganador

La respuesta B gana porque proporciona un analizador en línea más correcto y robusto (precedencia adecuada, recursión y manejo elegante de marcadores no cerrados) y un análisis de bloques generalmente más limpio. Si bien ambos tienen problemas de estructura HTML anidada en listas, la lógica de cierre/apertura de listas de A es más propensa a errores y su procesamiento en línea con expresiones regulares es menos robusto para patrones de énfasis anidados/superpuestos complicados, lo que hace que B sea mejor en el criterio más ponderado (corrección) y en general.

Modelos evaluadores Anthropic Claude Sonnet 4.6

Claude Opus 4.7 70

GPT-5.4 Ganador 75

Motivo del ganador

La respuesta B gana principalmente por su corrección y robustez. Su analizador en línea carácter por carácter maneja correctamente los marcadores no cerrados (tratándolos como texto literal) y admite elementos en línea anidados, lo cual es un requisito clave. El analizador en línea basado en expresiones regulares de la respuesta A puede fallar en marcadores no cerrados al coincidir en límites no deseados. La respuesta B también tiene una lógica de manejo de listas más limpia y un escape HTML adecuado por carácter en el analizador en línea. Si bien ambas respuestas tienen algunos casos extremos en la gestión de listas, el enfoque general de la respuesta B es más robusto y correcto para los requisitos especificados, particularmente para el criterio de robustez del análisis en línea que se menciona explícitamente en la tarea.

Convertidor de un subconjunto de Markdown a HTML

Resumen de la tarea

Enunciado de la tarea

Respuestas

Respuesta A: Anthropic Claude Opus 4.7

Respuesta B: OpenAI GPT-5.4

Resumen comparativo

Resultados de evaluación

Tareas relacionadas

Responder al síndrome del impostor en un nuevo trabajo

Lluvia de ideas para la revitalización del parque comunitario

Memo persuasivo para una semana laboral de cuatro días

Respuesta empática ante la ansiedad relacionada con el trabajo

Resumir un artículo de investigación ficticio sobre espacios verdes urbanos

Respuesta empática al agobio en el trabajo

Explicar un modelo Transformer a un adolescente

Soluciones creativas para el desperdicio de alimentos en supermercados

Enlaces relacionados