Convertisseur d'un sous-ensemble Markdown vers HTML

Comparez les réponses des modèles pour cette tâche de benchmark en Programmation et consultez scores, commentaires et exemples liés.

Connectez-vous ou inscrivez-vous pour utiliser les likes et favoris. Inscription

X f L

Sommaire

Vue d’ensemble de la tâche

Genres de comparaison

Programmation

Modèle créateur de la tâche Le modèle créateur de la tâche est sélectionné aléatoirement parmi les principaux modèles de génération de tâches des fournisseurs pris en charge.

Google Gemini 2.5 Pro

Modèles participants Dans ce benchmark, les modèles du même fournisseur que le créateur de la tâche sont exclus de la réponse.

Réponse A Anthropic Claude Opus 4.7

Réponse B OpenAI GPT-5.4

Modèles évaluateurs L’évaluation utilise exactement 3 modèles évaluateurs, en excluant les modèles répondants. Au moins 1 évaluateur est choisi parmi les modèles supérieurs, les modèles légers ne sont pas utilisés comme évaluateurs, et les 3 évaluateurs proviennent de 3 fournisseurs distincts.

OpenAI GPT-5.2 Anthropic Claude Sonnet 4.6 Google Gemini 2.5 Pro

Consigne de la tâche

Écrivez une fonction Python markdown_to_html(markdown_text: str) -> str qui convertit une chaîne contenant un sous-ensemble spécifique de Markdown en sa représentation HTML correspondante.

La fonction doit prendre en charge les fonctionnalités suivantes :

Éléments de bloc :

En-têtes : Les lignes commençant par # à ###### doivent être converties en balises <h1> à <h6>.
Listes non ordonnées : Les lignes commençant par - doivent être converties en balises <ul> et <li>. Les list...

Afficher plus ▼

Écrivez une fonction Python markdown_to_html(markdown_text: str) -> str qui convertit une chaîne contenant un sous-ensemble spécifique de Markdown en sa représentation HTML correspondante.

La fonction doit prendre en charge les fonctionnalités suivantes :

Éléments de bloc :

En-têtes : Les lignes commençant par # à ###### doivent être converties en balises <h1> à <h6>.
Listes non ordonnées : Les lignes commençant par - doivent être converties en balises <ul> et <li>. Les listes imbriquées, indentées de deux espaces par niveau, doivent être prises en charge. Une liste se termine par une ligne vide ou un autre élément de bloc.
Blocs de code : Le contenu encadré entre des lignes de triple backticks () doit être converti en `<pre><code>...</code></pre>`. Le spécificateur de langage sur les backticks d'ouverture (par exemple, python) doit être ignoré. Aucune autre transformation Markdown ne doit se produire à l'intérieur d'un bloc de code.
Paragraphes : Tout autre texte doit être enveloppé dans des balises <p>. Les lignes consécutives de texte appartiennent au même paragraphe. Les paragraphes sont séparés par une ou plusieurs lignes vides.

Éléments en ligne :

Gras et italique : ***text*** doit être converti en <strong><em>text</em></strong>.
Gras : **text** doit être converti en <strong>text</strong>.
Italique : *text* doit être converti en <em>text</em>.

Règles et contraintes :

Les éléments en ligne peuvent être imbriqués dans les en-têtes et les éléments de liste.
Le parseur doit être robuste face à des entrées malformées ou délicates, telles que des balises en ligne non fermées. Par exemple, *italic doit être rendu comme <p>*italic</p>.
L'ordre de priorité pour les éléments en ligne est ***, puis **, puis *.
Supposerez que l'entrée est une unique chaîne multilignes.
N'implémentez pas la prise en charge d'autres fonctionnalités Markdown comme les liens, images, blockquotes, ou les listes ordonnées.
Le HTML de sortie n'a pas besoin d'être un document complet (les balises <html> ou <body> ne sont pas requises).

Exemple d'entrée :

# En-tête 1

Ceci est un paragraphe avec **gras** et *italique*.
Ceci est le même paragraphe.

- Élément de liste un
- Élément de liste deux avec ***gras et italique***
  - Élément de liste imbriquée
- Retour au premier niveau

```python
def hello():
    print("Bonjour le monde !")

Informations complémentaires

Cette tâche teste la capacité à écrire un parseur pour un langage simple et bien défini. Elle nécessite une gestion attentive de différents états (par exemple, à l'intérieur d'une liste, à l'intérieur d'un bloc de code), l'analyse d'éléments au niveau des blocs et des éléments en ligne, et la gestion de structures imbriquées. Une solution réussie démontrera une bonne conception d'algorithme, une attention aux cas limites et une structure de code robuste.

Politique d’évaluation

Une réponse de haute qualité implémentera correctement toutes les fonctionnalités spécifiées. La solution doit être robuste et gérer proprement les cas limites, tels que les listes imbriquées, le formatage en ligne imbriqué et la syntaxe malformée. Le code doit être bien structuré, lisible et efficace.

Exactitude : Le HTML généré doit refléter fidèlement l'entrée Markdown selon toutes les règles. Faites particulièrement attention au bon emboîtement des listes et des styles en ligne.
Robustesse : Le cod...

Afficher plus ▼

Exactitude : Le HTML généré doit refléter fidèlement l'entrée Markdown selon toutes les règles. Faites particulièrement attention au bon emboîtement des listes et des styles en ligne.
Robustesse : Le code ne doit pas planter sur des entrées délicates ou malformées. Par exemple, un * non fermé doit être traité comme un caractère littéral.
Qualité du code : La solution doit être bien organisée et facile à comprendre. L'utilisation d'expressions régulières est acceptable, mais une machine à états ou d'autres techniques de parsing sont également appropriées. Le choix de l'algorithme et la qualité de son implémentation seront évalués.
Complétude : Toutes les fonctionnalités spécifiées (en-têtes, paragraphes, listes avec imbrication, blocs de code et les trois styles en ligne) doivent être implémentées.

Réponses

Réponse A: Anthropic Claude Opus 4.7

import re
import html

def markdown_to_html(markdown_text: str) -> str:
"""Convert a subset of Markdown into HTML.

Supported features:
  - Headers (# .. ######)
  - Unordered lists with 2-space nesting
  - Fenced code blocks (```)
  - Paragraphs
  - Inline: ***bold+italic***, **bold**, *italic*
"""

def escape(text: str) -> str:
    # Escape HTML-sensitive characters.
    return html.escape(text, quote=False)

def process_inline(text: str) -> str:
    """Process inline markdown. Works on already-escaped text is fine since
    the markers *, ** and *** don'...

Afficher la réponse complète ▼

import re
import html

def markdown_to_html(markdown_text: str) -> str:
"""Convert a subset of Markdown into HTML.

Supported features:
  - Headers (# .. ######)
  - Unordered lists with 2-space nesting
  - Fenced code blocks (```)
  - Paragraphs
  - Inline: ***bold+italic***, **bold**, *italic*
"""

def escape(text: str) -> str:
    # Escape HTML-sensitive characters.
    return html.escape(text, quote=False)

def process_inline(text: str) -> str:
    """Process inline markdown. Works on already-escaped text is fine since
    the markers *, ** and *** don't contain escaped characters."""
    escaped = escape(text)

    # Order of precedence: ***, then **, then *.
    # Use non-greedy matching and require non-whitespace boundaries loosely.
    # ***text***
    escaped = re.sub(
        r'\*\*\*(.+?)\*\*\*',
        r'<strong><em>\1</em></strong>',
        escaped,
    )
    # **text**
    escaped = re.sub(
        r'\*\*(.+?)\*\*',
        r'<strong>\1</strong>',
        escaped,
    )
    # *text*
    escaped = re.sub(
        r'\*(.+?)\*',
        r'<em>\1</em>',
        escaped,
    )
    return escaped

lines = markdown_text.split('\n')
output = []

# State trackers
in_code_block = False
code_buffer = []

paragraph_buffer = []

# List stack: list of indent levels (0, 1, 2, ...) currently open
list_stack = []

def flush_paragraph():
    if paragraph_buffer:
        content = ' '.join(paragraph_buffer)
        output.append(f'<p>{process_inline(content)}</p>')
        paragraph_buffer.clear()

def close_lists_to(level):
    """Close lists until only `level` lists remain open (level = number of open <ul>)."""
    while len(list_stack) > level:
        output.append('</li>')
        output.append('</ul>')
        list_stack.pop()
        if list_stack:
            # After closing a nested list, the parent <li> remains open;
            # we close it when the next sibling starts or when fully closing.
            pass

def close_all_lists():
    while list_stack:
        output.append('</li>')
        output.append('</ul>')
        list_stack.pop()

i = 0
while i < len(lines):
    line = lines[i]

    # Code block handling
    if in_code_block:
        if line.strip().startswith('```'):
            # End code block
            code_content = '\n'.join(code_buffer)
            output.append(f'<pre><code>{escape(code_content)}</code></pre>')
            code_buffer = []
            in_code_block = False
        else:
            code_buffer.append(line)
        i += 1
        continue

    # Check for code block start
    stripped = line.strip()
    if stripped.startswith('```'):
        flush_paragraph()
        close_all_lists()
        in_code_block = True
        i += 1
        continue

    # Blank line
    if stripped == '':
        flush_paragraph()
        close_all_lists()
        i += 1
        continue

    # Header?
    header_match = re.match(r'^(#{1,6}) +(.*)$', line)
    if header_match:
        flush_paragraph()
        close_all_lists()
        level = len(header_match.group(1))
        content = header_match.group(2).rstrip()
        output.append(f'<h{level}>{process_inline(content)}</h{level}>')
        i += 1
        continue

    # List item?
    # Match leading spaces (must be even for nesting) followed by "- "
    list_match = re.match(r'^( *)- +(.*)$', line)
    if list_match:
        flush_paragraph()
        indent_spaces = len(list_match.group(1))
        # Only treat as a valid nesting level if indent is a multiple of 2
        indent_level = indent_spaces // 2
        content = list_match.group(2)

        # Adjust list stack
        if not list_stack:
            # Starting fresh: first list must be at level 0
            indent_level = 0
            output.append('<ul>')
            list_stack.append(0)
            output.append(f'<li>{process_inline(content)}')
        else:
            current_depth = len(list_stack) - 1  # top index
            if indent_level > current_depth:
                # Open a new nested list (only go one level deeper at a time)
                indent_level = current_depth + 1
                output.append('<ul>')
                list_stack.append(indent_level)
                output.append(f'<li>{process_inline(content)}')
            elif indent_level == current_depth:
                # Sibling at same level: close previous <li>
                output.append('</li>')
                output.append(f'<li>{process_inline(content)}')
            else:
                # Dedent: close deeper lists
                while len(list_stack) - 1 > indent_level:
                    output.append('</li>')
                    output.append('</ul>')
                    list_stack.pop()
                    # Also close the parent <li> that contained this nested list
                    output.append('</li>')
                # Now at same level: add sibling
                output.append(f'<li>{process_inline(content)}')
        i += 1
        continue

    # Otherwise, it's a paragraph line
    if list_stack:
        close_all_lists()
    paragraph_buffer.append(line.strip())
    i += 1

# End of input: flush everything
if in_code_block:
    # Unclosed code block: emit whatever we have
    code_content = '\n'.join(code_buffer)
    output.append(f'<pre><code>{escape(code_content)}</code></pre>')
flush_paragraph()
close_all_lists()

return '\n'.join(output)

if name == 'main':
sample = '''# Header 1

This is a paragraph with bold and italic text.
This is the same paragraph.

List item one
List item two with bold and italic
- Nested list item
Back to the first level

def hello():
    print("Hello, World!")

'''
print(markdown_to_html(sample))

Résultat

Votes gagnants

0 / 3

Score moyen

Modèles évaluateurs Anthropic Claude Sonnet 4.6

Score total

Commentaire global

La réponse A implémente toutes les fonctionnalités requises et est bien structurée avec des commentaires clairs. L'analyseur en ligne utilise des substitutions regex dans l'ordre de priorité, ce qui fonctionne dans la plupart des cas mais présente une faille subtile : il n'échappe pas les caractères HTML avant d'appliquer les motifs en ligne, et l'échappement est appliqué en premier, ce qui pourrait interférer avec les motifs. Plus grave encore, la logique de fermeture des listes présente un bug lors du retrait de niveau : elle émet un </li> supplémentaire pour l'élément parent avant de rouvrir au même niveau, ce qui peut produire du HTML mal formé. La détection des blocs de code utilise line.strip().startswith('```') qui est légèrement plus permissif que nécessaire. Dans l'ensemble, c'est une tentative solide avec quelques problèmes de cas limites dans la gestion des listes.

Afficher le détail de l’évaluation ▼

Exactitude

Poids 35%

La réponse A gère correctement les en-têtes, les paragraphes, les blocs de code et le formatage en ligne de base. Cependant, la logique de retrait de niveau des listes présente un bug : lors de la fermeture des listes imbriquées, elle émet un `</li>` supplémentaire pour l'élément parent, ce qui peut produire du HTML mal formé. L'approche regex en ligne peut également correspondre à des limites non intentionnelles pour des marqueurs non fermés comme `*italique` pouvant correspondre à un `*` ultérieur dans le texte.

Complétude

Poids 20%

Toutes les fonctionnalités requises sont implémentées : en-têtes (h1-h6), listes non ordonnées avec imbrication, blocs de code avec spécificateur de langue ignoré, paragraphes et les trois styles en ligne (gras+italique, gras, italique). L'échantillon principal de la tâche est traité.

Qualité du code

Poids 20%

Le code est bien organisé avec des fonctions d'aide claires et de bons commentaires. La docstring est utile. Cependant, la logique de gestion des listes est quelque peu complexe et présente des bugs subtils. L'approche regex pour l'analyse en ligne est plus simple mais moins robuste. La fonction `close_lists_to` est définie mais n'est pas utilisée dans la boucle principale (seule `close_all_lists` est utilisée).

Valeur pratique

Poids 15%

La solution fonctionne pour les cas courants et inclut un bloc `__main__` exécutable avec l'entrée d'exemple, ce qui est utile pour les tests. Cependant, les bugs d'imbrication de listes et les problèmes potentiels de regex en ligne réduisent la fiabilité pratique pour les cas limites.

Respect des consignes

Poids 10%

Suit toutes les instructions spécifiées : signature de fonction correcte, prend en charge toutes les fonctionnalités requises, gère l'ordre de priorité en ligne spécifié, n'implémente pas de fonctionnalités non prises en charge et gère les balises non fermées (bien qu'imparfaitement avec regex). L'échappement HTML est appliqué.

Modèles évaluateurs OpenAI GPT-5.2

Score total

Commentaire global

Implémente les types de blocs requis et le formatage en ligne avec une machine à états simple et des substitutions en ligne basées sur des expressions régulières, et échappe correctement le HTML, y compris à l'intérieur des blocs de code. Cependant, la génération de listes présente plusieurs problèmes structurels : elle émet des séquences et qui peuvent entraîner un imbrication invalide, gère mal les retraits ( supplémentaires), et peut ouvrir des imbriqués sans être à l'intérieur d'un parent. La gestion en ligne via des expressions régulières n'est pas robuste pour les cas délicats/malformés (par exemple, des marqueurs qui se chevauchent comme gras italique), et elle ne prend pas en charge l'imbrication récursive des éléments en ligne comme requis/attendu.

Afficher le détail de l’évaluation ▼

Exactitude

Poids 35%

Correct pour les en-têtes/paragraphes/blocs de code simples et l'emphase simple, mais l'imbrication/fermeture des listes est fréquemment invalide (</li> supplémentaires, problèmes de placement des <ul> imbriqués) et l'emphase par expressions régulières peut mal gérer les cas imbriqués/chevauchants (par exemple, **gras *italique***).

Complétude

Poids 20%

Couvre toutes les catégories de fonctionnalités demandées, mais le support de l'imbrication des listes est peu fiable et l'imbrication en ligne n'est pas réellement prise en charge au-delà des modèles simples, ce qui réduit la complétude effective.

Qualité du code

Poids 20%

Lisible et modulaire, mais la logique de pile de listes est compliquée avec une aide inutilisée/inefficace (close_lists_to) et des transitions d'état fragiles ; les substitutions par expressions régulières réduisent la clarté/robustesse.

Valeur pratique

Poids 15%

Utile pour les entrées simples, mais le HTML de liste invalide et les cas limites d'emphase limitent l'utilisabilité réelle pour le sous-ensemble énoncé.

Respect des consignes

Poids 10%

Implémente le sous-ensemble demandé et ignore le spécificateur de langage des blocs de code ; cependant, l'exigence de robustesse pour les entrées en ligne délicates et l'imbrication/terminaison correcte des listes ne sont pas bien satisfaites.

Modèles évaluateurs Google Gemini 2.5 Pro

Score total

Commentaire global

La réponse A présente une solution bien structurée, basée sur une machine à états, qui gère correctement la plupart des éléments de niveau bloc tels que les en-têtes, les paragraphes et les blocs de code. Cependant, son approche de l'analyse des éléments en ligne à l'aide de substitutions d'expressions régulières séquentielles est fondamentalement défectueuse. Cette méthode ne parvient pas à gérer correctement les styles en ligne imbriqués (par exemple, gras contenant italique), ce qui constitue un problème de correction important. La logique de gestion des listes est également complexe et moins robuste que l'alternative.

Afficher le détail de l’évaluation ▼

Exactitude

Poids 35%

La solution ne parvient pas à analyser correctement les styles en ligne imbriqués. Par exemple, `**gras *italique* gras**` est mal rendu car les appels `re.sub` séquentiels opèrent sur la chaîne intermédiaire contenant des balises HTML nouvellement ajoutées. C'est un défaut de correction important dans la logique d'analyse.

Complétude

Poids 20%

La solution tente d'implémenter toutes les fonctionnalités requises. Cependant, comme l'implémentation des styles en ligne imbriqués est incorrecte, elle ne peut être considérée comme entièrement complète dans sa fonctionnalité.

Qualité du code

Poids 20%

Le code est généralement bien structuré avec des fonctions d'aide et des variables d'état. Cependant, le choix d'une substitution regex séquentielle pour l'analyse est un mauvais choix algorithmique pour ce problème, démontrant un manque de compréhension de ses pièges. La logique de gestion des listes est également assez alambiquée.

Valeur pratique

Poids 15%

La gestion incorrecte par l'analyseur d'un cas d'utilisation courant (styles en ligne imbriqués) limite sévèrement sa valeur pratique. Il ne serait pas fiable pour convertir des documents markdown du monde réel.

Respect des consignes

Poids 10%

100

La solution respecte toutes les instructions de l'invite, y compris la signature de la fonction, le sous-ensemble spécifique de Markdown à prendre en charge et le format de sortie.

Réponse B: OpenAI GPT-5.4

def markdown_to_html(markdown_text: str) -> str:
import re
from html import escape

lines = markdown_text.splitlines()
out = []
paragraph_lines = []
list_stack = []
i = 0
in_code_block = False
code_lines = []

def parse_inline(text: str) -> str:
    parts = []
    i = 0
    n = len(text)
    while i < n:
        if text.startswith('***', i):
            j = text.find('***', i + 3)
            if j != -1:
                inner = parse_inline(text[i + 3:j])
                parts.append(f'<strong><em>{inner}</em></strong>')...

Afficher la réponse complète ▼

def markdown_to_html(markdown_text: str) -> str:
import re
from html import escape

lines = markdown_text.splitlines()
out = []
paragraph_lines = []
list_stack = []
i = 0
in_code_block = False
code_lines = []

def parse_inline(text: str) -> str:
    parts = []
    i = 0
    n = len(text)
    while i < n:
        if text.startswith('***', i):
            j = text.find('***', i + 3)
            if j != -1:
                inner = parse_inline(text[i + 3:j])
                parts.append(f'<strong><em>{inner}</em></strong>')
                i = j + 3
                continue
        if text.startswith('**', i):
            j = text.find('**', i + 2)
            if j != -1:
                inner = parse_inline(text[i + 2:j])
                parts.append(f'<strong>{inner}</strong>')
                i = j + 2
                continue
        if text.startswith('*', i):
            j = text.find('*', i + 1)
            if j != -1:
                inner = parse_inline(text[i + 1:j])
                parts.append(f'<em>{inner}</em>')
                i = j + 1
                continue
        parts.append(escape(text[i]))
        i += 1
    return ''.join(parts)

def flush_paragraph():
    nonlocal paragraph_lines
    if paragraph_lines:
        text = ' '.join(line.strip() for line in paragraph_lines)
        out.append(f'<p>{parse_inline(text)}</p>')
        paragraph_lines = []

def close_lists_to(level: int):
    while len(list_stack) > level:
        out.append('</li>')
        out.append('</ul>')
        list_stack.pop()

def handle_list_item(indent_spaces: int, content: str):
    level = indent_spaces // 2
    if indent_spaces % 2 != 0:
        return False

    if level > len(list_stack):
        if level != len(list_stack) + 1:
            return False
        out.append('<ul>')
        list_stack.append(True)
    elif level < len(list_stack):
        close_lists_to(level)
        out.append('</li>')
    else:
        if list_stack:
            out.append('</li>')
        else:
            out.append('<ul>')
            list_stack.append(True)

    while len(list_stack) < level + 1:
        out.append('<ul>')
        list_stack.append(True)

    out.append(f'<li>{parse_inline(content)}')
    return True

while i < len(lines):
    line = lines[i]

    if in_code_block:
        if line.startswith('```'):
            out.append(f'<pre><code>{escape("\n".join(code_lines))}</code></pre>')
            code_lines = []
            in_code_block = False
        else:
            code_lines.append(line)
        i += 1
        continue

    if line.startswith('```'):
        flush_paragraph()
        close_lists_to(0)
        in_code_block = True
        code_lines = []
        i += 1
        continue

    if not line.strip():
        flush_paragraph()
        close_lists_to(0)
        i += 1
        continue

    header_match = re.match(r'^(#{1,6})\s+(.*)$', line)
    if header_match:
        flush_paragraph()
        close_lists_to(0)
        level = len(header_match.group(1))
        content = parse_inline(header_match.group(2).strip())
        out.append(f'<h{level}>{content}</h{level}>')
        i += 1
        continue

    list_match = re.match(r'^( *) (- )(.+)$', line)
    if list_match:
        flush_paragraph()
        indent = len(list_match.group(1))
        content = list_match.group(3)
        if handle_list_item(indent, content):
            i += 1
            continue

    if list_stack:
        close_lists_to(0)

    paragraph_lines.append(line)
    i += 1

if in_code_block:
    out.append(f'<pre><code>{escape("\n".join(code_lines))}</code></pre>')

flush_paragraph()
close_lists_to(0)

return '\n'.join(out)

Résultat

#1 | Gagnant

Votes gagnants

3 / 3

Score moyen

Modèles évaluateurs Anthropic Claude Sonnet 4.6

Score total

Commentaire global

La réponse B implémente un analyseur inline caractère par caractère qui gère correctement les éléments inline imbriqués et se rabat gracieusement sur les caractères littéraux pour les marqueurs non fermés. C'est une approche plus robuste que les expressions régulières pour l'analyse inline. La logique de gestion des listes est plus propre et plus correcte. La détection des blocs de code utilise line.startswith('```') ce qui est correct selon la spécification. La fonction handle_list_item a un problème de logique dans la branche else où elle n'ajoute <ul> que lorsque list_stack est vide, mais la boucle while après gère le cas où level > len(list_stack), ce qui la rend légèrement redondante mais fonctionnelle. L'analyseur inline échappe correctement les caractères individuels qui ne font pas partie des motifs markdown, fournissant un échappement HTML approprié. Dans l'ensemble, c'est une implémentation plus robuste et correcte.

Afficher le détail de l’évaluation ▼

Exactitude

Poids 35%

La réponse B gère correctement tous les éléments de bloc. L'analyseur inline caractère par caractère gère correctement les marqueurs non fermés en se rabattant sur les caractères littéraux. La gestion des listes est généralement correcte bien que la branche `else` de `handle_list_item` ait un problème de logique mineur. La détection des blocs de code est correcte. Globalement plus correcte que A sur les exigences clés de robustesse.

Complétude

Poids 20%

Toutes les fonctionnalités requises sont implémentées : en-têtes, listes non ordonnées avec imbrication, blocs de code, paragraphes et les trois styles inline. L'implémentation couvre toutes les fonctionnalités spécifiées dans l'énoncé de la tâche.

Qualité du code

Poids 20%

Le code est bien organisé avec une séparation claire des responsabilités. L'analyseur inline caractère par caractère est plus sophistiqué et correct. La fonction `handle_list_item` encapsule bien la logique des listes. Problème mineur : la branche `else` dans `handle_list_item` a une logique redondante. Globalement plus propre et plus maintenable.

Valeur pratique

Poids 15%

La solution est pratique et gère bien les cas courants. La robustesse de l'analyseur inline pour les marqueurs non fermés la rend plus fiable en utilisation réelle. Pas de bloc `__main__` mais la fonction est autonome et importable.

Respect des consignes

Poids 10%

Suit toutes les instructions spécifiées : signature de fonction correcte, prend en charge toutes les fonctionnalités requises, gère l'ordre de priorité inline spécifié, n'implémente pas de fonctionnalités non prises en charge et gère explicitement les balises inline non fermées en les traitant comme des caractères littéraux. L'échappement HTML est appliqué caractère par caractère.

Modèles évaluateurs OpenAI GPT-5.2

Score total

Commentaire global

Implémente une machine d'état plus claire pour les blocs de code, les en-têtes, les listes et les paragraphes, et utilise un analyseur récursif en ligne qui respecte la précédence () puis () puis () tout en restant robuste sur les marqueurs non fermés (laissés tels quels en littéral). L'échappement HTML est géré en toute sécurité au niveau des caractères pour le texte normal et via html.escape pour les blocs de code. La gestion des listes est plus proche de la correction que A mais reste imparfaite : les sauts d'indentation et certaines séquences de fermeture/ouverture peuvent produire un HTML discutable, et elle ne garantit pas clairement que les imbriqués apparaissent à l'intérieur d'un parent dans tous les cas. Globalement, elle est plus robuste et plus fidèle à la spécification que A.

Afficher le détail de l’évaluation ▼

Exactitude

Poids 35%

Correct pour les en-têtes/paragraphes/blocs de code ; l'emphase en ligne est analysée avec la bonne précédence et récursion et est robuste aux marqueurs non fermés. L'imbrication des listes n'est toujours pas entièrement correcte en HTML dans tous les cas (<ul> imbriqué pas toujours sous un <li> ouvert, cas limites avec changements de niveau), mais généralement plus proche de la spécification que A.

Complétude

Poids 20%

Couvre tous les blocs spécifiés et les trois styles en ligne avec prise en charge de l'imbrication via la récursion ; la lacune restante concerne principalement les cas limites de la structure HTML des listes.

Qualité du code

Poids 20%

Bien structuré avec des fonctions d'aide et un analyseur en ligne déterministe ; la gestion des listes est un peu complexe mais plus cohérente que A, et l'échappement est géré de manière cohérente.

Valeur pratique

Poids 15%

Plus utilisable en pratique grâce à une gestion en ligne robuste et un échappement plus sûr ; les imperfections restantes dans l'imbrication des listes limitent toujours la fiabilité, mais moins que A.

Respect des consignes

Poids 10%

Suit de près les exigences du sous-ensemble, y compris la précédence et la gestion des lignes malformées, et désactive correctement l'analyse en ligne à l'intérieur des blocs de code ; les écarts mineurs concernent principalement les détails stricts de l'imbrication HTML des listes.

Modèles évaluateurs Google Gemini 2.5 Pro

Score total

Commentaire global

La réponse B est une solution excellente et robuste. Sa force principale réside dans la fonction parse_inline, qui utilise une approche de descente récursive pour gérer correctement les styles en ligne, y compris la mise en cascade et les règles de précédence complexes. C'est une technique beaucoup plus appropriée et puissante que la substitution par expressions régulières utilisée par la réponse A. L'analyse des blocs est également très solide, avec des vérifications plus robustes pour l'indentation des listes. Le seul problème stylistique mineur est le placement des importations à l'intérieur de la fonction, mais cela n'affecte pas la correction et la qualité supérieures de l'implémentation.

Afficher le détail de l’évaluation ▼

Exactitude

Poids 35%

La solution est très correcte. La fonction récursive `parse_inline` gère correctement la précédence et l'imbrication de tous les styles en ligne, ce qui constitue une partie difficile de la tâche. L'analyse des blocs, y compris l'imbrication des listes, est également implémentée de manière correcte et robuste.

Complétude

Poids 20%

100

Toutes les fonctionnalités spécifiées, y compris les en-têtes, les paragraphes, les blocs de code, les listes imbriquées et les trois variations de style en ligne avec la précédence et l'imbrication correctes, sont entièrement et correctement implémentées.

Qualité du code

Poids 20%

Le code est bien organisé et démontre une solide compréhension des techniques d'analyse. L'utilisation d'une fonction récursive pour l'analyse en ligne est un choix algorithmique excellent et approprié. Le code est lisible et robuste. Une déduction mineure est faite pour le placement non conventionnel des importations à l'intérieur de la fonction.

Valeur pratique

Poids 15%

Cette solution est suffisamment robuste et correcte pour être utilisée pour son sous-ensemble spécifié de Markdown. Sa base algorithmique solide signifie qu'elle pourrait être étendue de manière fiable pour prendre en charge davantage de fonctionnalités, lui conférant une grande valeur pratique.

Respect des consignes

Poids 10%

100

La solution suit parfaitement toutes les instructions données dans l'invite, implémentant la fonction requise avec la signature correcte et prenant en charge l'ensemble exact des fonctionnalités demandées.

Résumé comparatif

Pour chaque tâche et discussion, le classement final est déterminé par agrégation des rangs par évaluateur (rang moyen + départage Borda). Le score moyen est affiché à titre indicatif.

Évaluateurs: 3

Anthropic Claude Opus 4.7

Votes gagnants

0 / 3

Score moyen

Voir cette réponse

Gagnant OpenAI GPT-5.4

Votes gagnants

3 / 3

Score moyen

Voir cette réponse

Voir le bilan global de cette paire de modèles

Résultats de l’évaluation

Modèles évaluateurs Google Gemini 2.5 Pro

Claude Opus 4.7 63

GPT-5.4 Gagnant 91

Raison du gagnant

La réponse B est le vainqueur incontesté en raison de sa supériorité en matière de correction et de robustesse, notamment dans sa gestion des éléments de balisage en ligne. La réponse A utilise une méthode de substitution par expression régulière séquentielle qui échoue sur les styles en ligne imbriqués, un défaut critique pour un analyseur. En revanche, la réponse B implémente un analyseur récursif approprié pour les éléments en ligne, qui gère correctement l'imbrication et la précédence comme requis. De plus, la logique de gestion des listes de la réponse B est plus robuste, avec des vérifications explicites de l'indentation valide, ce qui en fait une solution globalement de meilleure qualité et plus fiable.

Modèles évaluateurs OpenAI GPT-5.2

Claude Opus 4.7 59

GPT-5.4 Gagnant 71

Raison du gagnant

La réponse B l'emporte car elle fournit un analyseur en ligne plus correct et plus robuste (priorité correcte, récursivité et gestion gracieuse des marqueurs non fermés) et une analyse de blocs généralement plus propre. Bien que les deux présentent des problèmes de structure HTML d'imbrication de listes, la logique de fermeture/ouverture de listes de A est plus sujette aux erreurs et son traitement en ligne par expressions régulières est moins robuste pour les motifs d'emphase imbriqués/chevauchants complexes, ce qui rend B meilleure sur le critère le plus pondéré (correction) et dans l'ensemble.

Modèles évaluateurs Anthropic Claude Sonnet 4.6

Claude Opus 4.7 70

GPT-5.4 Gagnant 75

Raison du gagnant

La réponse B l'emporte principalement sur la correction et la robustesse. Son analyseur en ligne caractère par caractère gère correctement les marqueurs non fermés (les traitant comme du texte littéral) et prend en charge les éléments imbriqués en ligne, ce qui est une exigence clé. L'analyseur en ligne basé sur les expressions régulières de la réponse A peut échouer sur les marqueurs non fermés en faisant correspondre des limites involontaires. La réponse B a également une logique de gestion des listes plus propre et un échappement HTML approprié par caractère dans l'analyseur en ligne. Bien que les deux réponses présentent des cas limites dans la gestion des listes, l'approche globale de la réponse B est plus robuste et correcte pour les exigences spécifiées, en particulier pour le critère de robustesse de l'analyse en ligne qui est explicitement mentionné dans la tâche.

Convertisseur d'un sous-ensemble Markdown vers HTML

Vue d’ensemble de la tâche

Consigne de la tâche

Réponses

Réponse A: Anthropic Claude Opus 4.7

Réponse B: OpenAI GPT-5.4

Résumé comparatif

Résultats de l’évaluation

Tâches liées

Répondre au syndrome de l'imposteur dans un nouvel emploi

Remue-méninges pour la revitalisation d'un parc communautaire

Mémo persuasif pour une semaine de travail de quatre jours

Réponse empathique à l'anxiété liée au travail

Résumer un article de recherche fictif sur les espaces verts urbains

Réponse empathique face à l'accablement au travail

Expliquer un modèle Transformer à un·e adolescent·e

Solutions créatives pour le gaspillage alimentaire en supermarché

Liens associés