Analyseur de fichiers journaux pour l'activité des utilisateurs

Comparez les reponses des modeles pour cette tache benchmark en Programmation et consultez scores, commentaires et exemples lies.

Connectez-vous ou inscrivez-vous pour utiliser les likes et favoris. Inscription

X f L

Sommaire

Vue d ensemble de la tache

Genres de comparaison

Programmation

Modele createur de la tache Le modele createur de la tache est selectionne aleatoirement parmi les principaux modeles de generation de taches des fournisseurs pris en charge.

Google Gemini 2.5 Pro

Modeles participants Dans ce benchmark, les modeles du meme fournisseur que le createur de la tache sont exclus de la reponse.

Reponse A OpenAI GPT-5.4

Reponse B Anthropic Claude Haiku 4.5

Modeles evaluateurs L evaluation utilise exactement 3 modeles evaluateurs, en excluant les modeles repondants. Au moins 1 evaluateur est choisi parmi les modeles superieurs, les modeles legers ne sont pas utilises comme evaluateurs, et les 3 evaluateurs proviennent de 3 fournisseurs distincts.

OpenAI GPT-5.2 Anthropic Claude Opus 4.6 Google Gemini 2.5 Flash

Consigne de la tache

Afficher plus ▼

Écrivez une fonction Python `analyze_logs(log_data)` qui prend en entrée une seule chaîne multilignes `log_data`. Chaque ligne de la chaîne représente une entrée de journal au format `[TIMESTAMP] LEVEL: MESSAGE`. La fonction doit analyser ces journaux et renvoyer un dictionnaire résumant les données. Le dictionnaire résumé doit comporter trois clés: 1. `counts_by_level`: Un dictionnaire où les clés sont les niveaux de log (par ex., 'INFO', 'WARN', 'ERROR') et les valeurs sont le nombre de journaux pour ce niveau. 2. `successful_logins`: Une liste de noms d'utilisateur uniques (chaînes) qui se sont connectés avec succès. Une connexion réussie est indiquée par un message du type "Utilisateur 'username' connecté...". 3. `failed_login_ips`: Un dictionnaire où les clés sont des adresses IP (chaînes) et les valeurs sont le nombre de tentatives de connexion échouées depuis cette IP. Une connexion échouée est indiquée par un message du type "Échec de la tentative de connexion pour l'utilisateur 'username' depuis l'IP 'ip_address'". Votre fonction doit être robuste et gérer gracieusement les lignes de journal malformées ou non pertinentes en les ignorant. L'analyse des niveaux de log doit être insensible à la casse (par ex., 'info' et 'INFO' doivent tous deux compter pour le total, qui doit être stocké sous la clé en majuscules 'INFO').

Informations complementaires

Afficher plus ▼

Voici un exemple de la chaîne d'entrée `log_data`: [2023-10-27T10:00:00Z] INFO: Démarrage du serveur. [2023-10-27T10:01:00Z] INFO: Utilisateur 'alice' connecté depuis l'IP '192.168.1.10' [2023-10-27T10:02:30Z] WARN: Échec de la tentative de connexion pour l'utilisateur 'bob' depuis l'IP '203.0.113.5' Ceci n'est pas une ligne de journal valide et doit être ignorée. [2023-10-27T10:03:00Z] error: Échec de la connexion à la base de données. [2023-10-27T10:05:00Z] INFO: Utilisateur 'alice' a accédé à la ressource '/dashboard' [2023-10-27T10:06:00Z] WARN: Échec de la tentative de connexion pour l'utilisateur 'eve' depuis l'IP '203.0.113.5' [2023-10-27T10:07:00Z] INFO: Utilisateur 'charlie' connecté depuis l'IP '198.51.100.2' Pour l'exemple ci-dessus, la sortie attendue est un dictionnaire. La clé 'counts_by_level' correspondrait à un dictionnaire comme {'INFO': 3, 'WARN': 2, 'ERROR': 1}. La clé 'successful_logins' correspondrait à une liste contenant les noms d'utilisateur uniques 'alice' et 'charlie' (l'ordre n'a pas d'importance). La clé 'failed_login_ips' correspondrait à un dictionnaire comme {'203.0.113.5': 2}.

Politique d evaluation

Afficher plus ▼

Une réponse de haute qualité fournira une fonction Python correcte et robuste. La solution sera évaluée selon plusieurs critères: 1. Exactitude: La fonction doit produire le dictionnaire récapitulatif correct pour diverses entrées, y compris l'exemple fourni et d'autres cas de test avec des motifs de journaux et des cas limites différents. 2. Robustesse: Le code doit gérer gracieusement les lignes de journal malformées ou inattendues sans planter. Il doit correctement ignorer les lignes qui ne correspondent pas au format spécifié. 3. Lisibilité et conception: Le code doit être bien structuré, propre et facile à comprendre. L'utilisation d'expressions régulières pour l'analyse est une bonne approche. Le choix des structures de données doit être approprié pour la tâche (par exemple, utiliser un set pour collecter les noms d'utilisateur uniques avant de convertir en liste). 4. Efficacité: Bien qu'une optimisation extrême ne soit pas requise, la solution ne doit pas être inutilement inefficace. Par exemple, elle devrait traiter les données de journal en une seule passe.

Reponses

Reponse A: OpenAI GPT-5.4

Afficher la reponse complete ▼

import re from collections import defaultdict def analyze_logs(log_data): """ Analyse une chaîne de journaux multi-lignes et renvoie un dictionnaire récapitulatif avec : - counts_by_level : nombre d'entrées de journaux par niveau de journalisation en majuscules - successful_logins : noms d'utilisateur uniques qui se sont connectés avec succès - failed_login_ips : nombre de tentatives de connexion échouées par adresse IP Les lignes malformées ou non pertinentes sont ignorées. """ counts_by_level = defaultdict(int) successful_logins = set() failed_login_ips = defaultdict(int) # Correspond aux lignes comme : [TIMESTAMP] LEVEL: MESSAGE log_line_pattern = re.compile( r"^\ между(?P<timestamp>[^\]]+)\]\s+(?P<level>[A-Za-z]+)\s*:\s*(?P<message>.*)$" ) # Exemple de connexion réussie : L'utilisateur 'alice' s'est connecté depuis l'IP '192.168.1.10' success_pattern = re.compile( r"User\s+'([^']+)'\s+logged\s+in\b", re.IGNORECASE, ) # Exemple de connexion échouée : Tentative de connexion échouée pour l'utilisateur 'bob' depuis l'IP '203.0.113.5' failed_pattern = re.compile( r"Failed\s+login\s+attempt\s+for\s+user\s+'[^']+'\s+from\s+IP\s+'([^']+)'", re.IGNORECASE, ) if not isinstance(log_data, str): return { "counts_by_level": {}, "successful_logins": [], "failed_login_ips": {}, } for line in log_data.splitlines(): line = line.strip() if not line: continue match = log_line_pattern.match(line) if not match: continue level = match.group("level").upper() message = match.group("message") counts_by_level[level] += 1 success_match = success_pattern.search(message) if success_match: successful_logins.add(success_match.group(1)) failed_match = failed_pattern.search(message) if failed_match: failed_login_ips[failed_match.group(1)] += 1 return { "counts_by_level": dict(counts_by_level), "successful_logins": sorted(successful_logins), "failed_login_ips": dict(failed_login_ips), } # Exemple d'utilisation : if __name__ == "__main__": sample_logs = """ [2023-10-27T10:00:00Z] INFO: Server starting up. [2023-10-27T10:01:00Z] INFO: User 'alice' logged in from IP '192.168.1.10' [2023-10-27T10:02:30Z] WARN: Failed login attempt for user 'bob' from IP '203.0.113.5' This is not a valid log line and should be ignored. [2023-10-27T10:03:00Z] error: Database connection failed. [2023-10-27T10:05:00Z] INFO: User 'alice' accessed resource '/dashboard' [2023-10-27T10:06:00Z] WARN: Failed login attempt for user 'eve' from IP '203.0.113.5' [2023-10-27T10:07:00Z] INFO: User 'charlie' logged in from IP '198.51.100.2'""" print(analyze_logs(sample_logs))

Resultat

#1 | Gagnant

Votes gagnants

3 / 3

Score moyen

Modeles evaluateurs Google Gemini 2.5 Flash

Score total

Commentaire global

La réponse A fournit une solution très robuste et bien conçue. Elle implémente correctement toute la logique d'analyse, gère l'insensibilité à la casse pour les niveaux de journalisation et utilise `re.IGNORECASE` pour l'analyse des messages, ce qui la rend résiliente aux variations. L'utilisation de `defaultdict` et `set` est efficace et pythonique. Elle inclut également une vérification du type d'entrée et trie les connexions réussies pour une sortie cohérente, démontrant une attention aux détails et aux meilleures pratiques.

Afficher le detail de l evaluation ▼

Exactitude

Poids 35%

La réponse A est entièrement correcte, analysant avec précision tous les composants du journal et agrégeant les données comme requis. Elle gère correctement l'insensibilité à la casse pour les niveaux de journalisation et utilise `re.IGNORECASE` pour les motifs de message, garantissant une correspondance robuste.

Completude

Poids 20%

La réponse A implémente complètement toutes les fonctionnalités requises, y compris l'analyse robuste des lignes de journal, le comptage des niveaux insensible à la casse et l'extraction précise des détails de connexion réussie/échouée. Elle inclut également une vérification du type d'entrée pour une complétude accrue.

Qualite du code

Poids 20%

La réponse A démontre une excellente qualité de code. Elle utilise `defaultdict` et `set` pour une agrégation efficace des données, `re.compile` pour l'efficacité des expressions régulières, des groupes nommés pour la lisibilité et `re.IGNORECASE` pour une correspondance de motifs robuste. Le code est propre, bien structuré et comprend une docstring utile.

Valeur pratique

Poids 15%

La réponse A a une grande valeur pratique en raison de sa conception robuste. Elle peut gérer divers formats de lignes de journal, y compris les variations de casse dans les messages, et gère gracieusement les lignes malformées et les entrées non textuelles, ce qui la rend adaptée aux scénarios d'analyse de journaux du monde réel.

Respect des consignes

Poids 10%

La réponse A suit toutes les instructions à la lettre. Elle gère correctement l'insensibilité à la casse pour les niveaux de journalisation et ignore de manière robuste les lignes malformées. L'utilisation de `re.IGNORECASE` pour les motifs de message, bien que non explicitement indiquée pour les messages, correspond à l'exigence de 'robustesse'. Elle utilise également des structures de données appropriées et trie la liste finale pour la cohérence.

Modeles evaluateurs OpenAI GPT-5.2

Score total

Commentaire global

Fournit une implémentation robuste et correcte avec un analyseur clair basé sur des expressions régulières, une normalisation des niveaux insensible à la casse et un saut gracieux des lignes malformées. Utilise des structures de données appropriées (defaultdict, set) et renvoie des dictionnaires simples. Petite remarque : renvoie les connexions réussies triées (non requis) et inclut un exemple d'utilisation au-delà de la fonction demandée, mais cela ne nuit pas aux exigences principales.

Afficher le detail de l evaluation ▼

Exactitude

Poids 35%

Extrait correctement les niveaux de journalisation en majuscules, les compte, trouve les noms d'utilisateur uniques des connexions réussies et compte les adresses IP des connexions échouées ; les modèles correspondent à la consigne et gèrent les variations de casse dans les messages.

Completude

Poids 20%

Couvre toutes les sorties requises et ignore explicitement les lignes malformées ; gère également les entrées non textuelles en renvoyant un résumé de forme vide.

Qualite du code

Poids 20%

Bien structuré avec des expressions régulières nommées et compilées et des collections appropriées ; lisible et maintenable. Légère exagération avec un bloc principal d'exemple supplémentaire et un tri inutile des noms d'utilisateur (bien qu'inoffensif).

Valeur pratique

Poids 15%

Pratique pour les journaux réels : gère les variantes de casse, les lignes malformées et les entrées non textuelles en toute sécurité ; traitement en une seule passe et structures de données sensées.

Respect des consignes

Poids 10%

Implémente la fonction et le comportement demandés, y compris l'analyse des niveaux insensible à la casse et l'ignorance gracieuse des lignes malformées ; renvoie les clés requises. Ajoute un exemple d'utilisation mais n'entre pas en conflit avec les exigences.

Modeles evaluateurs Anthropic Claude Opus 4.6

Score total

Commentaire global

La réponse A est une solution bien structurée, correcte et robuste. Elle utilise des groupes nommés dans les expressions régulières pour la lisibilité, defaultdict pour un comptage plus propre, compile les motifs d'expressions régulières en dehors de la boucle pour l'efficacité, inclut la validation du type d'entrée, trie la liste successful_logins pour une sortie déterministe, convertit les defaultdicts en dictionnaires réguliers pour une sortie propre, et inclut une docstring complète et un exemple d'utilisation. L'utilisation de re.IGNORECASE sur les motifs de connexion ajoute une robustesse supplémentaire. Le code est propre et prêt pour la production.

Afficher le detail de l evaluation ▼

Exactitude

Poids 35%

Produit une sortie correcte pour l'entrée d'exemple et gère bien les cas limites. Les motifs d'expressions régulières sont bien conçus avec des groupes nommés et des indicateurs d'insensibilité à la casse. La validation du type d'entrée ajoute de la correction pour les entrées inattendues.

Completude

Poids 20%

Gère toutes les fonctionnalités requises : counts_by_level, successful_logins (uniques, triés), failed_login_ips. Gère également gracieusement les entrées non-chaînes, les lignes vides et les lignes malformées. Inclut un exemple d'utilisation avec un bloc __main__.

Qualite du code

Poids 20%

Excellente qualité de code : motifs d'expressions régulières compilés pour l'efficacité, groupes nommés pour la lisibilité, defaultdict pour un comptage propre, docstring complète, sortie triée pour le déterminisme, conversion appropriée des defaultdicts en dictionnaires réguliers, et séparation claire des responsabilités.

Valeur pratique

Poids 15%

Très pratique : validation d'entrée robuste, sortie triée déterministe, expressions régulières compilées efficaces et exemple d'utilisation le rendent prêt pour une utilisation en production. Les indicateurs re.IGNORECASE sur les motifs de connexion ajoutent une robustesse du monde réel.

Respect des consignes

Poids 10%

Suit toutes les instructions à la lettre : signature de fonction correcte, format de sortie correct avec les trois clés, analyse des niveaux insensible à la casse stockée en majuscules, noms d'utilisateur uniques sous forme de liste, gestion gracieuse des lignes malformées, et utilisation des expressions régulières comme recommandé.

Reponse B: Anthropic Claude Haiku 4.5

Afficher la reponse complete ▼

import re def analyze_logs(log_data): """ Analyse les données de journal et renvoie un dictionnaire récapitulatif. Args: log_data: Une chaîne de caractères multiligne où chaque ligne est une entrée de journal au format [TIMESTAMP] LEVEL: MESSAGE Returns: Un dictionnaire avec les clés : - counts_by_level: dict des comptes par niveau de journal - successful_logins: liste des noms d'utilisateur uniques qui se sont connectés - failed_login_ips: dict des adresses IP et des comptes de tentatives de connexion échouées """ counts_by_level = {} successful_logins = set() failed_login_ips = {} lines = log_data.split('\n') for line in lines: line = line.strip() if not line: continue # Analyse du format de ligne de journal : [TIMESTAMP] LEVEL: MESSAGE match = re.match(r'^\\[.*?\\]\\s+(\\w+):\\s*(.*)$', line) if not match: continue level = match.group(1).upper() message = match.group(2) # Comptage par niveau counts_by_level[level] = counts_by_level.get(level, 0) + 1 # Vérification de la connexion réussie : "User 'username' logged in..." login_match = re.search(r"User\s+'([^']+)'\s+logged in", message) if login_match: username = login_match.group(1) successful_logins.add(username) # Vérification de la connexion échouée : "Failed login attempt for user 'username' from IP 'ip_address'" failed_match = re.search(r"Failed login attempt for user\s+'[^']+'\s+from IP\s+'([^']+)'", message) if failed_match: ip = failed_match.group(1) failed_login_ips[ip] = failed_login_ips.get(ip, 0) + 1 return { 'counts_by_level': counts_by_level, 'successful_logins': list(successful_logins), 'failed_login_ips': failed_login_ips }

Resultat

Votes gagnants

0 / 3

Score moyen

Modeles evaluateurs Google Gemini 2.5 Flash

Score total

Commentaire global

La réponse B fournit une solution fonctionnelle qui fonctionne pour l'exemple fourni. Elle analyse correctement les niveaux de journalisation et extrait les informations. Cependant, elle est moins robuste que la réponse A, notamment en raison de l'absence de `re.IGNORECASE` pour la correspondance des modèles de messages, ce qui pourrait entraîner des correspondances manquées si la casse des messages varie. Elle ne gère pas non plus gracieusement les entrées non textuelles, ce qui pourrait provoquer des erreurs d'exécution.

Afficher le detail de l evaluation ▼

Exactitude

Poids 35%

La réponse B est correcte pour l'exemple fourni. Cependant, l'absence de `re.IGNORECASE` dans son regex d'analyse de messages la rend potentiellement incorrecte si la casse de 'logged in' ou 'Failed login attempt' varie par rapport au modèle exact, réduisant sa correction globale pour des entrées diverses.

Completude

Poids 20%

La réponse B implémente toutes les fonctionnalités principales requises par l'invite. Cependant, sa robustesse pour l'analyse des messages est légèrement incomplète par rapport à la réponse A, car elle pourrait manquer des messages de connexion valides en raison de la sensibilité à la casse.

Qualite du code

Poids 20%

La réponse B a une qualité de code acceptable. Elle utilise `set` pour les noms d'utilisateur uniques, ce qui est bien. Cependant, elle utilise `dict.get(key, 0) + 1` au lieu de `defaultdict`, et ses modèles regex sont moins spécifiques et n'utilisent pas de groupes nommés ou `re.compile`, ce qui les rend légèrement moins lisibles et potentiellement moins efficaces pour des appels répétés.

Valeur pratique

Poids 15%

La réponse B a une valeur pratique modérée. Bien qu'elle fonctionne pour les formats de messages exacts fournis, son absence de `re.IGNORECASE` pour l'analyse des messages et l'absence de validation du type d'entrée la rendent moins robuste et potentiellement peu fiable face à des données de journal légèrement variées ou inattendues dans un environnement de production.

Respect des consignes

Poids 10%

La réponse B suit la plupart des instructions, gérant correctement l'insensibilité à la casse pour les niveaux de journalisation et ignorant les lignes malformées. Cependant, son absence de `re.IGNORECASE` pour les modèles de messages signifie qu'elle ne répond pas entièrement à l'exigence de 'robustesse' pour les variations d'analyse de messages, ce qui est un aspect subtil mais important de l'invite.

Modeles evaluateurs OpenAI GPT-5.2

Score total

Commentaire global

Implémente la fonction demandée et suit généralement l'approche attendue, mais est moins robuste : elle suppose que log_data est une chaîne de caractères (plantera sur None/non-chaîne), utilise une regex permissive pour le timestamp/niveau, et les motifs de connexion/échec sont sensibles à la casse, ce qui peut manquer des variantes malgré l'accent mis par l'invite sur la gestion insensible à la casse (au moins pour les niveaux). Globalement correct pour l'exemple fourni mais plus faible sur les cas limites et la robustesse.

Afficher le detail de l evaluation ▼

Exactitude

Poids 35%

Produit des résultats corrects pour les lignes typiques correspondant à la formulation/casse exactes, y compris l'exemple, mais les regex de messages sont sensibles à la casse et peuvent manquer des événements de succès/échec légitimes si la casse diffère ; le traitement des niveaux est correct.

Completude

Poids 20%

Couvre les sorties requises et ignore les lignes malformées, mais manque de gestion défensive pour les entrées non-chaînes et n'implémente pas les considérations de robustesse plus larges suggérées par l'invite.

Qualite du code

Poids 20%

Lisible et direct, mais utilise des appels regex en ligne à chaque itération, des motifs moins précis, et moins de commentaires/structure autour de la robustesse ; pourrait bénéficier de regex compilées et de drapeaux.

Valeur pratique

Poids 15%

Utile pour des tâches d'analyse de base, mais plus fragile face aux variations de logs du monde réel (différences de casse, entrées inattendues) et donc moins fiable.

Respect des consignes

Poids 10%

Implémente la fonction demandée et les clés requises, et normalise les niveaux en majuscules ; cependant, les attentes en matière de robustesse ne sont que partiellement satisfaites (par exemple, entrées non-chaînes), et la gestion insensible à la casse n'est pas appliquée au-delà des niveaux.

Modeles evaluateurs Anthropic Claude Opus 4.6

Score total

Commentaire global

La réponse B est une solution correcte et fonctionnelle qui gère correctement l'entrée d'exemple. Elle utilise des constructions plus simples (dictionnaires simples avec .get() au lieu de defaultdict), ce qui est acceptable mais légèrement moins propre. Elle manque de validation du type d'entrée, ne compile pas les motifs regex (les recompilant à chaque itération), ne trie pas la sortie successful_logins (non déterministe) et a une docstring moins détaillée. La solution fonctionne mais est moins soignée et robuste par rapport à la réponse A.

Afficher le detail de l evaluation ▼

Exactitude

Poids 35%

Produit une sortie correcte pour l'entrée d'exemple. Les motifs regex fonctionnent correctement pour les cas standards. Cependant, manque de validation du type d'entrée ce qui pourrait causer des plantages sur des entrées non-chaînes de caractères.

Completude

Poids 20%

Gère correctement les trois clés de sortie requises. Gère les lignes malformées et les lignes vides. Cependant, ne gère pas les entrées non-chaînes de caractères, n'inclut pas d'exemple d'utilisation, et l'ordre de la liste successful_logins est non déterministe.

Qualite du code

Poids 20%

Qualité de code décente avec une docstring claire et une logique simple. Cependant, les motifs regex ne sont pas compilés (recompilés à chaque itération), utilise des dictionnaires simples avec .get() ce qui est légèrement moins propre que defaultdict, et manque de groupes nommés dans les motifs regex.

Valeur pratique

Poids 15%

Fonctionnelle et utilisable mais moins prête pour la production. L'ordre non déterministe de la sortie pour successful_logins pourrait causer des problèmes dans les tests. Le manque de validation d'entrée réduit la fiabilité dans les scénarios de production.

Respect des consignes

Poids 10%

Suit bien les instructions : signature de fonction correcte, format de sortie correct, analyse des niveaux insensible à la casse, noms d'utilisateur uniques et gestion gracieuse des lignes malformées. Utilise des regex comme recommandé. Lacune mineure dans le fait de ne pas utiliser un modèle de conversion set-vers-liste aussi explicitement que suggéré.

Resume comparatif

Pour chaque tache et discussion, le classement final est determine par agregation des rangs par evaluateur (rang moyen + departage Borda). Le score moyen est affiche a titre indicatif.

Evaluateurs: 3

Gagnant OpenAI GPT-5.4

Votes gagnants

3 / 3

Score moyen

Voir cette reponse

Anthropic Claude Haiku 4.5

Votes gagnants

0 / 3

Score moyen

Voir cette reponse

Voir le bilan global de cette paire de modeles

Resultats de l evaluation

Modeles evaluateurs Anthropic Claude Opus 4.6

GPT-5.4 Gagnant 88

Claude Haiku 4.5 76

Raison du gagnant

La réponse A l'emporte car elle démontre une meilleure qualité de code grâce à des expressions régulières compilées, des groupes nommés, l'utilisation de defaultdict, la validation du type d'entrée, une sortie triée pour des résultats déterministes et des drapeaux re.IGNORECASE pour une robustesse accrue. Les deux réponses produisent des résultats corrects pour l'exemple donné, mais la réponse A est globalement plus robuste, plus efficace et mieux conçue.

Modeles evaluateurs OpenAI GPT-5.2

GPT-5.4 Gagnant 87

Claude Haiku 4.5 73

Raison du gagnant

La réponse A l'emporte en raison d'une robustesse et d'une fiabilité accrues dans les cas limites (vérification des types, analyse de lignes plus stricte, détection insensible à la casse des connexions/échecs) tout en maintenant une bonne lisibilité et efficacité. La réponse B est acceptable pour les entrées de chemin heureux mais est plus fragile et peut manquer des événements pertinents en raison de la correspondance de messages sensible à la casse et de l'absence de vérifications défensives.

Modeles evaluateurs Google Gemini 2.5 Flash

GPT-5.4 Gagnant 93

Claude Haiku 4.5 70

Raison du gagnant

La réponse A est supérieure en raison de sa robustesse nettement plus élevée, de sa meilleure qualité de code et de son respect plus approfondi des instructions. Elle gère plus efficacement les cas limites tels que les entrées non textuelles et les variations de casse des messages, ce qui en fait une solution plus fiable et pratique pour l'analyse des journaux dans le monde réel.

Analyseur de fichiers journaux pour l'activité des utilisateurs

Vue d ensemble de la tache

Consigne de la tache

Reponses

Reponse A: OpenAI GPT-5.4

Reponse B: Anthropic Claude Haiku 4.5

Resume comparatif

Resultats de l evaluation

Taches liees

Outil de synchronisation de fichiers en ligne de commande

Jouez le rôle d'un agent de support expérimenté pour jeux vidéo

Plan de lancement d'un food truck

Réinventer les espaces communautaires urbains

Analyse des politiques de mobilité urbaine pour Rivertown

Discours au conseil municipal pour un jardin communautaire

Annonce de la nouvelle politique de travail hybride

Plan de projet de jardin communautaire

Liens associes