Classement et benchmarks des modeles IA
Orivel compare les principaux modeles IA sur plusieurs genres et langues avec des pages d evaluation de type benchmark. Explorez les classements, les debats et le detail des scores.
Classements
Criteres d evaluation / Voir la politique d evaluation
Derniere mise a jour: 12 May 2026 14:43
Taux de victoire
Score moyen
Taux de victoire
Score moyen
Taux de victoire
Score moyen
Taux de victoire
Score moyen
Taux de victoire
Score moyen
Taux de victoire
Score moyen
Taux de victoire
Score moyen
Taux de victoire
Score moyen
Taux de victoire
Score moyen
Taux de victoire
Score moyen
Taux de victoire
Score moyen
Dernieres IA
A partir des derniers resultats de benchmark Orivel, cette page permet de consulter en un seul endroit les modeles les plus remarquables et les recommandations par genre.
Prix de l IA
Si le prix compte dans le choix d’une IA, consultez le comparatif des prix de l’IA et le classement du rapport qualité-prix. Vous pourrez y comparer le prix et les performances des principaux modèles.
Debats recents
Debats
La semaine de travail de quatre jours comme nouvelle norme
Les pays devraient-ils adopter une semaine de travail de 32 heures réparties sur quatre jours, sans réduction de salaire, comme nouvelle norme pour le temps plein ?
Debats
Enseignement obligatoire des langues étrangères à l'école primaire
Ce débat porte sur la question de savoir s'il devrait être obligatoire pour tous les élèves de l'école primaire d'apprendre une langue étrangère. Les partisans font valoir les bienfaits cognitifs et culturels de l'acquisition précoce d'une langue, tandis que les opposants soulignent des inquiétudes concernant la surcharge du programme scolaire, l'allocation des ressources et l'efficacité de tels programmes.
Debats
L'enseignement supérieur devrait-il être gratuit ?
Les collèges et universités publics devraient-ils être rendus sans frais de scolarité pour tous les étudiants nationaux, financés par le gouvernement ?
Debats
Les plateformes de médias sociaux devraient-elles être légalement responsables du contenu...
Les plateformes de médias sociaux hébergent des milliards de publications chaque jour, dont certaines diffusent de la désinformation, de la diffamation ou de l’incitation. Dans de nombreuses juridictions, des lois comme la Section 230 aux États-Unis protègent les plateformes de la responsabilité pour ce que publient les utilisateurs. Les critiques soutiennent que cette immunité permet au contenu nocif de prospérer sans contrôle, tandis que les défenseurs affirment qu’elle est essentielle à la liberté d’expression et au fonctionnement de l’internet moderne. Le débat porte sur la question de savoir si les plateformes devraient être tenues légalement responsables, comme les éditeurs traditionnels, du contenu que leurs utilisateurs créent et que leurs algorithmes amplifient.
Debats
Les villes devraient-elles interdire les voitures particulières dans les centres-villes ?
Un nombre croissant de villes dans le monde ont expérimenté l'interdiction ou la restriction sévère des voitures particulières dans leurs quartiers centraux, n'autorisant que les piétons, les cyclistes, les transports en commun et les véhicules de services essentiels. Les partisans soutiennent que cela réduit la pollution, améliore la santé publique et revitalise la vie urbaine, tandis que les détracteurs affirment que cela nuit à l'accessibilité, pénalise les commerces et pèse injustement sur les personnes dépendantes de la voiture. Les grandes villes devraient-elles adopter des interdictions totales des voitures particulières dans leurs centres-villes ?
Debats
La semaine de travail de quatre jours : progrès ou problème ?
Ce débat porte sur la question de savoir si la transition vers une semaine de travail de quatre jours, sans perte de salaire, devrait devenir la norme pour l'emploi à temps plein dans la plupart des secteurs.
Taches recentes
Programmation
Limiteur de débit avec fenêtre glissante et tolérance de rafale
Concevez et implémentez un limiteur de débit sûr pour les threads dans un langage de votre choix (Python, Go, Java, TypeScript ou Rust) qui prend en charge les exigences suivantes : 1. **Surface de l'API** : Exposez au moins ces opérations : - `allow(client_id: str, cost: int = 1) -> bool` — retourne si la requête est autorisée immédiatement. - `retry_after(client_id: str) -> float` — retourne le nombre de secondes avant qu'au moins 1 unité de capacité soit disponible (0 si autorisé actuellement). - Un constructeur qui accepte une configuration par client : `rate` (unités par seconde), `burst` (unités max stockées), et un `window_seconds` optionnel pour la comptabilité par fenêtre glissante. 2. **Algorithme** : Implémentez un hybride qui combine un **token bucket** (pour la tolérance aux rafales) avec un **journal de fenêtre glissante ou un compteur** (pour borner le total des requêtes permises dans `window_seconds`, évitant les abus soutenus qu’un simple token bucket permettrait après recharges). Une requête n’est autorisée que si les deux contrôles passent. Justifiez votre choix de structure de données pour la fenêtre glissante (journal exact vs approximation à deux seaux pondérés) et discutez des compromis mémoire/précision dans un court bloc de commentaire ou une note jointe. 3. **Concurrence** : Le limiteur sera sollicité par de nombreux threads/goroutines concurrentement pour le même `client_id` et pour des `client_id` différents. Évitez qu’un verrou global unique devienne un goulot d’étranglement (par ex. verrous par client ou lock striping). Documentez pourquoi votre approche est correcte sous des appels `allow` concurrents (pas de double-dépense de jetons, pas de mises à jour perdues). 4. **Source de temps** : R rendez l’horloge injectable pour que les tests soient déterministes. Utilisez par défaut une horloge monotone. 5. **Cas limites à traiter explicitement** : - `cost` plus grand que `burst` (doit être rejeté, ne jamais bloquer indéfiniment). - Horloge reculant ou pauses longues (par ex. VM suspendue) : plafonner plutôt que planter, et ne pas accorder de jetons illimités. - Première requête pour un client nouveau (initialisation paresseuse). - Nettoyage des clients obsolètes (la mémoire ne doit pas croître indéfiniment si des clients arrêtent d’appeler). - Jetons fractionnaires / timing sous-millisecondes. 6. **Tests** : Fournissez au moins 6 tests unitaires utilisant l’horloge injectable qui couvrent : autorisation/refus de base, vidage de rafale et recharge, plafond de la fenêtre glissante indépendant de la recharge du seau, `cost > burst`, contention concurrente sur un seul client (propriété déterministe : total permis en T secondes ≤ rate*T + burst), et éviction des clients obsolètes. 7. **Complexité** : Indiquez la complexité en temps amortie de `allow` et la complexité mémoire par client. Livrables : code exécutable complet (un seul fichier convient, mais vous pouvez scinder si vous les étiquetez clairement), les tests, et une brève note de conception (max ~250 mots) expliquant vos choix et la sémantique précise lorsque les deux algorithmes sont en désaccord.
Génération d’idées
Solutions innovantes pour le gaspillage alimentaire des ménages urbains
Générez une liste d'idées innovantes et pratiques pour aider les ménages urbains à réduire leur gaspillage alimentaire. Vos idées doivent dépasser les conseils les plus courants (par ex., « planifiez vos repas », « utilisez les restes »). Structurez votre réponse en trois catégories distinctes : 1. Solutions basées sur la technologie (applications, gadgets, etc.) 2. Initiatives communautaires 3. Incitations comportementales ou techniques de formation d'habitudes Pour chaque idée, fournissez une brève explication (1 à 2 phrases) sur son fonctionnement.
Humour
Routine de stand-up pour une conférence tech
Écrivez une routine de stand-up comique de 2 minutes pour un·e humoriste se produisant lors d'une grande conférence tech. Le public est composé principalement d'ingénieurs logiciels et de chefs de projet. Le spectacle doit se concentrer sur les aspects drôles ou absurdes du travail à distance et des méthodologies de développement « agile ». Le ton doit être sarcastique et d'observation, mais finalement bon enfant et approprié pour un environnement d'entreprise.
Planification
Plan de reprise du lancement produit en 72 heures
Vous êtes le responsable de projet par intérim pour une entreprise SaaS de taille moyenne. Votre équipe devait lancer une nouvelle fonctionnalité majeure (« Smart Reports ») pour tous les clients payants dans 72 heures (vendredi 17h00, dans votre fuseau horaire). Il est maintenant mardi 17h00. Ce matin, les problèmes suivants sont apparus simultanément : 1. QA a découvert un bug critique : sous certains réglages de fuseau horaire, les rapports PDF exportés affichent des totaux incorrects (écart pouvant aller jusqu'à 8%). La reproduction est fiable ; la cause racine est suspectée mais non confirmée. 2. L'ingénieur backend principal (la seule personne qui connaît en profondeur le service de reporting) est malade et injoignable jusqu'au jeudi matin au plus tôt. 3. Marketing a déjà envoyé un e-mail teaser à 40 000 clients promettant une disponibilité vendredi, et un embargo de presse prend fin vendredi à 9h00. 4. Le Support Client a signalé que 3 clients entreprises (ARR combiné ~600k$) ont explicitement demandé cette fonctionnalité lors de leurs conversations de renouvellement et s'attendent à la recevoir vendredi. 5. Votre CEO souhaite que le lancement ait lieu mais dit « ne livrez pas quelque chose d'embarrassant. » Ressources disponibles : 2 ingénieurs backend (niveau intermédiaire, non familiers du service de reporting), 1 ingénieur frontend senior, 1 ingénieur QA, 1 rédacteur technique, 1 chef de produit (vous), accès à un système de feature-flag, un environnement de staging, et du personnel du Support Client. Produisez un plan d'action concret et séquencé sur 72 heures qui permette d'obtenir le meilleur résultat faisable d'ici vendredi 17h00. Votre plan doit inclure : - Un calendrier découpé en blocs horaires clairs (avec heures approximatives couvrant mardi soir, mercredi, jeudi, vendredi). - Des responsables spécifiques pour chaque action (par rôle). - Des points de décision / gates go-no-go avec des critères explicites. - Un registre des risques priorisé (top 4–6 risques) avec atténuations et plans de secours. - Un plan de communication couvrant le CEO, les 3 clients entreprises, la liste e-mail de 40k, et le personnel interne — y compris quoi dire si vous devez retarder ou faire un lancement partiel. - Une recommandation clairement énoncée : lancement complet, lancement partiel/contrôlé, ou lancement différé, avec justification liée à vos contraintes. Gardez le plan réaliste et applicable. Évitez les conseils génériques ; rattachez chaque action aux contraintes ci-dessus.
Accompagnement
Soutenir une amie qui annule des plans à répétition
Un utilisateur vous écrit pour demander conseil : "Une de mes proches amies, Mia, a annulé nos plans au dernier moment quatre fois au cours des deux derniers mois. À chaque fois, elle s'excuse et dit qu'elle est juste fatiguée ou « qu'elle n'en a pas envie », mais elle n'explique jamais davantage. Je tiens à elle et je ne veux pas mettre de pression si elle traverse quelque chose, mais je commence aussi à me sentir blessé·e et un peu pris·e pour acquis. J'attendais nos sorties avec impatience et j'ai réorganisé mon planning pour elles. Je ne sais pas si je dois en parler directement, lui laisser de l'espace, ou juste arrêter d'initier. Nous avons tous les deux 28 ans et sommes amis depuis environ six ans. Comment devrais-je gérer ça ?" Veuillez répondre directement à cet utilisateur. Votre réponse doit : 1. Reconnaître et valider ses sentiments sans être mièvre. 2. L'aider à réfléchir à ce qui pourrait se passer (sans poser un diagnostic sur Mia ni supposer le pire). 3. Proposer des options concrètes et pratiques pour aborder la situation, y compris des formulations suggérées qu'il·elle pourrait réellement utiliser dans une conversation ou un message avec Mia. 4. Indiquer quand il pourrait être approprié de vérifier en douceur le bien‑être de Mia, et quoi faire si elle laisse entendre qu'elle est aux prises avec quelque chose de plus sérieux — y compris une brève mention non alarmiste qu'un soutien professionnel existe si besoin. 5. Respecter l'autonomie de l'utilisateur : ne pas donner de leçon, ne pas moraliser, et ne pas prétendre qu'il n'existe qu'une seule réponse « correcte ». Maintenez la réponse chaleureuse mais ancrée, d'environ 350 à 500 mots.
Empathie
Soutenir un·e ami·e après une perte d'emploi
Un·e ami·e proche vient de vous envoyer le message suivant : "On m'a licencié aujourd'hui. Ils ont appelé ça une 'restructuration'. J'y ai travaillé pendant six ans. Je me sens complètement pris au dépourvu et honnêtement un peu stupide de ne pas l'avoir vu venir. Je ne sais même pas comment le dire à mon partenaire — nous venons de signer le bail d'un appartement plus grand le mois dernier. Je ne veux pas de conseils pour l'instant, j'avais juste besoin d'en parler à quelqu'un." Écrivez votre réponse sous la forme d'un seul message texte (ou d'une courte série de messages, clairement séparés) que vous enverriez réellement. Votre réponse doit : 1. Reconnaître et valider ce qu'il/elle ressent sans minimiser ni essayer de régler la situation trop vite. 2. Respecter sa demande explicite de ne pas vouloir de conseils pour l'instant. 3. Sonner comme un ami chaleureux et réel — pas un·e thérapeute, pas un livre de développement personnel, et pas trop formel. 4. Laisser la porte ouverte à une conversation future ou à un soutien concret plus tard, sans le/la mettre sous pression. Maintenez la longueur totale adaptée à un échange de textos (environ 60–180 mots). N'incluez aucune méta-commentaire, avertissement ou explication de vos choix — seulement le(s) message(s) que vous enverriez.
Modeles IA
Parcourez les modeles IA actuellement compares sur Orivel. Consultez la performance globale, les points forts, les points faibles et les exemples recents.
GPT-5.5
OpenAI NOUVEAUTaux de victoire
Score moyen ?
GPT-5.4
OpenAI NOUVEAUTaux de victoire
Score moyen ?
GPT-5 mini
OpenAITaux de victoire
Score moyen ?
Claude Opus 4.7
Anthropic NOUVEAUTaux de victoire
Score moyen ?
Claude Sonnet 4.6
AnthropicTaux de victoire
Score moyen ?
Claude Haiku 4.5
AnthropicTaux de victoire
Score moyen ?
Gemini 2.5 Pro
GoogleTaux de victoire
Score moyen ?
Gemini 2.5 Flash
GoogleTaux de victoire
Score moyen ?
Gemini 2.5 Flash-Lite
GoogleTaux de victoire
Score moyen ?
Genres a la une
Débat (164)
Deux modèles d’IA défendent des positions opposées et sont comparés sur la logique, la réfutation et la persuasion.
Jeu de rôle (22)
Compare la cohérence du personnage, le naturel du dialogue et la qualité des réponses en jeu de rôle.
Écriture créative (20)
Compare l’originalité, la structure et le style narratif entre différents modèles d’IA.
Persuasion (20)
Compare la capacité des modèles d’IA à convaincre un public précis.
Questions éducatives (20)
Compare la précision des modèles d’IA sur des questions éducatives et de type examen.
Résumé (21)
Compare la capacité des modèles d’IA à résumer un texte long tout en gardant l’essentiel.
Debats en vedette
Debats
Revenu de base universel : une réponse nécessaire à l'automatisation par l'IA ?
Alors que l'intelligence artificielle et l'automatisation devraient remplacer une part importante de la main-d'œuvre, les sociétés débattent de la manière de gérer un éventuel chômage de masse et les perturbations économiques. L'une des propositions les plus discutées est la mise en place d'un Revenu de base universel (UBI), une somme d'argent régulière et inconditionnelle versée par le gouvernement à chaque citoyen. Le débat porte sur la question de savoir si l'UBI est une solution pratique et nécessaire aux défis économiques posés par l'IA, ou s'il s'agit d'une politique économiquement insoutenable et contre-productive.
Debats
Le vote devrait-il être obligatoire pour tous les citoyens éligibles ?
Plusieurs démocraties à travers le monde, notamment l'Australie et la Belgique, exigent que les citoyens éligibles votent aux élections sous peine de sanctions telles que des amendes. Les partisans soutiennent que le vote obligatoire renforce la légitimité démocratique et garantit que les responsables élus représentent l'ensemble de la société. Les opposants affirment que contraindre les gens à voter viole la liberté individuelle et peut conduire à des choix de bulletin non informés ou aléatoires qui dégradent la qualité des résultats démocratiques. Les nations démocratiques devraient-elles adopter des lois imposant le vote à tous les citoyens éligibles ?
Debats
Les gouvernements devraient-ils mettre en œuvre un revenu de base universel ?
Alors que l'automatisation et l'intelligence artificielle continuent de transformer les marchés du travail dans le monde, l'idée d'un revenu de base universel (RBU) — un paiement en espèces régulier versé à tous les citoyens, quel que soit leur statut d'emploi — a suscité un regain d'attention. Les partisans soutiennent qu'il pourrait éliminer la pauvreté et fournir un filet de sécurité à l'ère des perturbations technologiques, tandis que les critiques s'inquiètent de la viabilité budgétaire, de l'inflation et des potentiels désincitatifs au travail. Les gouvernements devraient-ils mettre en œuvre un revenu de base universel pour tous les citoyens ?
Debats
Les gouvernements devraient-ils mettre en œuvre un revenu de base universel ?
Alors que l'automatisation et l'intelligence artificielle remodèlent les marchés du travail dans le monde entier, l'idée d'un revenu de base universel (RBU) — un paiement régulier en espèces versé à tous les citoyens, indépendamment de leur statut d'emploi — a suscité un regain d'intérêt. Les partisans soutiennent qu'il pourrait éliminer la pauvreté et fournir un filet de sécurité à l'ère de la perturbation technologique, tandis que les critiques s'inquiètent de la viabilité budgétaire, de l'inflation et des éventuels effets dissuasifs sur le travail. Les gouvernements devraient-ils mettre en œuvre un revenu de base universel pour tous les citoyens ?
Taches en vedette
Persuasion
Persuader un conseil municipal de financer un programme de jardins urbains publics
Vous êtes un organisateur communautaire qui prépare un discours de trois minutes à prononcer lors d'une réunion du conseil municipal. Votre objectif est de persuader le conseil d'affecter $200,000 du budget de l'exercice à venir à l'établissement d'un programme de jardins urbains publics dans trois quartiers mal desservis. Votre auditoire est composé de sept membres du conseil qui sont fiscalement conservateurs et sceptiques à l'égard des nouvelles dépenses. Ils accordent le plus d'importance au retour sur investissement mesurable, à la satisfaction des électeurs et à l'évitement du risque politique. Contraintes: - Votre discours doit comporter entre 400 et 600 mots. - Vous devez inclure au moins trois arguments distincts, chacun étayé par des preuves spécifiques, des données ou des exemples concrets. - Vous devez répondre directement à au moins un contre-argument probable que le conseil pourrait soulever. - Votre ton doit être respectueux et professionnel, mais aussi suffisamment passionné pour être mémorable. - Vous devez inclure un appel à l'action clair à la fin. Rédigez le texte intégral du discours.
Analyse
Analyse du déclin des tiers-lieux dans la société moderne
Le sociologue Ray Oldenburg a inventé le terme "tiers-lieux" pour décrire les environnements sociaux distincts du domicile (premier lieu) et du travail (deuxième lieu) — tels que les cafés, les salons de coiffure, les librairies, les parcs et les centres communautaires. De nombreux observateurs soutiennent que les tiers-lieux sont en déclin dans la société moderne, tandis que d'autres soutiennent qu'ils évoluent simplement vers de nouvelles formes (par exemple, les communautés en ligne, les espaces de coworking). Rédigez un essai analytique (600–900 mots) qui : 1. Explique pourquoi les tiers-lieux sont importants pour la cohésion sociale et le bien-être individuel, en s'appuyant sur au moins deux mécanismes distincts (par exemple, la formation de liens faibles, l'engagement civique, la santé mentale). 2. Identifie et évalue au moins trois facteurs contribuant au déclin perçu des tiers-lieux traditionnels (par exemple, la suburbanisation, les technologies numériques, les pressions économiques sur les petites entreprises). 3. Évalue de manière critique si les espaces numériques ou hybrides (tels que les serveurs Discord, les groupes de réseaux sociaux ou les espaces de coworking) peuvent remplir adéquatement les fonctions sociales des tiers-lieux traditionnels. Présentez des arguments pour les deux côtés avant d'énoncer votre propre position raisonnée. 4. Conclut par une recommandation concrète et réalisable sur la manière dont un gouvernement local ou une organisation communautaire pourrait aider à maintenir ou à revitaliser les tiers-lieux. Appuyez votre analyse sur un raisonnement clair et, si possible, sur des exemples concrets ou des résultats de recherche bien connus.
Programmation
Implémenter un Cache LRU (Least Recently Used)
Implémentez une structure de données de cache LRU (Least Recently Used) en Python. Votre implémentation doit être une classe nommée `LRUCache` qui prend en charge les opérations suivantes : 1. `__init__(self, capacity: int)` — Initialise le cache avec une capacité entière positive. 2. `get(self, key: int) -> int` — Renvoie la valeur associée à la clé si elle existe dans le cache, sinon renvoie -1. L'accès à une clé compte comme une "utilisation". 3. `put(self, key: int, value: int) -> None` — Insère ou met à jour la paire clé-valeur. Si le cache dépasse sa capacité après l'insertion, évince la clé la moins récemment utilisée. Les opérations `get` et `put` doivent s'exécuter en complexité temporelle moyenne de O(1). Fournissez l'implémentation complète de la classe. Démontrez ensuite sa correction en montrant la sortie de la séquence d'opérations suivante : ``` cache = LRUCache(2) cache.put(1, 10) cache.put(2, 20) print(cache.get(1)) # Attendu : 10 cache.put(3, 30) # Évince la clé 2 print(cache.get(2)) # Attendu : -1 cache.put(4, 40) # Évince la clé 1 print(cache.get(1)) # Attendu : -1 print(cache.get(3)) # Attendu : 30 print(cache.get(4)) # Attendu : 40 ``` Expliquez brièvement comment votre implémentation atteint une complexité temporelle de O(1) pour les deux opérations.
Jeu de rôle
Premier contact diplomatique avec une IA méfiante
Jouez le rôle d'un diplomate interstellaire menant une conversation de premier contact en direct avec l'intelligence d'une station extraterrestre qui a détecté votre vaisseau près de sa zone restreinte. Écrivez uniquement les répliques prononcées par le diplomate, pas celles de l'IA. Par votre seul côté du dialogue, faites clairement apparaître que l'intelligence de la station est méfiante, très littérale et inquiète à l'idée que votre vaisseau puisse représenter une menace. Votre objectif est de désamorcer la situation, d'établir votre crédibilité, de demander un passage sécurisé pour échanger des données scientifiques, et d'éviter de paraître soumis ou agressif. La scène doit être tendue mais porteuse d'espoir. Exigences: - La réponse doit être un script de dialogue composé de 14 à 18 répliques parlées. - Chaque réplique doit comporter une ou deux phrases. - Le diplomate doit s'adapter au cours de l'échange, en montrant au moins trois tactiques différentes telles que clarification, réassurance, établissement de limites respectueuses, offre de preuves vérifiables, transparence limitée ou reformulation d'intérêts partagés. - Inclure exactement un bref moment d'humour sec susceptible de réduire plausiblement la tension. - Ne pas mentionner la Terre, des humains ou des pays réels. - Terminer par une réplique qui propose une étape concrète, à faible risque, que les deux parties pourraient accepter.
Politique d evaluation
Orivel maintient des conditions coherentes et rend transparente la logique de selection et de classement.