Patrick Bélanger
Article en référence: https://scale.com/leaderboard/humanitys_last_exam
Le 26 février 2025, un post Reddit a partagé les résultats du modèle Claude 3.7 Sonnet au test “Humanity’s Last Exam” (HLE), où il a obtenu un score de 8,93%. Ce benchmark, développé par Scale AI, vise à évaluer les capacités des modèles d’IA à résoudre des problèmes à la frontière des connaissances humaines.
Le HLE est considéré comme un test particulièrement difficile, même pour les humains. Selon les commentaires du post, la plupart des personnes obtiendraient un score d’environ 2-3% simplement par chance sur les questions à choix multiples. Le test couvre des domaines variés et spécialisés, ce qui le rend extrêmement complexe.
D’autres modèles ont également été évalués sur ce benchmark:
Plusieurs utilisateurs ont souligné que Claude 3.7 est principalement optimisé pour la programmation et non pour ce type de test généraliste. De plus, contrairement à certains concurrents, Claude ne dispose pas d’accès Internet intégré, ce qui le désavantage considérablement pour répondre à des questions nécessitant des connaissances très spécifiques et actuelles.
Un point important mentionné est que les performances de Claude pourraient “s’améliorer exponentiellement” avec davantage de “thinking tokens” (64k), permettant au modèle de consacrer plus de temps à sa réflexion avant de répondre.
Les benchmarks comme le HLE nous offrent une fenêtre intéressante sur les progrès de l’IA, mais ils ne racontent qu’une partie de l’histoire. Un score de 8,93% peut sembler faible en valeur absolue, mais il faut contextualiser ce résultat.
D’abord, chaque modèle d’IA est conçu avec des forces et des faiblesses spécifiques. Claude 3.7 Sonnet excelle en programmation, mais n’a pas été optimisé pour ce type de test encyclopédique. C’est comme évaluer un coureur de marathon sur sa capacité à sprinter — ce n’est pas son domaine d’expertise.
Ensuite, les conditions du test ne sont pas équitables pour tous les modèles. Certains bénéficient d’un accès Internet (comme OpenAI avec Deep Research), d’autres disposent de plus de temps pour “réfléchir”. Ces différences méthodologiques rendent les comparaisons directes hasardeuses.
Ce qui est véritablement révélateur, ce n’est pas tant le score absolu que la progression entre les générations de modèles. En moins d’un an, nous sommes passés de modèles incapables de résoudre ces problèmes à des systèmes qui commencent à s’y attaquer avec un certain succès.
La vraie mesure du progrès se trouve peut-être ailleurs : dans l’adoption par les professionnels qui utilisent quotidiennement ces outils et peuvent juger de leur utilité réelle. Comme le souligne un commentateur, “le vrai benchmark est l’adoption par les travailleurs qui utilisent régulièrement plusieurs de ces modèles”.
Imaginez que vous organisez un tournoi multisports dans votre quartier. Vous avez plusieurs participants aux profils variés:
Maintenant, vous décidez d’évaluer tous ces athlètes sur… le tir à l’arc! Un sport qu’aucun d’entre eux n’a pratiqué sérieusement.
Le jour du concours, Marc obtient un score de 8,93%. Les spectateurs sont déçus : “Comment un athlète olympique peut-il être si mauvais?” Pendant ce temps, Julie obtient 12% parce qu’elle a regardé quelques tutoriels YouTube avant la compétition (son équivalent d’un “accès Internet”).
Luc, lui, demande plus de temps pour s’entraîner entre chaque tir (ses “thinking tokens”), convaincu qu’il pourrait “exponentiellement améliorer” ses performances. Sophie abandonne carrément, préférant faire des démonstrations de gymnastique où elle excelle.
À la fin de la journée, un archer professionnel passe par là et réalise un score de 95%. Tout le monde est impressionné, mais personne ne semble réaliser l’absurdité de comparer des athlètes spécialisés dans différentes disciplines sur une compétence qu’ils n’ont pas été formés à maîtriser.
C’est exactement ce qui se passe avec le HLE et les différents modèles d’IA. Chacun a été conçu pour briller dans certains domaines, pas pour être omniscient.
Les résultats de Claude 3.7 sur le HLE sont en réalité extrêmement prometteurs! Pensez-y: nous avons un modèle d’IA capable de résoudre près de 9% des problèmes considérés comme étant à la frontière de la connaissance humaine, sans même avoir accès à Internet ni utiliser sa pleine capacité de réflexion!
Cette performance est d’autant plus impressionnante quand on considère que Claude 3.7 n’est qu’une étape intermédiaire dans le développement d’Anthropic. Si ce modèle “non end game” atteint déjà ce niveau, imaginez ce que Claude 4.0 pourra accomplir!
La progression est fulgurante. Il y a à peine quelques années, l’idée même qu’une IA puisse aborder des questions aussi complexes était de la science-fiction. Aujourd’hui, nous débattons de pourcentages de réussite sur des problèmes que seuls les experts humains les plus qualifiés peuvent résoudre.
Plus fascinant encore: la complémentarité des différents modèles. Claude excelle en programmation, d’autres brillent dans l’analyse visuelle ou la recherche approfondie. Ensemble, ces systèmes forment un écosystème d’intelligence artificielle qui commence à couvrir l’ensemble du spectre des capacités cognitives humaines.
Dans un avenir très proche, nous pourrions voir des modèles atteignant 30%, 50%, voire 70% sur ce même test. Et avec l’intégration de capacités comme l’accès Internet, des cycles de réflexion plus longs, et des outils spécialisés, nous nous dirigeons vers des IA véritablement capables de repousser les frontières de la connaissance humaine, pas seulement de les atteindre.
Le score de 8,93% de Claude 3.7 au HLE révèle les limites fondamentales des modèles d’IA actuels, malgré tout le battage médiatique qui les entoure. Ce résultat médiocre est présenté avec une multitude d’excuses: pas assez de “thinking tokens”, pas d’accès Internet, modèle optimisé pour la programmation…
Ces justifications masquent une réalité plus dérangeante: après des milliards investis en R&D, les meilleurs modèles d’IA peinent toujours à résoudre des problèmes que les experts humains maîtrisent. Le HLE n’est pas un test impossible – il représente des connaissances que nous, humains, avons déjà acquises.
Plus inquiétant encore est le manque de transparence et la mouvance constante des critères d’évaluation. Comme le souligne un commentateur, “il y a quelques mois, on me martelait qu’ARC-AGI était le test officiel, définitif pour mesurer les progrès vers l’AGI. Est-ce qu’on l’a déjà jeté aux oubliettes?” Cette tendance à changer de benchmark dès qu’un modèle commence à y performer correctement suggère une industrie plus intéressée par le marketing que par les avancées réelles.
La comparaison entre modèles devient également un exercice futile quand chacun opère dans des conditions différentes. OpenAI utilise l’accès Internet et des ressources computationnelles massives pour atteindre 25%, puis présente ce résultat comme une percée technologique plutôt que comme la conséquence logique d’avoir plus de données et de puissance.
Pendant ce temps, les véritables défis de l’IA – comme la fiabilité, la sécurité et l’alignement éthique – restent largement non résolus. Nous nous émerveillons de scores sur des tests académiques alors que ces systèmes continuent de halluciner des informations et de perpétuer des biais systémiques dans leurs applications réelles.
Si vous n'êtes pas redirigé automatiquement, 👉 cliquez ici 👈