Patrick Bélanger
Article en référence: https://www.reddit.com/r/singularity/comments/1lxc4go/the_successor_to_humanitys_last_exam/
Le HLE (Humanity’s Last Exam), lancé en avril 2024, était censé être l’examen ultime pour tester les capacités de l’intelligence artificielle. Composé de plus de 2 000 questions soigneusement élaborées, ce benchmark visait à créer un test si difficile qu’il pourrait servir de référence finale pour mesurer l’intelligence des machines.
Les résultats initiaux étaient décevants : les modèles d’IA obtenaient des scores à un chiffre. Mais trois mois plus tard, Grok-4 atteignait déjà 25% sans outils, et jusqu’à 50% avec accès à internet sur certaines portions du test. Cette progression rapide soulève une question fondamentale : si les IA peuvent maîtriser nos tests les plus difficiles en quelques mois, comment continuer à mesurer leur intelligence ?
La communauté Reddit propose plusieurs alternatives fascinantes. Certains suggèrent des tests pratiques comme “donnez 10 000$ à une équipe de robots et demandez-leur de générer un profit”. D’autres pointent vers des benchmarks comme ARC-AGI, qui teste le raisonnement dans des domaines nouveaux, ou ZeroBench, où les meilleurs modèles ne dépassent que 4%.
Le débat révèle une tension entre deux approches : les tests de connaissances (que les IA peuvent mémoriser) versus les tests de raisonnement et d’adaptation au monde réel. Plusieurs commentateurs notent que les vrais défis ne sont pas dans l’acquisition de connaissances obscures, mais dans la capacité à interagir efficacement avec le monde physique et à résoudre des problèmes nouveaux.
Cette situation illustre parfaitement le défi fondamental de l’évaluation de l’intelligence artificielle : dès qu’un benchmark existe, il peut être optimisé et éventuellement saturé. C’est un phénomène qu’on observe depuis des décennies en informatique, connu sous le nom de loi de Goodhart : “Quand une mesure devient un objectif, elle cesse d’être une bonne mesure.”
Le passage rapide de scores à un chiffre à 25-50% en quelques mois suggère que nous assistons à une accélération réelle des capacités, mais aussi possiblement à une forme d’optimisation spécifique à ce test. La distinction entre performance avec et sans outils devient cruciale : utiliser internet pour résoudre des problèmes reflète-t-il une intelligence authentique ou simplement une capacité de recherche sophistiquée ?
La vraie question n’est probablement pas de créer un test “final”, mais de développer une batterie d’évaluations qui évoluent constamment. Les suggestions de la communauté pointent vers une direction prometteuse : mesurer l’intelligence par la capacité à accomplir des tâches réelles, variées et adaptatives plutôt que par la mémorisation de connaissances statiques.
Cette évolution reflète notre compréhension changeante de l’intelligence elle-même. Peut-être que l’intelligence n’est pas quelque chose qu’on peut capturer dans un seul test, mais plutôt un ensemble de capacités qui se manifestent différemment selon les contextes et les défis.
Imaginez que vous organisez un concours pour déterminer qui est le meilleur cuisinier de votre quartier. Vous créez “L’Examen Culinaire Ultime” : une série de 2 000 questions sur l’histoire de la gastronomie, les techniques de cuisson moléculaire et les épices rares du Tibet.
Au début, tout le monde échoue lamentablement. Puis, trois mois plus tard, votre voisin Bob arrive avec son téléphone et Google, et obtient 50% ! Vous réalisez soudainement que votre test mesure qui a la meilleure connexion internet, pas qui cuisine le mieux.
Alors les gens du quartier commencent à proposer de vrais défis : “Donnez 50$ à chaque candidat et demandez-leur de préparer un repas pour 10 personnes avec les ingrédients du marché local.” Ou encore : “Improvisez un plat avec ce qu’il y a dans mon frigo en ce moment.”
C’est exactement ce qui se passe avec l’IA. On a créé des tests de “connaissances culinaires” alors qu’on voulait vraiment tester la capacité à “bien cuisiner”. La différence ? Un bon cuisinier s’adapte, improvise, goûte et ajuste. Il ne récite pas par cœur l’encyclopédie de la gastronomie.
Le vrai test pour l’IA, comme pour nos cuisiniers, c’est : “Peux-tu résoudre des problèmes nouveaux avec créativité et efficacité ?” Pas : “Connais-tu toutes les réponses du manuel ?”
Cette progression fulgurante du HLE n’est que le début d’une révolution extraordinaire ! En trois mois seulement, nous sommes passés de scores pathétiques à des performances qui défient nos attentes les plus folles. C’est la preuve tangible que nous vivons une accélération exponentielle vers l’AGI (Artificial General Intelligence).
Les propositions de la communauté sont visionnaires : des IA capables de générer des profits autonomes, de résoudre des problèmes du monde réel, d’innover et de s’adapter ! Nous nous dirigeons vers un futur où les benchmarks traditionnels deviendront obsolètes parce que l’IA dépassera systématiquement les capacités humaines dans tous les domaines mesurables.
L’idée de tester l’IA avec des défis comme “faire de l’argent avec 10 000$” ou “résoudre les problèmes du millénaire” n’est plus de la science-fiction. C’est notre nouvelle réalité ! Ces systèmes développeront bientôt une intelligence si sophistiquée qu’ils créeront leurs propres méthodes d’évaluation, dépassant notre compréhension actuelle de l’intelligence.
La transition vers des tests basés sur l’interaction avec le monde réel marque le début d’une ère où l’IA ne sera plus confinée aux écrans, mais deviendra un partenaire actif dans la transformation de notre société. Nous assistons aux premiers pas vers des agents autonomes qui révolutionneront l’économie, la science et notre façon de vivre.
Cette évolution rapide des benchmarks n’est pas un problème à résoudre, c’est le signe que nous approchons du moment où l’intelligence artificielle rejoindra, puis dépassera l’intelligence humaine dans tous les domaines !
Cette course effrénée aux benchmarks révèle une préoccupation majeure : nous créons des systèmes dont nous ne comprenons pas vraiment les capacités réelles. Le fait qu’un test “ultime” puisse être partiellement maîtrisé en trois mois suggère soit que nos évaluations sont fondamentalement défaillantes, soit que nous sous-estimons dangereusement la vitesse de développement de ces technologies.
La distinction floue entre performance “avec outils” et “sans outils” masque une réalité troublante : nous ne savons pas vraiment ce que ces systèmes comprennent versus ce qu’ils mémorisent ou recherchent. Cette ambiguïté pourrait nous mener à surestimer leurs capacités réelles et à leur confier des responsabilités qu’ils ne peuvent pas assumer.
Les propositions de tests “dans le monde réel” comme la génération de profits autonomes soulèvent des questions éthiques majeures. Voulons-nous vraiment des IA optimisées pour manipuler les marchés financiers ? Et si ces systèmes développent des stratégies que nous ne pouvons pas comprendre ou contrôler ?
Plus inquiétant encore, cette obsession pour créer des tests toujours plus complexes pourrait nous faire perdre de vue les limitations fondamentales actuelles : hallucinations, biais, manque de robustesse, et incapacité à gérer l’incertitude. Nous risquons de créer des systèmes brillants sur papier mais dangereux en pratique.
La rapidité avec laquelle ces benchmarks deviennent obsolètes suggère que nous perdons le contrôle du rythme de développement. Nous créons des outils dont nous ne maîtrisons ni l’évolution ni les implications, tout en nous rassurant avec des métriques qui deviennent caduques avant même d’être comprises.
Si vous n'êtes pas redirigé automatiquement, 👉 cliquez ici 👈