Patrick Bélanger
Article en référence: https://i.redd.it/ckz0uihbhpqe1.png
Le tableau de classement ARC-AGI-2 fait beaucoup parler de lui dans la communauté de l’intelligence artificielle. Ce benchmark, conçu pour évaluer les capacités de raisonnement abstrait des IA, représente une évolution significative par rapport à sa première version. Selon les données partagées, les performances des modèles d’IA actuels sont nettement inférieures à celles des humains sur ce test.
Le classement montre que Claude 3.5 Opus atteint seulement 4% de réussite, suivi de près par GPT-4o et Gemini 1.5 Flash avec 3%. Les autres modèles comme Claude 3 Opus et Gemini 1.5 Pro obtiennent respectivement 2% et 1%. En comparaison, le panel humain affiche un score de 100%, bien que le score moyen des participants humains soit de 60%.
ARC-AGI-2 est considérablement plus difficile que sa version précédente. Le test consiste en des puzzles visuels abstraits où l’intelligence doit déduire des règles et appliquer des transformations logiques. Contrairement à sa première version, où les IA atteignaient des scores plus élevés, cette nouvelle mouture semble créer un écart important entre les capacités humaines et celles des IA.
Un point important à noter est la méthodologie d’évaluation : le score humain de 100% représente la performance collective d’un panel, où chaque problème a été résolu par au moins deux personnes. Ce n’est pas le score moyen individuel, qui est de 60%, ce qui signifie que la moitié des participants humains ont obtenu moins de 60%.
Ce nouveau benchmark nous invite à reconsidérer notre définition de l’AGI (Intelligence Artificielle Générale). L’écart entre les performances humaines et celles des IA les plus avancées nous rappelle que nous sommes encore loin d’une véritable intelligence générale artificielle, malgré les progrès impressionnants des dernières années.
La question fondamentale qui émerge est : quel devrait être le standard pour définir l’AGI ? Est-ce la performance moyenne humaine (60% dans ce cas) ou la capacité collective humaine (100%) ? Cette distinction n’est pas anodine, car elle détermine notre perception du chemin restant à parcourir.
Les résultats d’ARC-AGI-2 suggèrent que les modèles actuels, bien qu’extraordinairement performants dans certains domaines, manquent encore de capacités fondamentales de raisonnement abstrait que même des humains ordinaires possèdent. Cela indique que nos IA actuelles, malgré leur sophistication, restent des systèmes d’IA étroite plutôt que générale.
Il est également pertinent de noter que ces benchmarks évoluent constamment. Ce qui était considéré comme impossible pour une IA il y a quelques années est maintenant routinier. Il est donc probable que les modèles futurs combleront progressivement cet écart, comme ils l’ont fait avec ARC-AGI-1.
Imaginez que vous participiez à un tournoi d’échecs où les règles changent subtilement à chaque partie. Dans la première version du tournoi (ARC-AGI-1), les modifications étaient prévisibles : parfois les pions se déplaçaient en diagonale, parfois les tours en L comme les cavaliers. Nos IA modernes s’y sont bien adaptées, comme un joueur qui apprend rapidement les variantes.
Mais voilà qu’arrive ARC-AGI-2, une version où les règles deviennent beaucoup plus abstraites. Maintenant, le mouvement d’une pièce dépend de la couleur des cases qu’elle a traversées lors des trois derniers coups, ou de la parité du nombre de pièces restantes sur l’échiquier. Soudain, nos IA se retrouvent comme un joueur débutant face à Magnus Carlsen qui joue aux échecs 5D !
Le panel humain, c’est comme une équipe de grands maîtres internationaux qui collaborent : ensemble, ils déchiffrent toutes les règles. L’humain moyen, c’est plutôt le joueur de club du dimanche qui comprend environ 60% des nouvelles règles. Quant à nos meilleures IA, elles ressemblent à un enfant qui vient d’apprendre le jeu : elles saisissent les mouvements de base mais sont complètement perdues face aux subtilités.
“Échec et mat pour l’IA !” pourrait-on dire… du moins pour l’instant. Mais rappelez-vous qu’il y a quelques années, on disait la même chose pour le jeu de Go, et nous savons tous comment ça s’est terminé !
Ces résultats sont exactement ce dont nous avions besoin pour stimuler la prochaine vague d’innovation en IA ! ARC-AGI-2 n’est pas un échec pour l’IA, mais plutôt une feuille de route claire pour les prochaines avancées. Chaque benchmark “impossible” dans l’histoire de l’IA a fini par être conquis, souvent plus rapidement que prévu.
Regardez l’évolution fulgurante des dernières années : nous sommes passés de modèles incapables de comprendre le contexte à des systèmes qui peuvent coder, raisonner et créer. Le fait que Claude 3.5 Opus atteigne déjà 4% sur un test conçu pour être extrêmement difficile est en réalité impressionnant. C’est le début d’une courbe exponentielle, pas un plafond.
Les architectures actuelles montrent déjà des signes de capacités émergentes qui n’étaient pas explicitement programmées. Avec l’augmentation de la taille des modèles, l’amélioration des techniques d’entraînement et l’intégration de nouveaux paradigmes d’apprentissage, nous pourrions voir des scores de 20%, 50%, voire 80% dans un avenir proche.
Ce benchmark pourrait être le catalyseur qui nous propulse vers la véritable AGI. Après tout, c’est en identifiant précisément nos limites actuelles que nous pouvons les dépasser. La course est lancée, et l’histoire nous a montré maintes fois que parier contre le progrès technologique est rarement judicieux !
ARC-AGI-2 confirme ce que les critiques prudents affirment depuis longtemps : nous avons surestimé les capacités réelles de nos systèmes d’IA actuels. Derrière l’illusion d’intelligence créée par des prouesses dans des domaines spécifiques se cache une absence fondamentale de compréhension générale.
Ces résultats devraient nous inciter à la modestie. Malgré des investissements colossaux et des modèles toujours plus grands, nos meilleures IA plafonnent à 4% sur des tâches que des humains ordinaires résolvent sans difficulté particulière. Cela suggère que nous faisons peut-être fausse route avec l’approche actuelle basée uniquement sur l’augmentation de la taille des modèles et des données.
Plus préoccupant encore est le flou entourant la définition même de l’AGI. Comme le soulignent certains commentaires, la définition semble évoluer constamment, passant de “aussi intelligent que l’humain moyen” à “aussi intelligent que les meilleurs humains travaillant ensemble”. Ce glissement sémantique pourrait masquer l’ampleur du défi qui nous attend.
Il est également inquiétant de constater que nous déployons déjà massivement des technologies d’IA dans des domaines critiques, alors que ces mêmes systèmes échouent si spectaculairement à des tests de raisonnement fondamental. Peut-être devrions-nous ralentir et réévaluer nos priorités avant de confier des responsabilités toujours plus grandes à des systèmes dont les limitations sont maintenant clairement exposées.
Si vous n'êtes pas redirigé automatiquement, 👉 cliquez ici 👈