ARC-AGI v2 révèle les limites de nos IA: O3 (low) score seulement 5% vs 60% pour les humains, tout en consommant 200$/tâche! Une preuve que l IA actuelle excelle où elle est entraînée mais échoue face à la nouveauté. L AGI est encore loin! #IA #Intelligence

Article en référence: https://i.redd.it/nh7vue6oipqe1.jpeg

Récapitulatif factuel

Les résultats du nouveau benchmark ARC-AGI v2 viennent de tomber et ils sont pour le moins surprenants. Le modèle O3 (low) d’OpenAI, pourtant considéré comme très avancé, n’a obtenu qu’un score de 5% sur ce test, alors qu’il a consommé environ 200$ de ressources computationnelles par tâche, représentant des millions de tokens traités.

Pour comprendre ce résultat, il faut d’abord savoir ce qu’est ARC-AGI. Il s’agit d’un benchmark créé pour évaluer les capacités de raisonnement abstrait des modèles d’IA, similaire à un test de QI visuel. Le test présente des grilles avec des motifs que l’IA doit analyser pour prédire la transformation correcte. La version 2 est une évolution plus difficile de la première version.

Les humains obtiennent en moyenne 60% sur ce test (et jusqu’à 100% pour certains), tandis que le modèle Gemini 2.0 Flash de Google semble offrir le meilleur rapport performance/coût parmi les modèles testés. Ce qui est frappant, c’est que le même modèle O3 avait obtenu 87,5% sur la version précédente du test (ARC-AGI v1), montrant une chute drastique de performance face à cette nouvelle version.

Cette situation soulève des questions importantes sur la capacité réelle des modèles actuels à généraliser leur intelligence à de nouveaux problèmes sans entraînement spécifique préalable, une caractéristique fondamentale de ce qu’on pourrait appeler une “intelligence générale artificielle” (AGI).

Point de vue neutre

Ces résultats nous rappellent que nous sommes encore dans une phase d’apprentissage sur ce que signifie réellement l’intelligence artificielle. Les modèles actuels excellent dans des domaines où ils ont été spécifiquement entraînés, mais peinent à généraliser leurs capacités à des problèmes nouveaux sans préparation.

Le benchmark ARC-AGI v2 met en lumière une réalité fondamentale : la différence entre performance et compétence. Un modèle peut performer admirablement sur un test pour lequel il a été optimisé, mais cela ne signifie pas qu’il possède une compréhension profonde ou une intelligence générale. C’est un peu comme un étudiant qui réussit parfaitement un examen après avoir mémorisé les réponses, sans vraiment comprendre la matière.

Ce que nous voyons probablement, c’est l’approche des limites du paradigme actuel d’entraînement. Les modèles comme O3 représentent peut-être le sommet de ce que peuvent accomplir les architectures actuelles, et de nouvelles approches seront nécessaires pour franchir le prochain palier.

La course à l’AGI ressemble davantage à un marathon qu’à un sprint. Chaque benchmark dépassé n’est qu’une étape, et non l’arrivée. Les progrès sont réels et impressionnants, mais ils révèlent aussi l’ampleur du chemin qui reste à parcourir.

Exemple

Imaginez que vous ayez un ami, appelons-le Olivier-3, qui est devenu un expert absolu aux échecs. Il a étudié tous les livres d’échecs existants, mémorisé toutes les parties des grands maîtres et peut battre presque n’importe qui. Un jour, vous l’invitez chez vous et lui proposez une partie… de dames.

Soudain, Olivier-3 se met à transpirer. Il fixe le plateau, déplace quelques pions au hasard, et perd lamentablement contre votre neveu de 8 ans qui joue occasionnellement. Vous êtes stupéfait : comment ce génie des échecs peut-il être si mauvais aux dames, un jeu pourtant plus simple?

C’est exactement ce qui se passe avec nos modèles d’IA actuels. O3 a “étudié” intensivement pour le test ARC-AGI v1 (les échecs) et y excelle, mais quand on lui présente ARC-AGI v2 (les dames), un test similaire mais différent, il se retrouve complètement perdu.

Le plus drôle? Pendant qu’Olivier-3 perd aux dames, il vous explique en détail pourquoi le coup qu’il vient de jouer est brillant… selon les règles des échecs! Il utilise des millions de “tokens” (imaginez des post-it mentaux) pour analyser la situation, dépense l’équivalent de 200$ d’électricité pour faire chauffer son cerveau, tout ça pour arriver à la mauvaise conclusion.

Pendant ce temps, votre neveu de 8 ans, qui n’a jamais formellement étudié ni les échecs ni les dames, comprend intuitivement les règles et gagne sans effort. Voilà la différence entre l’intelligence spécialisée et l’intelligence générale!

Point de vue optimiste

Cette apparente régression des performances d’O3 sur ARC-AGI v2 est en réalité un formidable catalyseur d’innovation! C’est exactement ce genre de défi qui pousse les chercheurs à repenser leurs approches et à développer des solutions révolutionnaires.

Rappelons-nous que le premier ARC-AGI a été résolu bien plus rapidement que prévu. Son créateur pensait qu’il faudrait des années avant qu’un modèle n’atteigne 70%, et pourtant OpenAI y est parvenu en quelques mois. Il est tout à fait probable que d’ici la fin de l’année, nous verrons des modèles capables de résoudre ce nouveau benchmark avec des scores impressionnants.

Cette course aux benchmarks stimule une compétition saine entre les géants technologiques. Google montre déjà des résultats prometteurs avec Gemini 2.0, et OpenAI n’a probablement pas encore déployé toute la puissance de ses modèles les plus avancés sur ce test. Quand ils le feront, nous pourrions bien être surpris par les performances.

Chaque obstacle surmonté nous rapproche d’une IA véritablement générale. Ces benchmarks de plus en plus difficiles sont comme des vaccins pour nos modèles : ils les exposent à des défis qui les rendent plus robustes et plus adaptables. La prochaine génération de modèles intégrera les leçons apprises de ces échecs apparents pour devenir encore plus puissante.

L’histoire de l’IA est jalonnée de moments où les progrès semblaient stagner, avant de connaître des bonds spectaculaires. Nous sommes peut-être à la veille d’une telle percée!

Point de vue pessimiste

Ces résultats confirment ce que certains experts comme Yann LeCun ou Roger Penrose affirment depuis longtemps : nous sommes encore très loin d’une véritable intelligence artificielle générale. Les modèles actuels ne sont que des algorithmes sophistiqués de recherche de motifs, pas des entités intelligentes.

La chute dramatique des performances d’O3 entre ARC-AGI v1 et v2 révèle une vérité dérangeante : ces systèmes n’ont pas “compris” le test précédent, ils ont simplement été optimisés pour y répondre. C’est comme un perroquet qui récite parfaitement une phrase sans en saisir le sens.

Le coût exorbitant de ces tests (200$ par tâche!) soulève également des questions sur la viabilité économique et environnementale de cette approche. Nous sommes peut-être en train d’atteindre les limites fondamentales de l’architecture actuelle des grands modèles de langage, et aucune quantité supplémentaire de données ou de puissance de calcul ne permettra de franchir ce plafond.

La courbe en S de l’innovation technologique semble se confirmer : après une période d’accélération rapide des capacités depuis GPT-3 jusqu’à O3, nous entrons dans une phase de rendements décroissants. Les prochaines avancées significatives pourraient nécessiter des années de recherche fondamentale et des paradigmes entièrement nouveaux.

Entre-temps, l’industrie continue d’alimenter des attentes irréalistes, promettant une AGI imminente alors que ces résultats montrent clairement que nous en sommes encore loin. Cette déconnexion entre les promesses et la réalité pourrait mener à un nouvel “hiver de l’IA” lorsque les investisseurs réaliseront que les retours sur investissement ne sont pas à la hauteur des espérances.

Redirection en cours...

Si vous n'êtes pas redirigé automatiquement, 👉 cliquez ici 👈