Résultats surprenants d ARC-AGI-2: même le modèle o3 d OpenAI plafonne à 4%, loin des 60% humains. Fait intéressant: deux humains ensemble performent mieux qu un seul. L AGI reste un horizon lointain, mais fascinant! #IA #Intelligence

Article en référence: https://i.redd.it/oj2kr3axasqe1.png

Récapitulatif factuel

OpenAI a récemment publié les résultats de son évaluation ARC-AGI-2, un benchmark conçu pour mesurer les capacités de raisonnement abstrait des systèmes d’intelligence artificielle. Cette évaluation fait partie du projet Anthropic Research on Capability (ARC) qui vise à comprendre et à mesurer les progrès vers l’intelligence artificielle générale (AGI).

Les résultats montrent qu’aucun système d’IA actuel, y compris le modèle o3 d’OpenAI (leur modèle le plus avancé), n’a dépassé un score de 4% sur ce benchmark. En comparaison, la performance humaine moyenne se situe autour de 60%, tandis que les meilleurs humains atteignent 100%. Le test comprend 120 tâches de raisonnement abstrait, principalement des puzzles visuels en 2D.

Un détail intéressant révélé par ces données est que la collaboration entre deux humains améliore systématiquement les performances par rapport à un seul individu. Le coût estimé pour faire passer ce test à un humain est d’environ 17$ par tâche, bien que certains utilisateurs de Reddit remettent en question ce chiffre, suggérant que le coût réel pourrait être plus élevé si l’on considère le temps nécessaire pour compléter l’ensemble des 120 tâches.

OpenAI travaille déjà sur ARC-AGI-3, ce qui suggère une progression continue dans le développement de benchmarks plus sophistiqués pour évaluer les capacités d’intelligence artificielle générale.

Point de vue neutre

Ces résultats nous placent à un moment fascinant dans l’évolution de l’intelligence artificielle. L’écart considérable entre les performances humaines et celles des IA les plus avancées sur des tâches de raisonnement abstrait nous rappelle que, malgré les progrès spectaculaires des dernières années, nous sommes encore loin d’une véritable intelligence artificielle générale.

Le benchmark ARC-AGI-2 semble avoir été conçu spécifiquement pour cibler les limitations actuelles des systèmes d’IA. Ces systèmes excellent dans des domaines où ils peuvent exploiter des motifs statistiques appris à partir de vastes ensembles de données, mais peinent encore à démontrer une compréhension conceptuelle profonde ou un raisonnement abstrait flexible.

La différence de performance entre un individu et une équipe de deux personnes souligne également l’importance de la collaboration et de la diversité cognitive dans la résolution de problèmes complexes. C’est peut-être là une leçon que nous devrions retenir pour l’avenir de l’IA : les systèmes hybrides combinant intelligence humaine et artificielle pourraient offrir des performances supérieures à celles de chaque composante prise isolément.

Le faible score des IA actuelles ne devrait pas être interprété comme un échec, mais plutôt comme un indicateur précieux de la direction à prendre pour les recherches futures. Chaque benchmark dépassé représente une étape vers une compréhension plus profonde de ce qu’est réellement l’intelligence.

Exemple

Imaginez que vous participiez à un concours de cuisine où le défi est de préparer un soufflé au fromage parfait. Dans un coin, vous avez des chefs humains expérimentés qui ont passé des années à perfectionner leur technique. Dans l’autre coin, vous avez des robots cuisiniers ultramodernes qui ont été programmés avec toutes les recettes du monde.

Le jour du concours arrive, et surprise : le défi n’est pas de suivre une recette, mais d’inventer un soufflé avec des ingrédients jamais utilisés auparavant. Les chefs humains, habitués à improviser et à comprendre les principes fondamentaux de la cuisine, s’adaptent rapidement. Ils goûtent, ajustent, expérimentent. Certains réussissent mieux que d’autres, mais en moyenne, leurs soufflés sont plutôt réussis.

Les robots cuisiniers, quant à eux, sont complètement désorientés. Ils n’ont jamais “vu” ces ingrédients dans leurs données d’entraînement et ne comprennent pas vraiment pourquoi un soufflé monte ou retombe. Ils essaient d’appliquer des recettes connues, mais le résultat est… disons… peu appétissant. Seul un robot sur vingt-cinq parvient à produire quelque chose qui ressemble vaguement à un soufflé.

Mais voilà qu’un chef humain décide de faire équipe avec un robot. Le chef apporte sa créativité et sa compréhension intuitive de la cuisine, tandis que le robot contribue avec sa précision et sa connaissance encyclopédique des interactions chimiques. Ensemble, ils créent un soufflé qui surpasse tous les autres.

C’est un peu ce que nous montre le benchmark ARC-AGI-2 : nos IA actuelles sont comme ces robots cuisiniers, impressionnantes dans leur domaine d’expertise, mais encore loin de posséder cette capacité d’adaptation et de compréhension profonde qui caractérise l’intelligence humaine.

Point de vue optimiste

Ces résultats sont en réalité incroyablement encourageants ! Pensez-y : il y a seulement quelques années, l’idée même qu’une IA puisse résoudre ne serait-ce que 1% de problèmes de raisonnement abstrait conçus pour des humains aurait semblé relever de la science-fiction. Aujourd’hui, nous atteignons 4% - c’est une progression exponentielle !

Le fait qu’OpenAI travaille déjà sur ARC-AGI-3 montre la vitesse à laquelle ce domaine évolue. Chaque itération nous rapproche d’une compréhension plus profonde de l’intelligence artificielle générale. Si nous maintenons ce rythme d’innovation, il est tout à fait envisageable que dans quelques années seulement, les modèles d’IA atteignent ou même dépassent les performances humaines moyennes sur ces benchmarks.

L’observation selon laquelle deux humains performent mieux qu’un seul ouvre également des perspectives passionnantes pour les systèmes collaboratifs humain-IA. Nous sommes à l’aube d’une ère où les intelligences humaine et artificielle se complèteront mutuellement, créant des synergies qui dépasseront ce que chacune pourrait accomplir séparément.

Ces benchmarks ne sont pas des obstacles, mais des tremplins vers un avenir où l’IA nous aidera à résoudre les problèmes les plus complexes de notre société - du changement climatique aux maladies incurables. Le chemin vers l’AGI est peut-être plus long que certains ne l’avaient prédit, mais chaque pas nous rapproche d’un monde transformé par une intelligence artificielle véritablement générale et bénéfique.

Point de vue pessimiste

Ces résultats confirment ce que beaucoup de chercheurs critiques soupçonnaient déjà : malgré toute l’hyperbole marketing autour de l’intelligence artificielle “générale”, nos systèmes actuels sont fondamentalement limités à des associations statistiques sophistiquées, loin d’une véritable compréhension conceptuelle.

Le fait qu’aucun système d’IA ne dépasse 4% sur un benchmark que des humains ordinaires résolvent à 60% devrait nous faire réfléchir sérieusement aux limites de l’approche actuelle. Nous investissons des milliards dans des modèles toujours plus grands, mais obtenons des gains marginaux en termes de capacités de raisonnement réel.

Plus inquiétant encore est le risque que ces benchmarks deviennent eux-mêmes des cibles d’optimisation. Les entreprises pourraient finir par concevoir des systèmes qui excellent spécifiquement sur ces tests sans développer une intelligence générale véritable - une forme sophistiquée de “teaching to the test” qui créerait l’illusion du progrès.

La dépendance croissante à des technologies qui donnent l’impression d’être intelligentes sans posséder de compréhension profonde pourrait avoir des conséquences graves. Nous risquons de déléguer des décisions importantes à des systèmes fondamentalement incapables de saisir les nuances et les implications éthiques de leurs actions.

Peut-être devrions-nous accepter que l’intelligence artificielle générale, telle que nous l’imaginons, reste un horizon qui recule à mesure que nous avançons. Au lieu de poursuivre ce mirage, nous ferions mieux de nous concentrer sur le développement d’outils IA spécialisés, transparents et véritablement au service des besoins humains.

Redirection en cours...

Si vous n'êtes pas redirigé automatiquement, 👉 cliquez ici 👈