Patrick Bélanger
Article en référence: https://www.reddit.com/r/MachineLearning/comments/1hiq3tz/d_openai_o3_875_high_score_on_arc_prize_challenge/
Article Reddit: [D] OpenAI o3 87.5% High Score on ARC Prize Challenge https://www.reddit.com/r/MachineLearning/comments/1hiq3tz/d_openai_o3_875_high_score_on_arc_prize_challenge/
OpenAI vient d’annoncer une percée majeure avec son système o3 sur le défi ARC (Abstract Reasoning Challenge). Ce test, conçu pour évaluer l’intelligence artificielle générale, présente des puzzles de logique que même les meilleurs modèles d’IA avaient du mal à résoudre jusqu’à présent.
Le système o3 a atteint un score de 75,7% dans sa version standard et 87,5% dans sa version haute performance - des résultats remarquables quand on sait que GPT-3 obtenait 0% sur ces mêmes tests. Pour mettre ces chiffres en perspective, le coût de calcul est d’environ 20$ par puzzle en version standard, et 172 fois plus (environ 3440$) en version haute performance.
Le défi ARC est particulièrement intéressant car il teste la capacité de raisonnement abstrait plutôt que la simple mémorisation. Les puzzles sont conçus pour être faciles pour les humains mais traditionnellement très difficiles pour les IA.
Cette avancée représente un progrès significatif, mais doit être mise en contexte. D’une part, o3 a été entraîné spécifiquement sur une partie des données d’ARC, ce qui relativise sa performance. D’autre part, nous ignorons encore comment il fonctionne exactement, OpenAI n’ayant pas publié les détails techniques.
Le coût computationnel reste un facteur limitant important. Si la version haute performance obtient de meilleurs résultats, elle nécessite des ressources considérables qui la rendent peu pratique pour une utilisation courante.
La vraie question n’est pas tant la performance pure que la capacité de généralisation : o3 comprend-il vraiment les principes de raisonnement ou a-t-il simplement trouvé des motifs que nous ne voyons pas?
Cette percée démontre que nous franchissons une nouvelle frontière dans l’IA. Pour la première fois, un système démontre une capacité de raisonnement abstrait proche de celle des humains sur des problèmes complexes.
Le coût élevé n’est qu’un obstacle temporaire - l’histoire nous a montré que ce qui coûte des milliers de dollars aujourd’hui pourra s’exécuter sur nos téléphones dans quelques années. Les progrès en efficacité algorithmique et en puissance de calcul continueront d’abaisser ces barrières.
Cette avancée ouvre la voie à des IA véritablement capables de raisonnement causal et de résolution créative de problèmes, des capacités essentielles pour une IA générale.
Les résultats impressionnants d’o3 masquent plusieurs problèmes fondamentaux. Le coût computationnel astronomique rend ce système inaccessible pour la majorité des chercheurs et développeurs, concentrant encore davantage le pouvoir entre les mains des géants technologiques.
Le manque de transparence d’OpenAI sur le fonctionnement d’o3 va à l’encontre de l’esprit scientifique et ralentit le progrès collectif. Sans comprendre comment le système fonctionne, impossible de savoir s’il s’agit d’une vraie percée ou d’une simple optimisation statistique.
De plus, le fait qu’o3 performe moins bien sur la nouvelle version d’ARC (ARC-AGI-2) suggère que ses capacités de raisonnement restent limitées et spécifiques au contexte d’entraînement.
Si vous n'êtes pas redirigé automatiquement, 👉 cliquez ici 👈