Les résultats du SimpleBench sont sortis: o1-12-17 performe à 36.7%, en baisse vs o1-preview à 41.7%. Semble que le modèle soit plus fort en raisonnement mais moins bon en sens commun. 🤖 #IA #AGI #OpenAI #IntelligenceArtificielle

Article en référence: https://simple-bench.com/

Article Reddit: AI Explained’s Simple Bench has been updated with o1-12-17 at 36.7%, notably lower than o1-preview’s 41.7% https://www.reddit.com/r/singularity/comments/1hjjevz/ai_explaineds_simple_bench_has_been_updated_with/

Récapitulatif factuel

Simple-Bench, un outil d’évaluation des modèles d’IA, vient de publier ses derniers résultats. Le nouveau modèle Claude-1-12-17 obtient un score de 36.7%, significativement inférieur aux 41.7% de sa version précédente. Simple-Bench évalue la capacité des IA à répondre à des questions de bon sens, conçues pour tester leur raisonnement général.

Pour comprendre ces résultats, imaginons un test avec des questions comme “Si cinq sandwichs sont sous une canne, combien y en a-t-il?” La réponse semble évidente pour un humain, mais les IA ont tendance à chercher des complications là où il n’y en a pas. Les humains obtiennent en moyenne 83.7% sur ce test, démontrant l’écart qui existe encore entre l’intelligence humaine et artificielle dans la compréhension du sens commun.

Point de vue neutre

Ces résultats révèlent une réalité intéressante : l’amélioration des performances d’une IA dans certains domaines peut entraîner une régression dans d’autres. Le nouveau modèle excelle en programmation et en mathématiques, mais perd en “bon sens”. C’est comme un étudiant qui deviendrait excellent en calcul avancé mais qui commencerait à trébucher sur des additions simples.

Cette situation n’est ni positive ni négative - elle reflète simplement les compromis inhérents au développement de l’IA. Les modèles sont optimisés pour certaines tâches au détriment d’autres, tout comme les humains qui se spécialisent dans certains domaines.

Point de vue optimiste

Cette apparente régression est en réalité un pas en avant! Le modèle devient plus sophistiqué, capable de résoudre des problèmes complexes de programmation et de mathématiques. Sa “difficulté” avec les questions simples montre qu’il développe une approche plus nuancée et approfondie du raisonnement.

C’est comme voir un expert en physique quantique réfléchir longuement à une question simple - non par incompétence, mais parce qu’il considère toutes les implications possibles. Cette évolution nous rapproche d’une IA véritablement capable de raisonnement expert, ouvrant la voie à des applications révolutionnaires dans des domaines complexes.

Point de vue pessimiste

Cette baisse de performance sur des questions de bon sens est préoccupante. Si les IA deviennent incapables de gérer des situations simples du quotidien, comment pourrions-nous leur faire confiance pour des tâches plus critiques? C’est comme créer un chirurgien qui excelle dans les opérations complexes mais qui ne sait plus faire un point de suture basique.

Cette tendance pourrait mener à des IA de plus en plus déconnectées de la réalité quotidienne, créant un fossé dangereux entre leurs capacités techniques et leur compréhension du monde réel. Nous risquons de développer des systèmes puissants mais fondamentalement inadaptés à l’interaction avec les humains dans des situations courantes.

Redirection en cours...

Si vous n'êtes pas redirigé automatiquement, 👉 cliquez ici 👈