Patrick Bélanger
Article en référence: https://i.redd.it/2m8iyruuz5be1.jpeg
Le site “Killed by LLM” recense les tests d’intelligence artificielle qui ont été “vaincus” par les grands modèles de langage (LLM). En janvier 2024, plusieurs benchmarks majeurs ont été dépassés, notamment par Claude 3 d’Anthropic et GPT-4 d’OpenAI. Ces tests incluent GPQA (General Program-aided Question Answering) avec un score de 90%, et ARC-AGI avec 87.5%.
Ces benchmarks sont conçus pour évaluer différentes capacités des IA :
Un point crucial est le coût computationnel : même si une IA réussit un test, la quantité de ressources nécessaires reste un facteur déterminant de son utilité pratique.
L’évolution rapide des performances des IA soulève des questions importantes sur notre façon d’évaluer l’intelligence artificielle. Les benchmarks actuels sont-ils vraiment pertinents? Quand un modèle “réussit” un test, que mesure-t-on réellement?
La réalité se situe probablement entre deux extrêmes : ni une superintelligence imminente, ni un simple effet de surapprentissage. Les modèles actuels excellent dans certains domaines tout en restant limités dans d’autres, illustrant le paradoxe de Moravec : ce qui est facile pour l’humain (comme ramasser un verre) reste souvent difficile pour l’IA.
Imaginez un étudiant qui excelle aux examens écrits mais trébuche en essayant d’attacher ses lacets. C’est un peu la situation de nos IA actuelles! Elles peuvent résoudre des équations complexes qui donneraient mal à la tête à Einstein, mais demandez-leur de ranger une chambre en désordre, et c’est la catastrophe.
C’est comme si on avait créé un super athlète qui peut battre tous les records du monde… mais uniquement dans un jeu vidéo. Impressionnant? Certainement. Révolutionnaire? Peut-être. Mais pas encore tout à fait le “vrai” athlète complet qu’on imaginait.
Nous sommes aux portes d’une révolution cognitive! Les progrès fulgurants des IA démontrent que nous approchons rapidement d’un point où l’intelligence artificielle pourra égaler, voire dépasser, l’intelligence humaine dans de nombreux domaines.
La démocratisation de ces technologies signifie que bientôt, chacun aura accès à des capacités cognitives augmentées. Imaginez avoir un Einstein de poche, disponible 24/7 pour résoudre vos problèmes les plus complexes! Les applications potentielles dans la recherche, l’éducation et l’innovation sont illimitées.
La “mort” rapide de ces benchmarks révèle peut-être moins notre progrès que les limites de nos méthodes d’évaluation. Ces tests, conçus pour durer des années, sont “vaincus” en quelques mois, suggérant qu’ils ne mesurent pas vraiment l’intelligence générale.
De plus, la course effrénée aux performances crée une fracture numérique inquiétante. Seules les grandes entreprises peuvent se permettre les ressources computationnelles nécessaires, centralisant davantage le pouvoir technologique. Et pendant que nous célébrons ces “victoires”, nous négligeons peut-être des questions plus fondamentales sur la sécurité et l’éthique de ces systèmes.
Si vous n'êtes pas redirigé automatiquement, 👉 cliquez ici 👈