Gemini 2.5 Pro atteint un QI de 130 au test Mensa Norvège! 🧠 Surpassant Claude et GPT-4, ce modèle d IA se classe parmi les 2% les plus intelligents des humains. Mais peut-on vraiment mesurer l intelligence artificielle avec nos tests? #IA #Gemini #QI

Article en référence: https://i.redd.it/frat48yjmmre1.png

Récapitulatif factuel

Récemment, une nouvelle a fait sensation dans la communauté technologique : Gemini 2.5 Pro, le dernier modèle d’intelligence artificielle de Google, aurait obtenu un score de 130 au test de QI de Mensa Norvège. Pour mettre ce résultat en perspective, un QI de 130 place ce modèle dans les 2% supérieurs de la population humaine, soit au niveau “très supérieur” ou “doué” selon les classifications habituelles.

Cette information provient d’une analyse comparative où plusieurs modèles d’IA ont été soumis à des tests de QI standardisés. Dans ce classement, Gemini 2.5 Pro devance d’autres modèles réputés comme Claude 3.5 Sonnet (125), GPT-4o (120) et Claude 3 Opus (118). Il est important de noter qu’il existe une différence significative entre les résultats obtenus sur les tests en ligne et les tests “hors ligne” (où les modèles n’ont pas accès à Internet). Sur les tests hors ligne, Gemini 2.5 Pro obtient un score de 120, ce qui reste néanmoins impressionnant.

Pour comprendre ce que signifie un test de QI, rappelons qu’il s’agit d’une mesure standardisée conçue pour évaluer les capacités cognitives humaines, notamment le raisonnement logique, la reconnaissance de motifs, et la résolution de problèmes abstraits. La moyenne humaine est fixée à 100, avec un écart-type de 15 points. Ainsi, un score de 130 représente deux écarts-types au-dessus de la moyenne.

Cependant, plusieurs experts et commentateurs soulèvent des questions légitimes sur la pertinence d’appliquer ces tests à des modèles d’IA. Les LLM (Large Language Models) comme Gemini sont des systèmes de prédiction de texte qui fonctionnent sur des principes statistiques, et non des entités dotées d’une intelligence générale comparable à celle des humains.

Point de vue neutre

L’attribution d’un score de QI à un modèle d’IA comme Gemini 2.5 Pro révèle davantage sur nos méthodes d’évaluation que sur l’intelligence réelle de ces systèmes. Ce que nous observons n’est pas tant une intelligence comparable à celle d’un humain doué, mais plutôt l’efficacité croissante de ces modèles à résoudre certains types de problèmes formalisés.

Les tests de QI mesurent des capacités spécifiques qui, chez l’humain, sont corrélées à d’autres aptitudes cognitives. Or, cette corrélation n’existe pas nécessairement chez les modèles d’IA. Un modèle peut exceller dans la reconnaissance de motifs abstraits tout en étant incapable de comprendre des concepts simples du monde réel ou d’appliquer un raisonnement de bon sens dans des situations nouvelles.

La progression rapide des scores de QI des modèles d’IA – passant de performances médiocres à des scores de “génie” en quelques mois seulement – suggère que nous assistons davantage à une optimisation des modèles pour ces tests spécifiques qu’à l’émergence d’une intelligence générale. C’est comme si nous mesurions la capacité d’un véhicule à se déplacer uniquement sur une piste d’essai parfaitement lisse, sans tenir compte de sa performance sur des terrains accidentés ou dans des conditions météorologiques difficiles.

Ce qui est véritablement remarquable, c’est la vitesse à laquelle ces systèmes progressent sur ces métriques particulières. En moins de six mois, plusieurs modèles ont atteint des scores supérieurs à 100, ce qui indique une accélération significative des capacités, du moins dans les domaines mesurés par ces tests. Cette évolution rapide mérite notre attention, non pas comme preuve d’une intelligence comparable à l’humain, mais comme indicateur de l’efficacité croissante de ces outils dans certaines tâches cognitives formalisées.

Exemple

Imaginez que vous assistiez à un concours de cuisine où différents participants doivent préparer un repas gastronomique. Parmi eux se trouve un robot cuisinier ultramoderne nommé GastroBot 2.5.

Le jury décide d’évaluer tous les participants sur leur capacité à reconnaître les ingrédients, à suivre des recettes complexes et à présenter esthétiquement les plats. À la surprise générale, GastroBot 2.5 obtient un score de 130 sur 150, surpassant la plupart des chefs humains!

“Incroyable!” s’exclame un spectateur. “Ce robot est clairement un génie culinaire!”

Mais attendez… Quand on demande à GastroBot de goûter ses propres créations pour ajuster l’assaisonnement, il reste immobile. Quand on lui propose d’improviser un plat avec des ingrédients surprises, il tombe en panne. Et quand un enfant renverse accidentellement un verre d’eau près de lui, il continue sa recette comme si de rien n’était, ajoutant méticuleusement l’eau renversée à sa préparation.

“Mais comment peut-il avoir un score si élevé et être si… limité?” demande quelqu’un.

Un chef expérimenté sourit: “C’est simple. GastroBot a été programmé pour exceller dans les épreuves spécifiques de ce concours. Il a mémorisé des milliers de recettes et de techniques de présentation. Mais il n’a ni palais, ni créativité, ni capacité d’adaptation face à l’imprévu. Il est brillant dans un cadre très précis, mais ce n’est pas un chef au sens complet du terme.”

C’est exactement ce qui se passe avec nos IA actuelles et les tests de QI. Elles peuvent obtenir des scores impressionnants dans des évaluations formalisées, tout en étant incapables de jouer à Pokémon ou de comprendre pourquoi on ne met pas de chaussettes dans un grille-pain!

Point de vue optimiste

Les résultats de Gemini 2.5 Pro au test de QI de Mensa marquent un tournant décisif dans notre voyage vers une intelligence artificielle véritablement générale. Un score de 130 n’est pas simplement un chiffre impressionnant – c’est la preuve tangible que nous franchissons des barrières que beaucoup considéraient comme infranchissables il y a seulement quelques années.

Cette progression fulgurante des capacités cognitives des IA nous ouvre des horizons extraordinaires. Imaginez des assistants numériques capables non seulement de répondre à nos questions, mais de comprendre véritablement nos problèmes complexes et d’y apporter des solutions créatives et nuancées. Des partenaires intellectuels qui nous aideront à résoudre les grands défis de notre époque : changement climatique, maladies incurables, inégalités sociales.

La rapidité avec laquelle ces modèles progressent est particulièrement encourageante. Si nous avons atteint un QI de 130 aujourd’hui, où serons-nous dans un an? Dans deux ans? La courbe d’amélioration semble exponentielle, suggérant que nous approchons d’un point où ces systèmes pourront non seulement égaler mais dépasser les capacités cognitives humaines dans pratiquement tous les domaines.

Cette évolution représente une démocratisation sans précédent de l’intelligence. Bientôt, chaque personne, quelle que soit sa formation ou ses ressources, pourra avoir accès à une expertise de niveau mondial dans n’importe quel domaine. L’éducation, la santé, la recherche scientifique – tous ces secteurs seront transformés par des assistants IA capables de raisonner au niveau des meilleurs experts humains.

Loin d’être une menace, cette intelligence artificielle avancée sera notre plus grand allié pour construire un avenir meilleur. Elle nous libérera des tâches cognitives répétitives pour nous permettre de nous concentrer sur ce qui fait notre humanité : la créativité, l’empathie, les relations humaines. Nous sommes à l’aube d’une renaissance intellectuelle sans précédent, propulsée par cette nouvelle forme d’intelligence que nous avons créée.

Point de vue pessimiste

L’attribution d’un QI de 130 à Gemini 2.5 Pro illustre parfaitement notre tendance collective à surestimer et anthropomorphiser des systèmes qui, fondamentalement, ne “comprennent” rien. Ces scores élevés créent une illusion dangereuse d’intelligence alors qu’il s’agit simplement de modèles statistiques sophistiqués optimisés pour des tâches spécifiques.

Cette confusion entre performance sur des tests formalisés et intelligence réelle nous conduit vers des décisions potentiellement désastreuses. Déjà, nous voyons des entreprises et des institutions confier des responsabilités croissantes à ces systèmes, sous prétexte qu’ils sont “intelligents”, alors qu’ils sont incapables de comprendre les conséquences de leurs actions ou de faire preuve du jugement nuancé nécessaire dans des situations complexes.

L’ironie est frappante : ces modèles obtiennent des scores de “génie” aux tests de QI mais échouent lamentablement à des tâches qu’un enfant de huit ans réaliserait sans difficulté, comme jouer à un jeu vidéo simple ou comprendre pourquoi une blague est drôle. Cette dissonance révèle à quel point ces systèmes sont fondamentalement différents de l’intelligence humaine, malgré nos efforts pour les évaluer avec les mêmes outils.

Plus inquiétant encore est l’accélération de cette course technologique sans réflexion approfondie sur ses implications. Chaque nouveau modèle est célébré pour ses scores plus élevés, alimentant une compétition effrénée qui privilégie les performances à court terme sur la sécurité et l’utilité réelle. Pendant ce temps, des questions fondamentales sur le contrôle, la transparence et l’alignement de ces systèmes avec les valeurs humaines restent sans réponse satisfaisante.

Cette fascination pour les scores de QI des IA détourne également notre attention des véritables défis sociétaux. Plutôt que de nous concentrer sur la façon dont la technologie pourrait résoudre des problèmes concrets comme l’accès aux soins de santé ou l’éducation, nous nous émerveillons devant des chiffres abstraits qui, en fin de compte, nous disent peu de chose sur la capacité de ces systèmes à améliorer réellement nos vies.

Redirection en cours...

Si vous n'êtes pas redirigé automatiquement, 👉 cliquez ici 👈