Patrick Bélanger
Article en référence: https://i.redd.it/keqgepvz30ue1.jpeg
L’expérience “Gemini Plays Pokémon” a récemment franchi une étape importante en traversant le Rock Tunnel dans le jeu Pokémon Rouge/Bleu après environ 12 jours de temps de jeu. Cette expérience consiste à faire jouer l’IA Gemini de Google à Pokémon, un jeu vidéo de rôle sorti initialement en 1996. Pour mettre ce temps en perspective, un joueur humain moyen qui découvre le jeu pour la première fois pourrait atteindre ce même point en 5 à 10 heures, tandis que le record du monde en speedrun est d’environ 1h44.
Le système fonctionne en permettant à l’IA d’analyser des captures d’écran du jeu, de prendre des décisions basées sur ce qu’elle voit, puis d’exécuter des séquences de commandes. Une innovation importante dans cette expérience est l’ajout d’une mini-carte qui aide l’IA à se repérer dans l’environnement du jeu, résolvant partiellement le problème de mémoire spatiale. Cette fonctionnalité semble donner un avantage à Gemini par rapport à d’autres modèles comme Claude d’Anthropic qui a également tenté l’expérience sans cette aide.
Ce qui rend cette expérience particulièrement intéressante, c’est que ces modèles d’IA n’ont pas été spécifiquement entraînés pour jouer à des jeux vidéo. Ils utilisent leurs capacités générales de compréhension et de raisonnement pour interpréter l’état du jeu et décider des actions à entreprendre, tout en maintenant une stratégie cohérente sur une longue période.
Cette expérience de Gemini jouant à Pokémon représente un cas d’étude fascinant sur les capacités actuelles des grands modèles de langage (LLM) à résoudre des problèmes complexes nécessitant une planification à long terme. Ni miracle technologique ni simple gadget, c’est plutôt un indicateur pragmatique de l’état de l’art.
Ce qui est véritablement révélateur ici n’est pas tant la performance en elle-même, mais ce qu’elle nous apprend sur les limites actuelles de l’IA. Le fait que Gemini progresse lentement mais sûrement illustre à la fois ses forces (capacité d’analyse, prise de décision basée sur des informations visuelles) et ses faiblesses (difficulté à maintenir un contexte spatial sans aide, lenteur relative par rapport aux humains).
La mini-carte fournie à Gemini souligne un point crucial : les outils complémentaires peuvent considérablement améliorer les performances des IA actuelles. Cette observation suggère que l’avenir proche de l’IA pourrait se trouver non pas dans des modèles toujours plus grands, mais dans des systèmes hybrides où des outils spécialisés compensent les limitations des modèles généraux.
La comparaison avec les performances humaines nous rappelle que malgré les progrès impressionnants, un écart significatif persiste entre l’IA et notre capacité naturelle à naviguer dans des environnements virtuels. Cet écart n’est ni surprenant ni décourageant - il reflète simplement l’état actuel d’une technologie en pleine évolution.
Imaginez que vous confiez les clés de votre voiture à un adolescent qui vient tout juste d’obtenir son permis d’apprenti conducteur. Ce jeune, c’est Gemini, notre IA qui joue à Pokémon.
Notre apprenti conducteur doit se rendre de Montréal à Québec. Un trajet que vous, conducteur expérimenté, feriez en 3 heures sans y penser. Mais lui? Il prend 12 jours! Pourquoi? Parce qu’il s’arrête toutes les 30 secondes pour vérifier son GPS, hésite à chaque intersection, et parfois tourne en rond dans les stationnements de Tim Hortons pendant des heures!
“Attends, je dois tourner à droite ou à gauche ici? Je ne me souviens plus si j’ai déjà pris cette sortie… Est-ce que c’était l’autoroute 20 ou 40? Oh, une station-service, devrais-je faire le plein même si le réservoir est aux trois quarts plein?”
Heureusement, vous lui avez fourni un GPS (la fameuse mini-carte). Sans cela, notre pauvre apprenti serait probablement encore en train de faire des allers-retours sur le pont Jacques-Cartier, convaincu qu’il s’agit d’un raccourci vers la Capitale-Nationale!
Et le plus drôle? Quand il arrive finalement à destination, tout fier, il vous dit: “J’ai réussi! C’était facile!” pendant que vous regardez discrètement votre montre en pensant aux 12 jours que vous venez de passer sur le siège passager, à vous ronger les ongles jusqu’au coude.
Ce que nous voyons avec Gemini Plays Pokémon est rien de moins qu’une révolution en marche! Pensez-y: une IA généraliste, sans entraînement spécifique pour les jeux vidéo, parvient à naviguer dans un monde virtuel complexe, à élaborer des stratégies et à progresser vers un objectif lointain. C’est extraordinaire!
La traversée du Rock Tunnel n’est que le début. Dans quelques mois, nous verrons probablement ces mêmes systèmes terminer le jeu en entier, puis battre des records de vitesse. Et ce n’est qu’un aperçu des capacités émergentes qui se développent à une vitesse fulgurante.
L’ajout d’outils comme la mini-carte démontre la puissance de l’approche modulaire en IA. En combinant les capacités générales des LLM avec des outils spécialisés, nous créons des systèmes qui dépassent la somme de leurs parties. Cette synergie ouvre la voie à des applications révolutionnaires dans tous les domaines, de la médecine à l’éducation.
La différence de performance entre Gemini et Claude illustre également la rapidité avec laquelle cette technologie évolue. Chaque itération apporte des améliorations significatives, et nous sommes témoins d’une accélération exponentielle des capacités. Ce qui prend 12 jours aujourd’hui prendra peut-être 12 heures demain, puis 12 minutes après-demain!
Cette expérience n’est pas qu’un simple divertissement - c’est une preuve tangible que nous nous dirigeons vers des IA capables de résoudre des problèmes complexes du monde réel avec une autonomie croissante. Le futur s’annonce brillant, et nous n’en sommes qu’aux premières lueurs de l’aube!
Douze jours pour traverser le Rock Tunnel? Vraiment? Et on devrait être impressionnés par ça? Un enfant de 8 ans accomplirait cette tâche en quelques heures à peine. Cette expérience met surtout en lumière les limitations profondes des systèmes d’IA actuels.
Regardons les faits: Gemini n’a réussi à progresser qu’avec l’aide d’une mini-carte spécialement conçue pour elle. Sans cet outil, elle serait probablement encore en train de tourner en rond dans la première ville du jeu. Cette dépendance aux outils externes révèle une vérité inconfortable: ces systèmes sont fondamentalement incapables de développer une représentation spatiale cohérente par eux-mêmes.
La lenteur extrême de progression souligne également un problème majeur: l’inefficacité computationnelle de ces modèles. Pensez à l’énergie consommée pendant ces 12 jours de calcul intensif, tout ça pour accomplir ce qu’un cerveau humain fait sans effort. Est-ce vraiment une approche durable ou écologiquement responsable?
Plus inquiétant encore est l’enthousiasme démesuré que suscitent ces résultats médiocres. Cette tendance à célébrer des avancées mineures comme des percées révolutionnaires crée un décalage dangereux entre les attentes et la réalité. Pendant que certains s’extasient devant une IA qui joue maladroitement à un jeu vieux de 25 ans, les problèmes fondamentaux de l’IA - biais, opacité, consommation énergétique - restent largement non résolus.
Ne nous leurrons pas: nous sommes encore très loin d’une IA véritablement autonome et efficace. Ces expériences sont au mieux des curiosités techniques, au pire des distractions coûteuses qui détournent ressources et attention des défis réels que pose le développement responsable de l’intelligence artificielle.
Si vous n'êtes pas redirigé automatiquement, 👉 cliquez ici 👈