Patrick Bélanger
Article en référence: https://v.redd.it/u1i2op2o8mve1
Une nouvelle référence pour évaluer les capacités des modèles d’intelligence artificielle vient d’être présentée par des chercheurs de l’Université de Princeton : le VideoGameBench. Ce benchmark teste la capacité des grands modèles de langage multimodaux (VLM - Vision Language Models) à jouer à 20 jeux vidéo classiques, dont le célèbre DOOM II.
Le benchmark existe en deux versions :
L’expérience consiste à fournir des captures d’écran du jeu au modèle d’IA, qui doit ensuite déterminer quelle action entreprendre (déplacements, tirs, etc.) sans avoir reçu d’instructions spécifiques sur le fonctionnement du jeu. Les chercheurs ont testé plusieurs modèles avancés comme GPT-4o et Claude, mais les résultats montrent que même les modèles les plus performants peinent à compléter le premier niveau de DOOM II.
Cette approche est particulièrement intéressante car elle évalue la capacité des modèles à comprendre visuellement un environnement dynamique, à prendre des décisions en temps réel et à planifier des actions à court terme - des compétences qui vont bien au-delà de la simple génération de texte ou d’analyse d’images statiques.
Le code du projet est open source, permettant à d’autres chercheurs de reproduire les expériences ou d’adapter le benchmark à leurs besoins spécifiques. Les chercheurs prévoient une publication complète de leurs résultats dans environ un mois.
Ce nouveau benchmark représente une évolution logique dans notre façon d’évaluer l’intelligence artificielle. Jusqu’à présent, nous avons mesuré les capacités des IA principalement sur des tâches statiques : répondre à des questions, générer du texte ou analyser des images fixes. VideoGameBench introduit une dimension dynamique et interactive qui reflète mieux les défis du monde réel.
Les jeux vidéo constituent un terrain d’entraînement idéal car ils combinent plusieurs compétences cognitives : perception visuelle, prise de décision rapide, planification, mémorisation du contexte et adaptation à un environnement changeant. Ces compétences sont précisément celles que nous cherchons à développer pour des applications pratiques comme la robotique ou les assistants virtuels avancés.
Les résultats actuels, où même les modèles les plus sophistiqués peinent à terminer le premier niveau de DOOM, illustrent parfaitement l’écart qui existe encore entre l’intelligence artificielle et l’intelligence humaine dans les tâches complexes et dynamiques. Un enfant de 10 ans peut apprendre à jouer à DOOM en quelques minutes, alors que les modèles d’IA les plus avancés n’y parviennent pas malgré leurs milliards de paramètres.
Cette recherche nous rappelle que malgré les progrès impressionnants des IA génératives, nous sommes encore loin d’une intelligence artificielle véritablement polyvalente. Les modèles actuels excellent dans leur domaine d’entraînement spécifique mais peinent à transférer ces compétences à des contextes nouveaux sans préparation explicite.
Imaginez que vous confiez les clés de votre voiture à un extraterrestre qui n’a jamais vu un véhicule terrestre. Cet extraterrestre est extrêmement intelligent - il comprend parfaitement la physique, peut lire tous les manuels d’utilisation en un clin d’œil et possède des réflexes surhumains.
Vous l’installez au volant et lui dites : “Conduis-moi au dépanneur du coin.” Notre ami extraterrestre regarde le tableau de bord, voit le volant, les pédales, le levier de vitesse… et reste complètement figé. Il comprend théoriquement ce qu’est une voiture, mais n’a aucune expérience pratique de la conduite.
“D’accord, je vais tourner la clé pour démarrer le moteur,” dit-il après une longue réflexion. Vroum! Le moteur démarre. “Maintenant, je dois relâcher le frein à main, appuyer sur l’embrayage, mettre la première vitesse…” Chaque action lui prend plusieurs secondes de réflexion, et quand il commence enfin à avancer, c’est par à-coups maladroits.
Un virage apparaît : “Je dois tourner le volant de 27 degrés vers la gauche tout en ralentissant à 23 km/h pour maintenir une trajectoire optimale…” Pendant qu’il calcule, la voiture a déjà raté le virage et fini dans le fossé!
C’est exactement ce qui se passe avec nos IA jouant à DOOM. Elles comprennent théoriquement ce qu’est un jeu de tir, reconnaissent les ennemis et les armes, mais cette compréhension ne se traduit pas naturellement en actions fluides et intuitives comme celles d’un joueur humain qui a développé des réflexes et une compréhension intuitive du jeu.
Cette recherche est absolument fascinante et représente une avancée majeure dans notre compréhension de l’intelligence artificielle! Bien que les modèles actuels ne brillent pas encore dans ces jeux, le simple fait qu’ils puissent interagir avec un environnement virtuel sans instructions spécifiques est révolutionnaire.
Pensez-y : il y a seulement cinq ans, l’idée qu’une IA puisse regarder l’écran d’un jeu vidéo et tenter d’y jouer sans programmation spécifique aurait semblé relever de la science-fiction. Aujourd’hui, c’est une réalité, même si les performances sont encore limitées.
Ce benchmark ouvre la voie à une nouvelle génération d’IA capables d’interagir avec le monde de façon beaucoup plus naturelle et intuitive. Imaginez des assistants robotiques qui apprennent à utiliser de nouveaux outils simplement en observant, ou des véhicules autonomes qui s’adaptent à des situations routières inédites sans avoir été explicitement programmés pour chaque scénario.
La progression dans ce domaine sera probablement exponentielle. Si les premiers résultats semblent modestes, rappelons-nous que GPT-4 était inimaginable il y a seulement quelques années. Dans deux ou trois ans, nous aurons probablement des modèles capables non seulement de terminer DOOM, mais aussi de développer des stratégies sophistiquées dans des jeux bien plus complexes.
Cette recherche pourrait être le catalyseur qui nous mènera vers une véritable intelligence artificielle générale (AGI) - une IA capable d’apprendre et de s’adapter à n’importe quelle tâche comme le ferait un humain, ouvrant un monde de possibilités pour résoudre les défis les plus complexes de notre société.
Ce nouveau benchmark révèle surtout les limites fondamentales des modèles d’IA actuels, malgré toute l’hyperbole marketing qui les entoure. Après des milliards investis en recherche et des modèles contenant des centaines de milliards de paramètres, nos IA les plus avancées sont incapables de terminer le premier niveau d’un jeu vidéo de 1994.
Cette recherche confirme ce que beaucoup de sceptiques affirment depuis longtemps : les modèles actuels sont essentiellement des perroquets statistiques sophistiqués, mais dépourvus de véritable compréhension ou d’intelligence adaptative. Ils excellent dans les tâches pour lesquelles ils ont été spécifiquement entraînés, mais s’effondrent dès qu’ils doivent faire face à des environnements dynamiques nécessitant une adaptation en temps réel.
Plus inquiétant encore, certains commentaires sur Reddit soulignent le potentiel militaire de telles recherches. Entraîner des IA à jouer à des jeux de tir pourrait faciliter le développement d’armes autonomes capables de cibler et d’éliminer des humains. La frontière entre un agent virtuel jouant à DOOM et un robot armé prenant des décisions létales est plus mince qu’on ne le pense.
Par ailleurs, cette course à l’IA générale consomme des ressources énergétiques colossales pour des résultats finalement assez médiocres. Les centres de données nécessaires à l’entraînement et à l’inférence de ces modèles ont une empreinte carbone considérable, tout ça pour qu’une IA peine à comprendre qu’elle devrait ramasser une tronçonneuse virtuelle au début d’un niveau.
Plutôt que de poursuivre cette quête d’une IA générale aux résultats incertains, ne devrions-nous pas concentrer nos efforts sur des solutions d’IA spécialisées répondant à des problèmes concrets comme le changement climatique ou l’accès aux soins de santé?
Si vous n'êtes pas redirigé automatiquement, 👉 cliquez ici 👈