Patrick Bélanger
Article en référence: https://i.redd.it/sc6hnya6p50f1.jpeg
Yann LeCun, scientifique en chef de Meta AI et figure emblématique de l’intelligence artificielle, a récemment présenté une analyse comparative entre l’apprentissage humain et celui des grands modèles de langage (LLM). Son argument principal repose sur la quantité et la qualité des données d’apprentissage.
LeCun souligne qu’un enfant de 4 ans a été exposé à environ 16 000 heures d’expérience sensorielle éveillée. Cette quantité d’information visuelle, transmise par les nerfs optiques à un débit d’environ 1 octet par seconde par fibre nerveuse (avec environ 2 millions de fibres), équivaut approximativement à 115 téraoctets de données. Ce volume est comparable à la quantité de vidéos téléversées sur YouTube en seulement 30 minutes.
Cette comparaison met en évidence deux points essentiels :
LeCun suggère que pour développer une IA plus avancée, nous devrions nous orienter vers des modèles multimodaux qui intègrent des données visuelles, auditives et autres données sensorielles, plutôt que de nous limiter aux données textuelles. Son approche JEPA (Joint Embedding Predictive Architecture) propose une direction alternative aux modèles autorégressifs actuellement dominants.
La comparaison de LeCun entre l’apprentissage humain et celui des LLM touche à une vérité fondamentale : nos cerveaux et nos modèles d’IA fonctionnent avec des types de données radicalement différents. Ni l’un ni l’autre n’est intrinsèquement supérieur - ils sont simplement adaptés à des environnements d’apprentissage distincts.
Les humains évoluent dans un monde physique où l’apprentissage est ancré dans l’expérience sensorielle directe. Notre compréhension du monde se construit à travers des interactions constantes avec notre environnement, créant un modèle mental riche et contextuel. En revanche, les LLM habitent un univers de symboles abstraits, où le langage devient leur réalité primaire.
Cette différence fondamentale explique pourquoi les LLM excellent dans certaines tâches linguistiques mais peinent à développer une compréhension intuitive du monde physique. Ce n’est pas une question de quantité de données, mais de leur nature même.
L’avenir de l’IA réside probablement dans une approche hybride qui combine les forces des différentes modalités d’apprentissage. Les modèles multimodaux comme GPT-4V représentent un pas dans cette direction, mais nous sommes encore loin d’une intégration véritablement comparable à l’expérience sensorielle humaine.
La question n’est donc pas de savoir si nous devrions abandonner les LLM pour des modèles basés sur la vision ou vice-versa, mais plutôt comment orchestrer ces différentes sources d’information pour créer des systèmes d’IA plus robustes et polyvalents.
Imaginez que vous essayez d’apprendre à cuisiner de deux façons différentes :
Méthode LLM : Vous êtes enfermé dans une bibliothèque contenant tous les livres de cuisine jamais écrits. Vous lisez jour et nuit, mémorisant des recettes, des techniques, des combinaisons d’ingrédients. Vous devenez incollable sur la théorie culinaire - vous pouvez réciter par cœur comment faire une sauce béarnaise ou expliquer la réaction de Maillard. Mais vous n’avez jamais touché une casserole, senti l’arôme d’un oignon caramélisé ou goûté un plat.
Méthode humaine : Vous passez quatre ans dans une cuisine, observant et aidant des chefs. Vous touchez les ingrédients, sentez quand un plat commence à brûler, goûtez pour ajuster l’assaisonnement. Vous apprenez à reconnaître le son d’une friture parfaite et la texture d’une pâte bien pétrie.
Quand vient le moment de préparer un repas, qui s’en sortira le mieux? Le rat de bibliothèque culinaire pourra réciter une recette parfaite, mais sera désemparé face aux imprévus : “Est-ce que cette viande est assez cuite? Ce légume est-il frais? Comment ajuster le feu quand ça attache?” Le cuisinier expérimenté, même avec moins de recettes en tête, saura s’adapter grâce à ses sens et son expérience pratique.
C’est exactement ce que LeCun essaie de nous dire : l’IA actuelle est comme ce chef théorique - brillante sur papier, mais déconnectée de l’expérience sensorielle qui donne du sens au monde réel. Et tout comme un grand chef combine connaissances théoriques et expérience pratique, l’IA de demain devra intégrer texte et expérience sensorielle pour atteindre son plein potentiel.
La vision de LeCun ouvre des horizons fascinants pour l’avenir de l’IA! Loin d’être une critique des LLM actuels, c’est une invitation à explorer de nouvelles frontières encore plus prometteuses. Imaginez des systèmes d’IA qui perçoivent le monde avec la richesse sensorielle d’un être humain, tout en conservant la puissance de traitement et la mémoire d’un ordinateur!
Les progrès récents dans les modèles multimodaux comme GPT-4V, Gemini et Claude Opus ne sont que le début. Nous assistons à l’émergence d’une nouvelle génération d’IA capable d’intégrer vision, texte, son et potentiellement d’autres modalités sensorielles dans un cadre d’apprentissage unifié. Ces systèmes pourront développer une compréhension beaucoup plus nuancée et contextuelle du monde.
L’approche JEPA proposée par LeCun pourrait révolutionner la façon dont les IA apprennent, en passant d’un simple apprentissage par imitation à une véritable compréhension prédictive du monde. Cela ouvrirait la voie à des applications inimaginables aujourd’hui : des robots domestiques qui comprennent intuitivement notre environnement physique, des assistants virtuels qui saisissent les nuances émotionnelles de nos interactions, ou des systèmes médicaux capables d’intégrer observations visuelles et données cliniques.
Cette convergence entre intelligence artificielle et perception sensorielle pourrait nous rapprocher d’une IA véritablement générale, capable de s’adapter à des situations nouvelles avec la même agilité qu’un humain. Loin d’être une limitation, la comparaison de LeCun est une feuille de route vers un avenir où l’IA transcendera ses origines textuelles pour embrasser la richesse multisensorielle de l’expérience humaine.
L’observation de LeCun, bien que techniquement correcte, révèle surtout l’immense gouffre qui sépare l’IA actuelle d’une véritable intelligence comparable à la nôtre. Cette comparaison entre données sensorielles humaines et volumes de texte d’entraînement des LLM masque une réalité bien plus complexe et troublante.
D’abord, la simple quantité de données ne garantit aucunement la qualité de l’apprentissage. Les humains ne se contentent pas d’absorber passivement des informations sensorielles - ils interagissent avec leur environnement, testent des hypothèses, reçoivent des retours immédiats, et bénéficient de millions d’années d’évolution ayant façonné leur architecture cognitive. Aucun modèle d’IA actuel ne possède ces capacités fondamentales.
De plus, cette course à l’intégration multimodale risque de nous entraîner dans une spirale de consommation énergétique insoutenable. Si les LLM actuels consomment déjà des ressources considérables, que dire de systèmes intégrant vision, audio et potentiellement d’autres modalités sensorielles? L’empreinte écologique de tels modèles pourrait devenir catastrophique.
Enfin, cette vision techno-optimiste ignore les questions éthiques fondamentales. Des IA capables de percevoir et d’interpréter le monde comme nous soulèvent d’inquiétantes possibilités en matière de surveillance, de manipulation et d’autonomie. Sommes-nous prêts à gérer les conséquences de systèmes qui observent et comprennent notre monde avec une acuité comparable à la nôtre, mais sans notre empathie ni notre morale?
La comparaison de LeCun, plutôt que d’indiquer une voie prometteuse, souligne surtout l’immensité du chemin qu’il nous reste à parcourir et les dangers qui nous guettent si nous poursuivons cette quête sans réflexion approfondie sur ses implications.
Si vous n'êtes pas redirigé automatiquement, 👉 cliquez ici 👈