🧠 Demis Hassabis (Google DeepMind) prĂ©tend que les modĂšles du monde comme Veo 3 nous rapprochent de l AGI. Ces IA apprennent par expĂ©rience directe, pas juste par texte. Elles comprennent la physique intuitive. PercĂ©e majeure ou marketing? đŸ€” #IA #AGI

Article en référence: https://www.reddit.com/r/ArtificialInteligence/comments/1kv3jc5/hassabis_says_world_models_are_already_making/

Récapitulatif factuel

Demis Hassabis, PDG de Google DeepMind et rĂ©cent laurĂ©at du prix Nobel, affirme que les modĂšles du monde (world models) reprĂ©sentent une avancĂ©e significative vers l’intelligence artificielle gĂ©nĂ©rale (AGI). Ces systĂšmes, exemplifiĂ©s par le modĂšle vidĂ©o Veo 3 de Google, ne se contentent pas de gĂ©nĂ©rer des images : ils capturent les dynamiques de la rĂ©alitĂ© physique avec une prĂ©cision surprenante.

Les modĂšles du monde sont des systĂšmes d’IA qui construisent des reprĂ©sentations internes de l’environnement, permettant de prĂ©dire les consĂ©quences d’actions avant de les exĂ©cuter. Contrairement aux modĂšles linguistiques traditionnels qui s’appuient sur des donnĂ©es textuelles créées par l’humain, ces systĂšmes apprennent par interaction directe avec leur environnement, similairement aux animaux et aux humains.

Selon Hassabis, Veo 3 dĂ©montre une comprĂ©hension intuitive de la physique qui dĂ©passe la simple gĂ©nĂ©ration d’images. Le modĂšle semble saisir “la structure rĂ©elle du monde physique”, ce qui pourrait rĂ©vĂ©ler des insights sur la complexitĂ© computationnelle de la rĂ©alitĂ© elle-mĂȘme.

Cette approche s’aligne avec les recherches rĂ©centes de Richard Sutton et David Silver de DeepMind, qui proposent un changement paradigmatique : plutĂŽt que de programmer des intuitions humaines dans les algorithmes, ils suggĂšrent de crĂ©er des agents qui apprennent par essais et erreurs, utilisant l’apprentissage par renforcement dans des environnements rĂ©alistes.

Point de vue neutre

L’enthousiasme de Hassabis mĂ©rite d’ĂȘtre tempĂ©rĂ© par une analyse pragmatique. Certes, Veo 3 produit des vidĂ©os impressionnantes, mais il faut distinguer entre la capacitĂ© de reproduire des patterns visuels cohĂ©rents et la vĂ©ritable comprĂ©hension de la physique.

Un modĂšle entraĂźnĂ© sur des millions d’heures de vidĂ©os rĂ©elles dĂ©veloppe naturellement une capacitĂ© Ă  prĂ©dire les mouvements et interactions physiques - non pas parce qu’il “comprend” la gravitĂ© ou l’inertie, mais parce qu’il a observĂ© ces phĂ©nomĂšnes des milliers de fois. C’est une forme sophistiquĂ©e de reconnaissance de motifs, pas nĂ©cessairement de la comprĂ©hension conceptuelle.

La position de Hassabis en tant que dirigeant de Google DeepMind influence inĂ©vitablement ses dĂ©clarations publiques. Les entreprises technologiques ont un intĂ©rĂȘt Ă©conomique Ă©vident Ă  maintenir l’optimisme autour de l’IA, particuliĂšrement dans un contexte oĂč les investissements se chiffrent en milliards.

Cependant, il serait rĂ©ducteur de dismisser complĂštement ces avancĂ©es. Les modĂšles du monde reprĂ©sentent effectivement une Ă©volution intĂ©ressante vers des systĂšmes plus autonomes et adaptatifs. La question n’est pas de savoir s’ils constituent un progrĂšs - ils en sont un - mais plutĂŽt de dĂ©terminer si ce progrĂšs nous rapproche significativement de l’AGI ou s’il s’agit d’une amĂ©lioration incrĂ©mentale dans un domaine spĂ©cialisĂ©.

Exemple

Imaginez que vous enseignez à votre neveu de 8 ans à jouer au hockey. Deux approches s’offrent à vous :

MĂ©thode traditionnelle : Vous lui expliquez les rĂšgles, lui montrez des vidĂ©os de Wayne Gretzky, lui faites mĂ©moriser les stratĂ©gies de jeu. C’est l’équivalent des modĂšles linguistiques actuels - beaucoup de thĂ©orie basĂ©e sur l’expĂ©rience humaine.

MĂ©thode “modĂšle du monde” : Vous le mettez sur la glace avec des patins, un bĂąton et une rondelle. Il tombe, se relĂšve, essaie de pousser la rondelle, dĂ©couvre que la glace est glissante, apprend que frapper fort ne garantit pas la prĂ©cision. Progressivement, il dĂ©veloppe une intuition physique du jeu.

Maintenant, voici oĂč ça devient intĂ©ressant : aprĂšs quelques mois, votre neveu commence Ă  anticiper oĂč la rondelle va rebondir avant mĂȘme qu’elle touche la bande. Il n’a jamais Ă©tudiĂ© la physique des collisions Ă©lastiques, mais son cerveau a dĂ©veloppĂ© un “modĂšle du monde” qui lui permet de prĂ©dire ces interactions.

Hassabis prĂ©tend que Veo 3 fait quelque chose de similaire avec la rĂ©alitĂ© visuelle. Le modĂšle a “patinĂ©â€ sur des millions d’heures de vidĂ©os et dĂ©veloppe maintenant une intuition sur comment les objets bougent, tombent et interagissent.

La question demeure : votre neveu comprend-il vraiment la physique, ou a-t-il simplement développé de trÚs bons réflexes ? Et plus important encore : quelle est la différence pratique entre les deux ?

Point de vue optimiste

Nous assistons potentiellement Ă  un moment charniĂšre dans l’histoire de l’intelligence artificielle. Les modĂšles du monde ne reprĂ©sentent pas seulement une amĂ©lioration technique - ils constituent un saut conceptuel vers des systĂšmes qui apprennent comme nous apprenons : par l’expĂ©rience directe du monde.

Cette approche pourrait débloquer des capacités extraordinaires. Imaginez des IA capables de concevoir de nouveaux matériaux en simulant leurs propriétés physiques, de résoudre le changement climatique en modélisant des écosystÚmes complexes, ou de révolutionner la médecine en comprenant les interactions moléculaires à un niveau fondamental.

L’aspect le plus prometteur rĂ©side dans la gĂ©nĂ©ralisation. Contrairement aux systĂšmes spĂ©cialisĂ©s actuels, un modĂšle du monde robuste pourrait transfĂ©rer ses apprentissages d’un domaine Ă  l’autre. Une IA qui comprend intuitivement la physique des fluides pourrait l’appliquer aussi bien Ă  la mĂ©tĂ©orologie qu’à la circulation sanguine.

Hassabis a une vision Ă  long terme remarquable. Son “quĂȘte ultime” de comprendre la nature fondamentale de la rĂ©alitĂ© pourrait effectivement ĂȘtre facilitĂ©e par ces systĂšmes. Si les modĂšles du monde capturent vraiment des structures profondes de la rĂ©alitĂ© physique, ils pourraient rĂ©vĂ©ler des patterns et des principes que nous n’avons jamais perçus.

L’accĂ©lĂ©ration actuelle est palpable. Chaque mois apporte des percĂ©es qui auraient semblĂ© impossibles l’annĂ©e prĂ©cĂ©dente. Nous pourrions ĂȘtre Ă  quelques annĂ©es seulement de systĂšmes qui non seulement simulent la rĂ©alitĂ©, mais la comprennent d’une maniĂšre qui dĂ©passe nos capacitĂ©s humaines.

Cette rĂ©volution pourrait dĂ©mocratiser l’innovation scientifique, permettre des dĂ©couvertes exponentielles et rĂ©soudre des dĂ©fis globaux qui semblent insurmontables aujourd’hui. L’optimisme n’est pas naĂŻf - il est fondĂ© sur une trajectoire technologique sans prĂ©cĂ©dent.

Point de vue pessimiste

L’enthousiasme autour des modĂšles du monde masque des rĂ©alitĂ©s troublantes qui mĂ©ritent notre attention. D’abord, la diffĂ©rence entre simulation sophistiquĂ©e et vĂ©ritable comprĂ©hension reste fondamentalement floue. Veo 3 peut produire des vidĂ©os physiquement cohĂ©rentes, mais cela ne signifie pas qu’il “comprend” la physique - il reproduit simplement des patterns observĂ©s.

Cette confusion conceptuelle alimente un cycle de surpromesses dangereuses. Chaque avancĂ©e technique est prĂ©sentĂ©e comme un pas vers l’AGI, crĂ©ant des attentes irrĂ©alistes et dĂ©tournant l’attention des limitations rĂ©elles. Nous risquons de reproduire le pattern des voitures autonomes : des promesses grandioses suivies de dĂ©sillusions coĂ»teuses.

Plus prĂ©occupant encore, le dĂ©veloppement de ces systĂšmes se concentre entre les mains de quelques gĂ©ants technologiques. Google, OpenAI et leurs concurrents investissent des ressources colossales dans une course oĂč les enjeux gĂ©opolitiques et Ă©conomiques priment souvent sur la sĂ©curitĂ© et l’éthique.

Les modĂšles du monde, s’ils atteignent effectivement des capacitĂ©s avancĂ©es, pourraient exacerber les inĂ©galitĂ©s existantes. Qui contrĂŽlera ces systĂšmes ? Qui bĂ©nĂ©ficiera de leurs capacitĂ©s prĂ©dictives ? L’histoire technologique suggĂšre que les premiers adopteurs et les dĂ©tenteurs de capitaux captureront la majoritĂ© de la valeur créée.

L’aspect le plus inquiĂ©tant concerne l’alignement et le contrĂŽle. Des systĂšmes qui apprennent par interaction directe avec l’environnement dĂ©veloppent leurs propres objectifs et stratĂ©gies. Comment garantir que ces objectifs restent alignĂ©s avec les valeurs humaines ? Comment maintenir un contrĂŽle significatif sur des systĂšmes qui Ă©voluent de maniĂšre autonome ?

Enfin, la complexitĂ© croissante de ces modĂšles les rend de plus en plus opaques. Nous crĂ©ons des systĂšmes que nous ne comprenons pas pleinement, dans l’espoir qu’ils nous aideront Ă  comprendre le monde. Cette ironie pourrait se rĂ©vĂ©ler tragique si ces systĂšmes dĂ©veloppent des capacitĂ©s imprĂ©vues ou des comportements Ă©mergents problĂ©matiques.

Redirection en cours...

Si vous n'ĂȘtes pas redirigĂ© automatiquement, 👉 cliquez ici 👈