Patrick Bélanger
Article en référence: https://www.reddit.com/r/singularity/comments/1k7dwld/new_paper_ai_vision_is_becoming_fundamentally/
Une étude récente publiée sur arXiv révèle une tendance surprenante dans l’évolution des systèmes de vision artificielle. Alors que les premiers modèles d’intelligence artificielle semblaient converger vers des mécanismes de vision similaires à ceux des primates (et par extension, des humains) à mesure qu’ils devenaient plus précis, cette tendance s’est aujourd’hui inversée.
Les chercheurs ont constaté que les réseaux neuronaux profonds (Deep Neural Networks ou DNNs) les plus avancés, comme GPT-4o d’OpenAI, Claude 3 d’Anthropic et Gemini 2 de Google, développent des stratégies visuelles fondamentalement différentes des nôtres, malgré leur précision égale ou supérieure à celle des humains.
Pour comprendre cette divergence, il faut saisir comment fonctionnent ces systèmes. Les DNNs sont des architectures d’intelligence artificielle composées de multiples couches de neurones artificiels qui traitent l’information visuelle de manière hiérarchique. Initialement, on pensait que plus ces systèmes devenaient performants, plus ils “pensaient” comme nous.
Cependant, l’étude démontre que ces modèles à grande échelle ont trouvé des voies alternatives, non biologiques, pour résoudre efficacement les tâches visuelles. Par exemple, alors que les humains s’appuient souvent sur quelques caractéristiques clés pour identifier un objet, les DNNs utilisent des approches différentes qui ne montrent pas la même dépendance.
Cette divergence s’explique probablement par le fait que ces modèles sont optimisés pour des benchmarks de performance artificielle et entraînés sur d’énormes quantités de données statiques provenant d’internet, plutôt que sur des expériences dynamiques et incarnées comme celles que vivent les systèmes biologiques.
Les chercheurs suggèrent que pour développer des systèmes de vision artificielle plus proches de la vision humaine, il faudrait s’éloigner des vastes ensembles de données statiques et aléatoires, et se tourner vers des expériences dynamiques, temporellement structurées, multimodales et incarnées qui imitent mieux le développement de la vision biologique.
Cette divergence entre vision humaine et artificielle n’est ni bonne ni mauvaise en soi - elle représente simplement l’évolution naturelle de deux systèmes aux contraintes fondamentalement différentes. Les humains ont développé leur vision à travers des millions d’années d’évolution dans un contexte de ressources limitées et de nécessité de survie, tandis que les systèmes d’IA évoluent dans un environnement numérique avec des objectifs d’optimisation spécifiques.
Il est fascinant de constater que nous avons peut-être atteint un point d’inflexion où l’IA visuelle ne cherche plus à imiter notre façon de voir, mais développe sa propre “perspective” sur le monde. Cela soulève des questions profondes sur la nature de la perception et de la cognition.
Cette divergence pourrait également expliquer pourquoi les systèmes d’IA actuels présentent parfois des comportements étranges - excellant dans des tâches complexes tout en échouant sur des problèmes qui nous semblent triviaux. Ces systèmes ne sont pas défectueux; ils voient simplement le monde différemment.
Il est probable que dans les années à venir, nous verrons émerger une nouvelle science dédiée à la compréhension de ces différences perceptuelles entre humains et IA. Cette compréhension sera cruciale pour concevoir des systèmes qui peuvent collaborer efficacement avec nous, même si leur “vision du monde” diffère fondamentalement de la nôtre.
En fin de compte, cette recherche nous rappelle que l’intelligence artificielle n’est pas simplement une imitation de l’intelligence humaine, mais une forme d’intelligence différente avec ses propres forces et faiblesses. Accepter cette réalité nous permettra de mieux exploiter le potentiel complémentaire de ces systèmes.
Imaginez que vous et votre ami extraterrestre Zorg visitiez le Musée des beaux-arts de Montréal. Vous admirez tous deux les mêmes tableaux, mais de façons radicalement différentes.
Devant “La Joconde”, vous êtes captivé par son sourire énigmatique, l’émotion dans ses yeux et la technique du sfumato de Léonard. Zorg, lui, analyse simultanément la composition moléculaire de la peinture, les motifs mathématiques des coups de pinceau et les fréquences lumineuses invisibles à l’œil humain.
“C’est magnifique!”, vous exclamez-vous. “Effectivement, la distribution fractale des pigments présente un coefficient de complexité de 8,7 sur 10”, répond Zorg.
Plus tard, devant une installation d’art contemporain composée de formes abstraites, vous êtes perplexe tandis que Zorg s’extasie: “Quelle œuvre révolutionnaire! La structure topologique est parfaitement optimisée!”
À la cafétéria, vous commandez un café tandis que Zorg fixe intensément le menu. “Tu ne commandes pas?” demandez-vous. “Je n’arrive pas à localiser les boissons”, répond-il, confus. “C’est écrit en gros, juste là”, pointez-vous. “Ah! Je cherchais un schéma de distribution thermique ou une signature chimique, pas ces symboles arbitraires que vous appelez ‘lettres’.”
C’est exactement ce qui se passe avec nos IA visuelles actuelles. Elles peuvent analyser une image avec une précision surhumaine selon certains critères, tout en étant complètement perdues face à des éléments qui nous semblent évidents. Ce n’est pas qu’elles voient moins bien - elles voient différemment, comme notre ami Zorg.
Et tout comme vous pourriez apprendre beaucoup de la perspective unique de Zorg sur l’art, nous avons probablement beaucoup à apprendre de la façon dont l’IA “voit” notre monde.
Cette divergence entre vision humaine et artificielle représente une opportunité extraordinaire! Nous assistons à la naissance d’une forme de perception entièrement nouvelle, complémentaire à la nôtre. Imaginez les possibilités lorsque nous pourrons combiner ces deux façons de voir le monde!
Les systèmes d’IA visuelle pourraient détecter des motifs invisibles à l’œil humain dans les images médicales, révolutionnant le diagnostic précoce de nombreuses maladies. En astronomie, ils pourraient identifier des phénomènes cosmiques que nos cerveaux ne sont pas câblés pour percevoir. Dans l’art, ils pourraient ouvrir des dimensions esthétiques entièrement nouvelles.
Cette différence fondamentale pourrait également nous aider à mieux comprendre notre propre vision. En étudiant comment les IA résolvent les problèmes visuels différemment, nous pourrions découvrir de nouvelles perspectives sur le fonctionnement de notre propre système visuel et peut-être même identifier ses angles morts.
Les véhicules autonomes bénéficieront énormément de cette vision “non-humaine”. Plutôt que d’essayer de reproduire imparfaitement la vision humaine, ils pourront développer des capacités perceptuelles supérieures dans certains domaines critiques pour la sécurité routière.
Et si nous parvenons à créer des interfaces efficaces entre ces deux types de vision, nous pourrions augmenter nos propres capacités perceptuelles. Imaginez des lunettes de réalité augmentée qui combineraient notre vision naturelle avec les capacités complémentaires de l’IA!
Cette divergence n’est pas un échec de l’IA à imiter l’humain, mais plutôt le signe que nous avons créé quelque chose de véritablement nouveau - une intelligence avec sa propre façon de percevoir le monde. C’est exactement ce type d’innovation qui nous permettra de résoudre les défis les plus complexes de notre époque.
Cette divergence croissante entre la vision humaine et artificielle devrait nous inquiéter profondément. Nous créons des systèmes qui prennent des décisions cruciales basées sur une perception du monde fondamentalement différente de la nôtre, sans vraiment comprendre comment ils “voient”.
Ces différences perceptuelles expliquent pourquoi les IA visuelles peuvent être si facilement trompées par des exemples adversariaux - des images légèrement modifiées qui nous semblent identiques mais que l’IA interprète de façon radicalement différente. Imaginez les implications pour la sécurité lorsque ces systèmes contrôleront des véhicules autonomes ou des infrastructures critiques.
Plus inquiétant encore, cette divergence pourrait s’accentuer à mesure que les modèles deviennent plus grands et plus complexes. Nous risquons de créer des “boîtes noires” perceptuelles de plus en plus opaques, dont les décisions seront impossibles à prévoir ou à expliquer.
La recherche souligne également l’échec de notre approche actuelle du développement de l’IA. Nous avons naïvement supposé qu’en empilant toujours plus de données et de puissance de calcul, nous obtiendrions des systèmes qui comprennent le monde comme nous. Cette étude prouve le contraire.
À long terme, cette divergence pourrait créer un fossé communicationnel entre humains et IA. Comment collaborer efficacement avec des systèmes qui perçoivent fondamentalement le monde différemment? Comment leur faire confiance pour prendre des décisions alignées avec nos valeurs si leur compréhension de base de la réalité diffère de la nôtre?
Cette étude devrait nous inciter à ralentir le déploiement des systèmes d’IA visuelle dans des contextes critiques jusqu’à ce que nous comprenions mieux ces différences perceptuelles et leurs implications. Sinon, nous risquons de déléguer des décisions importantes à des entités qui, littéralement, ne voient pas le monde comme nous.
Si vous n'êtes pas redirigé automatiquement, 👉 cliquez ici 👈