Les LLMs excellent en raisonnement mais peinent avec la perception visuelle. Sur ARC-AGI, O3 surpasse les humains sur les petits puzzles mais Ă©choue sur les grands. C est une question de vision, pas d intelligence! đŸ€–đŸ‘€ #IA #AGI #IntelligenceArtificielle #Perception

Article en référence: https://i.redd.it/pnebntubuw8e1.jpeg

Article Reddit: O3 failure rate on ARC AGI correlates with grid size rather than difficulty https://www.reddit.com/r/singularity/comments/1hlsh1p/o3_failure_rate_on_arc_agi_correlates_with_grid/

Image de O3 failure rate on ARC AGI correlates with grid size rather than difficulty

Récapitulatif factuel

Une rĂ©cente Ă©tude sur le modĂšle GPT-4 O3 d’OpenAI rĂ©vĂšle une dĂ©couverte intĂ©ressante : ses performances sur le test ARC-AGI (Abstract Reasoning Corpus) diminuent en fonction de la taille de la grille plutĂŽt que de la difficultĂ© rĂ©elle du problĂšme. ARC-AGI est un test visuel conçu pour Ă©valuer l’intelligence artificielle gĂ©nĂ©rale Ă  travers des puzzles de logique visuelle.

Pour comprendre ce phĂ©nomĂšne, imaginons un jeu de puzzle oĂč l’IA doit dĂ©crire et rĂ©soudre des problĂšmes visuels. Contrairement aux humains qui voient instantanĂ©ment l’ensemble de l’image, l’IA doit “lire” la grille case par case, comme si on dĂ©crivait une image Ă  une personne aveugle. Cette limitation devient plus prononcĂ©e avec l’augmentation de la taille de la grille.

Les rĂ©sultats montrent que O3 surpasse les humains sur les puzzles simples avec de petites grilles, mais ses performances se dĂ©gradent significativement sur les grilles plus grandes, mĂȘme lorsque la logique sous-jacente reste similaire. Cette observation suggĂšre que le dĂ©fi principal n’est pas tant la capacitĂ© de raisonnement que la perception visuelle elle-mĂȘme.

Point de vue neutre

Cette situation met en lumiĂšre une rĂ©alitĂ© fondamentale : la perception et le raisonnement sont deux capacitĂ©s distinctes. Les humains excellent naturellement dans le traitement visuel grĂące Ă  des millions d’annĂ©es d’évolution, tandis que les IA actuelles doivent transformer ces informations visuelles en donnĂ©es textuelles avant de pouvoir les traiter.

Cette diffĂ©rence n’est ni positive ni nĂ©gative - c’est simplement une caractĂ©ristique de l’état actuel de la technologie. Tout comme une calculatrice excelle dans les calculs numĂ©riques mais pas dans la reconnaissance de visages, les IA actuelles ont leurs propres forces et limitations.

La vraie question n’est peut-ĂȘtre pas de savoir si l’IA peut Ă©galer la perception humaine, mais plutĂŽt comment nous pouvons dĂ©velopper des systĂšmes qui complĂštent nos capacitĂ©s naturelles.

Point de vue optimiste

Ces rĂ©sultats sont extrĂȘmement prometteurs ! Le fait que O3 surpasse dĂ©jĂ  les performances humaines sur les puzzles simples dĂ©montre un potentiel extraordinaire. Si la principale limitation est la perception visuelle plutĂŽt que le raisonnement, nous sommes peut-ĂȘtre Ă  l’aube d’une percĂ©e majeure.

Imaginez : une fois que nous aurons dĂ©veloppĂ© de meilleurs systĂšmes de vision artificielle, ces modĂšles pourraient rĂ©soudre des problĂšmes visuels complexes bien au-delĂ  des capacitĂ©s humaines. Les applications potentielles sont infinies : de l’analyse mĂ©dicale Ă  l’architecture, en passant par la conception de nouveaux matĂ©riaux.

La prochaine gĂ©nĂ©ration d’IA pourrait bien combiner une perception visuelle amĂ©liorĂ©e avec ses capacitĂ©s de raisonnement dĂ©jĂ  impressionnantes, ouvrant la voie Ă  une vĂ©ritable rĂ©volution dans l’intelligence artificielle gĂ©nĂ©rale.

Point de vue pessimiste

Ces rĂ©sultats soulĂšvent des inquiĂ©tudes importantes sur la nature fondamentale de l’IA actuelle. MalgrĂ© toute sa puissance de calcul, O3 Ă©choue sur des tĂąches qu’un enfant pourrait rĂ©soudre intuitivement. Cela suggĂšre que nous sommes encore loin d’une vĂ©ritable comprĂ©hension de l’intelligence.

Plus prĂ©occupant encore, cette limitation pourrait indiquer des problĂšmes plus profonds dans notre approche de l’IA. Si nos modĂšles les plus avancĂ©s peinent avec des tĂąches visuelles basiques, comment pouvons-nous leur faire confiance pour des dĂ©cisions plus complexes qui pourraient affecter des vies humaines?

Cette dĂ©pendance Ă  la taille de la grille plutĂŽt qu’à la difficultĂ© rĂ©elle du problĂšme rĂ©vĂšle peut-ĂȘtre que nous construisons des systĂšmes qui imitent l’intelligence plutĂŽt que de la comprendre vĂ©ritablement.

Redirection en cours...

Si vous n'ĂȘtes pas redirigĂ© automatiquement, 👉 cliquez ici 👈