Patrick Bélanger
Article en référence: https://x.com/DanHendrycks/status/1890091724594393140
Scale AI vient de lancer EnigmaEval, une nouvelle sĂ©rie de tests dâintelligence artificielle comprenant 1184 Ă©nigmes multimodales. Ces puzzles, tirĂ©s de huit sources diffĂ©rentes, combinent texte et Ă©lĂ©ments visuels comme des grilles, images et diagrammes. La particularitĂ©? MĂȘme les meilleurs modĂšles dâIA actuels obtiennent moins de 10% de rĂ©ussite sur les Ă©nigmes normales, et 0% sur les plus difficiles conçues pour les Ă©tudiants du MIT.
Le benchmark est divisé en deux catégories:
Les rĂ©sultats actuels sont rĂ©vĂ©lateurs: GPT-4 obtient 4%, Claude 2 atteint 3%, et mĂȘme le rĂ©cent O1 de OpenAI ne dĂ©passe pas 6%. Sur les Ă©nigmes difficiles, tous les modĂšles scorent 0%.
EnigmaEval reprĂ©sente une approche intĂ©ressante pour Ă©valuer les capacitĂ©s de raisonnement des IA, mais il est important de contextualiser ces rĂ©sultats. Ces puzzles sont intentionnellement conçus pour ĂȘtre difficiles, nĂ©cessitant souvent plusieurs jours de rĂ©flexion pour des Ă©quipes dâhumains qualifiĂ©s.
La vraie question nâest peut-ĂȘtre pas tant le score obtenu que la pertinence de ce type de test. Les utilisateurs ont-ils rĂ©ellement besoin dâune IA capable de rĂ©soudre des Ă©nigmes complexes du MIT? Ne devrions-nous pas plutĂŽt nous concentrer sur lâamĂ©lioration des capacitĂ©s pratiques quotidiennes?
Imaginez un concours de cuisine oĂč les chefs doivent prĂ©parer un plat complexe sans recette, avec des ingrĂ©dients mystĂšres, dans le noir, et en utilisant uniquement leur coude gauche. Câest un peu ce quâEnigmaEval fait avec lâIA!
Bien sĂ»r, ce nâest pas parce quâun chef Ă©choue Ă ce dĂ©fi quâil ne peut pas prĂ©parer un excellent repas dans des conditions normales. De mĂȘme, les performances dâune IA sur ces puzzles ne reflĂštent pas nĂ©cessairement son utilitĂ© dans le monde rĂ©el.
Ces rĂ©sultats sont exactement ce dont nous avions besoin! Enfin un benchmark qui pousse rĂ©ellement les limites de lâIA. Chaque nouveau dĂ©fi comme celui-ci stimule lâinnovation et accĂ©lĂšre le dĂ©veloppement de modĂšles plus performants.
Regardez la progression: en quelques mois seulement, nous sommes passĂ©s de 0% Ă 6% sur certains tests. Avec la vitesse actuelle des avancĂ©es technologiques, il est probable que dans un an, ces scores sembleront dĂ©risoires. Ces challenges complexes sont exactement ce qui nous permettra dâatteindre une IA vĂ©ritablement capable de raisonnement avancĂ©.
Ces rĂ©sultats confirment ce que beaucoup craignaient: les IA actuelles sont encore trĂšs loin dâune vĂ©ritable intelligence. MalgrĂ© tout le battage mĂ©diatique, elles Ă©chouent dĂšs quâil sâagit de raisonnement complexe authentique.
Plus inquiĂ©tant encore, ces benchmarks montrent les limites fondamentales des approches actuelles. Si les meilleurs modĂšles obtiennent 0% sur les puzzles difficiles, cela suggĂšre peut-ĂȘtre que nous faisons fausse route. La course effrĂ©nĂ©e vers des modĂšles toujours plus grands pourrait ĂȘtre une impasse, masquant notre incomprĂ©hension fondamentale de ce quâest rĂ©ellement lâintelligence.
Si vous n'ĂȘtes pas redirigĂ© automatiquement, đ cliquez ici đ