đŸ€– Scale AI lance EnigmaEval: 1184 Ă©nigmes complexes qui dĂ©fient mĂȘme les IA les plus avancĂ©es. Des puzzles qui prennent des jours Ă  rĂ©soudre pour des Ă©quipes d experts humains. Les meilleurs modĂšles? 10% de rĂ©ussite. Un rappel humble des limites actuelles de l IA. #IAtech #Innovation

Article en référence: https://x.com/DanHendrycks/status/1890091724594393140

Récapitulatif factuel

Scale AI vient de lancer EnigmaEval, une nouvelle sĂ©rie de tests d’intelligence artificielle comprenant 1184 Ă©nigmes multimodales. Ces puzzles, tirĂ©s de huit sources diffĂ©rentes, combinent texte et Ă©lĂ©ments visuels comme des grilles, images et diagrammes. La particularitĂ©? MĂȘme les meilleurs modĂšles d’IA actuels obtiennent moins de 10% de rĂ©ussite sur les Ă©nigmes normales, et 0% sur les plus difficiles conçues pour les Ă©tudiants du MIT.

Le benchmark est divisé en deux catégories:

Les rĂ©sultats actuels sont rĂ©vĂ©lateurs: GPT-4 obtient 4%, Claude 2 atteint 3%, et mĂȘme le rĂ©cent O1 de OpenAI ne dĂ©passe pas 6%. Sur les Ă©nigmes difficiles, tous les modĂšles scorent 0%.

Point de vue neutre

EnigmaEval reprĂ©sente une approche intĂ©ressante pour Ă©valuer les capacitĂ©s de raisonnement des IA, mais il est important de contextualiser ces rĂ©sultats. Ces puzzles sont intentionnellement conçus pour ĂȘtre difficiles, nĂ©cessitant souvent plusieurs jours de rĂ©flexion pour des Ă©quipes d’humains qualifiĂ©s.

La vraie question n’est peut-ĂȘtre pas tant le score obtenu que la pertinence de ce type de test. Les utilisateurs ont-ils rĂ©ellement besoin d’une IA capable de rĂ©soudre des Ă©nigmes complexes du MIT? Ne devrions-nous pas plutĂŽt nous concentrer sur l’amĂ©lioration des capacitĂ©s pratiques quotidiennes?

Exemple

Imaginez un concours de cuisine oĂč les chefs doivent prĂ©parer un plat complexe sans recette, avec des ingrĂ©dients mystĂšres, dans le noir, et en utilisant uniquement leur coude gauche. C’est un peu ce qu’EnigmaEval fait avec l’IA!

Bien sĂ»r, ce n’est pas parce qu’un chef Ă©choue Ă  ce dĂ©fi qu’il ne peut pas prĂ©parer un excellent repas dans des conditions normales. De mĂȘme, les performances d’une IA sur ces puzzles ne reflĂštent pas nĂ©cessairement son utilitĂ© dans le monde rĂ©el.

Point de vue optimiste

Ces rĂ©sultats sont exactement ce dont nous avions besoin! Enfin un benchmark qui pousse rĂ©ellement les limites de l’IA. Chaque nouveau dĂ©fi comme celui-ci stimule l’innovation et accĂ©lĂšre le dĂ©veloppement de modĂšles plus performants.

Regardez la progression: en quelques mois seulement, nous sommes passĂ©s de 0% Ă  6% sur certains tests. Avec la vitesse actuelle des avancĂ©es technologiques, il est probable que dans un an, ces scores sembleront dĂ©risoires. Ces challenges complexes sont exactement ce qui nous permettra d’atteindre une IA vĂ©ritablement capable de raisonnement avancĂ©.

Point de vue pessimiste

Ces rĂ©sultats confirment ce que beaucoup craignaient: les IA actuelles sont encore trĂšs loin d’une vĂ©ritable intelligence. MalgrĂ© tout le battage mĂ©diatique, elles Ă©chouent dĂšs qu’il s’agit de raisonnement complexe authentique.

Plus inquiĂ©tant encore, ces benchmarks montrent les limites fondamentales des approches actuelles. Si les meilleurs modĂšles obtiennent 0% sur les puzzles difficiles, cela suggĂšre peut-ĂȘtre que nous faisons fausse route. La course effrĂ©nĂ©e vers des modĂšles toujours plus grands pourrait ĂȘtre une impasse, masquant notre incomprĂ©hension fondamentale de ce qu’est rĂ©ellement l’intelligence.

Redirection en cours...

Si vous n'ĂȘtes pas redirigĂ© automatiquement, 👉 cliquez ici 👈