Étude METR: la capacité des IA à accomplir des tâches complexes double tous les 7 mois! Avec 50% de fiabilité, elles peuvent maintenant faire ce qui prendrait 30min à un humain. D ici fin 2025, ce sera plusieurs heures. Impressionnant ou inquiétant? #IA #Progression

Article en référence: https://i.redd.it/it1zs7yk7ppe1.png

Récapitulatif factuel

Une étude récente publiée par METR (Measuring and Evaluating Technological Risk) révèle une tendance remarquable dans l’évolution des capacités des modèles d’IA génératives : la durée des tâches que ces systèmes peuvent accomplir de manière autonome avec une fiabilité de 50% double approximativement tous les 7 mois.

Pour bien comprendre cette métrique, précisons que la “durée des tâches” est définie par le temps qu’un humain mettrait à les accomplir. Par exemple, si une tâche prend normalement 30 minutes à un humain, les modèles d’IA actuels peuvent désormais la réaliser de façon autonome avec un taux de réussite de 50%.

Cette progression suit une courbe exponentielle, similaire à la loi de Moore dans le domaine des semi-conducteurs. Le graphique partagé montre cette évolution depuis 2022, avec une projection qui suggère que d’ici fin 2025, ces modèles pourraient potentiellement gérer des tâches équivalentes à plusieurs heures de travail humain.

Il est important de noter que cette mesure se concentre sur les “modèles frontières généralistes” - c’est-à-dire les modèles d’IA les plus avancés et polyvalents comme GPT-4, Claude, ou Gemini. Le seuil de 50% de fiabilité signifie que ces systèmes réussissent la tâche une fois sur deux, ce qui représente un point de référence intéressant mais pas encore un niveau de fiabilité suffisant pour de nombreuses applications professionnelles.

Point de vue neutre

Cette progression impressionnante mérite d’être nuancée. Comme le soulignent certains commentateurs du post Reddit, la méthodologie de sélection des tâches peut facilement influencer les résultats et créer une narration spécifique. Il est relativement simple de choisir des tâches qui correspondent à la courbe souhaitée.

La réalité est probablement plus complexe que ce que suggère ce graphique. Les modèles d’IA excellent déjà dans certaines tâches qui prendraient beaucoup plus de temps à un humain (comme la traduction instantanée de textes longs), mais peinent encore sur d’autres qui nous semblent triviales (comme comprendre avec certitude les nuances d’une situation sociale complexe).

Le seuil de 50% de fiabilité pose également question. Dans le monde réel, pour la plupart des applications professionnelles ou critiques, nous exigeons une fiabilité bien supérieure. Un système qui échoue une fois sur deux reste fondamentalement inutilisable pour de nombreux contextes.

La progression est indéniable, mais son interprétation doit rester mesurée. Nous assistons à une amélioration constante des capacités, sans pour autant que cela signifie une trajectoire linéaire vers une intelligence artificielle générale capable de tout faire. Les plateaux techniques, les limitations fondamentales et les défis de fiabilité restent des facteurs déterminants pour l’avenir de ces technologies.

Exemple

Imaginez que vous êtes un chef cuisinier et que vous formez un apprenti robot. Au début de 2022, votre assistant mécanique pouvait tout juste réussir à préparer un œuf au plat correctement une fois sur deux (une tâche de 2 minutes). Quelques mois plus tard, il maîtrisait la préparation d’une omelette basique (5 minutes) avec le même taux de succès.

Aujourd’hui, ce même robot peut tenter de préparer un repas complet pour deux personnes (30 minutes de travail humain), mais attention : une fois sur deux, vous pourriez vous retrouver avec des pâtes trop cuites ou une sauce qui a tourné!

C’est comme si votre apprenti robot apprenait de plus en plus vite, doublant ses capacités tous les 7 mois. À ce rythme, d’ici fin 2025, il pourrait théoriquement préparer un banquet complet pour 12 personnes… mais toujours avec cette même probabilité de 50% que tout se passe bien.

“Chef, j’ai préparé votre festin gastronomique!” “Merveilleux! Et l’autre moitié du temps?” “Disons que la casserole est encore en train de fondre et que le détecteur de fumée hurle depuis 20 minutes…”

Cette analogie illustre parfaitement pourquoi un taux de réussite de 50% reste problématique : dans la vraie vie, personne ne voudrait d’un chef qui réussit ses plats seulement une fois sur deux, peu importe la complexité de la recette!

Point de vue optimiste

Cette courbe exponentielle représente l’une des accélérations technologiques les plus fascinantes de notre époque! En doublant leurs capacités tous les 7 mois, ces modèles d’IA suivent une trajectoire qui pourrait révolutionner notre rapport au travail et à la productivité bien plus rapidement que nous ne l’imaginons.

Pensez-y : si cette tendance se maintient, d’ici 2026-2027, nous pourrions disposer d’assistants IA capables de gérer des projets entiers de plusieurs jours avec une fiabilité raisonnable. Ces systèmes pourraient rédiger des rapports complets, analyser des données complexes, ou même concevoir des solutions créatives à des problèmes que nous leur soumettons.

Le seuil de 50% de fiabilité n’est qu’une étape intermédiaire. Historiquement, une fois qu’une technologie atteint ce niveau de performance, les améliorations vers 80%, 90% puis 99% suivent généralement à un rythme accéléré. Les premiers avions n’étaient pas fiables à 100%, les premiers ordinateurs non plus - mais regardez où nous en sommes aujourd’hui!

Cette progression ouvre la voie à une ère d’augmentation cognitive sans précédent. Nous ne remplacerons pas les humains, nous les amplifierons! Imaginez chaque professionnel équipé d’un assistant IA capable de prendre en charge les aspects les plus chronophages et répétitifs de son travail, libérant ainsi du temps pour la créativité, l’innovation et les relations humaines.

La véritable révolution ne sera pas l’IA qui fait notre travail, mais l’IA qui nous permet de réaliser ce dont nous n’aurions jamais eu le temps ou les capacités auparavant. C’est une perspective profondément émancipatrice pour l’humanité.

Point de vue pessimiste

Cette courbe exponentielle masque des problèmes fondamentaux que nous aurions tort d’ignorer. La focalisation sur la durée des tâches et un taux de réussite de seulement 50% révèle une approche dangereusement simpliste du développement de l’IA.

D’abord, cette métrique de 50% de fiabilité est profondément inadéquate. Quelle utilité réelle peut avoir un système qui échoue une fois sur deux? Dans des contextes professionnels ou critiques, un tel taux d’échec serait catastrophique. Cette mesure semble davantage conçue pour impressionner les investisseurs que pour évaluer l’utilité pratique de ces technologies.

Plus inquiétant encore est le manque de transparence sur la sélection des tâches évaluées. Comme le soulignent certains commentateurs, il est facile de “choisir” des tâches qui correspondent à la narrative souhaitée. Quelles tâches ont été exclues de cette évaluation? Quelles sont les limitations fondamentales que cette courbe ne montre pas?

Cette course à la performance quantitative risque de nous faire négliger des questions essentielles de sécurité, d’alignement et d’impacts sociétaux. Pendant que nous célébrons ces progrès apparents, nous développons des systèmes toujours plus puissants sans comprendre pleinement leur fonctionnement ni maîtriser leurs conséquences.

La vitesse de cette progression devrait nous alarmer plutôt que nous rassurer. Si ces systèmes continuent d’évoluer à ce rythme sans que nous ayons résolu les problèmes fondamentaux de fiabilité, d’explicabilité et de contrôle, nous risquons de créer des outils dont les défaillances pourraient avoir des conséquences de plus en plus graves sur notre société.

Redirection en cours...

Si vous n'êtes pas redirigé automatiquement, 👉 cliquez ici 👈