Google dévoile une 3e loi d échelle en IA: générer plusieurs réponses et les auto-vérifier améliore drastiquement les performances. Déjà utilisée par Claude 3, cette méthode pourrait révolutionner la résolution de problèmes complexes, mais à quel coût énergétique? #IA #Innovation

Article en référence: https://i.redd.it/k8vx4l66n1qe1.png

Récapitulatif factuel

Des chercheurs de Google ont récemment publié un article intitulé “Sample, Scrutinize and Scale” qui explore une troisième “loi d’échelle” pour l’intelligence artificielle. Cette découverte s’ajoute aux deux lois d’échelle déjà connues : l’échelle des données et l’échelle du calcul/des paramètres.

Cette troisième loi concerne l’utilisation du “temps de réflexion” pendant l’inférence. Concrètement, elle propose de générer plusieurs réponses candidates (parfois des milliers) et de sélectionner la meilleure grâce à un processus de vérification intégré au modèle lui-même. Cette approche diffère des méthodes traditionnelles de “meilleur parmi N” (best-of-N) car elle ne se contente pas de choisir la réponse la plus fréquente, mais utilise plutôt un processus de vérification explicite.

La méthode se décompose en deux axes distincts :

Génération : produire de nombreuses réponses candidates
Vérification : allouer du temps de calcul pour vérifier chaque réponse

Ce qui est particulièrement intéressant, c’est que cette approche semble continuer à s’améliorer même lorsqu’on augmente considérablement le nombre d’échantillons, contrairement aux méthodes traditionnelles qui atteignent rapidement un plateau. Les chercheurs ont démontré que cette méthode permettait d’améliorer significativement les performances sur des benchmarks difficiles comme AIME (American Invitational Mathematics Examination) et MATH.

Certains commentateurs sur Reddit ont fait remarquer que cette technique est déjà utilisée dans certains produits commerciaux comme Claude 3 Opus (o1-Pro), mais l’article de Google apporte une analyse systématique de son efficacité et de ses propriétés d’échelle.

Point de vue neutre

Cette “troisième loi d’échelle” n’est pas vraiment une révolution, mais plutôt une formalisation et une optimisation d’une approche déjà intuitive. Après tout, nous humains utilisons souvent cette méthode : nous réfléchissons à plusieurs solutions possibles, puis nous les évaluons pour choisir la meilleure.

Ce qui est intéressant ici, c’est la confirmation que cette approche peut être systématisée et qu’elle continue de s’améliorer avec plus de ressources. Cependant, il faut reconnaître que cette méthode a un coût considérable. Comme l’a souligné un utilisateur de Reddit, utiliser cette technique pour résoudre 15 problèmes AIME avec GPT-4.5 coûterait environ 19 500 $, et avec Claude 3 Opus (o1-Pro), ce serait près de 78 000 $.

La question qui se pose alors est pragmatique : vaut-il mieux utiliser un modèle moins performant avec cette technique coûteuse, ou simplement utiliser un modèle plus performant dès le départ? La réponse dépendra probablement du contexte d’utilisation et des ressources disponibles.

Cette approche représente un compromis intéressant entre l’amélioration des modèles eux-mêmes (qui nécessite un entraînement coûteux) et l’optimisation de leur utilisation (qui consomme plus de ressources à l’inférence). Elle nous rappelle que l’intelligence artificielle progresse non seulement par des avancées fondamentales dans l’architecture des modèles, mais aussi par des innovations dans la façon dont nous les utilisons.

Exemple

Imaginez que vous êtes en train de préparer un gâteau pour une fête importante. Vous avez deux options :

Option 1 (méthode traditionnelle) : Vous suivez une recette précise, vous faites un seul gâteau, et vous espérez qu’il sera parfait.

Option 2 (la “troisième loi d’échelle”) : Vous préparez 10 versions légèrement différentes de la pâte à gâteau, vous les faites toutes cuire, puis vous goûtez chacune d’elles pour choisir la meilleure.

Évidemment, l’option 2 vous donnera probablement un meilleur gâteau, mais elle vous coûtera 10 fois plus en ingrédients et en temps de cuisson!

Maintenant, poussons l’analogie plus loin. Imaginez que vous ayez un assistant-pâtissier qui peut non seulement préparer ces 10 versions, mais qui peut aussi les goûter et les évaluer pour vous. Et plus vous lui permettez de préparer de versions, plus il devient habile à identifier ce qui fait un bon gâteau.

C’est exactement ce que fait cette troisième loi d’échelle : elle permet au modèle d’IA de générer plusieurs réponses, puis d’utiliser ses propres capacités pour évaluer laquelle est la meilleure. Et plus vous lui permettez de générer de réponses, plus il devient précis dans son évaluation.

Le plus drôle, c’est que certains chefs pâtissiers (entreprises d’IA) utilisaient déjà cette technique en secret pour leurs concours de pâtisserie (benchmarks), mais maintenant quelqu’un a écrit un livre de cuisine qui explique précisément pourquoi et comment cette méthode fonctionne si bien!

Point de vue optimiste

Cette troisième loi d’échelle pourrait bien être la clé qui débloquera le potentiel inexploité des modèles d’IA actuels! Imaginez un peu : sans avoir à réentraîner nos modèles, sans avoir à collecter plus de données, nous pouvons simplement optimiser la façon dont ils réfléchissent à l’inférence et obtenir des performances spectaculairement améliorées.

Cette approche est particulièrement prometteuse car elle s’attaque directement au problème de la fiabilité des IA. En permettant aux modèles de vérifier leurs propres réponses, nous créons un mécanisme d’auto-correction qui pourrait réduire drastiquement les hallucinations et les erreurs de raisonnement.

Plus excitant encore, cette méthode pourrait être combinée avec d’autres techniques émergentes comme le “Tree of Thought” (arbre de pensée) pour créer des systèmes capables d’explorer méthodiquement l’espace des solutions possibles. Nous pourrions voir émerger des IA capables de résoudre des problèmes mathématiques complexes, de générer des preuves mathématiques originales, ou même de faire des découvertes scientifiques!

À terme, cette approche pourrait même permettre aux modèles d’IA de dépasser les capacités humaines dans des domaines où la réflexion profonde et l’auto-vérification sont cruciales. Nous sommes peut-être à l’aube d’une nouvelle ère où les IA ne se contenteront plus de reproduire la connaissance humaine, mais commenceront à l’étendre de façon significative.

Et le plus beau dans tout ça? Cette méthode est conceptuellement simple et peut être implémentée dès maintenant. Nous n’avons pas besoin d’attendre une hypothétique percée technologique - nous avons déjà les outils nécessaires pour commencer à explorer ce nouveau territoire passionnant!

Point de vue pessimiste

Cette soi-disant “troisième loi d’échelle” n’est rien d’autre qu’une façon déguisée d’admettre les limites fondamentales de nos modèles d’IA actuels. Si nous devons générer des milliers de réponses pour en trouver une correcte, n’est-ce pas l’aveu que nos modèles sont fondamentalement incapables de raisonner correctement du premier coup?

Cette approche est extrêmement inefficace et coûteuse en ressources. Nous parlons ici de multiplier par 100 ou 1000 la quantité de calcul nécessaire pour obtenir une réponse. C’est comme si, incapables d’améliorer l’intelligence de nos modèles, nous nous rabattions sur une approche “brute force” qui consiste essentiellement à essayer un grand nombre de possibilités jusqu’à ce qu’une fonctionne.

D’un point de vue environnemental, c’est catastrophique. Les centres de données consomment déjà des quantités énormes d’énergie, et cette approche ne ferait qu’aggraver le problème. Sans parler du fait que seules les plus grandes entreprises technologiques pourront se permettre d’utiliser cette méthode à grande échelle, creusant encore davantage le fossé technologique.

Plus inquiétant encore, cette méthode pourrait donner une fausse impression de progrès. Nous pourrions voir des améliorations spectaculaires dans les benchmarks, mais ces améliorations ne refléteraient pas une véritable compréhension ou intelligence - juste la capacité à essayer suffisamment de réponses pour en trouver une qui fonctionne par hasard.

Enfin, cette approche ne résout pas le problème fondamental : nos modèles d’IA ne comprennent pas vraiment ce qu’ils font. Ils peuvent générer des textes qui semblent cohérents, mais ils n’ont pas de véritable compréhension du monde. Multiplier les tentatives ne changera rien à ce problème de fond - cela ne fera que le masquer temporairement derrière une façade d’efficacité illusoire.

Redirection en cours...

Si vous n'êtes pas redirigé automatiquement, 👉 cliquez ici 👈