Coïncidence ou convergence? Meta et Cohere ont développé la même approche interleaved no-RoPE attention presque simultanément! Cette technique hybride permet aux LLM de gérer des contextes quasi infinis en combinant attention locale (avec position) et globale (sans position). #IA #Innovation

Article en référence: https://i.redd.it/7dyflct7o3te1.png

Récapitulatif factuel

Une récente discussion sur Reddit a mis en lumière une similitude frappante entre deux innovations dans le domaine des modèles de langage (LLM) : l’approche “interleaved no-RoPE attention” de Meta et celle utilisée par le modèle Command-A de Cohere. Ces deux approches semblent résoudre de façon similaire le défi du contexte infini dans les LLM.

Pour comprendre cette innovation, il faut d’abord saisir ce qu’est le RoPE (Rotary Position Embedding). Il s’agit d’une technique qui permet aux modèles de langage de comprendre l’ordre des mots dans une séquence. Sans cette information positionnelle, un modèle ne pourrait pas faire la différence entre “le chat mange la souris” et “la souris mange le chat”.

L’innovation en question consiste à combiner deux types d’attention dans l’architecture du modèle :

  1. Des couches utilisant RoPE avec une fenêtre glissante pour l’attention locale (permettant de comprendre le contexte proche)
  2. Des couches utilisant une attention globale sans encodage de position (permettant de voir l’ensemble du texte)

Cette approche hybride n’est pas unique à Meta et Cohere. D’autres modèles comme ModernBERT, EuroBERT et potentiellement Gemma de Google utilisent des techniques similaires. La discussion Reddit mentionne également que Gemini 1.5 pourrait utiliser une approche comparable, avec un ratio différent entre les couches d’attention locale et globale (4:1).

Un point de confusion dans la discussion concernait la date de sortie du modèle Command-A de Cohere, initialement présenté comme ayant été lancé “il y a quelques jours”, alors que le document de recherche a été publié le 28 mars 2025, soit environ trois semaines avant la discussion.

Point de vue neutre

Cette convergence d’approches techniques entre différents acteurs du domaine de l’IA n’est pas surprenante. L’histoire des avancées technologiques est jalonnée de découvertes simultanées et indépendantes. Lorsqu’un problème devient suffisamment important - comme celui du contexte étendu pour les LLM - plusieurs équipes de recherche arrivent souvent à des solutions similaires.

L’approche hybride combinant attention locale (avec position) et globale (sans position) représente un compromis intelligent. Elle permet de maintenir la compréhension fine des relations locales tout en capturant des dépendances à longue distance, sans l’explosion computationnelle qu’entraînerait l’application du RoPE sur des séquences très longues.

Cette technique semble être une étape intermédiaire logique dans l’évolution des architectures d’attention. Elle ne révolutionne pas fondamentalement le domaine, mais propose une optimisation pragmatique qui répond à un besoin concret des utilisateurs : traiter des contextes plus longs sans augmenter drastiquement les ressources nécessaires.

La confusion sur les dates de publication rappelle l’importance de vérifier les sources dans un domaine qui évolue aussi rapidement. Dans la course à l’innovation en IA, quelques semaines peuvent faire une grande différence dans la perception de qui “arrive premier” avec une idée, même si plusieurs équipes travaillent en parallèle sur des concepts similaires.

Exemple

Imaginez une fête de famille nombreuse où tout le monde parle en même temps. Vous êtes là, essayant de suivre plusieurs conversations.

L’approche traditionnelle avec RoPE, c’est comme si vous écoutiez attentivement chaque mot de chaque personne, en vous souvenant exactement de qui a dit quoi et dans quel ordre. C’est précis, mais épuisant ! Après avoir écouté 30 personnes, votre cerveau commence à surchauffer.

L’innovation “interleaved no-RoPE attention”, c’est comme si vous adoptiez une stratégie plus intelligente :

“Tante Ginette a parlé de gâteau au chocolat et oncle Robert a mentionné quelque chose sur un voyage en Italie” - vous avez saisi l’essentiel sans vous épuiser à mémoriser chaque détail.

C’est comme si Meta et Cohere avaient tous deux réalisé qu’au buffet de la fête, il n’est pas nécessaire de goûter chaque bouchée dans un ordre précis pour apprécier l’ensemble du repas. Et ils sont arrivés à cette conclusion presque en même temps, comme deux invités qui s’exclament simultanément : “Hé, mais pourquoi on s’embête à suivre le protocole ? Prenons un peu de tout !”

La confusion sur les dates, c’est comme débattre de qui a eu l’idée en premier de se servir au buffet sans faire la queue - au final, tout le monde mange à sa faim !

Point de vue optimiste

Cette convergence technique entre Meta et Cohere représente un moment fascinant dans l’évolution des LLM ! Nous assistons à l’émergence d’un nouveau paradigme qui pourrait démocratiser l’accès aux modèles capables de traiter des contextes quasi illimités.

L’approche “interleaved no-RoPE attention” est brillante dans sa simplicité. En combinant le meilleur des deux mondes - la précision locale et la vision globale - ces modèles pourraient révolutionner des domaines entiers comme l’analyse juridique, la recherche scientifique ou même la création littéraire. Imaginez pouvoir analyser l’intégralité d’un code juridique ou d’un roman en une seule requête !

Cette innovation pourrait également réduire significativement les coûts énergétiques et matériels liés au déploiement des LLM. En optimisant l’architecture d’attention, ces modèles pourraient fonctionner plus efficacement, rendant l’IA avancée accessible à un plus grand nombre d’organisations et d’individus.

Le fait que plusieurs équipes arrivent à des conclusions similaires indique que nous sommes sur la bonne voie. C’est le signe d’une idée robuste qui résiste à l’épreuve de différentes implémentations et contextes de recherche. Cette émulation entre les équipes de Meta, Cohere, Google et d’autres ne peut qu’accélérer les progrès et bénéficier à l’ensemble de l’écosystème.

Dans un avenir proche, nous pourrions voir cette approche hybride devenir standard, ouvrant la voie à une nouvelle génération de modèles plus performants, plus accessibles et capables de comprendre des contextes toujours plus riches et nuancés.

Point de vue pessimiste

Cette prétendue “innovation” partagée par Meta et Cohere illustre parfaitement les limites actuelles de la recherche en IA. Au lieu de résoudre fondamentalement le problème de l’attention sur de longues séquences, ces entreprises proposent un compromis qui sacrifie la précision pour gagner en efficacité.

L’approche sans encodage positionnel pour l’attention globale revient essentiellement à traiter le texte comme un “sac de mots” sophistiqué. Comment un modèle peut-il vraiment comprendre des relations complexes sans savoir précisément où se situent les informations les unes par rapport aux autres ? Cette simplification pourrait entraîner des erreurs subtiles mais critiques dans des applications sensibles.

De plus, cette convergence technique soulève des questions sur l’état de l’innovation dans le domaine. Sommes-nous arrivés à un plateau où les grandes entreprises ne font plus que réinventer légèrement les mêmes idées ? La confusion sur les dates de publication n’est qu’un symptôme d’une course à l’annonce où le marketing prend le pas sur l’avancée scientifique réelle.

Les problèmes d’implémentation mentionnés (comme les difficultés avec exllama) suggèrent également que ces solutions hybrides introduisent de nouvelles complexités techniques qui pourraient limiter leur adoption par la communauté open source.

Enfin, cette approche pourrait créer une illusion de compréhension. Les modèles sembleront traiter des contextes plus longs, mais au prix d’une compréhension plus superficielle. Dans un domaine où la précision et la fiabilité sont cruciales, ces compromis architecturaux pourraient nous mener vers des systèmes qui paraissent intelligents mais qui, en réalité, ne font que masquer leurs limitations fondamentales derrière une façade d’efficacité technique.

Redirection en cours...

Si vous n'êtes pas redirigé automatiquement, 👉 cliquez ici 👈