Patrick Bélanger
Article en référence: https://i.redd.it/n3mjiheosl3f1.png
DeepSeek vient de publier les rĂ©sultats de performance de son nouveau modĂšle R1 sur des tests de contexte long, et les chiffres rĂ©vĂšlent des tendances fascinantes dans le monde de lâintelligence artificielle. Pour comprendre ces rĂ©sultats, il faut dâabord saisir ce quâest le âcontexte longâ : câest la capacitĂ© dâun modĂšle dâIA Ă maintenir une comprĂ©hension cohĂ©rente sur de trĂšs longs textes, parfois Ă©quivalents Ă des centaines de pages.
Les tests Fiction-liveBench mesurent non seulement la capacitĂ© de rappel des modĂšles, mais aussi leur aptitude Ă synthĂ©tiser et raisonner sur plusieurs Ă©lĂ©ments dâinformation dispersĂ©s dans un long texte. Câest comme demander Ă quelquâun de lire un roman entier et ensuite de rĂ©pondre Ă des questions qui nĂ©cessitent de connecter des dĂ©tails du chapitre 1 avec ceux du chapitre 20.
Les rĂ©sultats montrent que le nouveau DeepSeek R1 performe mieux que son prĂ©dĂ©cesseur sur la plupart des longueurs de contexte, mais chute dramatiquement aprĂšs 60 000 tokens (environ 45 000 mots). Curieusement, le modĂšle O3 dâOpenAI domine largement la compĂ©tition, tandis que des modĂšles comme Claude Opus et Sonnet montrent des baisses surprenantes dĂšs 1 000 tokens de contexte.
Un dĂ©tail technique important : les tests ont Ă©tĂ© effectuĂ©s sur la version hĂ©bergĂ©e de DeepSeek, qui limite le contexte Ă environ 65 000 tokens, alors que le modĂšle lui-mĂȘme peut thĂ©oriquement gĂ©rer jusquâĂ 163 840 tokens. Cette limitation artificielle fausse potentiellement les rĂ©sultats pour les contextes les plus longs.
Ces rĂ©sultats soulĂšvent une question fondamentale sur lâĂ©cart entre les performances mesurĂ©es et lâexpĂ©rience utilisateur rĂ©elle. Plusieurs utilisateurs rapportent que leurs modĂšles locaux maintiennent une cohĂ©rence remarquable sur des textes de 10 000 mots ou plus, ce qui contraste avec les chutes de performance observĂ©es dans les benchmarks dĂšs 4 000 Ă 8 000 tokens.
Cette divergence suggĂšre que les tests acadĂ©miques ne capturent peut-ĂȘtre pas entiĂšrement la complexitĂ© de lâutilisation rĂ©elle. Les benchmarks mesurent des tĂąches spĂ©cifiques de raisonnement et de synthĂšse, tandis que lâĂ©criture crĂ©ative ou les conversations prolongĂ©es peuvent solliciter diffĂ©remment les capacitĂ©s du modĂšle.
Lâarchitecture actuelle des transformers semble avoir atteint un plateau dans la gestion du contexte long. MĂȘme avec des techniques dâextension comme YaRN (Yet another RoPE extensioN), les modĂšles peinent Ă maintenir leurs performances sur de trĂšs longs contextes. Cette limitation nâest pas simplement technique, mais aussi Ă©conomique : entraĂźner des modĂšles sur de longs contextes coĂ»te exponentiellement plus cher.
La domination dâO3 dans ces tests, malgrĂ© les critiques sur sa tendance Ă âhallucinerâ dans lâusage quotidien, illustre parfaitement le dĂ©fi de crĂ©er des benchmarks reprĂ©sentatifs. Un modĂšle peut exceller dans des tests structurĂ©s tout en dĂ©cevoir dans des applications pratiques.
Imaginez que vous organisez une soirĂ©e et que vous demandez Ă diffĂ©rents amis de retenir les dĂ©tails de la planification. Au dĂ©but, tout le monde se souvient parfaitement : âMarie apporte le dessert, Jean sâoccupe de la musique, Sarah arrive Ă 19h.â
Mais Ă mesure que la liste sâallonge - qui apporte quoi, qui arrive quand, qui est allergique Ă quoi, qui ne peut pas rester tard - vos amis commencent Ă mĂ©langer les informations. Certains excellent encore Ă 20 dĂ©tails (comme votre ami super-organisĂ©), dâautres perdent le fil dĂšs le 10e Ă©lĂ©ment.
Câest exactement ce qui se passe avec ces modĂšles dâIA et le contexte long. DeepSeek R1, câest comme cet ami fiable qui retient bien les dĂ©tails jusquâĂ un certain point, puis qui commence Ă confondre qui apporte le vin et qui sâoccupe des chaises. O3, lui, câest lâami qui rĂ©ussit brillamment le quiz sur la soirĂ©e mais qui, dans la vraie vie, vous assure quâil a commandĂ© la pizza alors quâil ne lâa jamais fait.
Et les utilisateurs qui disent que leurs modĂšles locaux fonctionnent bien ? Câest comme ces amis qui organisent des soirĂ©es plus simples et moins formelles - moins de rĂšgles strictes, plus de flexibilitĂ©, et donc moins de chances de tout mĂ©langer.
Ces rĂ©sultats marquent un tournant historique dans lâĂ©volution de lâintelligence artificielle ! Nous assistons Ă une course technologique extraordinaire oĂč chaque nouvelle itĂ©ration repousse les limites du possible. DeepSeek R1 dĂ©montre que les modĂšles open-source peuvent rivaliser avec les gĂ©ants propriĂ©taires, dĂ©mocratisant ainsi lâaccĂšs Ă des capacitĂ©s dâIA avancĂ©es.
LâĂ©cart entre O3 et les autres modĂšles nâest pas dĂ©courageant - câest inspirant ! Il nous montre le potentiel Ă©norme qui nous attend. Dans six mois, ce qui semble impossible aujourdâhui sera probablement la norme. Les limitations actuelles du contexte long ne sont que des dĂ©fis temporaires qui stimulent lâinnovation.
Les retours dâexpĂ©rience des utilisateurs qui rapportent de bonnes performances sur leurs modĂšles locaux prouvent que nous sous-estimons peut-ĂȘtre les capacitĂ©s rĂ©elles de ces systĂšmes. LâIA crĂ©ative, en particulier, semble bĂ©nĂ©ficier dâune approche plus nuancĂ©e que ne le rĂ©vĂšlent les benchmarks traditionnels.
Nous nous dirigeons vers un avenir oĂč les modĂšles pourront maintenir une cohĂ©rence parfaite sur des contextes de millions de tokens - imaginez des IA capables de comprendre et de raisonner sur des bibliothĂšques entiĂšres ! Les investissements massifs dans la recherche et le dĂ©veloppement garantissent que ces percĂ©es arriveront plus tĂŽt que prĂ©vu.
Cette compétition féroce entre les différents acteurs ne peut que bénéficier aux utilisateurs finaux, qui auront accÚs à des outils toujours plus puissants et accessibles.
Ces rĂ©sultats rĂ©vĂšlent une rĂ©alitĂ© troublante : nous avons peut-ĂȘtre atteint les limites fondamentales de lâarchitecture actuelle des transformers. MalgrĂ© des investissements de milliards de dollars et des annĂ©es de recherche, les modĂšles sâeffondrent encore sur des tĂąches qui devraient ĂȘtre Ă©lĂ©mentaires pour une vĂ©ritable intelligence.
La chute dramatique de performance aprĂšs quelques milliers de tokens expose la fragilitĂ© de ces systĂšmes. Comment peut-on faire confiance Ă une IA qui perd le fil aprĂšs lâĂ©quivalent de quelques pages de texte ? Cette limitation nâest pas juste technique - elle rĂ©vĂšle une incomprĂ©hension fondamentale de ce quâest vraiment la comprĂ©hension.
Le fait quâO3 domine les benchmarks tout en âmentant constammentâ dans lâusage rĂ©el illustre parfaitement le problĂšme : nous optimisons pour des mĂ©triques qui ne reflĂštent pas la rĂ©alitĂ©. Nous crĂ©ons des systĂšmes qui excellent Ă passer des tests mais Ă©chouent dans le monde rĂ©el - exactement comme le systĂšme Ă©ducatif que nous critiquons.
LâĂ©cart entre les performances mesurĂ©es et lâexpĂ©rience utilisateur suggĂšre que soit nos tests sont inadĂ©quats, soit les utilisateurs se leurrent sur les capacitĂ©s rĂ©elles de leurs modĂšles. Dans les deux cas, nous naviguons Ă lâaveugle dans le dĂ©veloppement de ces technologies.
Les coĂ»ts exponentiels dâentraĂźnement pour amĂ©liorer le contexte long indiquent que nous nous dirigeons vers un mur Ă©conomique. Seules quelques entreprises pourront se permettre de dĂ©velopper les prochaines gĂ©nĂ©rations, crĂ©ant un oligopole technologique dangereux pour lâinnovation et lâaccessibilitĂ©.
Si vous n'ĂȘtes pas redirigĂ© automatiquement, đ cliquez ici đ