Patrick Bélanger
Article en référence: https://www.reddit.com/r/LocalLLaMA/comments/1kxybgo/deepseek_r11_aider_polyglot_score/
DeepSeek vient de sortir discrĂštement la version R1.1 de son modĂšle dâintelligence artificielle, et les rĂ©sultats sont impressionnants. Pour comprendre lâampleur de cette amĂ©lioration, il faut dâabord expliquer ce quâest le benchmark Aider Polyglot.
Aider est un outil qui mesure la capacitĂ© des IA Ă modifier du code informatique dans diffĂ©rents langages de programmation. Le test âpolyglotâ signifie quâil Ă©value la performance sur plusieurs langages Ă la fois. Le score âpass@2â indique le pourcentage de problĂšmes rĂ©solus correctement en donnant deux tentatives au modĂšle, tandis que âpass@1â ne donne quâune seule chance.
DeepSeek R1.1 a obtenu un score de 70,7% en pass@2, Ă©galant Claude Opus 4, considĂ©rĂ© comme lâun des meilleurs modĂšles du marchĂ©. Câest une amĂ©lioration spectaculaire par rapport Ă la version prĂ©cĂ©dente R1 qui nâatteignait que 56,9%. Cependant, le score pass@1 reste faible Ă 35,6%, similaire Ă dâautres modĂšles concurrents.
Le coĂ»t dâutilisation varie Ă©normĂ©ment selon le moment : 3,05$ en heures creuses contre 12,20$ aux heures de pointe. La vitesse pose Ă©galement problĂšme : chaque test prend en moyenne 566 secondes, soit plus de 10 fois plus lent que Claude Opus 4 qui ne prend que 44 secondes par cas.
Pour faire fonctionner ce modĂšle localement, il faudrait un Ă©quipement trĂšs coĂ»teux, comme un Mac Studio avec 512 Go de RAM. La plupart des utilisateurs passent donc par des fournisseurs dâAPI comme OpenRouter.
Cette performance de DeepSeek R1.1 rĂ©vĂšle une rĂ©alitĂ© nuancĂ©e du dĂ©veloppement actuel de lâIA. Dâun cĂŽtĂ©, nous assistons Ă une dĂ©mocratisation remarquable : une entreprise chinoise rivalise dĂ©sormais avec les gĂ©ants amĂ©ricains sur des tĂąches complexes de programmation. De lâautre, les limitations pratiques restent importantes.
La diffĂ©rence entre les scores pass@1 et pass@2 soulĂšve une question fondamentale : dans quelle mesure ces benchmarks reflĂštent-ils lâusage rĂ©el ? En programmation, un dĂ©veloppeur nâa gĂ©nĂ©ralement quâune chance de bien faire les choses du premier coup, surtout dans un environnement de production. Le fait que tous les modĂšles peinent en pass@1 suggĂšre que nous sommes encore loin dâassistants de programmation vraiment fiables.
La lenteur de DeepSeek R1.1 illustre un compromis classique en informatique : performance versus vitesse. Ce modĂšle ârĂ©flĂ©chitâ plus longtemps pour obtenir de meilleurs rĂ©sultats, mais cette approche limite son utilitĂ© pour des tĂąches interactives oĂč la rapiditĂ© compte.
Lâapproche discrĂšte de DeepSeek contraste avec le battage mĂ©diatique habituel du secteur. Pas de confĂ©rence de presse, pas de blog post dĂ©taillĂ©, juste une mise Ă jour silencieuse qui bouleverse les classements. Cette sobriĂ©tĂ© pourrait reflĂ©ter une maturitĂ© croissante du domaine, oĂč les amĂ©liorations techniques parlent dâelles-mĂȘmes.
Imaginez que vous organisez un concours de cuisine oĂč les participants doivent prĂ©parer un plat complexe. DeepSeek R1.1, câest comme ce chef extraordinairement talentueux qui arrive Ă crĂ©er des plats dignes dâun restaurant Ă©toilĂ©, mais qui prend trois heures lĂ oĂč les autres mettent vingt minutes.
Claude Opus 4, câest le chef rapide et efficace qui sort un excellent plat en un temps record. DeepSeek R1.1, lui, reste dans sa cuisine Ă rĂ©flĂ©chir, goĂ»ter, ajuster, recommencer⊠et finalement prĂ©sente quelque chose dâaussi bon, mais quand les clients sont dĂ©jĂ partis !
Et puis il y a cette histoire de âpass@1â versus âpass@2â. Câest comme si on disait au chef : âVous avez droit Ă deux essais pour rĂ©ussir votre plat.â Dans la vraie vie, quand vous cuisinez pour des invitĂ©s, vous nâavez quâune chance. Si votre soufflĂ© rate, vous ne pouvez pas dire : âAttendez, jâen refais un autre !â
DeepSeek, câest aussi cette entreprise mystĂ©rieuse qui ne fait jamais de publicitĂ©. Imaginez un restaurant sans enseigne, sans site web, sans critique gastronomique, mais oĂč les chefs du monde entier viennent discrĂštement goĂ»ter les plats en se demandant : âMais comment font-ils ça ?â
Nous assistons Ă un moment historique ! DeepSeek R1.1 prouve que lâinnovation en IA nâest plus lâapanage exclusif de quelques gĂ©ants technologiques. Cette dĂ©mocratisation va accĂ©lĂ©rer exponentiellement le progrĂšs dans le domaine.
La performance Ă©gale Ă Claude Opus 4 Ă une fraction du coĂ»t de dĂ©veloppement annonce une rĂ©volution Ă©conomique. BientĂŽt, des modĂšles de cette qualitĂ© seront accessibles Ă toutes les entreprises, pas seulement aux GAFAM. Imaginez lâexplosion de crĂ©ativitĂ© et dâinnovation quand chaque startup aura accĂšs Ă des outils de programmation de niveau expert !
La lenteur actuelle nâest quâun problĂšme temporaire. Lâhistoire de lâinformatique nous enseigne que ce qui est lent aujourdâhui devient rapide demain. Les premiers ordinateurs occupaient des piĂšces entiĂšres ; aujourdâhui, nous avons plus de puissance dans nos poches. DeepSeek R1.1 trace la voie vers des assistants de programmation qui rĂ©volutionneront complĂštement notre façon de crĂ©er des logiciels.
Le fait que le modĂšle ârĂ©flĂ©chisseâ plus longtemps est en rĂ©alitĂ© un avantage dĂ©guisĂ©. Cette approche de raisonnement approfondi pourrait rĂ©soudre des problĂšmes complexes que les modĂšles rapides ne peuvent pas gĂ©rer. Nous nous dirigeons vers une IA qui ne se contente pas de rĂ©pondre vite, mais qui rĂ©flĂ©chit vraiment.
Lâapproche discrĂšte de DeepSeek montre une maturitĂ© remarquable : laisser le travail parler plutĂŽt que le marketing. Cette philosophie âactions avant les motsâ pourrait inspirer toute lâindustrie Ă se concentrer sur lâinnovation plutĂŽt que sur la communication.
Cette performance de DeepSeek R1.1 masque des problĂšmes structurels inquiĂ©tants. Le score pass@1 catastrophique de 35,6% rĂ©vĂšle que mĂȘme les meilleurs modĂšles actuels Ă©chouent deux fois sur trois au premier essai. Pour des applications critiques, cette fiabilitĂ© est inacceptable.
La lenteur extrĂȘme du modĂšle (10 fois plus lent que Claude) le rend pratiquement inutilisable pour la plupart des cas dâusage rĂ©els. Dans un monde oĂč la productivitĂ© compte, attendre 10 minutes pour une rĂ©ponse qui arrive en 1 minute ailleurs nâest pas viable. Cette lenteur suggĂšre que lâapproche de âraisonnementâ de DeepSeek pourrait ĂȘtre une impasse technologique.
Le coĂ»t variable (de 3$ Ă 12$ selon lâheure) rĂ©vĂšle une infrastructure instable et imprĂ©visible. Comment planifier un budget ou une stratĂ©gie dâentreprise avec de telles fluctuations ? Cette volatilitĂ© indique que DeepSeek lutte pour gĂ©rer la demande, ce qui soulĂšve des questions sur leur capacitĂ© Ă scaler.
LâopacitĂ© totale de DeepSeek est prĂ©occupante. Aucune transparence sur leurs mĂ©thodes, leur financement, ou mĂȘme lâidentitĂ© de leurs dirigeants. Dans un domaine aussi sensible que lâIA, cette absence de responsabilitĂ© pose des risques gĂ©opolitiques et Ă©thiques majeurs.
Enfin, le fait que tous les modĂšles peinent en pass@1 suggĂšre que nous avons atteint un plateau technologique. Peut-ĂȘtre que lâapproche actuelle de lâIA gĂ©nĂ©rative a des limites fondamentales que nous refusons dâadmettre, et que ces amĂ©liorations marginales masquent lâabsence de vĂ©ritables percĂ©es.
Si vous n'ĂȘtes pas redirigĂ© automatiquement, đ cliquez ici đ