đŸ”„ DeepSeek R1.1 fait sensation: Ă©gale Claude Opus avec 70,7% au benchmark Aider Polyglot! Mais la rĂ©alitĂ© est nuancĂ©e: 10x plus lent et seulement 35,6% de rĂ©ussite au premier essai. L IA progresse mais reste imparfaite pour l usage rĂ©el. #IA #DeepSeek

Article en référence: https://www.reddit.com/r/LocalLLaMA/comments/1kxybgo/deepseek_r11_aider_polyglot_score/

Récapitulatif factuel

DeepSeek vient de sortir discrĂštement la version R1.1 de son modĂšle d’intelligence artificielle, et les rĂ©sultats sont impressionnants. Pour comprendre l’ampleur de cette amĂ©lioration, il faut d’abord expliquer ce qu’est le benchmark Aider Polyglot.

Aider est un outil qui mesure la capacitĂ© des IA Ă  modifier du code informatique dans diffĂ©rents langages de programmation. Le test “polyglot” signifie qu’il Ă©value la performance sur plusieurs langages Ă  la fois. Le score “pass@2” indique le pourcentage de problĂšmes rĂ©solus correctement en donnant deux tentatives au modĂšle, tandis que “pass@1” ne donne qu’une seule chance.

DeepSeek R1.1 a obtenu un score de 70,7% en pass@2, Ă©galant Claude Opus 4, considĂ©rĂ© comme l’un des meilleurs modĂšles du marchĂ©. C’est une amĂ©lioration spectaculaire par rapport Ă  la version prĂ©cĂ©dente R1 qui n’atteignait que 56,9%. Cependant, le score pass@1 reste faible Ă  35,6%, similaire Ă  d’autres modĂšles concurrents.

Le coĂ»t d’utilisation varie Ă©normĂ©ment selon le moment : 3,05$ en heures creuses contre 12,20$ aux heures de pointe. La vitesse pose Ă©galement problĂšme : chaque test prend en moyenne 566 secondes, soit plus de 10 fois plus lent que Claude Opus 4 qui ne prend que 44 secondes par cas.

Pour faire fonctionner ce modĂšle localement, il faudrait un Ă©quipement trĂšs coĂ»teux, comme un Mac Studio avec 512 Go de RAM. La plupart des utilisateurs passent donc par des fournisseurs d’API comme OpenRouter.

Point de vue neutre

Cette performance de DeepSeek R1.1 rĂ©vĂšle une rĂ©alitĂ© nuancĂ©e du dĂ©veloppement actuel de l’IA. D’un cĂŽtĂ©, nous assistons Ă  une dĂ©mocratisation remarquable : une entreprise chinoise rivalise dĂ©sormais avec les gĂ©ants amĂ©ricains sur des tĂąches complexes de programmation. De l’autre, les limitations pratiques restent importantes.

La diffĂ©rence entre les scores pass@1 et pass@2 soulĂšve une question fondamentale : dans quelle mesure ces benchmarks reflĂštent-ils l’usage rĂ©el ? En programmation, un dĂ©veloppeur n’a gĂ©nĂ©ralement qu’une chance de bien faire les choses du premier coup, surtout dans un environnement de production. Le fait que tous les modĂšles peinent en pass@1 suggĂšre que nous sommes encore loin d’assistants de programmation vraiment fiables.

La lenteur de DeepSeek R1.1 illustre un compromis classique en informatique : performance versus vitesse. Ce modĂšle “rĂ©flĂ©chit” plus longtemps pour obtenir de meilleurs rĂ©sultats, mais cette approche limite son utilitĂ© pour des tĂąches interactives oĂč la rapiditĂ© compte.

L’approche discrĂšte de DeepSeek contraste avec le battage mĂ©diatique habituel du secteur. Pas de confĂ©rence de presse, pas de blog post dĂ©taillĂ©, juste une mise Ă  jour silencieuse qui bouleverse les classements. Cette sobriĂ©tĂ© pourrait reflĂ©ter une maturitĂ© croissante du domaine, oĂč les amĂ©liorations techniques parlent d’elles-mĂȘmes.

Exemple

Imaginez que vous organisez un concours de cuisine oĂč les participants doivent prĂ©parer un plat complexe. DeepSeek R1.1, c’est comme ce chef extraordinairement talentueux qui arrive Ă  crĂ©er des plats dignes d’un restaurant Ă©toilĂ©, mais qui prend trois heures lĂ  oĂč les autres mettent vingt minutes.

Claude Opus 4, c’est le chef rapide et efficace qui sort un excellent plat en un temps record. DeepSeek R1.1, lui, reste dans sa cuisine Ă  rĂ©flĂ©chir, goĂ»ter, ajuster, recommencer
 et finalement prĂ©sente quelque chose d’aussi bon, mais quand les clients sont dĂ©jĂ  partis !

Et puis il y a cette histoire de “pass@1” versus “pass@2”. C’est comme si on disait au chef : “Vous avez droit Ă  deux essais pour rĂ©ussir votre plat.” Dans la vraie vie, quand vous cuisinez pour des invitĂ©s, vous n’avez qu’une chance. Si votre soufflĂ© rate, vous ne pouvez pas dire : “Attendez, j’en refais un autre !”

DeepSeek, c’est aussi cette entreprise mystĂ©rieuse qui ne fait jamais de publicitĂ©. Imaginez un restaurant sans enseigne, sans site web, sans critique gastronomique, mais oĂč les chefs du monde entier viennent discrĂštement goĂ»ter les plats en se demandant : “Mais comment font-ils ça ?”

Point de vue optimiste

Nous assistons Ă  un moment historique ! DeepSeek R1.1 prouve que l’innovation en IA n’est plus l’apanage exclusif de quelques gĂ©ants technologiques. Cette dĂ©mocratisation va accĂ©lĂ©rer exponentiellement le progrĂšs dans le domaine.

La performance Ă©gale Ă  Claude Opus 4 Ă  une fraction du coĂ»t de dĂ©veloppement annonce une rĂ©volution Ă©conomique. BientĂŽt, des modĂšles de cette qualitĂ© seront accessibles Ă  toutes les entreprises, pas seulement aux GAFAM. Imaginez l’explosion de crĂ©ativitĂ© et d’innovation quand chaque startup aura accĂšs Ă  des outils de programmation de niveau expert !

La lenteur actuelle n’est qu’un problĂšme temporaire. L’histoire de l’informatique nous enseigne que ce qui est lent aujourd’hui devient rapide demain. Les premiers ordinateurs occupaient des piĂšces entiĂšres ; aujourd’hui, nous avons plus de puissance dans nos poches. DeepSeek R1.1 trace la voie vers des assistants de programmation qui rĂ©volutionneront complĂštement notre façon de crĂ©er des logiciels.

Le fait que le modĂšle “rĂ©flĂ©chisse” plus longtemps est en rĂ©alitĂ© un avantage dĂ©guisĂ©. Cette approche de raisonnement approfondi pourrait rĂ©soudre des problĂšmes complexes que les modĂšles rapides ne peuvent pas gĂ©rer. Nous nous dirigeons vers une IA qui ne se contente pas de rĂ©pondre vite, mais qui rĂ©flĂ©chit vraiment.

L’approche discrĂšte de DeepSeek montre une maturitĂ© remarquable : laisser le travail parler plutĂŽt que le marketing. Cette philosophie “actions avant les mots” pourrait inspirer toute l’industrie Ă  se concentrer sur l’innovation plutĂŽt que sur la communication.

Point de vue pessimiste

Cette performance de DeepSeek R1.1 masque des problĂšmes structurels inquiĂ©tants. Le score pass@1 catastrophique de 35,6% rĂ©vĂšle que mĂȘme les meilleurs modĂšles actuels Ă©chouent deux fois sur trois au premier essai. Pour des applications critiques, cette fiabilitĂ© est inacceptable.

La lenteur extrĂȘme du modĂšle (10 fois plus lent que Claude) le rend pratiquement inutilisable pour la plupart des cas d’usage rĂ©els. Dans un monde oĂč la productivitĂ© compte, attendre 10 minutes pour une rĂ©ponse qui arrive en 1 minute ailleurs n’est pas viable. Cette lenteur suggĂšre que l’approche de “raisonnement” de DeepSeek pourrait ĂȘtre une impasse technologique.

Le coĂ»t variable (de 3$ Ă  12$ selon l’heure) rĂ©vĂšle une infrastructure instable et imprĂ©visible. Comment planifier un budget ou une stratĂ©gie d’entreprise avec de telles fluctuations ? Cette volatilitĂ© indique que DeepSeek lutte pour gĂ©rer la demande, ce qui soulĂšve des questions sur leur capacitĂ© Ă  scaler.

L’opacitĂ© totale de DeepSeek est prĂ©occupante. Aucune transparence sur leurs mĂ©thodes, leur financement, ou mĂȘme l’identitĂ© de leurs dirigeants. Dans un domaine aussi sensible que l’IA, cette absence de responsabilitĂ© pose des risques gĂ©opolitiques et Ă©thiques majeurs.

Enfin, le fait que tous les modĂšles peinent en pass@1 suggĂšre que nous avons atteint un plateau technologique. Peut-ĂȘtre que l’approche actuelle de l’IA gĂ©nĂ©rative a des limites fondamentales que nous refusons d’admettre, et que ces amĂ©liorations marginales masquent l’absence de vĂ©ritables percĂ©es.

Redirection en cours...

Si vous n'ĂȘtes pas redirigĂ© automatiquement, 👉 cliquez ici 👈