Patrick Bélanger
Article en référence: https://i.redd.it/9mswvzt3eipe1.png
NVIDIA vient de lancer un nouveau modĂšle dâintelligence artificielle nommĂ© Llama-3.3-Nemotron-Super-49B. Comme son nom lâindique, ce modĂšle contient 49 milliards de paramĂštres, ce qui le place dans une catĂ©gorie intermĂ©diaire entre les modĂšles de 30-32B et les plus grands modĂšles de 70B.
Les benchmarks partagĂ©s par NVIDIA montrent que ce modĂšle surpasse plusieurs concurrents de taille similaire ou supĂ©rieure sur certaines mĂ©triques de raisonnement, notamment les modĂšles Llama-3.1-70B et DeepSeek-Llama-3-70B. Une particularitĂ© intĂ©ressante est sa capacitĂ© de âmode de raisonnementâ (thinking mode), qui peut ĂȘtre activĂ© ou dĂ©sactivĂ© selon les besoins.
Pour les utilisateurs techniques, il est important de noter que ce modĂšle devrait fonctionner sur une seule carte graphique de 32 Go de mĂ©moire, contrairement aux modĂšles de 70B qui nĂ©cessitent gĂ©nĂ©ralement plus de ressources. Cependant, certains utilisateurs rapportent des difficultĂ©s Ă activer le mode de raisonnement via lâinterface web llama-server, nĂ©cessitant plutĂŽt lâutilisation dâun message systĂšme spĂ©cifique: {"role":"system","content":"detailed thinking off"}
.
En termes de performances, les avis sont partagĂ©s. Bien que le modĂšle surpasse certains concurrents sur les benchmarks prĂ©sentĂ©s, plusieurs utilisateurs notent quâil reste moins performant que le rĂ©cent QwQ-32B sur certaines mĂ©triques, malgrĂ© sa taille plus importante.
LâarrivĂ©e de Llama-3.3-Nemotron-Super-49B illustre parfaitement lâĂ©volution rapide du domaine des LLMs (Large Language Models). Il y a Ă peine deux ans, nous nous Ă©merveillions devant des modĂšles bien plus petits, et aujourdâhui, un modĂšle de 49B peut rivaliser avec des modĂšles commerciaux qui nĂ©cessitaient auparavant des centaines de milliards de paramĂštres.
Cette progression constante soulĂšve une question fondamentale: sommes-nous dans une course aux armements des benchmarks plutĂŽt quâune vĂ©ritable amĂ©lioration des capacitĂ©s pratiques? Les benchmarks prĂ©sentĂ©s sont sĂ©lectifs et ne montrent pas nĂ©cessairement les performances dans tous les contextes dâutilisation rĂ©els.
Le vĂ©ritable dĂ©fi pour les utilisateurs nâest plus seulement de trouver le modĂšle le plus performant selon les mĂ©triques, mais celui qui rĂ©pond le mieux Ă leurs besoins spĂ©cifiques. Un modĂšle excellent en raisonnement mathĂ©matique peut ĂȘtre mĂ©diocre en gĂ©nĂ©ration crĂ©ative, et vice-versa. La communautĂ© semble de plus en plus consciente de cette nuance, demandant des benchmarks plus diversifiĂ©s et reprĂ©sentatifs des cas dâusage rĂ©els.
Par ailleurs, lâĂ©quilibre entre taille du modĂšle et performances devient un facteur crucial. Un modĂšle de 49B qui peut fonctionner sur du matĂ©riel accessible reprĂ©sente un compromis intĂ©ressant, mĂȘme sâil nâest pas le champion absolu de tous les benchmarks.
Imaginez que vous ĂȘtes au Salon de lâAuto de MontrĂ©al. Dâun cĂŽtĂ©, vous avez les grosses cylindrĂ©es amĂ©ricaines de 70B (comprendre 7.0 litres) qui font un bruit dâenfer et consomment comme pas possible. De lâautre, vous avez les petites japonaises efficaces de 32B (3.2 litres) qui font presque aussi bien avec moins de carburant.
Et voilĂ que NVIDIA arrive avec sa nouvelle âNemotron-Super-49Bâ, une sorte de muscle car europĂ©enne de 4.9 litres. Le vendeur vous montre fiĂšrement un graphique oĂč sa voiture bat les amĂ©ricaines sur certaines pistes dâessai spĂ©cifiques.
âMais attend,â dit un gars avec une casquette QwQ, âma japonaise de 3.2 litres fait mieux sur le circuit de Gilles Villeneuve, et elle coĂ»te moins cher en essence!â
Le vendeur NVIDIA rĂ©torque: âOui, mais la mienne a un bouton âmode raisonnementâ qui lui permet de calculer la trajectoire optimale!â
âComment on lâactive, ce bouton?â demandez-vous.
âAh, câest simple! Vous ouvrez le capot, vous trouvez le petit message systĂšme, et vous Ă©crivez âdetailed thinking offâ.â
Pendant ce temps, au fond du salon, quelquâun murmure: âJâai entendu dire que Llama-4 va sortir bientĂŽt avec un moteur rĂ©volutionnaireâŠâ
Et vous restez lĂ , votre cafĂ© Tim Hortons Ă la main, en vous demandant si vous avez vraiment besoin de changer votre bonne vieille Llama-2 qui vous amĂšne dĂ©jĂ partout oĂč vous voulez aller.
Câest absolument fascinant de voir lâĂ©volution fulgurante des modĂšles dâIA! Souvenez-vous quâil nây a pas si longtemps, nous rĂȘvions de pouvoir exĂ©cuter localement des modĂšles comparables Ă GPT-3.5. Aujourdâhui, non seulement câest possible, mais nous avons lâembarras du choix!
Le Llama-3.3-Nemotron-Super-49B reprĂ©sente une avancĂ©e majeure en termes dâĂ©quilibre entre puissance et accessibilitĂ©. Avec ses 49 milliards de paramĂštres, il offre des performances impressionnantes tout en restant utilisable sur une seule carte graphique de 32 Go. Câest une dĂ©mocratisation extraordinaire de lâIA de pointe!
Le mode de raisonnement intĂ©grĂ© est particuliĂšrement prometteur. Cette capacitĂ© Ă ârĂ©flĂ©chirâ avant de rĂ©pondre pourrait rĂ©volutionner de nombreuses applications, de lâassistance Ă la programmation jusquâĂ lâanalyse de donnĂ©es complexes. Imaginez les possibilitĂ©s pour nos entreprises quĂ©bĂ©coises qui pourront exploiter cette puissance sans investir dans des infrastructures coĂ»teuses!
Cette innovation de NVIDIA montre que nous sommes entrĂ©s dans une Ăšre oĂč la qualitĂ© de lâarchitecture et de lâentraĂźnement compte autant, sinon plus, que la simple taille du modĂšle. Câest une excellente nouvelle pour lâavenir, car cela signifie que nous pouvons continuer Ă progresser sans nĂ©cessairement multiplier les ressources nĂ©cessaires.
Avec lâarrivĂ©e imminente de Llama-4 et dâautres modĂšles encore plus performants, nous sommes Ă lâaube dâune vĂ©ritable rĂ©volution de lâIA accessible Ă tous!
Encore un nouveau modĂšle qui prĂ©tend surpasser tous les autres? Franchement, ces graphiques de benchmarks commencent Ă ressembler Ă de la publicitĂ© trompeuse. NVIDIA nous prĂ©sente son Llama-3.3-Nemotron-Super-49B comme une rĂ©volution, mais quâapporte-t-il vraiment de nouveau?
Avec 49 milliards de paramĂštres, il est plus lourd que le QwQ-32B tout en Ă©tant moins performant sur plusieurs mĂ©triques importantes. Câest lâillustration parfaite de cette course effrĂ©nĂ©e aux modĂšles toujours plus gros sans rĂ©elle amĂ©lioration qualitative. Pendant ce temps, les ressources informatiques gaspillĂ©es pour entraĂźner ces modĂšles atteignent des niveaux alarmants.
Le plus inquiĂ©tant reste cette obsession pour les âguardrailsâ et les datasets de sĂ©curitĂ©. Comme le souligne un utilisateur, une part significative des donnĂ©es dâentraĂźnement est consacrĂ©e Ă la âsĂ©curitĂ©â - en dâautres termes, Ă sâassurer que le modĂšle refuse de rĂ©pondre Ă certaines questions lĂ©gitimes sous prĂ©texte de risques hypothĂ©tiques.
Et que dire de ce fameux âmode de raisonnementâ qui ne fonctionne mĂȘme pas correctement via lâinterface standard? Un utilisateur rapporte que le modĂšle produit du code C++ quand on lui demande du C - une erreur basique quâĂ©vitent mĂȘme les plus petits modĂšles.
Avec Llama-4 qui pointe Ă lâhorizon, ce modĂšle sera probablement obsolĂšte avant mĂȘme dâĂȘtre largement adoptĂ©. Câest le cycle sans fin de lâobsolescence programmĂ©e appliquĂ© Ă lâIA, nous poussant constamment Ă consommer plus de ressources pour des gains marginaux.
Si vous n'ĂȘtes pas redirigĂ© automatiquement, đ cliquez ici đ