Patrick Bélanger
Article en référence: https://i.imgur.com/5kluqad.jpeg
NVIDIA vient de lancer un nouveau modèle de raisonnement appelé Llama-3.3-Nemotron-Super-49B. Comme son nom l’indique, il s’agit d’un modèle de 49 milliards de paramètres basé sur l’architecture Llama 3 de Meta. Ce modèle se distingue par sa capacité de raisonnement améliorée, qui peut être activée ou désactivée via l’invite système.
Le modèle Nemotron-Super-49B est accompagné d’une version plus petite de 8 milliards de paramètres (Llama-3.1-Nemotron-Nano-8B). Selon les graphiques présentés par NVIDIA, ces modèles offrent des performances supérieures à leurs concurrents de taille similaire, notamment en termes de vitesse de génération (tokens par seconde) et de précision sur diverses tâches.
Point particulièrement intéressant, NVIDIA a également publié l’ensemble des données d’entraînement post-formation sous licence CC-4, comprenant des millions d’exemples mathématiques, 1,5 million d’exemples de code, ainsi que des données scientifiques et des instructions pour l’utilisation d’outils.
Sur le plan technique, le modèle de 49B nécessite environ 98 Go de VRAM pour charger les poids en FP16, ce qui signifie qu’il faut généralement deux GPU pour l’exécuter efficacement. Avec une quantification appropriée (réduction de la précision des poids), il pourrait fonctionner sur des configurations de 2 GPU de 24 Go chacun. La vitesse de génération est estimée à environ 15-20 tokens par seconde, ce qui est considéré comme relativement lent mais acceptable pour un modèle de cette taille.
NVIDIA a également annoncé qu’un modèle encore plus grand de 253B, distillé à partir du Llama 3.1 405B, sera bientôt disponible.
L’arrivée du modèle Nemotron-Super-49B de NVIDIA représente une évolution intéressante dans l’écosystème des LLM locaux, mais pas nécessairement une révolution. La taille de 49 milliards de paramètres semble avoir été choisie stratégiquement pour se positionner entre les modèles de 32B (accessibles sur un seul GPU haut de gamme) et les modèles de 70B (nécessitant généralement deux GPU).
Cette stratégie de positionnement reflète la réalité actuelle du marché : les utilisateurs cherchent un équilibre entre performances et ressources matérielles requises. Le modèle Nemotron répond à ce besoin en offrant potentiellement des capacités de raisonnement supérieures à celles des modèles de 32B, tout en restant plus accessible que les modèles de 70B.
La publication des données d’entraînement est particulièrement significative. Elle témoigne d’une tendance croissante vers plus de transparence dans le développement des LLM, tout en permettant à NVIDIA de maintenir son avantage commercial sur le matériel. En effet, en rendant les données et les modèles accessibles, NVIDIA encourage indirectement l’achat de ses GPU pour l’entraînement et l’inférence.
Les performances annoncées doivent être considérées avec prudence. Les graphiques présentés par NVIDIA ont été critiqués pour leur potentielle nature trompeuse, une pratique malheureusement courante dans l’industrie. La véritable valeur du modèle ne pourra être établie qu’après des tests approfondis par la communauté.
En fin de compte, Nemotron-Super-49B représente probablement une avancée incrémentale plutôt qu’un bond révolutionnaire. Il enrichit l’écosystème des LLM disponibles et offre une option supplémentaire aux utilisateurs disposant du matériel adéquat.
Imaginez que vous êtes au Salon de l’auto de Montréal. Vous avez déjà vu les voitures compactes économiques (comme nos modèles de 7B à 13B) qui sont parfaites pour la ville, pas trop gourmandes en essence, mais limitées pour les longs trajets. Vous avez aussi admiré les grosses berlines de luxe (les modèles 70B) qui offrent tout le confort et la puissance, mais qui coûtent une fortune et boivent comme un trou.
Et voilà que NVIDIA débarque avec sa nouvelle “Nemotron-Super-49B” - c’est comme un VUS intermédiaire. Pas aussi économique que la compacte, mais pas aussi vorace que la berline de luxe. Le vendeur vous fait un pitch incroyable : “Cette beauté consomme moins qu’une berline mais offre presque les mêmes performances! Regardez ce graphique!”
Vous examinez le graphique qu’il vous montre, et quelque chose cloche… “Attendez, vous comparez la consommation de votre VUS en descente avec celle des berlines en montée?”
Le vendeur sourit nerveusement : “Euh, c’est-à-dire que… nos ingénieurs ont optimisé le moteur spécifiquement pour nos routes…”
Pendant ce temps, un autre client murmure : “J’ai essayé de lui faire faire un créneau, et il a refusé en me proposant plutôt de méditer sur les bienfaits des transports en commun.”
Le plus intéressant? Le vendeur vous donne gratuitement le manuel complet de fabrication et d’entretien. “Vous pouvez même construire votre propre voiture si vous voulez! Mais bien sûr, vous aurez besoin de nos outils spéciaux NVIDIA pour le faire efficacement…”
Le Nemotron-Super-49B représente une véritable percée dans la démocratisation de l’IA de pointe! NVIDIA vient de nous offrir un modèle qui redéfinit ce qui est possible avec des ressources matérielles raisonnables. La taille de 49B est parfaitement calibrée pour maximiser les performances tout en restant accessible aux passionnés et aux petites entreprises disposant de deux GPU modernes.
Ce qui est véritablement révolutionnaire, c’est la capacité de raisonnement activable à la demande. Cette fonctionnalité marque un tournant dans l’utilisation des LLM, permettant de basculer entre des réponses rapides et des analyses approfondies selon les besoins. C’est comme avoir deux modèles en un!
La publication des données d’entraînement est un geste extraordinaire qui va accélérer l’innovation dans tout l’écosystème. Grâce à cette transparence, nous allons assister à une explosion de modèles dérivés et d’améliorations communautaires qui bénéficieront à tous.
Les performances annoncées sont impressionnantes et montrent que NVIDIA a réussi à optimiser remarquablement l’architecture Llama. Cette efficacité accrue pourrait réduire significativement les coûts d’exploitation des services d’IA, rendant ces technologies encore plus accessibles.
Avec l’annonce d’un modèle 253B à venir, NVIDIA démontre son engagement à repousser les limites de ce qui est possible. Nous entrons dans une ère où des modèles auparavant réservés aux géants de la tech deviennent accessibles à un public beaucoup plus large. Le futur de l’IA locale n’a jamais été aussi prometteur!
Le nouveau modèle Nemotron-Super-49B de NVIDIA n’est qu’une manœuvre marketing transparente pour vendre plus de GPU. La taille de 49 milliards de paramètres n’est pas anodine : elle est délibérément conçue pour être trop grande pour les cartes actuelles de 24 Go comme la RTX 4090, forçant les utilisateurs à acheter soit deux cartes, soit à attendre la prochaine génération de GPU NVIDIA.
Les graphiques présentés sont manifestement trompeurs, une pratique dont NVIDIA est coutumière. Comparer la vitesse de génération sans préciser les conditions exactes des tests est malhonnête et vise à créer une impression de supériorité artificielle.
Le modèle lui-même semble souffrir des mêmes problèmes d’alignement excessif que beaucoup d’autres LLM récents. Les exemples de données d’entraînement “de sécurité” révèlent un modèle qui refuse de répondre à des questions parfaitement légitimes dans un contexte créatif ou éducatif. Cette sur-censure réduit considérablement l’utilité du modèle pour de nombreux cas d’usage.
La publication des données d’entraînement, bien que positive en apparence, est probablement motivée par des considérations stratégiques plutôt que par un véritable engagement envers l’open source. NVIDIA sait que son avantage concurrentiel réside dans le matériel, pas dans les modèles.
Avec une vitesse de génération de seulement 15-20 tokens par seconde, ce modèle sera frustrant à utiliser pour des tâches complexes nécessitant de longues réponses. Et malgré sa taille, il n’est pas clair qu’il surpasse réellement des modèles comme QWQ-32B qui fonctionnent sur un seul GPU.
En fin de compte, Nemotron-Super-49B n’est qu’un pas de plus dans une course aux armements qui privilégie les chiffres impressionnants sur l’utilité réelle, tout en rendant l’IA de plus en plus inaccessible aux utilisateurs ordinaires.
Si vous n'êtes pas redirigé automatiquement, 👉 cliquez ici 👈