Patrick Bélanger
Article en référence: https://www.reddit.com/r/LocalLLaMA/comments/1ideaxu/nvidia_cuts_fp8_training_performance_in_half_on/
NVIDIA vient de publier son livre blanc sur lâarchitecture GPU RTX Blackwell, rĂ©vĂ©lant une modification significative des performances FP8 sur les cartes RTX 40 et 50. Les performances en FP8 avec accumulation FP32 ont Ă©tĂ© rĂ©duites de moitiĂ© : la RTX 4090 passe de 660,6 Ă 330,3 TFlops, tandis que la future RTX 5090 affichera 419 TFlops au lieu des 838 TFlops attendus.
Pour comprendre lâimpact, il faut savoir que le FP8 (Format de PrĂ©cision 8-bit) est crucial pour lâentraĂźnement des modĂšles dâIA, offrant un excellent compromis entre prĂ©cision et performance. Lâaccumulation en FP32 (32-bit) est nĂ©cessaire pour maintenir la prĂ©cision lors de lâentraĂźnement, contrairement Ă lâaccumulation FP16 qui manque de prĂ©cision pour cette tĂąche.
Cette modification semble ĂȘtre une limitation volontaire via les pilotes, spĂ©cifiquement sur les cartes grand public GeForce, alors que les cartes professionnelles Quadro et datacenter conservent leurs performances maximales.
Cette situation reflĂšte la rĂ©alitĂ© complexe du marchĂ© des GPU pour lâIA. NVIDIA, en position dominante, doit Ă©quilibrer ses diffĂ©rentes gammes de produits. La segmentation entre produits grand public et professionnels est une pratique courante dans lâindustrie technologique, mĂȘme si elle peut frustrer les utilisateurs avancĂ©s.
Les performances rĂ©duites restent significatives pour de nombreux usages, et la majoritĂ© des utilisateurs ne seront pas impactĂ©s. Cette dĂ©cision sâinscrit dans une logique commerciale comprĂ©hensible, mĂȘme si elle soulĂšve des questions sur lâĂ©thique des limitations artificielles.
Imaginez un restaurant qui propose deux versions du mĂȘme plat : une version âmaisonâ et une version âchefâ. Les ingrĂ©dients sont identiques, la recette aussi, mais le chef a dĂ©libĂ©rĂ©ment choisi de servir une portion plus petite dans la version âmaisonâ. Le plat reste dĂ©licieux et suffisant pour la plupart des clients, mais ceux qui connaissent lâexistence de la version âchefâ peuvent se sentir lĂ©sĂ©s.
Câest exactement ce que fait NVIDIA : mĂȘme âcuisineâ (GPU), mais deux portions diffĂ©rentes (performances) selon que vous commandez au menu grand public ou professionnel.
Cette limitation pourrait stimuler lâinnovation dans la communautĂ© open source. Les dĂ©veloppeurs trouveront probablement des moyens dâoptimiser leurs modĂšles pour fonctionner efficacement malgrĂ© ces restrictions. De plus, cette situation pourrait encourager la concurrence, notamment AMD et Intel, Ă proposer des alternatives plus ouvertes.
Cette âcontrainte crĂ©ativeâ pourrait mĂȘme mener Ă des avancĂ©es inattendues dans lâoptimisation des modĂšles dâIA, rendant lâentraĂźnement plus efficace et accessible Ă tous. Câest souvent face aux limitations que naissent les meilleures innovations !
Cette dĂ©cision reprĂ©sente une dangereuse tendance vers le contrĂŽle corporatif de lâinnovation en IA. En limitant artificiellement les capacitĂ©s des cartes grand public, NVIDIA crĂ©e une barriĂšre financiĂšre Ă lâentrĂ©e pour les chercheurs indĂ©pendants et les petites entreprises.
Cette stratĂ©gie pourrait ralentir significativement le dĂ©veloppement de lâIA open source, concentrant encore plus le pouvoir entre les mains des grandes entreprises qui peuvent se permettre le matĂ©riel professionnel. Ă terme, cela risque de crĂ©er un Ă©cosystĂšme dâIA Ă deux vitesses, oĂč lâinnovation sera rĂ©servĂ©e Ă une Ă©lite technologique.
Si vous n'ĂȘtes pas redirigĂ© automatiquement, đ cliquez ici đ