Patrick Bélanger
Article en référence: https://www.reddit.com/r/LocalLLaMA/comments/1idseqb/deepseek_r1_671b_over_2_toksec_without_gpu_on/
Une dĂ©couverte fascinante vient dâĂȘtre partagĂ©e dans la communautĂ© LocalLLaMA : il est possible dâexĂ©cuter le modĂšle DeepSeek R1 671B sans carte graphique (GPU) sur un ordinateur de jeu standard. Lâastuce consiste Ă utiliser uniquement la mĂ©moire vive (RAM) pour le cache KV et laisser le logiciel llama.cpp utiliser les disques SSD NVMe pour charger le modĂšle Ă la demande.
Cette approche permet dâatteindre une vitesse de 2,13 tokens par seconde avec un contexte de 2000 tokens, en utilisant une version quantifiĂ©e dynamique du modĂšle. Pour les non-initiĂ©s, la quantification est une technique qui rĂ©duit la prĂ©cision des nombres pour Ă©conomiser de la mĂ©moire, tandis que les tokens sont les unitĂ©s de base que le modĂšle utilise pour traiter le texte (un mot peut reprĂ©senter plusieurs tokens).
Le systÚme utilisé comprend :
Lâinnovation principale rĂ©side dans lâutilisation du âmemory mappingâ (mmap) qui permet au systĂšme dâexploitation de gĂ©rer intelligemment quelles parties du modĂšle doivent ĂȘtre chargĂ©es en mĂ©moire Ă un moment donnĂ©.
Cette dĂ©couverte reprĂ©sente un compromis intĂ©ressant entre accessibilitĂ© et performance. Bien que 2 tokens par seconde puisse sembler lent comparĂ© aux solutions commerciales, cela reste utilisable pour certains cas dâusage non-temps rĂ©el comme lâanalyse de documents ou la gĂ©nĂ©ration de contenu en arriĂšre-plan.
Lâapproche dĂ©montre Ă©galement une tendance croissante vers la dĂ©mocratisation des grands modĂšles de langage. PlutĂŽt que dâinvestir dans des GPU coĂ»teux, les utilisateurs peuvent maintenant explorer des alternatives basĂ©es sur des composants plus standards et moins chers.
Cependant, il faut rester rĂ©aliste : cette solution nâest pas adaptĂ©e aux applications nĂ©cessitant des rĂ©ponses rapides ou au traitement de grandes quantitĂ©s de donnĂ©es. Câest un outil de plus dans la boĂźte Ă outils, pas une solution miracle.
Imaginez que vous ayez une Ă©norme bibliothĂšque (le modĂšle) et que vous deviez consulter des livres pour rĂ©pondre Ă des questions. Au lieu dâavoir un assistant super rapide qui connaĂźt tous les livres par cĆur (GPU), vous avez :
Câest comme si au lieu dâembaucher un bibliothĂ©caire surdouĂ© mais trĂšs coĂ»teux, vous aviez mis en place un systĂšme plus modeste mais efficace pour accĂ©der Ă la mĂȘme connaissance, juste un peu plus lentement.
Câest une rĂ©volution dans lâaccessibilitĂ© des grands modĂšles de langage ! Cette dĂ©couverte prouve que nous nâavons pas besoin de matĂ©riel spĂ©cialisĂ© coĂ»teux pour expĂ©rimenter avec lâIA de pointe. Imaginez les possibilitĂ©s quand cette approche sera optimisĂ©e davantage !
Avec lâĂ©volution rapide des SSD NVMe et lâarrivĂ©e de nouvelles technologies de stockage, nous pourrions bientĂŽt voir des performances rivalisant avec les solutions GPU traditionnelles. Cette dĂ©mocratisation de lâIA pourrait mener Ă une explosion dâinnovations venant de chercheurs et dĂ©veloppeurs indĂ©pendants qui nâavaient pas accĂšs Ă ces outils auparavant.
De plus, cette approche ouvre la voie Ă des solutions plus Ă©cologiques et Ă©conomiques pour dĂ©ployer lâIA Ă grande Ă©chelle. Câest le dĂ©but dâune nouvelle Ăšre dâIA accessible Ă tous !
Cette âsolutionâ nâest quâun pansement sur une jambe de bois. 2 tokens par seconde ? Câest pratiquement inutilisable dans un contexte professionnel. Sans parler de lâusure accĂ©lĂ©rĂ©e des SSD qui ne sont pas conçus pour ce type dâutilisation intensive.
Les performances sont tellement limitĂ©es quâon peut se demander si ça vaut vraiment la peine dâinvestir dans le matĂ©riel nĂ©cessaire. MĂȘme avec 96 Go de RAM et un SSD haut de gamme, on obtient des performances qui auraient fait rire il y a 10 ans.
De plus, cette approche pourrait donner de faux espoirs Ă ceux qui pensent pouvoir faire tourner des modĂšles dâIA avancĂ©s sur du matĂ©riel grand public. La rĂ©alitĂ© est que lâIA de pointe restera lâapanage des grandes entreprises avec leurs centres de donnĂ©es spĂ©cialisĂ©s.
Si vous n'ĂȘtes pas redirigĂ© automatiquement, đ cliquez ici đ