Wow! DeepSeek R1 (671B) tourne sur Mac M3 Ultra 512GB Ă  18,43 tokens/sec. GĂ©nĂšre du code p5js sans entraĂźnement spĂ©cifique! Tests plus poussĂ©s: 13K tokens = 59,56 t/s en traitement, 6,38 t/s en gĂ©nĂ©ration. L IA locale Ă©volue, mais Ă  12K€, est-ce vraiment pour tous? #LocalAI

Article en référence: https://www.reddit.com/r/LocalLLaMA/comments/1j9vjf1/deepseek_r1_671b_q4_m3_ultra_512gb_with_mlx/

Récapitulatif factuel

Un utilisateur de Reddit a partagĂ© ses tests impressionnants du modĂšle DeepSeek R1 671B Q4 fonctionnant sur un Mac Studio Ă©quipĂ© d’un processeur M3 Ultra avec 512 Go de mĂ©moire unifiĂ©e, utilisant le framework MLX d’Apple. Ce modĂšle d’intelligence artificielle est l’un des plus grands disponibles pour une utilisation locale, avec 671 milliards de paramĂštres (d’oĂč le “671B” dans son nom) et quantifiĂ© en 4 bits (Q4) pour rĂ©duire son empreinte mĂ©moire.

Les rĂ©sultats initiaux montrent une vitesse de gĂ©nĂ©ration de 18,43 tokens par seconde pour des prompts courts. Le modĂšle a rĂ©ussi Ă  gĂ©nĂ©rer du code p5.js (une bibliothĂšque JavaScript pour crĂ©er des animations graphiques) sans avoir Ă©tĂ© spĂ©cifiquement entraĂźnĂ© pour cette tĂąche, ce qu’on appelle une capacitĂ© “zero-shot”.

Des tests plus approfondis avec un contexte plus large (13 140 tokens) ont révélé:

Pour mettre ces chiffres en perspective, il faut comprendre que le traitement d’un grand modĂšle de langage (LLM) se dĂ©roule en deux phases:

  1. Traitement du prompt (PP): phase oĂč le modĂšle analyse l’entrĂ©e fournie
  2. GĂ©nĂ©ration de tokens: phase oĂč le modĂšle produit sa rĂ©ponse

La configuration testĂ©e consomme environ 58W d’énergie pendant le traitement, ce qui est remarquablement efficace par rapport aux configurations GPU traditionnelles. Le prix de cette configuration Mac Studio haut de gamme est d’environ 9500 USD aux États-Unis, soit environ 11 870 euros en Europe aprĂšs TVA.

Point de vue neutre

L’arrivĂ©e de ces machines Apple M3 Ultra avec 512 Go de mĂ©moire unifiĂ©e marque un tournant dans l’écosystĂšme des LLM locaux. Nous assistons Ă  une dĂ©mocratisation progressive de l’IA avancĂ©e, mais Ă  un prix qui reste prohibitif pour la majoritĂ© des utilisateurs.

La performance observĂ©e reprĂ©sente un compromis intĂ©ressant. D’un cĂŽtĂ©, la vitesse de gĂ©nĂ©ration de 6,38 tokens par seconde avec un large contexte n’est pas rĂ©volutionnaire comparĂ©e aux configurations multi-GPU qui peuvent atteindre des centaines de tokens par seconde. De l’autre, l’efficacitĂ© Ă©nergĂ©tique, l’absence de bruit et l’encombrement rĂ©duit offrent des avantages indĂ©niables pour certains cas d’usage.

Cette configuration trouve probablement sa place idĂ©ale dans un environnement professionnel oĂč l’on valorise la simplicitĂ© d’utilisation, la fiabilitĂ© et la discrĂ©tion, plutĂŽt que la performance brute. Pour les dĂ©veloppeurs, chercheurs ou crĂ©ateurs de contenu qui travaillent dĂ©jĂ  dans l’écosystĂšme Apple et qui ont besoin d’accĂ©der Ă  des modĂšles de grande taille sans dĂ©pendre d’API externes, cette solution reprĂ©sente une option viable malgrĂ© son coĂ»t Ă©levĂ©.

La mĂ©moire unifiĂ©e d’Apple dĂ©montre ici son potentiel, mais aussi ses limites actuelles. L’architecture intĂ©grĂ©e permet d’exĂ©cuter des modĂšles qui nĂ©cessiteraient normalement plusieurs GPU haut de gamme, mais les performances de gĂ©nĂ©ration restent en deçà des configurations spĂ©cialisĂ©es Ă©quivalentes en termes de prix.

Exemple

Imaginez que vous organisez un grand souper familial pour 20 personnes. Vous avez deux options pour préparer le repas:

Option 1 - Le Mac M3 Ultra: C’est comme avoir un chef Ă©toilĂ© Michelin qui travaille dans votre cuisine. Il est Ă©lĂ©gant, silencieux, ne prend pas beaucoup d’espace et consomme peu d’électricitĂ©. Il peut prĂ©parer des plats incroyablement sophistiquĂ©s, mais il lui faut du temps. Pour servir l’entrĂ©e Ă  vos 20 invitĂ©s, il lui faudra environ 3 minutes. Pas mal, mais pas fulgurant non plus.

Option 2 - Une configuration multi-GPU: C’est comme installer une cuisine de restaurant industriel dans votre maison. C’est bruyant, ça chauffe, ça consomme beaucoup d’électricitĂ© et ça prend tout un pan de mur. Mais quand vient le temps de servir, cette cuisine peut prĂ©parer l’entrĂ©e pour vos 20 invitĂ©s en 15 secondes!

Maintenant, imaginez que votre famille soit particuliĂšrement bavarde et vous bombarde de questions pendant que vous cuisinez. Le chef Michelin (M3 Ultra) va prendre connaissance de toutes ces questions (le prompt) Ă  un rythme correct, mais quand viendra le temps de formuler ses rĂ©ponses tout en continuant Ă  cuisiner, il ralentira considĂ©rablement. La cuisine industrielle, elle, absorbera toutes ces questions et y rĂ©pondra sans mĂȘme ralentir la cadence de prĂ©paration.

Alors, que choisir? Si vous ĂȘtes un hĂŽte qui privilĂ©gie l’élĂ©gance, le calme et l’économie d’espace, et que vos invitĂ©s sont patients, le chef Michelin est parfait. Si vous avez un sous-sol Ă  convertir en cuisine et que vos invitĂ©s sont pressĂ©s et affamĂ©s, la cuisine industrielle s’impose!

Point de vue optimiste

L’émergence de cette configuration Mac M3 Ultra capable d’exĂ©cuter un modĂšle de 671 milliards de paramĂštres localement est rien de moins qu’une rĂ©volution silencieuse! Nous assistons aux premiers pas d’une nouvelle Ăšre oĂč l’intelligence artificielle avancĂ©e devient vĂ©ritablement personnelle et privĂ©e.

La beautĂ© de cette solution rĂ©side dans sa simplicitĂ© Ă©lĂ©gante. Fini les configurations complexes de serveurs, les problĂšmes de refroidissement et les factures d’électricitĂ© astronomiques! Un seul appareil, silencieux et compact, peut dĂ©sormais hĂ©berger l’un des modĂšles les plus avancĂ©s au monde. C’est la dĂ©mocratisation de l’IA en marche.

La vitesse de gĂ©nĂ©ration actuelle n’est que le dĂ©but. Avec les optimisations logicielles Ă  venir et les futures itĂ©rations matĂ©rielles, nous pouvons anticiper des amĂ©liorations spectaculaires. L’approche d’Apple avec sa mĂ©moire unifiĂ©e ouvre la voie Ă  une nouvelle philosophie d’intĂ©gration qui pourrait bien rendre obsolĂštes les configurations GPU traditionnelles pour de nombreux cas d’usage.

Imaginez un futur proche oĂč chaque professionnel crĂ©atif dispose sur son bureau d’une machine capable d’exĂ©cuter les modĂšles les plus avancĂ©s, sans compromis sur la confidentialitĂ©, sans dĂ©pendance aux services cloud, et avec une empreinte environnementale minimale. Ce n’est plus de la science-fiction, c’est la direction que nous prenons.

Cette percĂ©e technologique pourrait catalyser une vague d’innovations dans les applications d’IA personnalisĂ©es et spĂ©cialisĂ©es, libĂ©rĂ©es des contraintes des API commerciales. Les dĂ©veloppeurs pourront crĂ©er des expĂ©riences sur mesure, adaptĂ©es Ă  des domaines spĂ©cifiques, tout en gardant le contrĂŽle total sur leurs donnĂ©es et leurs modĂšles.

Point de vue pessimiste

La dĂ©monstration du DeepSeek R1 sur Mac M3 Ultra illustre parfaitement le problĂšme fondamental de l’IA locale: des performances mĂ©diocres Ă  un prix exorbitant. DĂ©penser prĂšs de 12 000 euros pour obtenir une vitesse de gĂ©nĂ©ration de 6 tokens par seconde avec un contexte substantiel relĂšve presque de l’absurde.

Cette configuration reprĂ©sente un compromis peu convaincant entre performance et accessibilitĂ©. D’un cĂŽtĂ©, elle est trop coĂ»teuse pour la majoritĂ© des utilisateurs; de l’autre, elle est trop lente pour les applications professionnelles sĂ©rieuses. Elle se retrouve dans un entre-deux inconfortable, sans vĂ©ritable public cible.

La mĂ©moire unifiĂ©e d’Apple, bien que techniquement impressionnante, rĂ©vĂšle ses limites fondamentales face aux charges de travail d’IA intensives. La bande passante mĂ©moire reste insuffisante pour traiter efficacement les opĂ©rations matricielles massives requises par les grands modĂšles de langage, ce qui explique la chute drastique des performances avec l’augmentation du contexte.

Cette approche “tout-en-un” pourrait Ă©galement se rĂ©vĂ©ler ĂȘtre une impasse technologique. Alors que les modĂšles continuent de croĂźtre en taille et en complexitĂ©, mĂȘme 512 Go de mĂ©moire unifiĂ©e pourraient rapidement devenir insuffisants. Nous risquons de nous retrouver avec des machines haut de gamme obsolĂštes en quelques mois, incapables de suivre l’évolution rapide des modĂšles.

De plus, l’écosystĂšme fermĂ© d’Apple limite considĂ©rablement les possibilitĂ©s d’expĂ©rimentation et d’optimisation. Contrairement aux configurations basĂ©es sur des GPU ouverts, les utilisateurs sont entiĂšrement dĂ©pendants des choix technologiques d’Apple et de leur calendrier de mise Ă  jour, sans possibilitĂ© d’évolution modulaire.

Redirection en cours...

Si vous n'ĂȘtes pas redirigĂ© automatiquement, 👉 cliquez ici 👈