Wow! DeepSeek R1 (671B) tourne sur Mac M3 Ultra 512GB à 18,43 tokens/sec. Génère du code p5js sans entraînement spécifique! Tests plus poussés: 13K tokens = 59,56 t/s en traitement, 6,38 t/s en génération. L IA locale évolue, mais à 12K€, est-ce vraiment pour tous? #LocalAI

Article en référence: https://www.reddit.com/r/LocalLLaMA/comments/1j9vjf1/deepseek_r1_671b_q4_m3_ultra_512gb_with_mlx/

Récapitulatif factuel

Un utilisateur de Reddit a partagé ses tests impressionnants du modèle DeepSeek R1 671B Q4 fonctionnant sur un Mac Studio équipé d’un processeur M3 Ultra avec 512 Go de mémoire unifiée, utilisant le framework MLX d’Apple. Ce modèle d’intelligence artificielle est l’un des plus grands disponibles pour une utilisation locale, avec 671 milliards de paramètres (d’où le “671B” dans son nom) et quantifié en 4 bits (Q4) pour réduire son empreinte mémoire.

Les résultats initiaux montrent une vitesse de génération de 18,43 tokens par seconde pour des prompts courts. Le modèle a réussi à générer du code p5.js (une bibliothèque JavaScript pour créer des animations graphiques) sans avoir été spécifiquement entraîné pour cette tâche, ce qu’on appelle une capacité “zero-shot”.

Des tests plus approfondis avec un contexte plus large (13 140 tokens) ont révélé:

Vitesse de traitement du prompt: 59,56 tokens par seconde
Vitesse de génération: 6,38 tokens par seconde
Utilisation maximale de la mémoire: 491 Go

Pour mettre ces chiffres en perspective, il faut comprendre que le traitement d’un grand modèle de langage (LLM) se déroule en deux phases:

Traitement du prompt (PP): phase où le modèle analyse l’entrée fournie
Génération de tokens: phase où le modèle produit sa réponse

La configuration testée consomme environ 58W d’énergie pendant le traitement, ce qui est remarquablement efficace par rapport aux configurations GPU traditionnelles. Le prix de cette configuration Mac Studio haut de gamme est d’environ 9500 USD aux États-Unis, soit environ 11 870 euros en Europe après TVA.

Point de vue neutre

L’arrivée de ces machines Apple M3 Ultra avec 512 Go de mémoire unifiée marque un tournant dans l’écosystème des LLM locaux. Nous assistons à une démocratisation progressive de l’IA avancée, mais à un prix qui reste prohibitif pour la majorité des utilisateurs.

La performance observée représente un compromis intéressant. D’un côté, la vitesse de génération de 6,38 tokens par seconde avec un large contexte n’est pas révolutionnaire comparée aux configurations multi-GPU qui peuvent atteindre des centaines de tokens par seconde. De l’autre, l’efficacité énergétique, l’absence de bruit et l’encombrement réduit offrent des avantages indéniables pour certains cas d’usage.

Cette configuration trouve probablement sa place idéale dans un environnement professionnel où l’on valorise la simplicité d’utilisation, la fiabilité et la discrétion, plutôt que la performance brute. Pour les développeurs, chercheurs ou créateurs de contenu qui travaillent déjà dans l’écosystème Apple et qui ont besoin d’accéder à des modèles de grande taille sans dépendre d’API externes, cette solution représente une option viable malgré son coût élevé.

La mémoire unifiée d’Apple démontre ici son potentiel, mais aussi ses limites actuelles. L’architecture intégrée permet d’exécuter des modèles qui nécessiteraient normalement plusieurs GPU haut de gamme, mais les performances de génération restent en deçà des configurations spécialisées équivalentes en termes de prix.

Exemple

Imaginez que vous organisez un grand souper familial pour 20 personnes. Vous avez deux options pour préparer le repas:

Option 1 - Le Mac M3 Ultra: C’est comme avoir un chef étoilé Michelin qui travaille dans votre cuisine. Il est élégant, silencieux, ne prend pas beaucoup d’espace et consomme peu d’électricité. Il peut préparer des plats incroyablement sophistiqués, mais il lui faut du temps. Pour servir l’entrée à vos 20 invités, il lui faudra environ 3 minutes. Pas mal, mais pas fulgurant non plus.

Option 2 - Une configuration multi-GPU: C’est comme installer une cuisine de restaurant industriel dans votre maison. C’est bruyant, ça chauffe, ça consomme beaucoup d’électricité et ça prend tout un pan de mur. Mais quand vient le temps de servir, cette cuisine peut préparer l’entrée pour vos 20 invités en 15 secondes!

Maintenant, imaginez que votre famille soit particulièrement bavarde et vous bombarde de questions pendant que vous cuisinez. Le chef Michelin (M3 Ultra) va prendre connaissance de toutes ces questions (le prompt) à un rythme correct, mais quand viendra le temps de formuler ses réponses tout en continuant à cuisiner, il ralentira considérablement. La cuisine industrielle, elle, absorbera toutes ces questions et y répondra sans même ralentir la cadence de préparation.

Alors, que choisir? Si vous êtes un hôte qui privilégie l’élégance, le calme et l’économie d’espace, et que vos invités sont patients, le chef Michelin est parfait. Si vous avez un sous-sol à convertir en cuisine et que vos invités sont pressés et affamés, la cuisine industrielle s’impose!

Point de vue optimiste

L’émergence de cette configuration Mac M3 Ultra capable d’exécuter un modèle de 671 milliards de paramètres localement est rien de moins qu’une révolution silencieuse! Nous assistons aux premiers pas d’une nouvelle ère où l’intelligence artificielle avancée devient véritablement personnelle et privée.

La beauté de cette solution réside dans sa simplicité élégante. Fini les configurations complexes de serveurs, les problèmes de refroidissement et les factures d’électricité astronomiques! Un seul appareil, silencieux et compact, peut désormais héberger l’un des modèles les plus avancés au monde. C’est la démocratisation de l’IA en marche.

La vitesse de génération actuelle n’est que le début. Avec les optimisations logicielles à venir et les futures itérations matérielles, nous pouvons anticiper des améliorations spectaculaires. L’approche d’Apple avec sa mémoire unifiée ouvre la voie à une nouvelle philosophie d’intégration qui pourrait bien rendre obsolètes les configurations GPU traditionnelles pour de nombreux cas d’usage.

Imaginez un futur proche où chaque professionnel créatif dispose sur son bureau d’une machine capable d’exécuter les modèles les plus avancés, sans compromis sur la confidentialité, sans dépendance aux services cloud, et avec une empreinte environnementale minimale. Ce n’est plus de la science-fiction, c’est la direction que nous prenons.

Cette percée technologique pourrait catalyser une vague d’innovations dans les applications d’IA personnalisées et spécialisées, libérées des contraintes des API commerciales. Les développeurs pourront créer des expériences sur mesure, adaptées à des domaines spécifiques, tout en gardant le contrôle total sur leurs données et leurs modèles.

Point de vue pessimiste

La démonstration du DeepSeek R1 sur Mac M3 Ultra illustre parfaitement le problème fondamental de l’IA locale: des performances médiocres à un prix exorbitant. Dépenser près de 12 000 euros pour obtenir une vitesse de génération de 6 tokens par seconde avec un contexte substantiel relève presque de l’absurde.

Cette configuration représente un compromis peu convaincant entre performance et accessibilité. D’un côté, elle est trop coûteuse pour la majorité des utilisateurs; de l’autre, elle est trop lente pour les applications professionnelles sérieuses. Elle se retrouve dans un entre-deux inconfortable, sans véritable public cible.

La mémoire unifiée d’Apple, bien que techniquement impressionnante, révèle ses limites fondamentales face aux charges de travail d’IA intensives. La bande passante mémoire reste insuffisante pour traiter efficacement les opérations matricielles massives requises par les grands modèles de langage, ce qui explique la chute drastique des performances avec l’augmentation du contexte.

Cette approche “tout-en-un” pourrait également se révéler être une impasse technologique. Alors que les modèles continuent de croître en taille et en complexité, même 512 Go de mémoire unifiée pourraient rapidement devenir insuffisants. Nous risquons de nous retrouver avec des machines haut de gamme obsolètes en quelques mois, incapables de suivre l’évolution rapide des modèles.

De plus, l’écosystème fermé d’Apple limite considérablement les possibilités d’expérimentation et d’optimisation. Contrairement aux configurations basées sur des GPU ouverts, les utilisateurs sont entièrement dépendants des choix technologiques d’Apple et de leur calendrier de mise à jour, sans possibilité d’évolution modulaire.

Redirection en cours...

Si vous n'êtes pas redirigé automatiquement, 👉 cliquez ici 👈