Patrick Bélanger
Article en référence: https://i.redd.it/vry52nz3u69e1.jpeg
Article Reddit: Wow this maybe probably best open source model ? https://www.reddit.com/r/LocalLLaMA/comments/1hmnj93/wow_this_maybe_probably_best_open_source_model/
DeepSeek vient de dévoiler un nouveau modèle d’IA de 671 milliards de paramètres utilisant une architecture MoE (Mixture of Experts). Cette architecture innovante active seulement 37 milliards de paramètres à la fois, répartis sur 256 “experts” spécialisés. C’est comme avoir 256 cerveaux spécialisés qui se relaient selon la tâche à accomplir.
Les premiers tests montrent des performances comparables ou supérieures aux modèles commerciaux comme GPT-4 et Claude 3.5. Pour faire fonctionner ce modèle, il faut environ 400 à 700 Go de mémoire vive, selon le niveau de compression utilisé. Même avec la compression la plus agressive (Q4), il faudrait au minimum 336 Go de RAM.
Le modèle est disponible avec des “poids ouverts” (open weights), ce qui signifie que les paramètres du modèle sont accessibles, mais pas le code source qui a servi à l’entraîner. C’est comme avoir la recette finale sans savoir comment elle a été développée.
L’arrivée de ce modèle marque une étape importante dans l’évolution des IA open source, mais son utilisation reste limitée aux infrastructures professionnelles. La technologie MoE représente un compromis intéressant entre performance et efficacité, permettant d’atteindre des capacités impressionnantes tout en optimisant l’utilisation des ressources.
Dans un horizon de 1 à 2 ans, nous pourrions voir émerger des solutions plus accessibles, soit par la miniaturisation du modèle, soit par l’évolution du matériel grand public. Pour l’instant, ce modèle trouve sa place principalement dans la recherche et les applications entreprises.
C’est une révolution! Nous assistons à la démocratisation de l’IA de pointe. Les modèles open source rattrapent et dépassent même les géants commerciaux. L’architecture MoE est géniale - c’est comme avoir une équipe d’experts super intelligents qui collaborent pour résoudre des problèmes complexes.
Dans quelques mois, nous aurons probablement des versions plus légères et tout aussi performantes. Les prix du matériel continuent de baisser, et bientôt, ces modèles tourneront sur nos ordinateurs personnels. C’est le début d’une nouvelle ère où l’IA de classe mondiale sera accessible à tous!
Ce modèle illustre parfaitement la course effrénée aux performances qui creuse le fossé entre les acteurs disposant de ressources importantes et le grand public. Avec des besoins en matériel aussi démesurés, il reste inaccessible pour 99% des utilisateurs.
Cette évolution pose également des questions sur la consommation énergétique et l’impact environnemental. De plus, sans accès au code source complet, nous ne pouvons pas vraiment parler d’open source - c’est plutôt une forme de “shareware” moderne qui maintient une certaine opacité sur les méthodes d’entraînement et les biais potentiels du modèle.
Si vous n'êtes pas redirigé automatiquement, 👉 cliquez ici 👈