DeepSeek 3.5 671B: Le nouveau modèle IA open-weights surpasse GPT-4 et Claude 3.5! Avec 256 experts et 37B paramètres actifs, c est une révolution pour l IA locale. Nécessite 512GB RAM. 🚀 #IntelligenceArtificielle #OpenSource #IA

Article en référence: https://i.redd.it/vry52nz3u69e1.jpeg

Article Reddit: Wow this maybe probably best open source model ? https://www.reddit.com/r/LocalLLaMA/comments/1hmnj93/wow_this_maybe_probably_best_open_source_model/

Image de Wow this maybe probably best open source model ?

Récapitulatif factuel

DeepSeek vient de dévoiler un nouveau modèle d’IA de 671 milliards de paramètres utilisant une architecture MoE (Mixture of Experts). Cette architecture innovante active seulement 37 milliards de paramètres à la fois, répartis sur 256 “experts” spécialisés. C’est comme avoir 256 cerveaux spécialisés qui se relaient selon la tâche à accomplir.

Les premiers tests montrent des performances comparables ou supérieures aux modèles commerciaux comme GPT-4 et Claude 3.5. Pour faire fonctionner ce modèle, il faut environ 400 à 700 Go de mémoire vive, selon le niveau de compression utilisé. Même avec la compression la plus agressive (Q4), il faudrait au minimum 336 Go de RAM.

Le modèle est disponible avec des “poids ouverts” (open weights), ce qui signifie que les paramètres du modèle sont accessibles, mais pas le code source qui a servi à l’entraîner. C’est comme avoir la recette finale sans savoir comment elle a été développée.

Point de vue neutre

L’arrivée de ce modèle marque une étape importante dans l’évolution des IA open source, mais son utilisation reste limitée aux infrastructures professionnelles. La technologie MoE représente un compromis intéressant entre performance et efficacité, permettant d’atteindre des capacités impressionnantes tout en optimisant l’utilisation des ressources.

Dans un horizon de 1 à 2 ans, nous pourrions voir émerger des solutions plus accessibles, soit par la miniaturisation du modèle, soit par l’évolution du matériel grand public. Pour l’instant, ce modèle trouve sa place principalement dans la recherche et les applications entreprises.

Point de vue optimiste

C’est une révolution! Nous assistons à la démocratisation de l’IA de pointe. Les modèles open source rattrapent et dépassent même les géants commerciaux. L’architecture MoE est géniale - c’est comme avoir une équipe d’experts super intelligents qui collaborent pour résoudre des problèmes complexes.

Dans quelques mois, nous aurons probablement des versions plus légères et tout aussi performantes. Les prix du matériel continuent de baisser, et bientôt, ces modèles tourneront sur nos ordinateurs personnels. C’est le début d’une nouvelle ère où l’IA de classe mondiale sera accessible à tous!

Point de vue pessimiste

Ce modèle illustre parfaitement la course effrénée aux performances qui creuse le fossé entre les acteurs disposant de ressources importantes et le grand public. Avec des besoins en matériel aussi démesurés, il reste inaccessible pour 99% des utilisateurs.

Cette évolution pose également des questions sur la consommation énergétique et l’impact environnemental. De plus, sans accès au code source complet, nous ne pouvons pas vraiment parler d’open source - c’est plutôt une forme de “shareware” moderne qui maintient une certaine opacité sur les méthodes d’entraînement et les biais potentiels du modèle.

Redirection en cours...

Si vous n'êtes pas redirigé automatiquement, 👉 cliquez ici 👈