Patrick Bélanger
Article en référence: https://huggingface.co/blog/Pclanglais/common-models
Article Reddit: “They Said It Couldn’t Be Done” - Pleias release first models trained entirely on open data - competitive against Llama 3B & Qwen 3B https://www.reddit.com/r/LocalLLaMA/comments/1h7lhqn/they_said_it_couldnt_be_done_pleias_release_first/
Une équipe de chercheurs vient de réaliser une percée significative dans le domaine de l’intelligence artificielle en créant “Pleias”, un modèle de langage entraîné uniquement sur des données libres de droits. Ce modèle rivalise avec des concurrents établis comme Llama 3B et Qwen 3B.
L’innovation principale réside dans l’utilisation exclusive de données ouvertes pour l’entraînement, incluant Wikipédia et du code source libre. Le modèle existe en plusieurs versions, dont une de 3 milliards de paramètres (3B) et une plus petite de 350 millions de paramètres. Pour mettre ces chiffres en perspective, GPT-4 utiliserait plus de 1 trillion de paramètres.
L’entraînement a nécessité environ 23 000 heures de calcul sur des cartes graphiques H100 de NVIDIA, ce qui représente un investissement significatif mais accessible pour une entreprise de taille moyenne. Le modèle utilise également un nouveau “tokenizer” (système de découpage du texte) optimisé pour les performances multilingues et la réduction des coûts de calcul.
Cette avancée représente un pas intéressant vers la démocratisation de l’IA, mais il faut rester pragmatique. Les modèles de 3B paramètres trouvent leur utilité principalement dans des applications mobiles et des cas d’usage spécifiques, comme l’analyse de documents internes d’entreprise.
La question de la “pureté” des données ouvertes reste complexe. Même si l’intention est louable, la frontière entre contenu libre de droits et contenu protégé est souvent floue, particulièrement quand on considère que tout contenu s’inspire nécessairement d’autres contenus préexistants.
Le véritable intérêt réside peut-être moins dans les performances du modèle que dans la démonstration qu’il est possible de créer des IA performantes avec des ressources limitées et des données accessibles.
C’est une révolution pour la démocratisation de l’IA! Imaginez des entreprises locales capables de créer leurs propres modèles d’IA adaptés à leurs besoins spécifiques, sans dépendre des géants technologiques. Les possibilités sont infinies, particulièrement pour les langues et cultures moins représentées dans les modèles actuels.
Cette approche pourrait mener à une explosion d’innovations locales. Des modèles spécialisés pour le français québécois, optimisés pour notre contexte culturel unique, ne sont plus un rêve lointain mais une possibilité concrète.
La réduction des coûts énergétiques et la possibilité d’utiliser l’énergie solaire pour faire fonctionner ces modèles ouvrent la voie à une IA véritablement durable et écologique.
La création de modèles d’IA avec des données “propres” reste un idéal difficile à atteindre. L’utilisation de données provenant de GitHub ou de transcriptions YouTube soulève des questions éthiques et légales importantes que nous ne pouvons ignorer.
La multiplication de petits modèles d’IA pourrait créer une fragmentation problématique, avec des risques de biais non contrôlés et de désinformation à plus petite échelle mais plus difficile à détecter et à contrer.
De plus, la démocratisation des outils d’IA pourrait mener à une prolifération incontrôlée d’applications mal conçues ou mal intentionnées, particulièrement dans des contextes où la régulation est moins stricte.
Si vous n'êtes pas redirigé automatiquement, 👉 cliquez ici 👈