Cogito lance ses LLMs open source (3B-70B) avec un mode réflexion activable! 🧠 Excellents en maths, raisonnement court et efficace. Fondé par des ex-Googlers, ces modèles rivalisent avec les géants propriétaires. Testez-les sur Ollama/LM Studio! #IA #LocalLLM

Article en référence: https://www.reddit.com/gallery/1jum5s1

Récapitulatif factuel

Cogito vient de lancer une nouvelle série de modèles de langage (LLM) sous licence ouverte, disponibles en plusieurs tailles : 3B, 8B, 14B, 32B et 70B paramètres. Ces modèles se distinguent par leurs performances impressionnantes sur plusieurs benchmarks standards de l’industrie, notamment MMLU (test de connaissances multidisciplinaires) et MATH (résolution de problèmes mathématiques).

Développés par Deep Cogito, une entreprise fondée par d’anciens employés de Google, ces modèles sont basés sur l’architecture Qwen 2.5 pour les versions de 3B à 32B, tandis que le modèle 70B est basé sur LLaMA. L’innovation principale réside dans leur capacité à basculer entre deux modes de fonctionnement : un mode standard de réponse directe et un mode “réflexion approfondie” qui permet au modèle de raisonner avant de répondre, similaire à ce que propose Claude 3.7.

Les tests communautaires révèlent que ces modèles excellent particulièrement en mathématiques et en raisonnement, avec des chaînes de raisonnement plus courtes (300-500 tokens) que la plupart des modèles concurrents. Ils supportent également les appels d’outils (tool calls), ce qui les rend adaptés à l’intégration avec d’autres systèmes et applications.

Ces modèles sont déjà disponibles sur plusieurs plateformes comme Ollama et LM Studio, permettant aux utilisateurs de les tester localement sur leur propre matériel. Pour activer le mode réflexion, il suffit d’ajouter “Enable deep thinking subroutine.” au début du prompt système.

Point de vue neutre

L’arrivée des modèles Cogito représente une évolution intéressante dans l’écosystème des LLM open source, mais pas nécessairement une révolution. Ces modèles s’inscrivent dans une tendance d’amélioration progressive des performances tout en maintenant des tailles raisonnables pour une utilisation locale.

Ce qui semble véritablement distinguer Cogito, c’est sa capacité à offrir un bon équilibre entre performance et efficacité. Les retours de la communauté suggèrent que ces modèles excellent dans certains domaines spécifiques comme les mathématiques et le raisonnement structuré, mais qu’ils ne surpassent pas systématiquement tous leurs concurrents dans toutes les tâches.

L’approche de Cogito avec son mode de réflexion activable à la demande est particulièrement pragmatique. Elle permet aux utilisateurs de choisir entre rapidité et profondeur selon leurs besoins, sans avoir à jongler entre différents modèles. Cette flexibilité répond à un besoin réel des utilisateurs qui cherchent à optimiser l’utilisation de leurs ressources informatiques.

Cependant, certains commentaires pointent vers une possible optimisation excessive pour les benchmarks, ce qui soulève des questions sur les performances réelles dans des cas d’usage quotidiens. Comme pour tout nouveau modèle, il faudra du temps et des tests approfondis pour déterminer sa véritable valeur ajoutée par rapport aux solutions existantes comme Qwen 2.5, Gemma ou Phi-4.

Exemple

Imaginez que vous êtes au Salon de l’Auto de Montréal. Vous avez d’un côté les grosses cylindrées américaines qui consomment un plein à chaque démarrage mais qui font trembler le sol quand elles passent (comme les modèles GPT-4 et Claude), et de l’autre les petites voitures économiques qui font le job mais sans éclat (comme les petits modèles locaux).

Et voilà que débarque Cogito, comme une Volkswagen Golf GTI dans ce paysage. Ni trop grosse, ni trop petite, elle offre deux modes de conduite : “Éco” quand vous voulez juste aller chercher votre poutine au coin de la rue, et “Sport” quand vous devez résoudre une équation différentielle tout en montant la côte de la Montagne à Québec.

Le vendeur, un ancien de chez Tesla (ou plutôt Google dans notre cas), vous explique fièrement : “Regardez, pour activer le mode sport, c’est simple comme bonjour! Vous appuyez sur ce bouton ‘Enable deep thinking subroutine’ et votre voiture se met à réfléchir comme un champion d’échecs avant de vous répondre!”

Vous êtes sceptique, alors vous lui posez une colle : “Combien y a-t-il d’animaux qui se dirigent vers le village si un fermier croise trois camions transportant chacun trois caisses contenant chacune trois chats, chaque chat ayant trois chatons?”

La Golf GTI Cogito réfléchit pendant trois minutes et vous donne la bonne réponse, tandis que la voiture d’à côté y passe un quart d’heure et hésite encore. Pas mal, mais est-ce qu’elle tiendra aussi bien sur les routes enneigées de Charlevoix que sur le circuit fermé des benchmarks? Ça, c’est une autre histoire!

Point de vue optimiste

Les modèles Cogito représentent une véritable percée dans la démocratisation de l’IA générative! Enfin, nous avons des modèles qui rivalisent avec les géants propriétaires tout en restant accessibles au grand public. C’est exactement ce dont notre écosystème technologique québécois a besoin pour innover sans dépendre des grandes corporations américaines.

La capacité de ces modèles à raisonner efficacement avec des chaînes de réflexion courtes est particulièrement révolutionnaire. Imaginez pouvoir obtenir des réponses aussi précises qu’avec Claude 3.7, mais sur votre propre ordinateur, sans frais d’API et sans partager vos données confidentielles! Pour nos startups locales et nos institutions publiques soucieuses de souveraineté numérique, c’est une opportunité en or.

Le fait que l’équipe derrière Cogito soit composée d’anciens de Google apporte une crédibilité supplémentaire à leur approche. Ils ont combiné leur expertise de pointe avec une vision ouverte de l’IA, créant ainsi des modèles qui pourraient bien devenir la référence pour les applications locales intelligentes.

Les performances impressionnantes du modèle 70B face à Llama 4 Scout (qui possède pourtant 109B paramètres) montrent qu’une approche intelligente et ciblée peut surpasser les approches basées uniquement sur la puissance brute. C’est une victoire pour l’efficacité et l’accessibilité!

Avec l’intégration facile via Ollama et d’autres plateformes, nous sommes à l’aube d’une nouvelle ère où chaque développeur, chaque entreprise et chaque citoyen pourra bénéficier d’une IA puissante et respectueuse de la vie privée. Le Québec, avec son expertise en IA, est parfaitement positionné pour tirer parti de cette avancée et créer des applications innovantes adaptées à notre réalité culturelle et linguistique.

Point de vue pessimiste

Encore un nouveau modèle qui prétend révolutionner l’IA alors qu’il s’agit essentiellement d’un fine-tuning de Qwen 2.5 et LLaMA. Les scores impressionnants sur les benchmarks sont probablement le résultat d’une optimisation excessive pour ces tests spécifiques, comme le suggèrent plusieurs utilisateurs qui ont constaté des performances décevantes sur des problèmes réels d’ingénierie mécanique ou de mathématiques avancées.

Cette tendance à “benchmarker” les modèles plutôt qu’à les rendre véritablement utiles est symptomatique d’une industrie obsédée par les chiffres et les comparaisons, au détriment de la valeur réelle. Comme l’a souligné un utilisateur, il s’agit potentiellement d’une “arnaque d’expert” destinée à convaincre les investisseurs en capital-risque de financer une soi-disant “nouvelle DeepMind”.

De plus, ces modèles perpétuent la course aux armements dans l’IA, encourageant une consommation toujours plus grande de ressources informatiques et d’énergie. Même le plus petit modèle de 3B paramètres reste inaccessible pour de nombreux utilisateurs avec des appareils modestes, sans parler des modèles plus grands qui nécessitent des GPU coûteux.

La dépendance continue aux architectures propriétaires comme Qwen (développée par Alibaba) soulève également des questions sur la véritable “ouverture” de ces modèles. Nous restons tributaires des décisions prises par les grandes entreprises technologiques, avec tous les risques que cela comporte pour notre autonomie numérique.

Enfin, l’accent mis sur les performances brutes occulte les questions fondamentales sur les biais, la sécurité et l’éthique de ces systèmes. Dans notre précipitation à célébrer chaque nouveau modèle légèrement plus performant, nous négligeons de nous demander si nous construisons réellement l’avenir numérique que nous souhaitons pour le Québec et pour le monde.

Redirection en cours...

Si vous n'êtes pas redirigé automatiquement, 👉 cliquez ici 👈