Cogito lance ses LLMs open source (3B-70B) avec un mode rĂ©flexion activable! 🧠 Excellents en maths, raisonnement court et efficace. FondĂ© par des ex-Googlers, ces modĂšles rivalisent avec les gĂ©ants propriĂ©taires. Testez-les sur Ollama/LM Studio! #IA #LocalLLM

Article en référence: https://www.reddit.com/gallery/1jum5s1

Récapitulatif factuel

Cogito vient de lancer une nouvelle sĂ©rie de modĂšles de langage (LLM) sous licence ouverte, disponibles en plusieurs tailles : 3B, 8B, 14B, 32B et 70B paramĂštres. Ces modĂšles se distinguent par leurs performances impressionnantes sur plusieurs benchmarks standards de l’industrie, notamment MMLU (test de connaissances multidisciplinaires) et MATH (rĂ©solution de problĂšmes mathĂ©matiques).

DĂ©veloppĂ©s par Deep Cogito, une entreprise fondĂ©e par d’anciens employĂ©s de Google, ces modĂšles sont basĂ©s sur l’architecture Qwen 2.5 pour les versions de 3B Ă  32B, tandis que le modĂšle 70B est basĂ© sur LLaMA. L’innovation principale rĂ©side dans leur capacitĂ© Ă  basculer entre deux modes de fonctionnement : un mode standard de rĂ©ponse directe et un mode “rĂ©flexion approfondie” qui permet au modĂšle de raisonner avant de rĂ©pondre, similaire Ă  ce que propose Claude 3.7.

Les tests communautaires rĂ©vĂšlent que ces modĂšles excellent particuliĂšrement en mathĂ©matiques et en raisonnement, avec des chaĂźnes de raisonnement plus courtes (300-500 tokens) que la plupart des modĂšles concurrents. Ils supportent Ă©galement les appels d’outils (tool calls), ce qui les rend adaptĂ©s Ă  l’intĂ©gration avec d’autres systĂšmes et applications.

Ces modĂšles sont dĂ©jĂ  disponibles sur plusieurs plateformes comme Ollama et LM Studio, permettant aux utilisateurs de les tester localement sur leur propre matĂ©riel. Pour activer le mode rĂ©flexion, il suffit d’ajouter “Enable deep thinking subroutine.” au dĂ©but du prompt systĂšme.

Point de vue neutre

L’arrivĂ©e des modĂšles Cogito reprĂ©sente une Ă©volution intĂ©ressante dans l’écosystĂšme des LLM open source, mais pas nĂ©cessairement une rĂ©volution. Ces modĂšles s’inscrivent dans une tendance d’amĂ©lioration progressive des performances tout en maintenant des tailles raisonnables pour une utilisation locale.

Ce qui semble vĂ©ritablement distinguer Cogito, c’est sa capacitĂ© Ă  offrir un bon Ă©quilibre entre performance et efficacitĂ©. Les retours de la communautĂ© suggĂšrent que ces modĂšles excellent dans certains domaines spĂ©cifiques comme les mathĂ©matiques et le raisonnement structurĂ©, mais qu’ils ne surpassent pas systĂ©matiquement tous leurs concurrents dans toutes les tĂąches.

L’approche de Cogito avec son mode de rĂ©flexion activable Ă  la demande est particuliĂšrement pragmatique. Elle permet aux utilisateurs de choisir entre rapiditĂ© et profondeur selon leurs besoins, sans avoir Ă  jongler entre diffĂ©rents modĂšles. Cette flexibilitĂ© rĂ©pond Ă  un besoin rĂ©el des utilisateurs qui cherchent Ă  optimiser l’utilisation de leurs ressources informatiques.

Cependant, certains commentaires pointent vers une possible optimisation excessive pour les benchmarks, ce qui soulĂšve des questions sur les performances rĂ©elles dans des cas d’usage quotidiens. Comme pour tout nouveau modĂšle, il faudra du temps et des tests approfondis pour dĂ©terminer sa vĂ©ritable valeur ajoutĂ©e par rapport aux solutions existantes comme Qwen 2.5, Gemma ou Phi-4.

Exemple

Imaginez que vous ĂȘtes au Salon de l’Auto de MontrĂ©al. Vous avez d’un cĂŽtĂ© les grosses cylindrĂ©es amĂ©ricaines qui consomment un plein Ă  chaque dĂ©marrage mais qui font trembler le sol quand elles passent (comme les modĂšles GPT-4 et Claude), et de l’autre les petites voitures Ă©conomiques qui font le job mais sans Ă©clat (comme les petits modĂšles locaux).

Et voilĂ  que dĂ©barque Cogito, comme une Volkswagen Golf GTI dans ce paysage. Ni trop grosse, ni trop petite, elle offre deux modes de conduite : “Éco” quand vous voulez juste aller chercher votre poutine au coin de la rue, et “Sport” quand vous devez rĂ©soudre une Ă©quation diffĂ©rentielle tout en montant la cĂŽte de la Montagne Ă  QuĂ©bec.

Le vendeur, un ancien de chez Tesla (ou plutĂŽt Google dans notre cas), vous explique fiĂšrement : “Regardez, pour activer le mode sport, c’est simple comme bonjour! Vous appuyez sur ce bouton ‘Enable deep thinking subroutine’ et votre voiture se met Ă  rĂ©flĂ©chir comme un champion d’échecs avant de vous rĂ©pondre!”

Vous ĂȘtes sceptique, alors vous lui posez une colle : “Combien y a-t-il d’animaux qui se dirigent vers le village si un fermier croise trois camions transportant chacun trois caisses contenant chacune trois chats, chaque chat ayant trois chatons?”

La Golf GTI Cogito rĂ©flĂ©chit pendant trois minutes et vous donne la bonne rĂ©ponse, tandis que la voiture d’à cĂŽtĂ© y passe un quart d’heure et hĂ©site encore. Pas mal, mais est-ce qu’elle tiendra aussi bien sur les routes enneigĂ©es de Charlevoix que sur le circuit fermĂ© des benchmarks? Ça, c’est une autre histoire!

Point de vue optimiste

Les modĂšles Cogito reprĂ©sentent une vĂ©ritable percĂ©e dans la dĂ©mocratisation de l’IA gĂ©nĂ©rative! Enfin, nous avons des modĂšles qui rivalisent avec les gĂ©ants propriĂ©taires tout en restant accessibles au grand public. C’est exactement ce dont notre Ă©cosystĂšme technologique quĂ©bĂ©cois a besoin pour innover sans dĂ©pendre des grandes corporations amĂ©ricaines.

La capacitĂ© de ces modĂšles Ă  raisonner efficacement avec des chaĂźnes de rĂ©flexion courtes est particuliĂšrement rĂ©volutionnaire. Imaginez pouvoir obtenir des rĂ©ponses aussi prĂ©cises qu’avec Claude 3.7, mais sur votre propre ordinateur, sans frais d’API et sans partager vos donnĂ©es confidentielles! Pour nos startups locales et nos institutions publiques soucieuses de souverainetĂ© numĂ©rique, c’est une opportunitĂ© en or.

Le fait que l’équipe derriĂšre Cogito soit composĂ©e d’anciens de Google apporte une crĂ©dibilitĂ© supplĂ©mentaire Ă  leur approche. Ils ont combinĂ© leur expertise de pointe avec une vision ouverte de l’IA, crĂ©ant ainsi des modĂšles qui pourraient bien devenir la rĂ©fĂ©rence pour les applications locales intelligentes.

Les performances impressionnantes du modĂšle 70B face Ă  Llama 4 Scout (qui possĂšde pourtant 109B paramĂštres) montrent qu’une approche intelligente et ciblĂ©e peut surpasser les approches basĂ©es uniquement sur la puissance brute. C’est une victoire pour l’efficacitĂ© et l’accessibilitĂ©!

Avec l’intĂ©gration facile via Ollama et d’autres plateformes, nous sommes Ă  l’aube d’une nouvelle Ăšre oĂč chaque dĂ©veloppeur, chaque entreprise et chaque citoyen pourra bĂ©nĂ©ficier d’une IA puissante et respectueuse de la vie privĂ©e. Le QuĂ©bec, avec son expertise en IA, est parfaitement positionnĂ© pour tirer parti de cette avancĂ©e et crĂ©er des applications innovantes adaptĂ©es Ă  notre rĂ©alitĂ© culturelle et linguistique.

Point de vue pessimiste

Encore un nouveau modĂšle qui prĂ©tend rĂ©volutionner l’IA alors qu’il s’agit essentiellement d’un fine-tuning de Qwen 2.5 et LLaMA. Les scores impressionnants sur les benchmarks sont probablement le rĂ©sultat d’une optimisation excessive pour ces tests spĂ©cifiques, comme le suggĂšrent plusieurs utilisateurs qui ont constatĂ© des performances dĂ©cevantes sur des problĂšmes rĂ©els d’ingĂ©nierie mĂ©canique ou de mathĂ©matiques avancĂ©es.

Cette tendance Ă  “benchmarker” les modĂšles plutĂŽt qu’à les rendre vĂ©ritablement utiles est symptomatique d’une industrie obsĂ©dĂ©e par les chiffres et les comparaisons, au dĂ©triment de la valeur rĂ©elle. Comme l’a soulignĂ© un utilisateur, il s’agit potentiellement d’une “arnaque d’expert” destinĂ©e Ă  convaincre les investisseurs en capital-risque de financer une soi-disant “nouvelle DeepMind”.

De plus, ces modĂšles perpĂ©tuent la course aux armements dans l’IA, encourageant une consommation toujours plus grande de ressources informatiques et d’énergie. MĂȘme le plus petit modĂšle de 3B paramĂštres reste inaccessible pour de nombreux utilisateurs avec des appareils modestes, sans parler des modĂšles plus grands qui nĂ©cessitent des GPU coĂ»teux.

La dĂ©pendance continue aux architectures propriĂ©taires comme Qwen (dĂ©veloppĂ©e par Alibaba) soulĂšve Ă©galement des questions sur la vĂ©ritable “ouverture” de ces modĂšles. Nous restons tributaires des dĂ©cisions prises par les grandes entreprises technologiques, avec tous les risques que cela comporte pour notre autonomie numĂ©rique.

Enfin, l’accent mis sur les performances brutes occulte les questions fondamentales sur les biais, la sĂ©curitĂ© et l’éthique de ces systĂšmes. Dans notre prĂ©cipitation Ă  cĂ©lĂ©brer chaque nouveau modĂšle lĂ©gĂšrement plus performant, nous nĂ©gligeons de nous demander si nous construisons rĂ©ellement l’avenir numĂ©rique que nous souhaitons pour le QuĂ©bec et pour le monde.

Redirection en cours...

Si vous n'ĂȘtes pas redirigĂ© automatiquement, 👉 cliquez ici 👈