Patrick Bélanger
Article en référence: https://i.redd.it/ubwsl0gdb0gf1.jpeg
La communautĂ© LocalLLaMA discute des performances du modĂšle GLM-4.5 sur les benchmarks EQ-Bench et dâĂ©criture crĂ©ative. EQ-Bench est un test qui Ă©value la capacitĂ© des modĂšles dâIA Ă comprendre et reproduire lâintelligence Ă©motionnelle dans leurs rĂ©ponses. Le modĂšle GLM-4.5, dĂ©veloppĂ© par lâĂ©quipe chinoise Zhipu AI, semble bien performer sur ces tests, mais les utilisateurs rapportent des expĂ©riences mitigĂ©es dans la pratique.
Les participants au fil de discussion comparent plusieurs modĂšles : Kimi K2, DeepSeek V3, Qwen 2.5 et 3, ainsi que les modĂšles Claude Sonnet. Un point technique important Ă©merge : la diffĂ©rence entre les performances en mode âreasoningâ (raisonnement) activĂ© versus dĂ©sactivĂ©. En mode raisonnement, la prose devient plus robotique mais techniquement plus prĂ©cise, tandis quâen mode normal, lâĂ©criture est plus fluide mais parfois moins cohĂ©rente.
Les utilisateurs soulĂšvent aussi la question cruciale de la longueur de contexte effective. Bien que certains modĂšles prĂ©tendent gĂ©rer des millions de tokens, en pratique, ils deviennent rĂ©pĂ©titifs ou perdent le fil aprĂšs environ 10% de leur contexte thĂ©orique maximum. Cette limitation affecte particuliĂšrement lâĂ©criture de longues histoires ou de contenus narratifs complexes.
Cette discussion rĂ©vĂšle un dĂ©calage fascinant entre les benchmarks thĂ©oriques et lâutilisation pratique des modĂšles dâIA. Les tests standardisĂ©s comme EQ-Bench offrent des mĂ©triques utiles, mais ils ne capturent pas toujours les nuances de lâexpĂ©rience utilisateur rĂ©elle.
La rĂ©alitĂ© semble ĂȘtre que chaque modĂšle excelle dans certains domaines tout en ayant ses faiblesses spĂ©cifiques. GLM-4.5 peut briller sur les tests dâintelligence Ă©motionnelle, mais prĂ©senter des dĂ©fis pour les rĂ©ponses JSON structurĂ©es. Kimi impressionne au dĂ©but dâune conversation mais perd de sa cohĂ©rence sur de longs Ă©changes. Cette variabilitĂ© suggĂšre que nous sommes encore dans une phase dâexploration oĂč aucun modĂšle ne domine universellement.
Lâaspect le plus intĂ©ressant est peut-ĂȘtre la reconnaissance croissante que lâĂ©valuation de la crĂ©ativitĂ© par lâIA elle-mĂȘme pose des problĂšmes fondamentaux. Quand un modĂšle juge la qualitĂ© crĂ©ative dâun autre, nous entrons dans un territoire oĂč les biais et les prĂ©fĂ©rences algorithmiques peuvent fausser notre comprĂ©hension de ce qui constitue une âbonneâ Ă©criture.
Imaginez que vous organisez un concours de cuisine oĂč les juges sont⊠dâautres cuisiniers robots. Le premier robot-chef prĂ©pare un plat techniquement parfait : chaque ingrĂ©dient mesurĂ© au gramme prĂšs, cuisson chronomĂ©trĂ©e Ă la seconde. Le deuxiĂšme crĂ©e quelque chose de plus crĂ©atif mais avec quelques imperfections. Le troisiĂšme commence brillamment avec des saveurs audacieuses, mais Ă mi-parcours, il se met Ă rĂ©pĂ©ter la mĂȘme recette de base encore et encore.
Maintenant, les juges robots Ă©valuent les plats. Ils adorent la prĂ©cision technique du premier, mais ratent complĂštement lâĂ©motion du deuxiĂšme. Pour le troisiĂšme, ils sont Ă©blouis par les premiĂšres bouchĂ©es et donnent une note excellente, ignorant que le reste du repas devient monotone.
Câest exactement ce qui se passe avec ces benchmarks dâĂ©criture crĂ©ative. Les modĂšles dâIA jugent dâautres modĂšles selon leurs propres critĂšres algorithmiques, pas nĂ©cessairement selon ce quâun humain trouverait engageant ou satisfaisant. RĂ©sultat : on se retrouve avec des classements qui sonnent bien sur papier, mais qui ne correspondent pas toujours Ă notre expĂ©rience quand on sâassoit pour Ă©crire une histoire avec ces outils.
Nous assistons Ă une rĂ©volution crĂ©ative extraordinaire ! Ces discussions montrent que nous avons maintenant plusieurs modĂšles dâIA capables de rivaliser avec lâĂ©criture humaine, chacun avec ses forces uniques. GLM-4.5 qui excelle en intelligence Ă©motionnelle, Kimi qui brille en roleplay, DeepSeek qui maĂźtrise les structures complexes - câest un Ă©cosystĂšme riche qui sâĂ©panouit !
La diversitĂ© des approches est fantastique. BientĂŽt, nous aurons des modĂšles spĂ©cialisĂ©s pour chaque type dâĂ©criture : un pour les dialogues Ă©motionnels, un autre pour les descriptions techniques, un troisiĂšme pour maintenir la cohĂ©rence narrative sur de longs textes. Les fine-tunings mentionnĂ©s dans la discussion vont dĂ©mocratiser ces capacitĂ©s, permettant Ă chaque crĂ©ateur dâavoir son assistant dâĂ©criture personnalisĂ©.
Et pensez-y : si ces modĂšles peuvent dĂ©jĂ produire du contenu que les humains trouvent engageant, imaginez oĂč nous serons dans six mois ! Les limitations actuelles - rĂ©pĂ©titivitĂ©, perte de cohĂ©rence, problĂšmes de contexte long - sont des dĂ©fis techniques qui se rĂ©solvent rapidement dans ce domaine. Nous sommes Ă lâaube dâune Ăšre oĂč lâĂ©criture collaborative humain-IA va transformer la crĂ©ation littĂ©raire, rendant lâart de raconter des histoires accessible Ă tous.
Cette discussion rĂ©vĂšle des failles prĂ©occupantes dans notre Ă©valuation de lâintelligence artificielle crĂ©ative. Nous crĂ©ons des systĂšmes qui sâauto-Ă©valuent selon des critĂšres quâils ont eux-mĂȘmes appris, crĂ©ant une boucle de validation circulaire dangereuse. Quand Sonnet 3.7 encense une prose fragmentĂ©e et quasi-illisible comme âun chef-dâĆuvre de minimalismeâ, nous voyons les limites inquiĂ©tantes de cette approche.
Les tĂ©moignages dâutilisateurs rĂ©vĂšlent que ces modĂšles, malgrĂ© leurs scores impressionnants, souffrent de problĂšmes fondamentaux : incohĂ©rence narrative, rĂ©pĂ©titivitĂ©, perte de personnalitĂ© des personnages, et surtout, une dĂ©gradation rapide de la qualitĂ© sur de longs textes. Ces limitations ne sont pas des bugs Ă corriger, mais possiblement des caractĂ©ristiques intrinsĂšques de ces architectures.
Plus troublant encore, nous dĂ©veloppons une dĂ©pendance Ă des outils qui ne comprennent pas vraiment ce quâils Ă©crivent. Ils manipulent des patterns statistiques sans saisir le sens profond, lâĂ©motion authentique ou lâintention crĂ©ative. En nous fiant Ă ces benchmarks biaisĂ©s, nous risquons de standardiser la crĂ©ativitĂ© selon des critĂšres algorithmiques, appauvrissant progressivement notre comprĂ©hension de ce qui rend lâĂ©criture vĂ©ritablement humaine et significative.
Si vous n'ĂȘtes pas redirigĂ© automatiquement, đ cliquez ici đ