Alibaba dévoile Wan 2.1, son modèle de génération vidéo open source! 🎬 Les démos sont bluffantes - un chat en imperméable sur un scooter dans une tempête avec des détails incroyables. Une alternative accessible à SORA qui pourrait changer la donne! #IA #OpenSource

Article en référence: https://i.redd.it/amle9h0op8le1.jpeg

Récapitulatif factuel

Alibaba, le géant technologique chinois, s’apprête à lancer Wan 2.1, un nouveau modèle de génération vidéo open source, le 25 février 2025. Ce modèle s’inscrit dans la lignée des produits d’intelligence artificielle développés par Alibaba, suivant leur modèle de langage Qwen. Le nom “Wan” fait référence au chiffre 10 000 en chinois, tandis que “Qwen” fait référence à 1 000.

Selon les informations partagées sur Reddit, le modèle sera disponible à 23h00 (UTC+8), soit le fuseau horaire de la Chine. Un espace Hugging Face a déjà été créé pour héberger le modèle, bien que lors de l’annonce, il était surchargé et ne permettait pas encore de générer du contenu.

Les exemples vidéo présentés montrent des capacités impressionnantes, notamment une démo mettant en scène un chat orange vêtu d’un imperméable jaune conduisant un scooter dans une rue orageuse. Les utilisateurs de Reddit ont souligné la qualité visuelle et la compréhension physique du monde dont fait preuve le modèle.

Ce lancement s’inscrit dans un contexte où plusieurs modèles de génération vidéo émergent, notamment SORA d’OpenAI, qui a fait sensation récemment. Contrairement à certains modèles propriétaires, Wan 2.1 sera open source, ce qui signifie que son code et ses poids (les paramètres mathématiques qui définissent le modèle) seront accessibles à tous pour utilisation, modification et amélioration.

Point de vue neutre

L’arrivée de Wan 2.1 représente une étape significative dans la démocratisation des technologies de génération vidéo par IA. Si les géants américains comme OpenAI avec SORA ont fait les manchettes récemment, l’approche open source d’Alibaba pourrait changer la donne en rendant ces technologies accessibles à un plus grand nombre de développeurs et d’entreprises.

Cette accessibilité ne garantit pas pour autant une adoption massive immédiate. Les modèles de génération vidéo nécessitent généralement des ressources informatiques considérables, ce qui peut limiter leur utilisation par le grand public. Cependant, comme le suggèrent certains commentaires Reddit, les optimisations futures pourraient permettre de faire fonctionner ces modèles sur des configurations plus modestes, comme une carte graphique RTX 3060.

Le véritable impact de Wan 2.1 dépendra de plusieurs facteurs : sa qualité par rapport aux alternatives existantes, sa facilité d’utilisation, et la communauté qui se développera autour de lui. L’histoire des technologies open source nous montre qu’elles peuvent soit révolutionner un domaine, soit rester confinées à des niches d’utilisateurs spécialisés.

Pour le Québec, où l’écosystème d’IA est dynamique mais souvent dépendant des technologies développées ailleurs, l’accès à un modèle de génération vidéo open source de qualité pourrait ouvrir des opportunités pour nos créateurs de contenu, nos studios et nos startups, à condition qu’ils puissent surmonter les défis techniques associés.

Exemple

Imaginez que vous êtes au Carnaval de Québec, et que vous découvrez qu’un artisan local a créé une machine à sculpter la glace automatique. Jusqu’à présent, seules les grandes entreprises comme Disney pouvaient se permettre de telles machines, gardant jalousement leurs plans secrets.

Notre artisan québécois, lui, a décidé de partager les plans de sa machine avec tout le monde. Il l’a baptisée “La Patente 2.1” (parce que la version 1.0 avait tendance à transformer toutes les sculptures en Bonhomme Carnaval, peu importe ce qu’on lui demandait).

Maintenant, imaginez la scène : des curieux s’agglutinent autour de La Patente 2.1, impatients de la voir en action. Quelqu’un lui demande de sculpter “un chat en imperméable jaune sur un scooter pendant une tempête”. La machine se met à vrombir, à grincer, et sous les yeux ébahis de la foule, elle transforme un bloc de glace en une sculpture étonnamment détaillée.

“Ouain, c’est pas pire pantoute!” s’exclame un spectateur.

“Oui, mais est-ce que ça va marcher sur ma scie à glace de garage?” demande un autre.

Pendant ce temps, à l’autre bout de la rue, la multinationale GlaceCorp présente sa propre machine, ultra-sophistiquée mais dont personne ne peut voir le fonctionnement interne. Elle produit des sculptures magnifiques, mais chaque utilisation coûte un bras et nécessite de signer un contrat de confidentialité.

C’est un peu ça, Wan 2.1 versus SORA. Une technologie accessible à tous, avec ses forces et ses faiblesses, face à une boîte noire impressionnante mais verrouillée. Et comme pour notre machine à sculpter la glace, l’important n’est peut-être pas seulement ce qu’elle peut faire aujourd’hui, mais ce que les bricoleurs du monde entier pourront en faire demain.

Point de vue optimiste

Wan 2.1 pourrait bien être la révolution que nous attendions tous dans le domaine de la génération vidéo par IA! Enfin un modèle puissant qui sera accessible à tous, sans les restrictions imposées par les géants technologiques américains. C’est une véritable démocratisation de la création vidéo qui s’annonce!

Imaginez les possibilités pour notre industrie créative québécoise : nos cinéastes indépendants pourront créer des effets spéciaux dignes d’Hollywood sans budget hollywoodien. Nos studios de jeux vidéo pourront générer des cinématiques époustouflantes en quelques clics. Nos créateurs de contenu pourront produire des vidéos originales à un rythme jamais vu auparavant.

Et ce n’est que le début! Comme le suggèrent certains commentaires sur Reddit, les optimisations futures permettront probablement de faire fonctionner ce modèle sur des ordinateurs grand public. Ce qui nécessite aujourd’hui un supercalculateur pourrait demain tourner sur votre portable!

L’approche open source d’Alibaba est particulièrement prometteuse. Elle permettra à notre communauté tech locale d’adapter le modèle à nos besoins spécifiques, peut-être même de développer des versions optimisées pour le français québécois. Nous pourrions voir émerger tout un écosystème d’applications et de services basés sur Wan 2.1, créant de nouvelles opportunités économiques pour notre province.

Cette technologie pourrait même contribuer à préserver et promouvoir notre culture unique, en rendant plus accessible la production de contenu audiovisuel en français. C’est une chance inouïe pour le Québec de se positionner à l’avant-garde de cette révolution technologique!

Point de vue pessimiste

L’annonce de Wan 2.1 soulève plus de questions qu’elle n’apporte de réponses. Encore un modèle d’IA générative lancé à grand renfort de marketing, mais dont les implications sociétales n’ont probablement pas été suffisamment étudiées.

D’abord, ne nous leurrons pas : bien que développé par Alibaba, une entreprise chinoise, ce modèle s’inscrit dans la même logique de course technologique effrénée que ses homologues américains. L’objectif n’est pas nécessairement d’améliorer nos vies, mais de gagner des parts de marché dans l’économie de l’attention.

La nature open source du modèle, présentée comme une vertu, pourrait en réalité amplifier les risques. Sans les garde-fous qu’imposent parfois les entreprises propriétaires, qui contrôlera l’utilisation de cette technologie? Comment empêcher la prolifération de deepfakes toujours plus convaincants? Notre société québécoise, déjà aux prises avec la désinformation, est-elle prête à faire face à des vidéos falsifiées indiscernables de la réalité?

Sur le plan économique, ne soyons pas naïfs : la démocratisation des outils de création vidéo pourrait accélérer la précarisation des métiers créatifs. Nos artisans de l’image, nos monteurs, nos animateurs verront-ils leur expertise dévalorisée par des algorithmes capables de produire en quelques secondes ce qui leur demande des jours de travail?

Quant aux ressources nécessaires pour faire fonctionner ces modèles, elles restent considérables. La promesse de les faire tourner sur des ordinateurs grand public semble peu réaliste à court terme, et même si c’était possible, l’empreinte écologique de tels calculs serait non négligeable.

Dans notre enthousiasme technologique, n’oublions pas de nous poser les questions essentielles : cette technologie répond-elle à un besoin réel de notre société? Les bénéfices l’emportent-ils sur les risques? Ou sommes-nous simplement emportés par la fascination de ce qui est techniquement possible, sans réfléchir à ce qui est socialement souhaitable?

Redirection en cours...

Si vous n'êtes pas redirigé automatiquement, 👉 cliquez ici 👈