Patrick Bélanger
Article en référence: https://v.redd.it/irrr67j1s14e1
Article Reddit: Adobe Research introduces MultiFoley: a model designed for video-guided sound generation that supports multimodal conditioning through text, audio, and video https://www.reddit.com/r/singularity/comments/1h3di1g/adobe_research_introduces_multifoley_a_model/
Adobe Research vient de dévoiler MultiFoley, une innovation fascinante dans le domaine du son numérique. Mais qu’est-ce que le “Foley” exactement? Nommé d’après Jack Foley, pionnier des effets sonores, il s’agit de tous les sons qu’on entend dans un film ou une émission qui ne sont pas des dialogues - des bruits de pas aux portes qui grincent, en passant par les sons de repas.
MultiFoley est une intelligence artificielle capable de générer automatiquement ces effets sonores en se basant sur une vidéo. L’outil permet de créer des sons de haute qualité (48kHz) de deux façons : soit des sons réalistes (comme le bruit d’une planche à roulettes), soit des sons créatifs (transformer le rugissement d’un lion en miaulement de chat). Le système peut être guidé par du texte, de l’audio existant ou la vidéo elle-même.
L’innovation majeure réside dans son apprentissage hybride : MultiFoley a été entraîné à la fois sur des vidéos internet (avec leur audio de qualité variable) et sur des enregistrements professionnels d’effets sonores.
Cette technologie représente une évolution naturelle dans la démocratisation des outils de production audiovisuelle. Tout comme les filtres photo sont devenus accessibles à tous, les effets sonores suivent le même chemin. Ce n’est ni une révolution qui va tout bouleverser, ni un gadget sans importance.
MultiFoley pourrait trouver sa place comme outil complémentaire dans la chaîne de production audiovisuelle. Les professionnels du son pourraient l’utiliser pour gagner du temps sur les tâches répétitives, tout en conservant leur expertise pour les effets sonores plus complexes ou artistiques.
C’est une véritable démocratisation de la création audiovisuelle! Imaginez les possibilités pour les créateurs de contenu indépendants : plus besoin d’un studio professionnel pour avoir des effets sonores de qualité. Les YouTubers, les créateurs TikTok, les cinéastes amateurs pourront enfin donner vie à leurs vidéos avec des sons professionnels.
Cette technologie pourrait même ouvrir de nouvelles possibilités créatives : transformer les sons du quotidien en expériences sonores uniques, créer des ambiances sonores surréalistes, ou même inventer de nouveaux genres de contenu audiovisuel.
Encore une technologie qui menace des emplois spécialisés. Les artistes Foley, qui ont développé leur art pendant des décennies, risquent de voir leur expertise remplacée par une IA. C’est un autre exemple de la standardisation du contenu créatif : tout le monde utilisera les mêmes algorithmes, produisant des sons similaires, perdant ainsi la touche unique que chaque artiste Foley apporte.
De plus, avec Adobe aux commandes, cette technologie sera probablement verrouillée derrière un abonnement coûteux, créant un nouveau fossé entre ceux qui peuvent se le permettre et ceux qui ne le peuvent pas. Sans parler des questions éthiques : qui possède les droits des sons générés? Comment l’IA a-t-elle été entraînée, et avec quelles données?
Si vous n'êtes pas redirigé automatiquement, 👉 cliquez ici 👈