Patrick Bélanger
Article en référence: https://huggingface.co/papers/2412.10360
Article Reddit: Meta releases the Apollo family of Large Multimodal Models. The 7B is SOTA and can comprehend a 1 hour long video. You can run this locally. https://www.reddit.com/r/LocalLLaMA/comments/1hffh35/meta_releases_the_apollo_family_of_large/
Une nouvelle famille de modèles d’intelligence artificielle multimodaux, nommée Apollo, vient d’être développée par une collaboration entre Meta et Stanford. Ces modèles sont capables d’analyser et de comprendre des vidéos d’une durée allant jusqu’à une heure, une avancée significative dans le domaine.
La famille Apollo comprend trois modèles de tailles différentes (1.5B, 3B et 7B paramètres), basés sur l’architecture Qwen 2.5. Le plus impressionnant est que même le plus petit modèle (1.5B) surpasse des modèles beaucoup plus grands, tandis que le modèle 7B rivalise avec des modèles de plus de 30 milliards de paramètres.
Ces modèles peuvent être exécutés localement sur un ordinateur personnel équipé d’une carte graphique récente, bien que le traitement de longues vidéos puisse nécessiter des ressources importantes. Ils sont capables de raisonnement temporel complexe et peuvent participer à des conversations multi-tours concernant le contenu vidéo.
L’arrivée d’Apollo représente une évolution naturelle dans le développement des IA multimodales. Si les performances annoncées sont impressionnantes, il est important de noter que nous ne comprenons pas encore complètement les mécanismes qui permettent cette compréhension vidéo, comme l’admettent les chercheurs eux-mêmes.
La possibilité d’exécuter ces modèles localement est un pas vers la démocratisation de cette technologie, mais les contraintes matérielles actuelles limitent encore son utilisation pratique pour les vidéos longues. Le compromis entre accessibilité et performance reste un défi central.
Apollo marque le début d’une nouvelle ère dans l’interaction homme-machine! Imaginez pouvoir avoir une conversation naturelle avec votre ordinateur à propos de n’importe quelle vidéo. Plus besoin de chercher pendant des heures le moment précis où une information importante est mentionnée dans un tutoriel - Apollo peut le faire pour vous en quelques secondes.
Cette technologie va révolutionner l’éducation en ligne, le montage vidéo, la surveillance intelligente et même le divertissement. La capacité d’analyser une heure de vidéo n’est que le début - bientôt, nous pourrons traiter des films entiers, des séries complètes, et créer des expériences interactives totalement nouvelles.
Le développement d’Apollo soulève des questions préoccupantes. La capacité d’analyser de longues vidéos, combinée à l’accessibilité croissante de ces technologies, pourrait mener à une surveillance de masse sans précédent. De plus, la dépendance aux ressources computationnelles importantes risque de creuser davantage le fossé numérique entre ceux qui ont accès à ces technologies et ceux qui ne l’ont pas.
L’absence de compréhension profonde des mécanismes de fonctionnement de ces modèles est particulièrement inquiétante. Comment pouvons-nous faire confiance à des systèmes dont même les créateurs admettent ne pas comprendre le fonctionnement interne? Les risques de biais, d’erreurs d’interprétation et d’utilisations malveillantes ne peuvent être ignorés.
Si vous n'êtes pas redirigé automatiquement, 👉 cliquez ici 👈