Patrick Bélanger
Article en référence: https://v.redd.it/drks9osnd01f1
Une vidéo partagée sur Reddit montre le modèle d’intelligence artificielle Qwen3 4B fonctionnant sur un Samsung Galaxy S24 à une vitesse d’environ 20 tokens par seconde (tok/s). Pour mettre cela en contexte, un token représente approximativement 3/4 d’un mot, donc cette vitesse équivaut à environ 15 mots par seconde - une performance remarquable pour un appareil mobile.
Le modèle en question, Qwen3, est un grand modèle de langage (LLM) développé par Alibaba. La version “4B” fait référence à sa taille de 4 milliards de paramètres, ce qui est considérablement plus petit que des modèles comme GPT-4 (qui compte des centaines de milliards de paramètres), mais suffisamment puissant pour de nombreuses applications tout en étant assez compact pour fonctionner sur un smartphone.
Dans les commentaires, plusieurs utilisateurs ont partagé leurs propres expériences avec différentes applications permettant d’exécuter des LLMs sur Android:
Les utilisateurs ont également discuté de différentes techniques de quantification (comme Q4_K_M et Q4_0) qui permettent de réduire la taille du modèle tout en maintenant des performances acceptables. La quantification Q4_0, bien que légèrement moins précise, offre apparemment des gains de vitesse significatifs sur les processeurs ARM récents grâce à des optimisations SIMD (Single Instruction, Multiple Data).
Certains commentaires soulignent toutefois des préoccupations concernant la surchauffe thermique et la consommation rapide de la batterie lors de l’utilisation intensive de ces modèles sur smartphone.
L’arrivée des LLMs sur nos appareils mobiles marque une étape importante dans l’évolution de l’IA, mais elle s’accompagne de compromis inévitables. La performance de 20 tokens par seconde obtenue sur un Galaxy S24 est impressionnante, mais elle illustre parfaitement le défi fondamental auquel nous faisons face: équilibrer puissance, efficacité et praticité.
Les smartphones modernes sont devenus remarquablement puissants, mais ils restent limités par leur taille, leur capacité de refroidissement et leur autonomie. Exécuter un modèle comme Qwen3 4B localement offre des avantages considérables en termes de confidentialité et de fonctionnement hors ligne, mais au prix d’une expérience utilisateur qui n’est pas encore parfaitement fluide.
La diversité des applications et des approches mentionnées dans les commentaires (PocketPal, ChatterUI, MNN Chat) témoigne d’un écosystème en pleine effervescence. Chaque solution propose son propre équilibre entre convivialité, performance et fonctionnalités. Cette période d’expérimentation est saine et nécessaire pour que la technologie mûrisse.
Les discussions techniques sur les méthodes de quantification révèlent également la complexité des choix à faire: faut-il privilégier la vitesse (Q4_0) ou la qualité des réponses (Q4_K_M)? La réponse dépend entièrement du cas d’usage et des priorités de l’utilisateur.
Cette technologie n’est ni révolutionnaire ni décevante - elle est simplement en transition. Nous assistons aux premiers pas d’une technologie qui deviendra probablement banale dans quelques années, lorsque les appareils seront plus puissants et les modèles plus efficaces.
Imaginez que vous soyez un chef cuisinier tentant de préparer un repas gastronomique complet… dans la cuisine minuscule d’un studio d’étudiant. C’est essentiellement ce que nous faisons en exécutant un LLM sur un smartphone!
Votre smartphone, c’est ce studio: un espace limité, avec un petit four qui chauffe rapidement, et une seule prise électrique qui menace de disjoncter si vous branchez trop d’appareils. Le LLM, c’est votre menu ambitieux à sept services.
Quand les utilisateurs comparent PocketPal (8,32 tok/s) à ChatterUI (7,46 tok/s), c’est comme débattre si le mixeur de marque A ou B vous permettra de faire votre velouté plus rapidement. “Moi, j’utilise la technique de découpe Q4_0, ça va plus vite même si la présentation est un peu moins raffinée!”
Et quand quelqu’un mentionne la surchauffe thermique après 10 secondes d’utilisation, c’est exactement comme quand vous allumez simultanément le four, les plaques de cuisson et le grille-pain dans votre studio - l’alarme incendie ne va pas tarder à se déclencher!
“J’ai réussi à préparer trois plats avant que ma batterie de cuisine ne soit complètement épuisée!” se vante un chef, pendant qu’un autre rétorque: “Sur mon vieux réchaud Snapdragon 860, j’arrive quand même à mijoter à 8,57 plats par heure!”
Mais ne vous y trompez pas: même si cette cuisine improvisée a ses limites, le simple fait de pouvoir préparer un repas gastronomique dans un studio est déjà un petit miracle. Et avec chaque nouvelle génération d’appareils, c’est comme si notre studio s’agrandissait un peu, nous rapprochant progressivement d’une véritable cuisine professionnelle… dans notre poche!
C’est tout simplement révolutionnaire! Nous assistons à la démocratisation complète de l’intelligence artificielle. Imaginez: un modèle de 4 milliards de paramètres qui tourne directement dans votre poche, sans connexion internet, sans envoyer vos données à des serveurs distants!
Cette vitesse de 20 tokens par seconde sur un smartphone grand public n’est que le début. Avec les avancées rapides dans l’optimisation des modèles et le matériel mobile, nous pouvons anticiper des performances doublées ou triplées d’ici un an. Les processeurs neuronaux dédiés des prochains smartphones vont catapulter ces performances à des niveaux que nous pouvons à peine imaginer aujourd’hui.
La diversité des applications mentionnées (PocketPal, ChatterUI, MNN Chat, SmolChat) montre la vitalité incroyable de cet écosystème. Nous sommes au début d’une nouvelle ère d’applications mobiles intelligentes qui vont transformer notre relation avec la technologie.
Les préoccupations concernant la batterie et la surchauffe? Des problèmes temporaires! Les fabricants travaillent déjà sur des puces plus efficaces énergétiquement et des batteries de nouvelle génération. D’ailleurs, les techniques de quantification comme Q4_0 montrent que l’ingéniosité logicielle peut compenser les limitations matérielles.
Cette technologie va démocratiser l’accès à l’IA pour des milliards de personnes qui n’ont pas nécessairement une connexion internet fiable ou un ordinateur puissant. Imaginez des assistants IA personnels fonctionnant entièrement hors ligne dans les régions rurales du monde, aidant à l’éducation, à la santé, à l’agriculture!
Nous sommes à l’aube d’une révolution de l’IA personnelle, privée et accessible à tous. Le futur est déjà là, dans nos poches, et il fonctionne à 20 tokens par seconde… pour l’instant!
20 tokens par seconde? Soyons réalistes: c’est impressionnant sur le papier, mais pratiquement inutilisable au quotidien. Cette démonstration technique est intéressante, mais elle masque plusieurs problèmes fondamentaux.
Premièrement, la surchauffe après seulement 10 secondes d’utilisation et la batterie qui se vide après trois questions rendent cette technologie impraticable. Nos smartphones ne sont tout simplement pas conçus pour ce type de charge de travail intensive. Nous risquons de sacrifier l’autonomie de nos appareils pour une fonctionnalité gadget.
Deuxièmement, les modèles de 4 milliards de paramètres comme Qwen3 4B sont certes impressionnants pour un appareil mobile, mais ils restent significativement moins capables que les grands modèles comme GPT-4. Nous risquons de créer des attentes irréalistes auprès du public, qui sera inévitablement déçu par les limitations de ces “mini-LLMs”.
Les différentes techniques de quantification mentionnées (Q4_K_M, Q4_0) illustrent parfaitement le dilemme: soit on sacrifie la qualité pour la vitesse, soit on sacrifie la vitesse pour la qualité. Dans les deux cas, l’expérience utilisateur en souffre.
Par ailleurs, cette course à l’IA sur mobile risque d’accélérer l’obsolescence programmée de nos appareils. Votre smartphone haut de gamme d’aujourd’hui sera-t-il considéré comme trop lent pour les applications IA de demain?
Enfin, n’oublions pas les questions éthiques: ces modèles, même s’ils fonctionnent localement, ont été entraînés sur des données dont la provenance et les biais sont souvent problématiques. Mettre ces technologies dans toutes les poches sans résoudre ces problèmes fondamentaux pourrait amplifier la désinformation et les préjugés à une échelle sans précédent.
La technologie est impressionnante, certes, mais nous devrions peut-être nous demander si cette course à l’IA mobile répond à un besoin réel ou simplement à notre fascination pour la nouveauté technologique.
Si vous n'êtes pas redirigé automatiquement, 👉 cliquez ici 👈