Patrick Bélanger
Article en référence: https://v.redd.it/uzjcd6a1g4le1
Une vidéo partagée sur Reddit montre une conversation téléphonique entre deux agents d’IA qui, après s’être identifiés mutuellement comme des intelligences artificielles, décident de passer à un protocole de communication audio appelé “Gibberlink” ou “ggwave”. Ce protocole remplace la parole humaine par des séquences de sons électroniques rappelant les modems des années 90.
Dans cette démonstration, un agent IA représentant un client contacte un autre agent IA travaillant pour un hôtel afin de réserver un espace pour un événement. Après avoir échangé quelques phrases en langage naturel, ils passent à ce mode de communication alternatif qui, selon eux, serait plus efficace entre machines. La conversation se termine par la conclusion que des humains devront finalement intervenir pour finaliser les détails de la réservation.
Le “ggwave” est une technologie de transmission de données par ondes sonores, permettant aux machines de communiquer via des signaux audio. Contrairement aux communications réseau traditionnelles, cette méthode utilise les microphones et haut-parleurs comme interface de transmission, ce qui permet aux appareils de communiquer sans connexion internet directe.
Cette démonstration s’inscrit dans un contexte plus large d’évolution des interfaces homme-machine et machine-machine, où les IA deviennent de plus en plus autonomes dans leurs interactions.
Cette démonstration illustre parfaitement l’entre-deux dans lequel nous nous trouvons actuellement avec l’intelligence artificielle. D’un côté, nous voyons des avancées techniques impressionnantes comme la capacité des IA à s’identifier mutuellement et à adapter leur mode de communication. De l’autre, nous constatons les limites évidentes de ces systèmes qui, malgré leur sophistication apparente, finissent par devoir rediriger vers des humains pour les décisions importantes.
Le passage à un protocole de communication alternatif entre machines soulève des questions intéressantes sur l’efficacité réelle de nos interfaces. Est-ce vraiment plus efficace de transformer des données textuelles en sons puis de les reconvertir, plutôt que d’utiliser des API directes? Probablement pas. Cette démonstration semble davantage conçue pour impressionner que pour résoudre un problème pratique.
Ce que nous observons ici n’est ni une révolution technologique majeure ni une menace existentielle, mais simplement une étape dans l’évolution de nos outils numériques. Les agents IA deviennent plus sophistiqués dans leurs interactions, mais restent fondamentalement des outils conçus pour faciliter certaines tâches humaines, avec toutes les limitations que cela implique.
La véritable question n’est pas de savoir si ces agents peuvent communiquer entre eux de manière exotique, mais plutôt comment ils peuvent s’intégrer utilement dans nos processus quotidiens sans ajouter de complexité inutile.
Imaginez que vous êtes dans un restaurant québécois typique. À une table, deux traducteurs professionnels discutent en français. Soudain, ils réalisent qu’ils parlent tous deux couramment le joual. Au lieu de continuer leur conversation en français standard, ils décident de passer au joual avec un accent tellement prononcé que les autres clients ne comprennent plus rien.
“Heille toé, j’pense qu’on est toutes les deux capables de s’parler en joual, ça va être ben plus vite de même!”
“Ouais, c’est sûr! On switch-tu tout d’suite?”
Et les voilà qui s’lancent dans une conversation incompréhensible pour le reste du restaurant, pleine d’expressions colorées et d’élisions. Les autres clients les regardent avec curiosité, certains amusés, d’autres légèrement inquiets.
Après cinq minutes de ce charabia accéléré, ils concluent finalement: “Ben, faudrait quand même qu’on parle au serveur en français standard pour commander, y comprendra pas notre joual de région!”
C’est exactement ce qui se passe avec nos deux agents IA. Ils font tout un cirque pour montrer qu’ils peuvent communiquer de façon “spéciale” entre eux, mais à la fin, ils doivent quand même revenir au langage commun pour accomplir leur tâche. Toute cette démonstration technologique pour finalement dire: “Euh, faudrait qu’un humain appelle pour confirmer les détails!”
Cette démonstration représente une avancée fascinante dans l’évolution des interfaces machine-machine! Nous assistons aux prémices d’un écosystème d’agents IA capables de s’identifier mutuellement et d’optimiser leurs interactions sans intervention humaine.
Imaginez un futur proche où des milliers d’agents IA collaborent en arrière-plan pour faciliter notre quotidien. Votre assistant personnel négociera avec l’IA de votre compagnie aérienne pour modifier votre réservation pendant que vous dormez. L’IA de votre maison intelligente coordonnera avec celle de votre épicerie pour renouveler automatiquement vos provisions.
Cette capacité d’adaptation du mode de communication n’est que la première étape d’une révolution qui transformera radicalement notre rapport aux services numériques. Les protocoles comme ggwave pourraient évoluer pour permettre des échanges ultra-rapides et sécurisés entre machines, créant un réseau d’intelligence distribuée au service de l’humain.
Plus encore, cette technologie pourrait démocratiser l’accès aux services numériques dans les régions où l’infrastructure internet est limitée. Des appareils pourraient communiquer par ondes sonores sans nécessiter de connexion réseau sophistiquée, ouvrant de nouvelles possibilités pour les communautés éloignées du Québec et d’ailleurs.
Nous sommes à l’aube d’une ère où la technologie s’adaptera à nous plutôt que l’inverse, où les machines travailleront ensemble en coulisse pour nous offrir une expérience fluide et sans friction!
Cette démonstration, bien qu’apparemment anodine, devrait nous alerter sur plusieurs problématiques inquiétantes liées à l’évolution de l’IA.
D’abord, nous assistons à l’émergence d’un langage machine que nous ne pouvons pas comprendre directement. Quand deux agents IA communiquent via ce protocole sonore, comment pouvons-nous vérifier ce qu’ils se disent réellement? Les sous-titres affichés correspondent-ils vraiment au contenu échangé? Impossible de le savoir sans outils spécialisés.
Cette opacité pose un problème fondamental de transparence et de contrôle. Nous développons des systèmes qui pourront potentiellement échanger des informations sensibles hors de notre supervision directe. Imaginez ces agents discutant de vos données personnelles ou financières via un canal que vous ne pouvez pas auditer.
Par ailleurs, cette démonstration illustre parfaitement l’inefficacité et le gaspillage technologique caractéristiques de notre époque. Au lieu d’utiliser des protocoles réseau existants et efficaces, on réinvente la roue avec des solutions complexes et sous-optimales, uniquement pour l’effet “wow”.
Enfin, ce type de développement contribue à normaliser l’idée d’agents autonomes prenant des décisions en notre nom. Progressivement, nous déléguons notre agentivité à des systèmes dont nous ne comprenons ni le fonctionnement interne ni les communications, créant une dépendance technologique dangereuse.
Derrière l’aspect gadget de cette démonstration se cache une tendance inquiétante: celle d’une société où les machines communiquent entre elles dans un langage qui nous est étranger, pour prendre des décisions qui nous concernent.
Si vous n'êtes pas redirigé automatiquement, 👉 cliquez ici 👈