Patrick Bélanger
Article en référence: https://i.redd.it/l702dxbryuje1.jpeg
Le lancement de Grok 3 par xAI soulĂšve des dĂ©bats intenses dans la communautĂ© de lâIA. Cette nouvelle version est comparĂ©e Ă O3, un modĂšle dĂ©veloppĂ© par OpenAI mais non encore disponible publiquement. Les benchmarks prĂ©sentĂ©s par xAI positionnent Grok 3 comme Ă©tant parmi les modĂšles les plus performants, bien que cette affirmation soit contestĂ©e.
O3 existe en plusieurs versions : une version âminiâ accessible, et une version âhighâ qui nĂ©cessiterait jusquâĂ 1000$ par requĂȘte en raison de sa puissance de calcul. Les Ă©valuations techniques suggĂšrent que Grok 3 se situe au niveau des meilleurs modĂšles actuels comme Claude 3.5, particuliĂšrement pour les tĂąches de base.
La rĂ©alitĂ© se situe probablement entre les affirmations marketing et les critiques. Grok 3 reprĂ©sente une avancĂ©e technique significative pour une Ă©quipe ayant dĂ©marrĂ© il y a seulement un an, comme le souligne Andrej Karpathy. Cependant, les comparaisons directes restent difficiles car les benchmarks sont souvent sĂ©lectifs et les conditions dâĂ©valuation varient.
La maturitĂ© du marchĂ© de lâIA gĂ©nĂ©rative nâest pas encore atteinte, comme en tĂ©moigne la volatilitĂ© des classements qui changent tous les trois mois. Cette situation reflĂšte un domaine en pleine Ă©volution oĂč la performance pure nâest quâun aspect parmi dâautres.
Imaginez une course de Formule 1 oĂč les voitures changent de caractĂ©ristiques en pleine course. Ferrari annonce avoir la voiture la plus rapide, mais sur une piste spĂ©cifique et avec un carburant spĂ©cial coĂ»tant 1000$ le litre. Pendant ce temps, une nouvelle Ă©curie arrive avec une voiture qui rivalise avec les meilleures sur certains circuits, mais pas tous. Câest un peu la situation actuelle de lâIA : des performances impressionnantes mais difficiles Ă comparer Ă©quitablement.
LâarrivĂ©e de Grok 3 dĂ©montre que lâinnovation dans lâIA nâest pas limitĂ©e aux gĂ©ants Ă©tablis. En seulement un an, une nouvelle Ă©quipe a rĂ©ussi Ă dĂ©velopper un modĂšle rivalisant avec les meilleurs. Cette compĂ©tition stimule lâinnovation et pousse chaque acteur Ă sâamĂ©liorer, ce qui bĂ©nĂ©ficie Ă toute lâindustrie.
La diversitĂ© des approches et des modĂšles permet dâexplorer diffĂ©rentes directions technologiques, accĂ©lĂ©rant potentiellement les dĂ©couvertes majeures. La dĂ©mocratisation des outils dâIA avancĂ©s semble plus proche que jamais.
La course aux annonces spectaculaires et aux benchmarks sélectifs masque des préoccupations légitimes. Les coûts de calcul astronomiques des modÚles les plus performants les rendent inaccessibles pour la plupart des utilisations réelles. De plus, la précipitation dans le développement et le déploiement de ces systÚmes soulÚve des questions sur leur fiabilité et leurs biais potentiels.
Lâabsence de standards communs dâĂ©valuation et la manipulation possible des benchmarks crĂ©ent une bulle dâattentes potentiellement irrĂ©alistes. Le risque est de voir se dĂ©velopper des systĂšmes dâIA plus impressionnants sur le papier que vĂ©ritablement utiles dans la pratique.
Si vous n'ĂȘtes pas redirigĂ© automatiquement, đ cliquez ici đ