La Révolution Robotique de Google : De Nouveaux Modèles d'IA Audacieux Évoquent des Machines Pensantes, Mais la Réalité Reste en Deçà des Promesses
L'IA Gemini Robotics de Google Brille sur Scène, Tandis que les Experts Préviennent Qu'elle N'est Pas Encore Prête Pour un Usage Courant
Google DeepMind a levé le voile mercredi sur ce qu'il a décrit comme une avancée majeure vers la « résolution de l'AGI (intelligence artificielle générale) dans le monde physique ». L'entreprise a présenté deux nouveaux modèles d'intelligence artificielle qui ne se contentent pas d'exécuter des commandes, mais semblent raisonner, planifier et exécuter des tâches robotiques d'une manière étonnamment humaine.
Les démonstrations soignées ont fait sensation. Des robots pliaient du linge, triaient des déchets et expliquaient leurs décisions à voix haute comme s'ils réfléchissaient au processus. Toutefois, en coulisses, les experts appellent à la prudence. Ils soutiennent que si les avancées sont enthousiasmantes, le chemin vers des machines intelligentes fiables et quotidiennes reste long et semé d'embûches.
Une Nouvelle Génération de Robots
Les vedettes de l'annonce de Google étaient Gemini Robotics 1.5 et son modèle jumeau, Gemini Robotics-ER 1.5. Contrairement aux systèmes robotiques plus anciens qui fonctionnaient davantage comme des logiciels de pilote automatique, ces modèles visent à réfléchir avant d'agir. Ils peuvent raisonner sur leur environnement, décomposer des tâches complexes en plusieurs étapes et même s'adapter lorsque quelque chose d'inattendu se produit.
Carolina Parada, chercheuse sur le projet, a résumé l'ambition de Google : « Nous sommes en train de donner le coup d'envoi à une ère d'agents physiques, permettant aux robots de percevoir, planifier, penser, utiliser des outils et agir pour mieux résoudre des tâches complexes et multi-étapes. »
Voici comment cela fonctionne. Le modèle Gemini Robotics-ER 1.5 agit comme le « cerveau de haut niveau » du robot. Il détermine ce qui doit être fait, en utilisant la conscience spatiale, le langage naturel et des outils en ligne. Par exemple, si on lui demande de trier des déchets, il peut rechercher sur Google les règles de recyclage locales avant de décider où chaque objet doit être placé. Le modèle standard Gemini Robotics 1.5 prend ensuite ces plans et les convertit en mouvements précis, tout en maintenant son propre processus de raisonnement.
Lors de la démonstration de Google, un robot a reçu la commande de trier des objets dans des conteneurs de compost, de recyclage et de déchets. Sans formation supplémentaire, il a recherché les directives locales, analysé chaque objet et exécuté la tâche, en narrant son processus de pensée tout au long du chemin.
Peut-être le plus impressionnant, les modèles peuvent effectuer un « apprentissage multi-robotique » (cross-embodiment learning). Les compétences acquises sur un type de robot se transfèrent de manière transparente à des machines complètement différentes. Une tâche apprise sur le robot de recherche ALOHA 2 de Google a été transférée au robot humanoïde Apollo d'Apptronik et au robot à double bras Franka sans formation supplémentaire. Ce type de généralisation a longtemps été le Graal des roboticiens.
Des Démonstrations Spectaculaires, Mais une Image Incomplète
Malgré les démonstrations époustouflantes, les vétérans de l'industrie appellent à une vision plus sobre. L'équipe d'ingénierie de CTOL.digital a salué la technologie comme « impressionnante en démonstration mais lente et à un stade précoce » lors d'essais en conditions réelles.
La capacité à « penser avant d'agir » est véritablement nouvelle, ont-ils déclaré, et pourrait réduire les réglages minutieux et laborieux habituellement nécessaires pour différents robots. Mais en pratique, les modèles ont montré un décalage notable et une fiabilité chancelante dans des environnements désordonnés et imprévisibles.
La latence est apparue comme un problème majeur. Les processus de raisonnement, ou ce que Google appelle son « budget de pensée », exigent une puissance de calcul élevée. Cela ralentit les performances, un obstacle rédhibitoire pour des robots censés fonctionner rapidement dans le monde réel.
« Les limitations de l'aperçu incluent des API changeantes, des coûts de calcul et une forte dépendance à la qualité des invites et des entrées visuelles », a noté l'équipe de CTOL.digital. En d'autres termes, ces modèles sont idéaux pour l'expérimentation mais loin d'être prêts pour les usines, les hôpitaux ou les foyers.
Critères de Référence Face à la Réalité
Google n'est pas venue les mains vides. L'entreprise s'est vantée que Gemini Robotics-ER 1.5 ait établi des records sur 15 critères de référence académiques, y compris des tests de raisonnement spatial, d'analyse vidéo et de réponse aux questions incarnées. Sur le papier, le modèle semble être un élève modèle.
Mais les critères de référence capturent rarement le chaos de la vie quotidienne. Un robot pourrait exceller à trier des blocs colorés dans un laboratoire impeccable, pour se bloquer face à un éclairage tamisé, des comptoirs encombrés ou des objets de forme étrange dans une vraie cuisine. Ce fossé entre la théorie et la pratique reste l'un des obstacles les plus ardus de la robotique.
La Sécurité Sous les Projecteurs
Avec des machines capables de raisonner de manière plus autonome, la sécurité n'est plus une question annexe – elle est centrale. Google affirme avoir intégré des couches de protection, y compris des vérifications de sécurité de haut niveau avant toute action, un alignement avec des politiques de sécurité d'IA plus larges et des systèmes de bas niveau pour l'évitement des collisions.
L'entreprise a également lancé une nouvelle version de son benchmark ASIMOV, un ensemble de données conçu pour tester la capacité des robots à gérer la sécurité sémantique. Les premiers essais ont montré que Gemini Robotics-ER 1.5 a géré les règles de sécurité assez bien, en partie grâce à sa capacité à réfléchir au contexte avant de bouger.
Néanmoins, les ingénieurs de CTOL.digital ont signalé des préoccupations. Ils ont souligné que « des couches de sécurité sont requises » et ont averti que les compromis entre sécurité et vitesse continueront d'entraver le système dans sa forme actuelle.
Pourquoi C'est Important
Le dévoilement de Google met en lumière un changement dans la façon dont le monde de la technologie perçoit l'avenir de l'IA. Au lieu de simplement automatiser des tâches répétitives, l'accent est désormais mis sur la création de machines capables de raisonner et de s'adapter comme les humains. Si cela fonctionne, les retombées pourraient être énormes. Des robots plus intelligents pourraient révolutionner des industries allant de la fabrication et de la logistique aux soins de santé et à l'assistance à domicile.
Pour les développeurs, le modèle Gemini Robotics-ER 1.5 est déjà disponible via Google AI Studio. Le plus avancé Gemini Robotics 1.5 est limité à certains partenaires pour l'instant. Cette publication échelonnée suggère que Google est conscient des limites de la technologie, même si elle suscite l'enthousiasme.
CTOL.digital a le mieux cerné l'état d'esprit : « Il y a un véritable enthousiasme autour de la planification unifiée et du concept de « penser avant d'agir ». Mais il y a aussi un certain scepticisme quant à savoir si cela représente une « pensée » authentique ou un marketing sophistiqué. »
Le Long Chemin à Parcourir
L'annonce de Google intervient en plein milieu d'une course à l'armement entre les géants de la technologie pour prouver que leurs grands modèles linguistiques peuvent faire plus que produire du texte. En ancrant l'IA dans des tâches physiques, Google tente de prendre l'avantage.
Malgré cela, des évaluateurs indépendants prédisent que la technologie est « encore à des années d'une adoption domestique », bien qu'elle puisse s'avérer utile plus tôt dans des projets pilotes d'entreprise où les conditions peuvent être strictement contrôlées.
Pour l'instant, Gemini Robotics 1.5 ressemble moins à un produit fini et davantage à un projet audacieux – un aperçu de ce qui est possible, pas de ce qui est prêt aujourd'hui. Alors que les robots commencent à planifier, raisonner et agir de manières qui semblent étonnamment humaines, la question n'est pas de savoir si elles vont remodeler la vie quotidienne, mais quand.
L'histoire nous apprend que les révolutions ne se produisent pas du jour au lendemain. Elles se déroulent par petites étapes, presque invisibles. Un jour, un robot pourrait trier discrètement vos déchets recyclables ou plier vos vêtements sans faire d'histoires. C'est à ce moment-là que vous saurez que l'ère des machines pensantes est véritablement arrivée.
Ceci n'est pas un conseil en investissement.