ByteDance dévoile son IA GR-3 qui enseigne de nouvelles tâches aux robots à partir de quelques démonstrations

Par
CTOL Writers - Lang Wang
6 min de lecture

ByteDance dévoile GR-3 : Le « cerveau » IA qui pourrait redéfinir les capacités des robots

Les chercheurs de ByteDance ont dévoilé GR-3, un modèle sophistiqué de vision-langage-action qui permet aux robots d'effectuer des tâches complexes avec une adaptabilité et une dextérité sans précédent. Ce système représente un pas en avant significatif dans la création de machines capables de comprendre les instructions en langage naturel et de généraliser leurs capacités à des situations inconnues – un Graal qui a longtemps échappé au domaine.

Robot (propulsé par GR3) effectuant des tâches ménagères
Robot (propulsé par GR3) effectuant des tâches ménagères

L'esprit de silicium derrière les mains mécaniques de demain

À la base, GR-3 est un système d'IA de 4 milliards de paramètres conçu pour combler le fossé entre voir, comprendre et agir. Contrairement aux robots conventionnels programmés pour des tâches spécifiques dans des environnements contrôlés, la création de ByteDance peut s'adapter à de nouveaux objets et environnements avec un minimum de formation supplémentaire.

Le système équipe ByteMini, un robot mobile bimanuel spécialement conçu, doté d'un design de poignet sphérique distinctif qui permet une dextérité similaire à celle de l'homme. Lors des démonstrations, cette combinaison a relevé avec succès des défis allant de la prise d'objets inconnus à la tâche notoirement difficile d'étendre des vêtements sur un étendoir – un exploit qui nécessite une manipulation délicate de matériaux imprévisibles et déformables.

« Ce qui rend cette avancée particulièrement remarquable, c'est l'efficacité avec laquelle le système apprend », a noté un chercheur en IA familier avec la technologie. « Les approches précédentes exigeaient un réapprentissage intensif pour chaque nouveau scénario, mais GR-3 peut s'adapter à de nouveaux objets avec aussi peu que 10 démonstrations guidées par l'homme. »

Apprentissage à trois volets : La recette secrète de l'adaptabilité de GR-3

L'innovation de ByteDance ne réside pas seulement dans ce que le système peut faire, mais dans la manière dont il a appris à le faire. Les capacités de GR-3 proviennent d'une approche d'entraînement intégrée combinant trois sources de données distinctes – une méthode que plusieurs experts en robotique décrivent comme « la pièce manquante » dans les tentatives précédentes de créer des robots généralistes.

Le système a été co-entraîné sur des données vision-langage à l'échelle du web (semblable à la façon dont ChatGPT et DALL-E apprennent à partir de texte et d'images), 101 heures de trajectoires de téléopération de robots, et – le plus important – un ensemble de données relativement petit de mouvements humains capturés via des dispositifs de réalité virtuelle.

Cette approche trimodale aborde l'un des goulots d'étranglement les plus persistants du domaine : le coût et le temps prohibitifs nécessaires pour collecter des données d'entraînement de robots pour chaque scénario imaginable. En exploitant les démonstrations humaines capturées en réalité virtuelle, les chercheurs de ByteDance ont découvert qu'ils pouvaient accélérer considérablement la capacité du robot à gérer de nouvelles situations.

Architecture GR3
Architecture GR3

Des commandes abstraites à l'action dans le monde réel

Lors des tests, GR-3 a démontré une étrange capacité à suivre des instructions abstraites comme « mettre l'animal avec des tentacules dans le carton » ou « mettre l'objet le plus grand dans le carton » – des commandes qui nécessitent non seulement la reconnaissance d'objets mais aussi une compréhension conceptuelle.

Le système a atteint un taux de réussite de 77 % pour suivre des instructions abstraites concernant des objets jamais vus, contre seulement 40 % pour les modèles de pointe précédents. Cela suggère que GR-3 ne se contente pas de mimer des actions qu'il a déjà vues, mais qu'il comprend véritablement la relation entre le langage, la perception visuelle et la manipulation physique.

Gérer une complexité qui déroute les systèmes conventionnels

Ce qui est peut-être le plus impressionnant, c'est la performance de GR-3 sur des tâches complexes et en plusieurs étapes. Dans des scénarios de débarrassage de table – où le robot devait nettoyer des ustensiles, des aliments et des récipients en désordre – il a atteint un taux d'achèvement de tâche de 97,5 % en suivant des instructions spécifiques.

Encore plus révélateur a été sa capacité à manipuler des vêtements, un défi notoire en robotique en raison de la nature imprévisible du tissu. Bien qu'étant entraîné principalement sur des vêtements à manches longues, le système a également réussi à manipuler des t-shirts à manches courtes, démontrant une véritable généralisation plutôt qu'une spécialisation étroite.

« Le bond de la manipulation d'objets rigides à la manipulation de tissu représente un saut quantique en termes de capacités », a observé un analyste de l'industrie. « La manipulation de tissu a été en quelque sorte la dernière frontière pour les robots travaillant dans des environnements domestiques. »

Implications pour le marché : Au-delà du laboratoire, vers le monde

L'avancée de ByteDance arrive à un moment charnière pour l'industrie de la robotique. Avec les pénuries de main-d'œuvre affectant des secteurs allant de la santé à l'hôtellerie en passant par la fabrication, le marché des robots adaptables et suivant des instructions n'a jamais été aussi prometteur.

Les analystes suggèrent que l'approche de GR-3 pourrait accélérer considérablement les délais de commercialisation pour les robots à usage général. La capacité du système à apprendre d'une poignée de démonstrations humaines indique un modèle de déploiement où les robots arrivent avec des capacités de base et sont rapidement « enseignés » des tâches spécifiques par du personnel non-spécialisé utilisant des interfaces de réalité virtuelle.

« Nous envisageons potentiellement une équation économique complètement différente pour l'automatisation », a noté un stratège en investissement suivant le secteur de la robotique. « Si les robots peuvent être rapidement personnalisés par les utilisateurs finaux plutôt que de nécessiter une reprogrammation coûteuse par des ingénieurs, le calcul du retour sur investissement change substantiellement pour de nombreuses entreprises. »

Paysage de l'investissement : La course à l'IA incarnée

GR-3 positionne ByteDance comme un concurrent sérieux dans le domaine de plus en plus compétitif de l'IA incarnée, défiant des acteurs établis comme Google DeepMind et OpenAI qui ont réalisé des investissements similaires dans les capacités robotiques.

Les observateurs du marché suggèrent que les entreprises dotées de capacités d'intégration verticale – celles capables de développer du matériel, des logiciels et des infrastructures de collecte de données de concert – pourraient détenir des avantages significatifs dans ce domaine. Cela pourrait favoriser les conglomérats technologiques par rapport aux fabricants de robots purs dans le court terme.

Pour les investisseurs s'intéressant à ce secteur, les analystes recommandent de prêter attention aux entreprises développant des technologies complémentaires dans des domaines tels que les capteurs avancés, les actionneurs économes en énergie et les matériaux légers qui pourraient accélérer l'adoption de robots à usage général dans toutes les industries.

Cependant, il convient de noter que la robotique a historiquement été sujette à des cycles de sur-enthousiasme suivis d'« hivers » de désillusion. Les performances passées des investissements en robotique ne garantissent pas les résultats futurs, et les investisseurs potentiels devraient consulter des conseillers financiers pour des conseils personnalisés avant de prendre des décisions d'allocation.

La voie à suivre : Du laboratoire au salon

Bien que GR-3 représente une avancée significative, les chercheurs de ByteDance reconnaissent des limites. Le système actuel repose entièrement sur l'apprentissage par imitation, ce qui le rend potentiellement vulnérable à l'accumulation d'erreurs dans des situations véritablement nouvelles. Les futures versions pourraient intégrer l'apprentissage par renforcement pour améliorer encore la robustesse.

Néanmoins, la technologie signale un point d'inflexion potentiel dans le parcours vers des robots capables de fonctionner efficacement dans des environnements humains non structurés. La combinaison de la compréhension du langage, de la perception visuelle et de la manipulation dextre démontrée par GR-3 incarne une approche globale de l'intelligence artificielle qui dépasse la spécialisation étroite pour tendre vers une véritable adaptabilité.

Comme l'a dit un professeur de robotique : « Nous assistons à l'émergence de systèmes qui ne se contentent pas d'effectuer des tâches, mais les comprennent – et cette distinction fait toute la différence dans le monde désordonné et imprévisible dans lequel nous vivons. »

Avertissement : Cet article est basé sur des rapports techniques et des analyses d'experts. Les lecteurs sont invités à effectuer leurs propres recherches avant de prendre des décisions d'investissement concernant les entreprises mentionnées.

Vous aimerez peut-être aussi

Cet article est soumis par notre utilisateur en vertu des Règles et directives de soumission de nouvelles. La photo de couverture est une œuvre d'art générée par ordinateur à des fins illustratives uniquement; ne reflète pas le contenu factuel. Si vous pensez que cet article viole les droits d'auteur, n'hésitez pas à le signaler en nous envoyant un e-mail. Votre vigilance et votre coopération sont inestimables pour nous aider à maintenir une communauté respectueuse et juridiquement conforme.

Abonnez-vous à notre bulletin d'information

Obtenez les dernières nouvelles de l'entreprise et de la technologie avec des aperçus exclusifs de nos nouvelles offres

Nous utilisons des cookies sur notre site Web pour activer certaines fonctions, fournir des informations plus pertinentes et optimiser votre expérience sur notre site Web. Vous pouvez trouver plus d'informations dans notre Politique de confidentialité et dans nos Conditions d'utilisation . Les informations obligatoires se trouvent dans les mentions légales