NVIDIA lance les modèles d'IA Cosmos-Reason1 qui peuvent comprendre la physique et contrôler des robots par le langage naturel

Par
Lang Wang
7 min de lecture

NVIDIA dévoile Cosmos-Reason1 : Des modèles d'IA révolutionnaires qui relient la compréhension physique et le raisonnement incarné

Les chercheurs de NVIDIA ont présenté Cosmos-Reason1, une famille de modèles de langage étendus multimodaux inédite qui représente une avancée majeure dans la capacité de l'intelligence artificielle à comprendre et à raisonner sur le monde physique. Ces nouveaux modèles d'IA, disponibles en versions à 7 milliards et 56 milliards de paramètres, sont spécifiquement conçus pour doter les systèmes d'IA de bon sens physique et de capacités de raisonnement incarné, ce qui pourrait révolutionner la robotique, les véhicules autonomes et les applications de réalité augmentée.

Un cadre complet pour l'IA physique

L'équipe de recherche de NVIDIA a développé Cosmos-Reason1 grâce à une approche systématique innovante qui s'attaque à l'un des défis les plus persistants de l'IA : le manque d'ancrage physique dans les grands modèles de langage. Le processus de développement a impliqué la création d'ontologies complètes, la curation de vastes ensembles de données et la mise en œuvre de méthodologies d'entraînement spécialisées pour combler le fossé entre l'IA basée sur le langage et l'interaction physique avec le monde réel.

Les chercheurs ont élaboré deux ontologies distinctes pour structurer leur approche. La première est une ontologie hiérarchique qui organise le bon sens physique en trois catégories principales : l'Espace, le Temps et la Physique Fondamentale, elles-mêmes subdivisées en 16 sous-catégories spécifiques. La seconde est une ontologie bidimensionnelle pour le raisonnement incarné qui cartographie quatre capacités clés (traitement sensoriel, prédiction des effets, respect des contraintes et apprentissage par l'interaction) à travers cinq types d'agents différents.

Pour entraîner ces modèles efficacement, l'équipe a sélectionné environ 4 millions de paires vidéo-texte, comprenant des tâches de questions-réponses visuelles, des traces de raisonnement en chaîne de pensée et des énigmes de physique intuitive. Le processus d'entraînement s'est déroulé en deux étapes distinctes : un ajustement fin supervisé (Physical AI Supervised Fine-Tuning) pour l'IA physique sur des données de raisonnement vidéo spécifiques au domaine, suivi d'un apprentissage par renforcement (Physical AI Reinforcement Learning) pour l'IA physique utilisant des récompenses vérifiables basées sur des règles, dérivées de questions à choix multiples.

Le développement a abouti à la création de nouveaux critères d'évaluation (benchmarks) comprenant 1 214 questions à choix multiples sur le raisonnement incarné et 604 questions sur le bon sens physique. Lors de l'évaluation par rapport à ces critères, Cosmos-Reason1 a démontré des performances supérieures, surpassant des modèles de base solides, y compris GPT-4o et Qwen2.5-VL, de 10 à 15 points dans les tâches de raisonnement incarné et de 2 à 7 points dans les tâches de raisonnement de bon sens.

Points clés : Transformer l'intelligence physique de l'IA

L'introduction de Cosmos-Reason1 marque plusieurs avancées cruciales dans le développement de l'intelligence artificielle. Les modèles démontrent que les grands modèles de langage peuvent être efficacement ancrés dans la physique du monde réel grâce à une curation de données ciblée et à des techniques d'apprentissage par renforcement. Cela représente un changement fondamental par rapport aux approches d'IA traditionnelles qui peinent souvent avec les tâches de raisonnement physique de base.

Cette recherche établit les premiers critères d'évaluation complets pour le bon sens physique et le raisonnement incarné, offrant des méthodes d'évaluation standardisées qui permettront une recherche plus comparable et reproductible dans ce domaine. Les deux ontologies proposent un cadre systématique permettant aux chercheurs de catégoriser et d'évaluer les capacités de raisonnement physique, pouvant potentiellement servir de langue véhiculaire pour l'ensemble de la communauté de l'IA.

La méthodologie d'entraînement évolutive, en particulier l'utilisation de récompenses basées sur des règles pour l'apprentissage par renforcement, démontre des approches pratiques qui pourraient être généralisées à d'autres tâches de raisonnement structuré. L'architecture hybride Mamba-MLP-Transformer utilisée dans le modèle 56B présente des solutions efficaces pour le raisonnement sur des contextes longs dans les applications multimodales.

De manière significative, NVIDIA s'est engagé à publier le code et les poids des modèles pré-entraînés sous la licence de modèle ouvert de NVIDIA, facilitant ainsi une adoption plus large et accélérant les progrès de la recherche dans les environnements académiques et commerciaux.

Analyse approfondie : Implications pour l'IA et l'industrie

L'importance de Cosmos-Reason1 dépasse largement ses réalisations techniques immédiates, représentant un changement de paradigme dans la manière dont les systèmes d'IA peuvent interagir avec le monde physique et le comprendre. Cette recherche aborde des limitations fondamentales qui ont historiquement empêché l'IA d'atteindre des performances fiables dans des applications concrètes nécessitant une compréhension physique.

D'un point de vue technique, ce travail démontre qu'un ciblage explicite des concepts de physique intuitive via des données d'entraînement dédiées améliore significativement les performances du modèle. L'accent mis sur des aspects fondamentaux tels que la "Flèche du Temps", les "Énigmes Spatiales" et la "Permanence de l'Objet" représente une nouvelle approche de l'entraînement de l'IA qui aborde des capacités souvent négligées mais cruciales pour l'interaction physique.

La méthodologie consistant à utiliser de grands modèles de langage pour générer des traces de raisonnement en chaîne de pensée, suivies d'un affinement et d'une validation, présente une approche évolutive pour créer des données d'entraînement de haute qualité pour des tâches de raisonnement complexes. Cette stratégie de curation de données "modèle-dans-la-boucle" pourrait inspirer de nouvelles méthodes dans diverses applications d'IA nécessitant des capacités de raisonnement sophistiquées.

Les implications commerciales sont particulièrement intéressantes dans plusieurs secteurs. Dans la robotique et l'automatisation, ces modèles pourraient permettre aux robots de service et industriels de démontrer une intuition physique améliorée, réduisant l'apprentissage par essais et erreurs et augmentant la sécurité dans des tâches complexes comme les opérations de prise et dépose, les processus d'assemblage et la navigation autonome.

Pour le développement de véhicules autonomes, les capacités de prise de décision améliorées pourraient s'avérer cruciales pour gérer des scénarios dynamiques, y compris les conditions météorologiques défavorables, les interactions de trafic complexes et les situations routières inattendues. La meilleure compréhension de la dynamique physique pourrait conduire à des systèmes de prédiction et de planification plus robustes.

Dans les applications de réalité augmentée et de jumeau numérique, Cosmos-Reason1 pourrait faciliter des interfaces en langage naturel plus intuitives qui raisonnent avec précision et guident les interactions physiques dans des environnements simulés et réels. Cette capacité pourrait transformer la manière dont les utilisateurs interagissent avec des systèmes industriels complexes et des environnements virtuels.

Les secteurs de la gestion d'actifs et de l'inspection pourraient bénéficier de systèmes de contrôle qualité automatisés qui comprennent la permanence des objets et les capacités d'action mécaniques, menant à des processus d'inspection plus fiables et efficaces dans les contextes de fabrication et industriels.

Le saviez-vous ? Faits fascinants sur l'IA physique

Le développement du bon sens physique dans les systèmes d'IA comble une lacune surprenante de la technologie actuelle. Malgré leurs capacités linguistiques impressionnantes, de nombreux grands modèles de langage multimodaux à la pointe de la technologie performent à un niveau proche du hasard sur des tâches de physique intuitive de base que la plupart des humains maîtrisent dès la petite enfance.

La recherche a révélé que les modèles puissants existants, comme GPT-4o et d'autres systèmes multimodaux de pointe, ont des difficultés significatives avec les concepts fondamentaux du raisonnement physique, soulignant l'importance d'approches d'entraînement spécialisées. Cette découverte souligne que la sophistication verbale ne se traduit pas nécessairement par une compréhension physique.

L'ensemble de données d'entraînement de Cosmos-Reason1 comprend des tâches d'auto-supervision innovantes conçues pour enseigner des concepts physiques fondamentaux. Celles-ci incluent des énigmes spatiales qui testent la compréhension des relations entre objets, des défis de flèche du temps qui évaluent le raisonnement temporel, et des tests de permanence de l'objet qui évaluent si les modèles comprennent que les objets continuent d'exister même lorsqu'ils sont hors de vue.

L'architecture hybride Mamba-MLP-Transformer représente une tendance émergente dans la conception de modèles d'IA, combinant différentes approches de calcul pour un traitement plus efficace des informations à long contexte. Cette innovation architecturale pourrait influencer les futurs développements des systèmes d'IA multimodaux.

Il est intéressant de noter que la recherche démontre que l'apprentissage par renforcement avec des récompenses simples et basées sur des règles peut améliorer efficacement des capacités de raisonnement spécifiques dans les grands modèles de langage. Cette approche suggère que des capacités d'IA complexes peuvent être améliorées grâce à des mécanismes de récompense relativement simples lorsqu'ils sont bien conçus.

La publication en open source de Cosmos-Reason1 sous une licence permissive représente une contribution significative à la communauté de recherche en IA, pouvant potentiellement accélérer les délais de développement pour les entreprises cherchant à intégrer des capacités de raisonnement physique dans leurs produits et services. Cette approche contraste avec la nature de plus en plus propriétaire de nombreux développements avancés en IA.

La création de critères d'évaluation standardisés pour l'IA physique répond à un besoin critique dans le domaine, où le manque de méthodes d'évaluation cohérentes a rendu difficile la comparaison des différentes approches et le suivi systématique des progrès. Ces critères pourraient devenir des outils essentiels pour la recherche et le développement futurs dans les systèmes d'IA incarnée.

Dépôt Github

Vous aimerez peut-être aussi

Cet article est soumis par notre utilisateur en vertu des Règles et directives de soumission de nouvelles. La photo de couverture est une œuvre d'art générée par ordinateur à des fins illustratives uniquement; ne reflète pas le contenu factuel. Si vous pensez que cet article viole les droits d'auteur, n'hésitez pas à le signaler en nous envoyant un e-mail. Votre vigilance et votre coopération sont inestimables pour nous aider à maintenir une communauté respectueuse et juridiquement conforme.

Abonnez-vous à notre bulletin d'information

Obtenez les dernières nouvelles de l'entreprise et de la technologie avec des aperçus exclusifs de nos nouvelles offres

Nous utilisons des cookies sur notre site Web pour activer certaines fonctions, fournir des informations plus pertinentes et optimiser votre expérience sur notre site Web. Vous pouvez trouver plus d'informations dans notre Politique de confidentialité et dans nos Conditions d'utilisation . Les informations obligatoires se trouvent dans les mentions légales