Le nouveau modèle V-JEPA 2 de Meta apprend par l'observation pour contrôler des robots avec un entraînement minimal

Par
Lang Wang
7 min de lecture

La percée de Meta avec V-JEPA 2 annonce l'ère post-LLM en intelligence artificielle

Un système d'IA révolutionnaire basé sur la vidéo démontre des capacités de compréhension, de prédiction et de planification physique qui pourraient rendre obsolètes les modèles linguistiques actuels

Meta a dévoilé V-JEPA 2, un modèle vidéo révolutionnaire qui démontre des capacités s'étendant bien au-delà de la prédiction basée sur le texte qui alimente les grands modèles linguistiques (LLM) actuels. Entraîné sur plus d'un million d'heures de vidéo internet, ce système de base atteint ce que de nombreux experts en IA considèrent depuis longtemps comme une étape cruciale : combler le fossé entre l'observation passive et la planification active dans le monde physique.

Tableau : Principales critiques de V-JEPA 2 par Yann LeCun

CritiqueDescription
Manque d'abstractionNe parvient pas à un raisonnement et une généralisation similaires à ceux des humains à travers les domaines
Écart de performance par rapport aux benchmarksPerformance significativement inférieure à celle des humains sur de nouveaux benchmarks de raisonnement physique
Raisonnement physique superficielRepose sur la reconnaissance de formes plutôt que sur une inférence causale profonde ou une permanence d'objet robuste
Innovation incrémentaleConsidéré comme une extension modeste des méthodes précédentes d'apprentissage auto-supervisé
Modalité limitéePrincipalement visuel ; manque d'intégration avec d'autres données sensorielles (audio, tactile, etc.)
Communication et battage médiatiquePerçu comme surfait et dédaigneux envers les modèles d'IA alternatifs ou concurrents

De l'observation à l'action : la révolution en deux étapes

Ce qui distingue V-JEPA 2, c'est son approche d'apprentissage innovante en deux étapes. Contrairement aux systèmes d'IA conventionnels qui nécessitent d'énormes quantités de données spécifiques à la tâche, V-JEPA 2 construit d'abord une compréhension générale du fonctionnement du monde par l'observation passive avant d'appliquer ces connaissances à des tâches spécifiques avec une formation additionnelle minimale.

"Cela représente une refonte fondamentale de la manière dont les systèmes d'IA apprennent", note un scientifique en IA familier avec la recherche. "Plutôt que d'essayer de générer des prédictions parfaites au pixel près ou de s'appuyer sur des descriptions textuelles du monde, V-JEPA 2 apprend des représentations abstraites qui capturent l'essence des interactions physiques et des dynamiques temporelles."

La première étape du système implique une phase massive de pré-entraînement sur des vidéos internet, apprenant à prédire les informations spatiales et temporelles manquantes dans l'espace de représentation plutôt qu'au niveau du pixel. Dans la deuxième étape, un modeste 62 heures de données d'interaction robotique non étiquetées est suffisant pour créer V-JEPA 2-AC, un modèle conditionné par l'action qui permet des tâches de manipulation physique via le contrôle prédictif de modèle.

Aperçu de V-JEPA 2
Aperçu de V-JEPA 2

La vision de LeCun prend forme

L'architecture de V-JEPA 2 incarne les principes clés défendus par Yann LeCun, le scientifique en chef de l'IA chez Meta, qui a été un critique virulent des grands modèles linguistiques actuels. LeCun a constamment soutenu qu'une véritable intelligence artificielle nécessite un enracinement dans le monde physique et la capacité de construire des représentations riches et multi-niveaux au-delà des motifs textuels.

Les résultats sont frappants : V-JEPA 2 atteint des performances de pointe dans des domaines traditionnellement distincts de la reconnaissance vidéo (77,3 % de précision top-1 sur Something-Something v2), de l'anticipation d'action (39,7 % de rappel@5 sur Epic-Kitchens-100) et de la manipulation robotique (taux de réussite de 65 à 80 % sur les tâches de "pick-and-place"). Plus impressionnant encore, ces capacités découlent d'une seule représentation partagée.

Franchir la barrière des données pour la robotique

Peut-être la réalisation la plus significative est la capacité de V-JEPA 2 à effectuer des tâches complexes de manipulation robotique avec un minimum de données d'entraînement. Les approches traditionnelles exigent des centaines d'heures de démonstrations d'experts ou des millions de tentatives par tâtonnement.

"Cela réduit considérablement les obstacles à la robotique adaptable", explique un analyste du secteur qui suit les développements de l'IA. "Un robot d'usine pourrait apprendre une nouvelle tâche d'assemblage en regardant des vidéos d'humains effectuant des actions similaires, ne nécessitant qu'un minimum d'essais et erreurs physiques pour s'adapter. Les implications économiques sont énormes."

La planification basée sur l'énergie du système dans l'espace de représentation est remarquablement efficace, ne prenant que 16 secondes par étape de planification, contre 4 minutes pour des systèmes comparables, tout en atteignant des taux de réussite plus élevés. Cette efficacité rend la planification en temps réel réalisable pour les flottes de robots sur site.

Au-delà du langage : les limites de l'IA actuelle

L'émergence de V-JEPA 2 intervient alors que l'on reconnaît de plus en plus les limitations fondamentales des grands modèles linguistiques actuels. Malgré leurs capacités impressionnantes en génération de texte, les LLM manquent d'ancrage dans la réalité physique et ont du mal avec les tâches de planification et de raisonnement qui nécessitent des modèles du monde.

"Ce que nous voyons est une validation de la philosophie de l'intégration conjointe", note un chercheur dans le domaine. "Prédire dans un espace de représentation abstrait s'avère plus efficace et efficient que d'essayer de générer des données sensorielles haute-fidélité ou de s'appuyer sur des motifs statistiques dans le texte."

Notamment, V-JEPA 2 obtient des résultats de pointe sur les tâches de questions-réponses vidéo bien qu'ayant été pré-entraîné sans aucune supervision linguistique. Lorsqu'il est aligné avec un grand modèle linguistique, il surpasse les encodeurs image-texte sur les questions dépendantes du temps, remettant en question le paradigme dominant du pré-entraînement vision-langage.

La transformation industrielle à venir

Les applications concrètes de V-JEPA 2 s'étendent à de multiples industries :

Dans la robotique d'entrepôt et de micro-fulfillment, les systèmes pourraient s'adapter rapidement aux nouveaux produits sans re-étiquetage coûteux ni sessions de télé-opération. Les opérations d'inspection et de maintenance autonomes pourraient être conditionnées par des images cibles issues de modèles CAO/BIM sans ingénierie de récompense complexe. Les applications d'analyse vidéo et de recherche bénéficieraient d'intégrations centrées sur le mouvement qui surpassent les approches basées sur l'image pour les tâches de raisonnement temporel.

Pour les applications XR et les agents génératifs, l'alignement d'un encodeur natif vidéo avec des LLM permet des systèmes qui « voient » réellement le temps et peuvent agir intelligemment dans des environnements de réalité mixte. L'efficacité de la technologie la rend également adaptée aux applications d'IA de périphérie (edge AI) où les ressources de calcul sont limitées.

Paysage de l'investissement : se positionner pour l'ère post-LLM

Pour les investisseurs qui suivent les développements de l'IA, V-JEPA 2 signale des changements significatifs dans le paysage concurrentiel. Les entreprises fortement investies dans les modèles linguistiques purs pourraient faire face à des défis alors que le marché exige de plus en plus des systèmes d'IA dotés de capacités de compréhension du monde physique et de planification.

Les entreprises de robotique positionnées pour intégrer les technologies de modèle du monde pourraient voir des courbes d'adoption accélérées à mesure que les barrières de mise en œuvre tombent. La réduction drastique des besoins en données pour la formation des robots pourrait particulièrement bénéficier aux entreprises d'automatisation de taille moyenne précédemment entravées par les coûts de collecte de données.

Les fabricants de semi-conducteurs spécialisés dans le traitement de l'IA de périphérie pourraient trouver de nouvelles opportunités car la planification dans l'espace de représentation réduit les exigences de calcul par rapport aux approches de génération de pixels. De même, les fournisseurs de cloud offrant une infrastructure d'IA spécialisée optimisée pour le traitement vidéo et les opérations dans l'espace latent pourraient capter une part de marché croissante.

Cependant, les analystes préviennent que les applications commerciales sont toujours confrontées à des défis en matière de calibration de caméra, d'horizons de planification plus longs et d'interfaces d'objectifs plus intuitives. Les pionniers devront relever ces défis tout en développant des applications spécifiques à des domaines qui exploitent les capacités fondamentales de V-JEPA 2.

Une étape sur la voie de l'IA physique

Bien que V-JEPA 2 représente une avancée significative, les chercheurs reconnaissent les limitations restantes. Le système montre une sensibilité au positionnement de la caméra, a des difficultés avec des horizons de planification très longs et nécessite actuellement des objectifs visuels plutôt que des instructions linguistiques.

Néanmoins, ce travail fournit des preuves convaincantes d'une voie viable vers une intelligence artificielle plus générale — une qui apprend principalement par l'observation avant d'appliquer ces connaissances pour agir dans le monde, tout comme le font les humains. Reste à voir si cette approche rendra réellement obsolètes les modèles linguistiques actuels dans le délai de cinq ans prédit par LeCun, mais V-JEPA 2 offre un puissant plan pour la prochaine génération de systèmes d'IA qui comprennent non seulement le langage, mais le monde physique lui-même.

Avertissement : Cette analyse est basée sur les développements de recherche actuels et ne doit pas être considérée comme un conseil en investissement. Les performances passées des technologies ne garantissent pas les résultats futurs. Les lecteurs devraient consulter des conseillers financiers pour des conseils personnalisés.

Vous aimerez peut-être aussi

Cet article est soumis par notre utilisateur en vertu des Règles et directives de soumission de nouvelles. La photo de couverture est une œuvre d'art générée par ordinateur à des fins illustratives uniquement; ne reflète pas le contenu factuel. Si vous pensez que cet article viole les droits d'auteur, n'hésitez pas à le signaler en nous envoyant un e-mail. Votre vigilance et votre coopération sont inestimables pour nous aider à maintenir une communauté respectueuse et juridiquement conforme.

Abonnez-vous à notre bulletin d'information

Obtenez les dernières nouvelles de l'entreprise et de la technologie avec des aperçus exclusifs de nos nouvelles offres

Nous utilisons des cookies sur notre site Web pour activer certaines fonctions, fournir des informations plus pertinentes et optimiser votre expérience sur notre site Web. Vous pouvez trouver plus d'informations dans notre Politique de confidentialité et dans nos Conditions d'utilisation . Les informations obligatoires se trouvent dans les mentions légales