VGGT peut reconstruire des scènes 3D en une seule seconde — Et c'est sur le point de transformer les industries

Par
CTOL Editors - Ken
2 min de lecture

Le VGGT peut reconstruire des scènes 3D en une seule seconde – et il est sur le point de transformer des industries

Dans le monde trépidant de la vision par ordinateur, une révolution se prépare discrètement. Alors que la plupart des gros titres se concentrent sur l'IA générative qui crée des images à partir de descriptions textuelles, une autre percée technologique vient de recevoir la plus haute distinction de la communauté de la vision par ordinateur – et elle pourrait avoir un impact bien plus immédiat sur le monde réel.

Le Visual Geometry Grounded Transformer a récemment remporté le prix du meilleur article à la CVPR 2025, se distinguant parmi plus de 13 000 soumissions lors de la conférence la plus prestigieuse de la vision par ordinateur. Qu'est-ce qui rend cette technologie si spéciale ? Le VGGT peut reconstruire des scènes 3D entières à partir de photographies ordinaires en moins d'une seconde – une tâche qui nécessitait traditionnellement des algorithmes complexes fonctionnant pendant des minutes, voire des heures.

Des heures aux secondes : la fin d'une ère pour la vision 3D

Pendant des décennies, la reconstruction de scènes 3D à partir d'images 2D a suivi une approche bien établie. Les ingénieurs utilisaient un processus méticuleux appelé Structure from Motion, suivi d'algorithmes Multi-View Stereo, culminant avec des techniques d'optimisation comme le bundle adjustment. Ce pipeline a alimenté tout, des modèles 3D de Google Earth aux effets visuels d'Hollywood – mais au prix d'un temps de calcul considérable.

« Le VGGT représente une rupture avec les pipelines géométriques traditionnels », explique Elena, une chercheuse en vision par ordinateur non impliquée dans le projet. « Ce qui nécessitait auparavant plusieurs algorithmes spécialisés peut désormais être accompli en une seule passe avant à travers un réseau neuronal. »

Les chiffres dressent un tableau éloquent. Le VGGT traite 100 images en environ 2 secondes sur un seul GPU, tout en atteignant une meilleure précision que les méthodes qui prennent 50 à 100 fois plus de temps. Pour les entreprises qui dépendent de la reconstruction 3D – des sociétés d'AR/VR aux développeurs de véhicules autonomes – cela représente un saut quantique dans les capacités.

Photo d'entrée (Un Dragon) pour VGGT
Photo d'entrée (Un Dragon) pour VGGT

Sortie de reconstruction du VGGT
Sortie de reconstruction du VGGT

Comment ça marche : la percée technique

À la base, le VGGT est un modèle de transformateur de 1,2 milliard de paramètres – d'architecture similaire aux modèles alimentant les grands modèles linguistiques actuels, mais spécialisé dans les tâches de géométrie visuelle. Le système prend en entrée des photos ordinaires d'une scène et produit

Vous aimerez peut-être aussi

Cet article est soumis par notre utilisateur en vertu des Règles et directives de soumission de nouvelles. La photo de couverture est une œuvre d'art générée par ordinateur à des fins illustratives uniquement; ne reflète pas le contenu factuel. Si vous pensez que cet article viole les droits d'auteur, n'hésitez pas à le signaler en nous envoyant un e-mail. Votre vigilance et votre coopération sont inestimables pour nous aider à maintenir une communauté respectueuse et juridiquement conforme.

Abonnez-vous à notre bulletin d'information

Obtenez les dernières nouvelles de l'entreprise et de la technologie avec des aperçus exclusifs de nos nouvelles offres

Nous utilisons des cookies sur notre site Web pour activer certaines fonctions, fournir des informations plus pertinentes et optimiser votre expérience sur notre site Web. Vous pouvez trouver plus d'informations dans notre Politique de confidentialité et dans nos Conditions d'utilisation . Les informations obligatoires se trouvent dans les mentions légales