Le VGGT peut reconstruire des scènes 3D en une seule seconde – et il est sur le point de transformer des industries
Dans le monde trépidant de la vision par ordinateur, une révolution se prépare discrètement. Alors que la plupart des gros titres se concentrent sur l'IA générative qui crée des images à partir de descriptions textuelles, une autre percée technologique vient de recevoir la plus haute distinction de la communauté de la vision par ordinateur – et elle pourrait avoir un impact bien plus immédiat sur le monde réel.
Le Visual Geometry Grounded Transformer a récemment remporté le prix du meilleur article à la CVPR 2025, se distinguant parmi plus de 13 000 soumissions lors de la conférence la plus prestigieuse de la vision par ordinateur. Qu'est-ce qui rend cette technologie si spéciale ? Le VGGT peut reconstruire des scènes 3D entières à partir de photographies ordinaires en moins d'une seconde – une tâche qui nécessitait traditionnellement des algorithmes complexes fonctionnant pendant des minutes, voire des heures.
Des heures aux secondes : la fin d'une ère pour la vision 3D
Pendant des décennies, la reconstruction de scènes 3D à partir d'images 2D a suivi une approche bien établie. Les ingénieurs utilisaient un processus méticuleux appelé Structure from Motion, suivi d'algorithmes Multi-View Stereo, culminant avec des techniques d'optimisation comme le bundle adjustment. Ce pipeline a alimenté tout, des modèles 3D de Google Earth aux effets visuels d'Hollywood – mais au prix d'un temps de calcul considérable.
« Le VGGT représente une rupture avec les pipelines géométriques traditionnels », explique Elena, une chercheuse en vision par ordinateur non impliquée dans le projet. « Ce qui nécessitait auparavant plusieurs algorithmes spécialisés peut désormais être accompli en une seule passe avant à travers un réseau neuronal. »
Les chiffres dressent un tableau éloquent. Le VGGT traite 100 images en environ 2 secondes sur un seul GPU, tout en atteignant une meilleure précision que les méthodes qui prennent 50 à 100 fois plus de temps. Pour les entreprises qui dépendent de la reconstruction 3D – des sociétés d'AR/VR aux développeurs de véhicules autonomes – cela représente un saut quantique dans les capacités.

Comment ça marche : la percée technique
À la base, le VGGT est un modèle de transformateur de 1,2 milliard de paramètres – d'architecture similaire aux modèles alimentant les grands modèles linguistiques actuels, mais spécialisé dans les tâches de géométrie visuelle. Le système prend en entrée des photos ordinaires d'une scène et produit