Alibaba lance Wan2.2, son IA vidéo open source, accueillie avec une réception technique mitigée par la communauté des développeurs
Dans le paysage férocement concurrentiel de la vidéo générée par IA, le Laboratoire Tongyi d'Alibaba a dévoilé Wan2.2, son dernier système de génération de vidéo open source. Publiée sous licence Apache 2.0, cette suite de modèles promet des vidéos de qualité cinématographique avec un contrôle sans précédent sur l'éclairage, la couleur et la composition, le tout en fonctionnant sur du matériel grand public. Mais alors que les développeurs du monde entier mettent ces affirmations à l'épreuve, une réalité plus nuancée émerge.
Trois modèles : le trio qui redéfinit la génération vidéo
La stratégie d'Alibaba se distingue par sa spécialisation, introduisant trois modèles distincts servant différents cas d'utilisation :
Le modèle phare T2V-A14B gère la génération de vidéo purement textuelle, produisant des clips de 5 secondes en résolution 480P ou 720P. Son compagnon, I2V-A14B, se spécialise dans la conversion d'image en vidéo avec des artefacts visiblement réduits par rapport aux générations précédentes. Les deux nécessitent des ressources informatiques substantielles — plus de 80 Go de VRAM — les plaçant fermement sur le territoire professionnel.
La surprise, cependant, est le TI2V-5B — un modèle hybride acceptant à la fois des entrées texte et image tout en générant des vidéos 720P à 24 images/seconde sur des GPU grand public comme la RTX 4090. Ce modèle plus petit démocratise une technologie auparavant confinée aux centres de données, complétant un clip de 5 secondes en moins de 9 minutes.
« Le rapport performance/accessibilité du modèle 5B représente un véritable point d'inflexion », a noté un ingénieur en apprentissage automatique qui a testé les trois variantes. « Il apporte des capacités au matériel grand public qui nécessitaient auparavant des crédits d'API cloud. »
MoE trompeur : Un tour de passe-passe architectural
Des analystes techniques ont froncé les sourcils face à la caractérisation de Wan2.2 par Alibaba comme une architecture de « Mélange d'Experts » (Mixture-of-Experts ou MoE) — une affirmation qui mérite un examen plus approfondi.
Contrairement aux systèmes MoE traditionnels avec routage dynamique, Wan2.2 met en œuvre ce qui équivaut à un pipeline de diffusion en deux étapes rappelant l'approche base-raffinement de Stable Diffusion XL. Le système emploie deux composants spécialisés : un expert à bruit élevé entraîné à partir de zéro pour la mise en page et la composition, et un expert à faible bruit affiné à partir de Wan2.1 pour l'affinage des détails.
« Ce n'est pas un vrai MoE avec des couches de routage », explique un chercheur spécialisé dans les modèles de diffusion. « C'est essentiellement un basculement d'experts basé sur le niveau de bruit — une optimisation significative, certes, mais pas ce que la plupart considéreraient comme une architecture MoE. »
Le nombre total de paramètres combinés atteint un chiffre substantiel de 27 milliards, bien que seuls 14 milliards soient actifs lors de chaque étape d'inférence — permettant au système de maintenir son efficacité mémoire tout en doublant efficacement sa capacité neuronale.
Le conte de deux VAE : Le fossé technique
Le plus révélateur peut-être des priorités de développement de Wan2.2 est sa technologie de compression. Le modèle 5B introduit un nouvel Auto-encodeur Variationnel (Variational Autoencoder ou VAE) atteignant un remarquable rapport de compression de 16×16×4 — une efficacité quadruple par rapport au VAE 4×8×8 de Wan2.1. Cela permet au modèle plus petit de générer des vidéos 720P à 24 images/seconde malgré son nombre de paramètres modeste.
Curieusement, les modèles 14B plus puissants continuent d'utiliser l'ancien VAE de Wan2.1, moins efficace — créant un scénario où le modèle "entrée de gamme" emploie une technologie de compression plus avancée que ses homologues haut de gamme.
« Il est étrange qu'un modèle '2.2' utilise toujours le VAE de la version 2.1 », a noté un développeur qui a testé les performances des deux systèmes. « L'incohérence crée des obstacles inutiles à un flux de travail unifié. »
Sous le microscope : Les performances au-delà du communiqué de presse
Les benchmarks de la communauté révèlent des contrastes frappants entre les affirmations marketing et les performances réelles. Un utilisateur de Zhihu qui a investi 10 $ en crédits AWS pour tester les modèles a rapporté des résultats éclairants :
Le modèle 5B fonctionne admirablement sur du matériel grand public (RTX 4090), complétant 20 étapes de débruitage en environ 2,5 minutes pour un temps de génération total d'environ 9 minutes. Cependant, il a des difficultés constantes avec le rendu du texte, ignore les invites de style comme "rétro 8 bits", et produit des résultats visiblement de "faible fidélité" — en particulier pour les visages et les scènes détaillées.
« Ne vous attendez pas à une qualité cinématographique du 5B », a averti le testeur. « C'est excellent pour les scènes rétro ou d'animation, mais il a des difficultés avec les personnes, le texte ou les détails fins. »
Les modèles