Le premier modèle d'IA de génération d'images "maison" de Microsoft est là – mais la controverse n'est pas loin derrière
Microsoft vient de dévoiler MAI-Image-1, son premier modèle de génération d'images entièrement développé en interne. Cette initiative marque un tournant majeur : l'entreprise s'éloigne progressivement de sa dépendance vis-à-vis d'OpenAI. Il ne s'agit pas d'une rupture totale, mais cela démontre la volonté de Microsoft de maîtriser pleinement sa propre fondation IA plutôt que d'emprunter le moteur d'un tiers.
L'entreprise a présenté ce modèle comme une victoire pour les créateurs, affirmant qu'il offrait « une flexibilité réelle, une diversité visuelle et une valeur pratique ». Et à première vue, le lancement a semblé être un succès. MAI-Image-1 s'est hissé dans le top 10 de LMArena – un classement public où des humains évaluent les modèles d'IA de génération d'images. Microsoft a interprété ce classement comme la preuve que son système pouvait produire des images photoréalistes plus rapidement que certains des plus grands acteurs de l'industrie.
Cependant, les classements comme LMArena peuvent être délicats. S'ils sont utiles, ils ne racontent pas toute l'histoire. Le système de classement fonctionne un peu comme les scores Elo aux échecs, ce qui signifie que l'évaluation d'un modèle dépend des adversaires qu'il affronte. S'il est confronté à des concurrents plus faibles, le score est gonflé. Les experts appellent cela le « biais de pool », et cela peut fausser les résultats. De plus, les entreprises testent parfois de nombreuses versions privées de modèles en coulisses et ne publient que celle qui donne les meilleurs résultats sur le format restreint du classement. Ce genre d'« optimisation des benchmarks » récompense les styles accrocheurs plutôt que la capacité réelle, et laisse les utilisateurs se demander si le modèle est aussi performant au quotidien qu'il n'y paraît sur le papier.
Alors que le lancement suscitait l'enthousiasme à l'extérieur, quelque chose de bien plus troublant se tramait au sein de la division IA de Microsoft. Une lettre de lanceur d'alerte d'un employé actuel a fait surface – vérifiée et détaillée – accusant le co-responsable de l'équipe, Mustafa, d'avoir créé une culture de travail toxique.
Selon la lettre, des ingénieurs de longue date de Microsoft sont mis de côté par un cercle restreint de dirigeants triés sur le volet, issus de l'ancienne startup de Mustafa. L'auteur décrit une « approche autoritaire de type startup » où les vétérans se sentent moqués, ignorés ou mis à l'écart. C'est un contraste frappant avec l'image soignée que Microsoft présente au public – et cela soulève des questions sur ce qui se passe en coulisses de l'un de ses projets d'IA les plus importants.
MAI-Image-1 est plus qu'un simple nouveau modèle. C'est le coup d'envoi de la course de Microsoft vers l'indépendance en matière d'IA. Mais ses débuts sont accompagnés de tensions inhérentes : une avancée alimentée par des métriques fragiles et assombrie par des accusations de chaos interne. En d'autres termes, il ne s'agit pas seulement de la technologie, mais aussi de la culture qui la crée.
Pour l'instant, nous ne pourrons savoir s'il s'agit d'une réelle percée qu'une fois que le modèle sera entièrement disponible pour le grand public. MAI-Image-1 est accessible dès aujourd'hui via LMArena pour des tests publics, et Microsoft annonce des déploiements vers Copilot et Bing Image Creator « très bientôt ». Cependant, l'accès direct à l'API pour les développeurs n'a pas encore été annoncé, de sorte que le véritable test – ses performances en conditions réelles – reste à venir.