Des chercheurs en IA résolvent la crise de reproductibilité de longue date des modèles de langage
Une nouvelle technique atteint une cohérence parfaite dans les réponses de l'IA, mais soulève des questions sur les compromis de performance et les priorités de recherche
11 septembre 2025 — Une équipe du Thinking Machines Lab a publié des recherches s'attaquant à l'un des défis techniques les plus persistants de l'intelligence artificielle : l'incapacité des grands modèles de langage à produire des résultats identiques pour des entrées identiques, même dans des conditions prétendument déterministes.
Ces travaux, détaillés dans « Defeating Nondeterminism in LLM Inference », identifient la cause profonde de l'incohérence des IA et présentent une solution qui assure une reproductibilité parfaite — bien qu'à un coût computationnel significatif. Les découvertes ont suscité un débat au sein de la communauté de l'IA quant à savoir si cela représente une avancée fondamentale ou une ingénierie sophistiquée s'attaquant à un problème de niche.
Démasquer le véritable coupable
Pendant des années, les chercheurs ont attribué le nondéterminisme de l'IA à l'arithmétique en virgule flottante combinée au traitement GPU parallèle — une explication que l'équipe du Thinking Machines a systématiquement réfutée. Grâce à une expérimentation minutieuse, ils ont démontré que les opérations matricielles individuelles sont en fait déterministes d'une exécution à l'autre.
La véritable cause, ont-ils découvert, réside dans l'« invariance par lot » (ou batch invariance) — la manière dont les systèmes d'IA regroupent les requêtes des utilisateurs pour une efficacité de traitement. Les opérations fondamentales comme RMSNorm, la multiplication matricielle et les mécanismes d'attention modifient leurs stratégies de calcul internes en fonction de la taille du lot, produisant des résultats différents pour des entrées identiques selon la charge du serveur.
« La même question peut donner des réponses différentes non pas à cause d'une imprécision mathématique, mais en fonction du nombre d'autres utilisateurs qui ont soumis des requêtes simultanément », explique l'étude. Cette révélation expose comment des requêtes d'IA ostensiblement identiques deviennent dépendantes d'un contexte computationnel sans rapport.
Ingénierie d'une solution déterministe
Plutôt que d'accepter cette limitation, l'équipe a conçu des « noyaux invariants par lot » (ou batch-invariant kernels) — des routines de calcul modifiées qui maintiennent un comportement cohérent quelle que soit la taille du lot. La solution a nécessité de repenser trois opérations fondamentales :
RMSNorm: Implémenter des stratégies de réduction cohérentes en parallèle des données pour toutes les tailles de lot, en évitant les approches de « réduction fractionnée » optimisées pour la performance qui varient avec les dimensions du lot.
Multiplication matricielle: Éliminer les stratégies « Split-K » qui s'ajustent dynamiquement en fonction de la taille de l'entrée, en utilisant plutôt des configurations de noyau fixes avec des tailles de tuiles cohérentes.
Mécanismes d'attention: La modification la plus complexe, impliquant des stratégies de taille de fractionnement fixes plutôt qu'un fractionnement variable, assurant des modèles de réduction identiques quelle que soit la longueur de la séquence.
Des résultats frappants avec des coûts significatifs
Les tests sur un modèle de 235 milliards de paramètres ont produit des résultats spectaculaires. L'implémentation standard de vLLM a généré 80 complétions uniques à partir de 1 000 requêtes identiques. L'approche invariante par lot a atteint une reproductibilité parfaite — les 1 000 complétions étaient identiques bit à bit.
Cependant, ce déterminisme s'est accompagné d'un coût computationnel substantiel : une augmentation d'environ 60 % de la latence par rapport aux implémentations optimisées. Les chercheurs reconnaissent que leur implémentation reste non optimisée, mais la pénalité de performance soulève des questions quant aux scénarios de déploiement pratiques.
Une avancée majeure pour l'apprentissage par renforcement
La contribution la plus significative de cette recherche pourrait résider dans les applications d'apprentissage par renforcement. L'équipe a démontré que la divergence numérique entre les phases d'inférence et d'entraînement convertit implicitement les algorithmes on-policy en algorithmes off-policy, nécessitant des mesures correctives complexes et introduisant des instabilités d'entraînement.
En assurant une identité bit à bit entre l'échantillonnage et l'entraînement, leur approche permet un « véritable apprentissage par renforcement on-policy », éliminant la divergence KL entre les politiques et stabilisant potentiellement les processus d'entraînement des IA qui ont longtemps intrigué les chercheurs.
Évaluations d'experts divergentes
Les travaux ont généré des évaluations fortement contrastées au sein de la communauté de l'IA. Les évaluateurs universitaires saluent la recherche comme un « travail fondamental » et une « précision diagnostique exceptionnelle », la comparant à la transformation de l'IA d'un « art empirique en une discipline d'ingénierie rigoureuse ».
Une évaluation académique détaillée décrit la découverte de l'invariance par lot comme un « raisonnement déductif brillant » et qualifie la stratégie de taille de fractionnement fixe pour l'attention de « particulièrement perspicace ». L'évaluation souligne des implications profondes pour l'apprentissage par renforcement, suggérant que les travaux « mettent au jour et résolvent un bug pernicieux de bas niveau qui a probablement été une variable confondante dans d'innombrables expériences ».
Cependant, des perspectives plus sceptiques remettent en question la portée plus large de la recherche. Les observateurs de l'industrie notent que, bien que techniquement solide, le travail aborde des problèmes principalement pertinents pour les chercheurs et les ingénieurs plutôt que pour les utilisateurs finaux. Certains considèrent que l'accent mis sur le déterminisme est le signe d'un domaine « à court de véritables frontières ».
« Pour un laboratoire issu de la lignée OpenAI, mettre en lumière le déterminisme comme message inaugural semble étrangement décevant », note une analyse sectorielle. « Le travail est solide, mais en tant que déclaration phare, il se lit davantage comme une note de laboratoire méticuleuse que comme une vision mobilisatrice. »
Applications pratiques et limites
L'approche déterministe montre une valeur claire dans des domaines spécifiques nécessitant une cohérence absolue : la reproductibilité de la recherche scientifique, la conformité réglementaire, la modélisation financière et les applications critiques où une « réponse presque identique » est inacceptable.
Pour les applications grand public optimisées pour la vitesse et la rentabilité, la pénalité de performance de 60 % représente des obstacles significatifs. L'équipe de recherche suggère que l'écart pourrait se réduire avec une ingénierie de noyau optimisée, mais des compromis fondamentaux entre la performance maximale et l'invariance par lot pourraient persister.
Implications pour le marché et l'investissement
Les clients d'entreprise dans les industries réglementées pourraient stimuler la demande de services d'IA déterministes, créant potentiellement des segments de marché premium pour les fournisseurs de cloud. Cependant, les coûts de performance pourraient limiter une adoption plus large en dehors des cas d'utilisation spécialisés.
Les fabricants de matériel pourraient explorer des puces spécialisées optimisées pour les opérations invariantes par lot, bien que de tels développements restent très spéculatifs étant donné les pénalités de performance actuelles. L'impact plus immédiat se concentre probablement sur les entreprises d'infrastructure d'IA qui peuvent offrir une inférence déterministe comme niveaux de service différenciés.
Les analystes en investissement suggèrent que l'importance des travaux dépendra en grande partie des améliorations de l'implémentation et de la possibilité de réduire considérablement l'écart de performance grâce à une ingénierie de noyau avancée.
Maturité technique contre innovation
La recherche souligne une tension fondamentale dans le développement de l'IA entre repousser les limites de la performance et assurer la fiabilité du système. Bien que la solution d'invariance par lot démontre une discipline d'ingénierie impressionnante, des questions demeurent quant à savoir si une telle optimisation méticuleuse représente l'allocation la plus productive des ressources de recherche.
Les travaux font sans aucun doute progresser la fiabilité des systèmes d'IA et jettent les bases d'un apprentissage par renforcement plus stable. Que cela constitue une innovation de rupture ou une résolution de problèmes sophistiquée dans un domaine spécialisé reste une question de perspective et de contexte d'application.
Pour les organisations exigeant une cohérence d'IA prouvable, la recherche offre une voie claire à suivre. Pour l'écosystème plus large de l'IA axé sur l'expansion des capacités et les gains d'efficacité, la pertinence reste plus limitée. L'accomplissement technique est indéniable ; son potentiel de transformation dépend fortement des efforts d'optimisation futurs et de l'évolution des exigences du marché en matière de déterminisme de l'IA.
Clause de non-responsabilité en matière d'investissement : L'analyse présentée représente une évaluation éclairée basée sur la recherche technique et ne doit pas constituer un conseil en investissement spécifique. Les investissements dans la technologie de l'IA comportent des risques inhérents, et les performances passées ne garantissent pas les résultats futurs. Les lecteurs sont invités à consulter des conseillers financiers qualifiés avant de prendre des décisions d'investissement.