La révolution de l'attention linéaire : Plongée au cœur du défi audacieux de Moonshot AI à la suprématie des Transformers
Comment le pari incessant de Kimi sur une architecture hybride a déclenché une révolution en matière d'efficacité – et une tempête autour de son originalité
La percée inattendue
Après de nombreuses nuits blanches, des entraînements infructueux et d'innombrables ajustements, Kimi Linear de Moonshot AI (https://arxiv.org/pdf/2510.26692) – un modèle colossal de 48 milliards de paramètres, bâti sur une attention linéaire hybride – a pulvérisé tous les indicateurs de performance pertinents.
« Les résultats donnaient l'impression qu'un adulte donnait une leçon à un enfant », a remarqué un développeur dans des notes internes. Les gains n'étaient pas seulement progressifs, ils étaient sismiques.
Lancé en 2025, Kimi Linear défie directement l'architecture Transformer qui domine l'intelligence artificielle depuis 2017. Il réduit de 75 % l'utilisation du cache clé-valeur et décode le texte jusqu'à six fois plus rapidement sur des longueurs de millions de jetons, tout en égalant la puissance expressive des modèles d'attention traditionnels.
Pour quiconque travaille avec les LLM (grands modèles linguistiques), c'est un progrès considérable. Alors que les coûts d'inférence et les contraintes de mémoire dictent ce qui est possible, la conception de Kimi Linear offre une nouvelle voie. Elle ouvre des portes, allant de l'analyse de longs documents juridiques à l'alimentation d'agents autonomes capables de raisonnements à long terme.
Repousser les limites de l'ingénierie
Derrière cette réussite se cache une saga d'essais, de frustrations et de détermination obstinée. Le passage de prototypes plus petits à un système de mélange d'experts (MoE) de 48 milliards de paramètres a failli briser l'équipe. Le débogage des échecs d'entraînement distribué, la refonte des couches de réseau et le test de centaines de variantes sont devenus leur rituel nocturne. Un membre de l'équipe l'a décrit plus tard simplement : « Douloureux, mais chaque heure en valait la peine. »
Au cœur de leurs progrès se trouve l'innovation qu'ils nomment Kimi Delta Attention – née d'une optimisation agressive du Gated DeltaNet. Les approches précédentes reposaient sur des mécanismes de gating globaux qui exigeaient un découpage coûteux en blocs FP32. La nouvelle conception est passée à des portes par canal, préservant l'efficacité tout en permettant un contrôle précis de la mémoire.
Ils ont opté pour un ratio audacieux : trois couches d'attention Delta pour chaque couche d'attention complète. Cet équilibre, découvert grâce à des expérimentations méticuleuses, s'est avéré être le juste compromis entre vitesse et performance.
Puis est venue une décision encore plus audacieuse : abandonner entièrement les incorporations de position rotatives (RoPE). Cette approche « tout NoPE » a confié toute la compréhension positionnelle aux couches KDA, simplifiant le modèle sans en altérer les performances. Le créateur même de RoPE aurait admiré l'audace de cette démarche.
Entraîné sur 5,7 billions de jetons avec une configuration de mélange d'experts (MoE) comptant 32 experts au lieu des 8 habituels, Kimi Linear a atteint 51,0 sur MMLU-Pro et 84,3 sur RULER – surpassant les modèles à attention complète tout en fonctionnant environ six fois plus vite à des échelles de millions de jetons.
Leçons apprises et aperçu de l'avenir
Les développeurs ont été francs concernant les limites du projet. Ils ont admis ne pas avoir pu atteindre la performance absolue de l'état de l'art à cette échelle en raison de contraintes matérielles. Mais là n'était pas l'objectif. Kimi Linear prouvait que l'attention linéaire hybride pouvait passer de la théorie à la réalité de la production.
Ils l'ont qualifié de projet phare de « dérisquage » – un pari stratégique sur l'avenir. Pour prouver leur attachement à la transparence, ils ont mis l'intégralité du code source en open source, avec des noyaux optimisés qui s'intègrent parfaitement aux frameworks Flash Linear Attention et vLLM.
Cette ouverture a attiré l'attention des chercheurs du monde entier. Beaucoup considèrent Kimi Linear comme une étape charnière dans l'évolution des architectures neuronales. Un développeur de la communauté a retracé ses racines conceptuelles jusqu'à la règle Delta originale, soutenant que « les percées empiriques précèdent souvent la théorie. »
Comme l'a résumé un chercheur : « Pour la première fois, nous n'avons plus à choisir entre puissance et efficacité. »
La controverse sur l'originalité
Bien sûr, aucune avancée majeure en IA n'arrive sans son lot de péripéties. Peu de temps après l'annonce, des critiques ont accusé l'équipe de Moonshot d'avoir copié des idées de l'architecture RWKV7 antérieure. Certains ont qualifié la publication de coup de pub, affirmant qu'il s'agissait davantage d'attirer l'attention que de faire progresser la science.
Les développeurs ont fermement riposté. Ils ont souligné les distinctions claires : un gating par canal au lieu de global, le ratio unique de couches hybrides, et leur décision d'adopter une approche « tout NoPE ». « Si quelqu'un pense que c'est la même chose, très bien », a déclaré l'un d'eux, « mais peut-être devraient-ils passer moins de temps à se plaindre et plus de temps à mettre leurs propres modèles à l'échelle. »
Des partisans se sont ralliés à leur cause. Un chercheur bien connu a fait remarquer : « Quand d'autres ont abandonné l'attention linéaire, Kimi a ravivé l'espoir. C'est à la fois un produit et une innovation fondamentale. »
Le débat va au-delà de la question de savoir qui a copié qui – il touche au cœur même de la recherche en IA. La véritable innovation réside-t-elle dans des idées entièrement nouvelles, ou peut-elle émerger du raffinement et de la recombinaison d'idées existantes ? Quoi qu'il en soit, Kimi Linear a prouvé quelque chose de vital : que l'attention linéaire, jadis considérée comme une impasse, recèle encore un pouvoir inexploité.
La voie à suivre
Les chercheurs peuvent d'ores et déjà télécharger et expérimenter le modèle Kimi-Linear-48B-A3B-Base ainsi que sa variante optimisée par instruction. Il leur suffit de disposer de PyTorch 2.6 et des dernières bibliothèques FLA. Les premiers testeurs affirment que la « personnalité » du modèle « semble naturelle » et que son « ambiance correspond à celle de Kimi-2 », ce qui signifie que le gain d'efficacité n'a pas terni sa production de texte humaine.
Pour une industrie obsédée par le nombre de paramètres et les budgets d'entraînement, Kimi Linear pose une question audacieuse : et si la prochaine grande avancée ne consistait pas à rendre les modèles plus grands, mais plus intelligents ?
Que ce modèle devienne un jalon ou simplement une note de bas de page fascinante, une chose est certaine : il a ravivé l'enthousiasme quant à ce qui est encore possible en matière d'efficacité de l'IA.
Pour citer un développeur épuisé mais victorieux : la douleur en valait la peine.
