Huawei dévoile le système CloudMatrix pour l'inférence de modèles d'IA à grande échelle
Huawei a publié une documentation technique détaillant son système CloudMatrix384, une plateforme informatique spécialisée conçue autour de 384 unités de traitement neuronal Ascend-910C, dédiée à l'inférence de modèles d'IA à grande échelle. Le système intègre CloudMatrix-Infer, une pile de services optimisée pour les très grands modèles de langage de type Mixture-of-Experts (MoE) comme DeepSeek-R1, qui compte 671 milliards de paramètres.
Architecture technique et innovations
Le système CloudMatrix met en œuvre plusieurs innovations techniques clés dans son architecture. Au cœur de sa conception se trouve un réseau maillé Unified-Bus qui permet une communication directe entre toutes les NPU et les CPU avec une latence additionnelle minimale. Selon le rapport technique, cette interconnexion ajoute moins de 3 % de perte de bande passante et moins d'une microseconde de latence lors de la communication inter-nœuds.
Le système adopte une approche désagrégée de l'inférence d'IA, séparant le processus en trois pools de ressources distincts : les NPU de préremplissage (prefill), les NPU de décodage (decode) et un cluster de cache adossé à la mémoire DRAM. Ces composants accèdent directement les uns aux autres via le Unified-Bus, ce qui élimine le besoin de planificateurs sensibles à la localité et permet une utilisation plus efficace des ressources.
« Cette approche aplatit efficacement la hiérarchie de la mémoire, permettant des planificateurs sans état plus simples et des caches mis en commun », explique la documentation technique, qui précise que la conception permet à la DRAM inactive n'importe où dans le système de devenir disponible pour la mise en cache des paires clé-valeur ou des modèles.
Métriques de performance et comparaisons
Les données de performance incluses dans le rapport indiquent que le système CloudMatrix atteint 6 688 jetons par seconde et par NPU lors des opérations de préremplissage (prefill) avec des invites de 4 000 jetons, ce qui correspond à 4,45 jetons par seconde et par TFLOPS. Pour les opérations de décodage, le système fournit 1 943 jetons par seconde et par NPU avec un temps de surcoût de traitement total inférieur à 50 millisecondes, pour une taille de lot (batch size) de 96.
Le rapport indique que ces métriques d'efficacité dépassent les chiffres publiés pour des systèmes comparables fonctionnant sur du matériel NVIDIA H100 et H800. Lorsqu'il est soumis à des exigences de latence plus strictes de 15 millisecondes, le système maintient un débit de 538 jetons par seconde en ajustant automatiquement les tailles de lot.
Les techniques de quantification implémentées dans le système permettent une précision INT8 lorsque cela est approprié, tout en maintenant une précision BF16/FP32 pour les opérations sensibles. Le rapport indique que cette approche de précision mixte préserve la précision du modèle tout en réduisant considérablement les besoins en mémoire, les résultats des bancs d'essai montrant que le modèle INT8 correspond ou est presque équivalent à la performance de référence FP sur les suites d'évaluation en anglais, code, mathématiques et chinois.
Considérations économiques
La documentation technique inclut des estimations de coûts approximatives pour le système. Un rack CloudMatrix384 complet est estimé à environ 50 millions de yens (environ 6,9 millions de dollars américains, soit environ 6,35 millions d'euros), les puces Ascend 910C individuelles étant évaluées à environ 150 000 yens. Sur la base des mesures de débit, cela se traduit par un coût estimé à environ 2 yens par million de jetons générés.
Le service de mémoire élastique (Elastic Memory Service) du système offre des avantages supplémentaires en matière d'efficacité opérationnelle, permettant un basculement de modèle en environ 5 secondes, contre 281 secondes avec les approches traditionnelles de DRAM locale aux nœuds, tout en ne nécessitant qu'une empreinte DRAM 1x contre 8x pour les approches conventionnelles.
Détails de l'implémentation technique
Plusieurs techniques spécialisées contribuent aux caractéristiques de performance du système :
-
Parallélisme d'experts à grande échelle – Le système met en œuvre un parallélisme d'experts allant jusqu'à 320 experts, distribuant exactement un expert par matrice NPU, tout en utilisant le parallélisme de données pour les couches denses.
-
Pipelining hybride et par micro-lots – Pour les opérations de préremplissage (prefill), le système utilise un parallélisme tensoriel hybride et un parallélisme d'experts pour l'attention latente multi-têtes (Multi-Head Latent Attention) avec un pipelining à deux micro-lots. Les opérations de décodage utilisent des flux d'attention et de MoE superposés par micro-lot.
-
Prédiction multi-jetons – Le système génère deux jetons par étape avec validation spéculative, offrant entre 6 et 49 % de débit de décodage supplémentaire selon la taille du lot.
-
Kernels natifs Ascend – Des implémentations personnalisées de GEMM INT8 et des opérateurs fusionnés, spécifiquement conçus pour les moteurs cube/vecteur/DMA de l'architecture Ascend, aident à maintenir les performances avec la stratégie de parallélisme choisie.
Implications sur le marché
Le système CloudMatrix représente une solution de calcul d'IA entièrement chinoise, du silicium NPU au logiciel système. Le rapport technique souligne qu'avec les capacités de fabrication de la Chine, le système a un potentiel de production de masse.
La stratégie du modèle DeepSeek, qui consiste à fournir des poids ouverts pour l'adoption communautaire tout en proposant des modules complémentaires commerciaux pour les déploiements privés, s'aligne avec ce que le rapport décrit comme l'orientation politique de Pékin axée sur la valeur d'application plutôt que sur le nombre brut de paramètres.
Pour les organisations travaillant avec des modèles d'IA à grande échelle, le système offre potentiellement une approche rentable de l'inférence, en particulier pour les tâches gourmandes en données telles que la distillation de modèles ou l'auto-apprentissage sans opérations d'étiquetage étendues.
Développements futurs
La documentation technique décrit plusieurs domaines de développement futur, notamment des interconnexions optiques plus denses et des algorithmes de planification plus sophistiqués. Les auteurs suggèrent que l'architecture actuelle pourrait s'adapter à des configurations encore plus grandes que l'implémentation à 384 NPU détaillée dans le rapport.
Note : Cette analyse est basée sur les informations techniques fournies dans la documentation. Les investisseurs potentiels doivent effectuer leurs propres recherches et consulter des conseillers financiers avant de prendre des décisions d'investissement.