Le système CloudMatrix de Huawei marque une étape majeure vers l'indépendance de la Chine en IA générative

Par
Lang Wang
5 min de lecture

Huawei dévoile le système CloudMatrix pour l'inférence de modèles d'IA à grande échelle

Huawei a publié une documentation technique détaillant son système CloudMatrix384, une plateforme informatique spécialisée conçue autour de 384 unités de traitement neuronal Ascend-910C, dédiée à l'inférence de modèles d'IA à grande échelle. Le système intègre CloudMatrix-Infer, une pile de services optimisée pour les très grands modèles de langage de type Mixture-of-Experts (MoE) comme DeepSeek-R1, qui compte 671 milliards de paramètres.

Architecture technique et innovations

Le système CloudMatrix met en œuvre plusieurs innovations techniques clés dans son architecture. Au cœur de sa conception se trouve un réseau maillé Unified-Bus qui permet une communication directe entre toutes les NPU et les CPU avec une latence additionnelle minimale. Selon le rapport technique, cette interconnexion ajoute moins de 3 % de perte de bande passante et moins d'une microseconde de latence lors de la communication inter-nœuds.

Le système adopte une approche désagrégée de l'inférence d'IA, séparant le processus en trois pools de ressources distincts : les NPU de préremplissage (prefill), les NPU de décodage (decode) et un cluster de cache adossé à la mémoire DRAM. Ces composants accèdent directement les uns aux autres via le Unified-Bus, ce qui élimine le besoin de planificateurs sensibles à la localité et permet une utilisation plus efficace des ressources.

« Cette approche aplatit efficacement la hiérarchie de la mémoire, permettant des planificateurs sans état plus simples et des caches mis en commun », explique la documentation technique, qui précise que la conception permet à la DRAM inactive n'importe où dans le système de devenir disponible pour la mise en cache des paires clé-valeur ou des modèles.

Métriques de performance et comparaisons

Les données de performance incluses dans le rapport indiquent que le système CloudMatrix atteint 6 688 jetons par seconde et par NPU lors des opérations de préremplissage (prefill) avec des invites de 4 000 jetons, ce qui correspond à 4,45 jetons par seconde et par TFLOPS. Pour les opérations de décodage, le système fournit 1 943 jetons par seconde et par NPU avec un temps de surcoût de traitement total inférieur à 50 millisecondes, pour une taille de lot (batch size) de 96.

Le rapport indique que ces métriques d'efficacité dépassent les chiffres publiés pour des systèmes comparables fonctionnant sur du matériel NVIDIA H100 et H800. Lorsqu'il est soumis à des exigences de latence plus strictes de 15 millisecondes, le système maintient un débit de 538 jetons par seconde en ajustant automatiquement les tailles de lot.

Les techniques de quantification implémentées dans le système permettent une précision INT8 lorsque cela est approprié, tout en maintenant une précision BF16/FP32 pour les opérations sensibles. Le rapport indique que cette approche de précision mixte préserve la précision du modèle tout en réduisant considérablement les besoins en mémoire, les résultats des bancs d'essai montrant que le modèle INT8 correspond ou est presque équivalent à la performance de référence FP sur les suites d'évaluation en anglais, code, mathématiques et chinois.

Considérations économiques

La documentation technique inclut des estimations de coûts approximatives pour le système. Un rack CloudMatrix384 complet est estimé à environ 50 millions de yens (environ 6,9 millions de dollars américains, soit environ 6,35 millions d'euros), les puces Ascend 910C individuelles étant évaluées à environ 150 000 yens. Sur la base des mesures de débit, cela se traduit par un coût estimé à environ 2 yens par million de jetons générés.

Le service de mémoire élastique (Elastic Memory Service) du système offre des avantages supplémentaires en matière d'efficacité opérationnelle, permettant un basculement de modèle en environ 5 secondes, contre 281 secondes avec les approches traditionnelles de DRAM locale aux nœuds, tout en ne nécessitant qu'une empreinte DRAM 1x contre 8x pour les approches conventionnelles.

Détails de l'implémentation technique

Plusieurs techniques spécialisées contribuent aux caractéristiques de performance du système :

  1. Parallélisme d'experts à grande échelle – Le système met en œuvre un parallélisme d'experts allant jusqu'à 320 experts, distribuant exactement un expert par matrice NPU, tout en utilisant le parallélisme de données pour les couches denses.

  2. Pipelining hybride et par micro-lots – Pour les opérations de préremplissage (prefill), le système utilise un parallélisme tensoriel hybride et un parallélisme d'experts pour l'attention latente multi-têtes (Multi-Head Latent Attention) avec un pipelining à deux micro-lots. Les opérations de décodage utilisent des flux d'attention et de MoE superposés par micro-lot.

  3. Prédiction multi-jetons – Le système génère deux jetons par étape avec validation spéculative, offrant entre 6 et 49 % de débit de décodage supplémentaire selon la taille du lot.

  4. Kernels natifs Ascend – Des implémentations personnalisées de GEMM INT8 et des opérateurs fusionnés, spécifiquement conçus pour les moteurs cube/vecteur/DMA de l'architecture Ascend, aident à maintenir les performances avec la stratégie de parallélisme choisie.

Implications sur le marché

Le système CloudMatrix représente une solution de calcul d'IA entièrement chinoise, du silicium NPU au logiciel système. Le rapport technique souligne qu'avec les capacités de fabrication de la Chine, le système a un potentiel de production de masse.

La stratégie du modèle DeepSeek, qui consiste à fournir des poids ouverts pour l'adoption communautaire tout en proposant des modules complémentaires commerciaux pour les déploiements privés, s'aligne avec ce que le rapport décrit comme l'orientation politique de Pékin axée sur la valeur d'application plutôt que sur le nombre brut de paramètres.

Pour les organisations travaillant avec des modèles d'IA à grande échelle, le système offre potentiellement une approche rentable de l'inférence, en particulier pour les tâches gourmandes en données telles que la distillation de modèles ou l'auto-apprentissage sans opérations d'étiquetage étendues.

Développements futurs

La documentation technique décrit plusieurs domaines de développement futur, notamment des interconnexions optiques plus denses et des algorithmes de planification plus sophistiqués. Les auteurs suggèrent que l'architecture actuelle pourrait s'adapter à des configurations encore plus grandes que l'implémentation à 384 NPU détaillée dans le rapport.


Note : Cette analyse est basée sur les informations techniques fournies dans la documentation. Les investisseurs potentiels doivent effectuer leurs propres recherches et consulter des conseillers financiers avant de prendre des décisions d'investissement.

Vous aimerez peut-être aussi

Cet article est soumis par notre utilisateur en vertu des Règles et directives de soumission de nouvelles. La photo de couverture est une œuvre d'art générée par ordinateur à des fins illustratives uniquement; ne reflète pas le contenu factuel. Si vous pensez que cet article viole les droits d'auteur, n'hésitez pas à le signaler en nous envoyant un e-mail. Votre vigilance et votre coopération sont inestimables pour nous aider à maintenir une communauté respectueuse et juridiquement conforme.

Abonnez-vous à notre bulletin d'information

Obtenez les dernières nouvelles de l'entreprise et de la technologie avec des aperçus exclusifs de nos nouvelles offres

Nous utilisons des cookies sur notre site Web pour activer certaines fonctions, fournir des informations plus pertinentes et optimiser votre expérience sur notre site Web. Vous pouvez trouver plus d'informations dans notre Politique de confidentialité et dans nos Conditions d'utilisation . Les informations obligatoires se trouvent dans les mentions légales