Microsoft franchit la barre du million de tokens dans la course à l'IA dans le cloud, mais la victoire pourrait être éphémère

Par
CTOL Editors - Ken
5 min de lecture

Microsoft franchit la barre du million de jetons dans la course à l'IA dans le cloud, mais la victoire pourrait être éphémère

Le record qui redéfinit l'informatique en nuage

Microsoft Azure a pulvérisé le record de vitesse d'inférence pour l'intelligence artificielle, atteignant un chiffre sans précédent de 1,1 million de jetons par seconde sur un système à l'échelle d'une baie – un bond de 27 % par rapport à son propre record précédent et une étape majeure qui marque l'arrivée d'une IA véritablement à l'échelle industrielle dans le cloud.

Cet exploit, réalisé par les ingénieurs Mark Gitau et Hugo Affaticati à l'aide des nouvelles machines virtuelles Azure ND GB300 v6, propulsées par l'architecture Blackwell Ultra de NVIDIA, représente une amélioration de cinq fois par rapport au matériel de la génération précédente. Pourtant, derrière les titres élogieux se cache une histoire plus complexe : il ne s'agit pas tant d'une révolution que de la prochaine étape inévitable dans une course à l'armement où la ligne d'arrivée ne cesse de reculer.

Un triomphe d'ingénierie sur du silicium construit par un tiers

L'accomplissement technique est indéniable. En exécutant le modèle Llama 2 70B, standard de l'industrie, sur 18 machines virtuelles abritant 72 GPU NVIDIA GB300, Azure a démontré ce qui se passe lorsque des puces de pointe rencontrent une optimisation logicielle mature. Le système a traité 15 200 jetons par seconde par GPU, contre seulement 3 066 jetons par seconde pour les puces H100 de la génération précédente de NVIDIA.

Les ingénieurs d'Azure ont tiré 92 % d'efficacité de la mémoire à large bande passante du système et ont atteint 7,37 téraoctets par seconde de débit mémoire – des chiffres qui indiquent une opération finement réglée, et non une simple installation matérielle. L'entreprise a publié des instructions de reproduction détaillées, une transparence inhabituelle dans les annonces des fournisseurs de cloud et un signe de confiance dans sa pile d'ingénierie.

Mais voici ce que le communiqué de presse minimise : il s'agit fondamentalement d'une percée de NVIDIA, pas de Microsoft. Le système GB300 NVL72 à l'échelle d'une baie a été explicitement conçu par NVIDIA pour ce type de charge de travail d'inférence, avec 50 % de mémoire GPU en plus et une capacité thermique supérieure de 16 % à celle de son prédécesseur. Azure a simplement été le premier à franchir la ligne d'arrivée en le rendant disponible en tant que service cloud.

Ce que les chiffres signifient réellement

La signification ne réside pas dans une technologie révolutionnaire, mais dans ce qui est désormais possible à l'échelle de l'entreprise. L'observateur tiers Signal65 a qualifié cela de "preuve définitive" que la performance transformatrice de l'IA est disponible comme un utilitaire fiable – et ce cadrage est plus important que les chiffres bruts.

Pour les entreprises qui développent des applications d'IA, l'impact pratique est immédiat : ce qui nécessitait auparavant plusieurs baies ou de longs temps de traitement peut désormais se produire sur un seul système. L'économie change proportionnellement. Mais plusieurs mises en garde importantes tempèrent l'enthousiasme.

Premièrement, il s'agit d'un benchmark "hors ligne" – un scénario de traitement par lots, et non le service interactif à faible latence que les applications du monde réel exigent. Le temps de premier jeton, la gestion des utilisateurs concurrents et la performance soutenue sous des charges de travail mixtes restent non abordés.

Deuxièmement, la soumission à MLPerf v5.1 n'est pas vérifiée, ce qui signifie qu'elle n'a pas passé le processus d'examen formel qui valide les résultats certifiés du classement. Ce sont des données de performance légitimes, mais elles n'atteignent pas la vérification standard de l'industrie.

Troisièmement, et peut-être le plus important, le test a utilisé Llama 2 70B – un modèle de 2023. Les applications de pointe d'aujourd'hui fonctionnent sur des systèmes nettement plus grands : Llama 3.1 405B ou l'architecture de mélange d'experts de 671 milliards de paramètres de DeepSeek-R1. Il reste à savoir si l'exploit d'Azure d'un million de jetons est transposable à ces modèles plus exigeants.

Le contexte à mille milliards de dollars

Le calendrier de cette annonce n'est pas un hasard. Le marché des infrastructures d'IA, actuellement évalué entre 58 et 182 milliards de dollars selon la méthodologie, devrait absorber des milliers de milliards en dépenses d'investissement (CapEx) d'ici 2030. Les hyperscalers comme Microsoft, Amazon et Google font face à une pression croissante : les prix des API d'IA tendent à baisser tandis que les coûts d'infrastructure augmentent.

Chaque point de pourcentage d'amélioration des performances a un impact direct sur les marges brutes de chaque appel d'API, de chaque interaction de chatbot, de chaque requête de génération de code. Le gain de 27 % d'Azure par rapport au GB200 se traduit par des sommes importantes à grande échelle – mais seulement s'ils peuvent maintenir leur avance.

Cette avance semble précaire. AWS propose déjà des systèmes de classe Blackwell et déploiera presque certainement des configurations GB300 dès que l'approvisionnement le permettra. CoreWeave et Dell ont annoncé les premiers déploiements commerciaux de GB300 Ultra il y a quelques semaines. Google Cloud et Oracle Cloud Infrastructure sont en retard de quelques mois, pas d'années. Même le MI355X d'AMD a démontré des performances MLPerf compétitives, offrant une alternative potentielle en termes de rapport prix-performances à la domination de NVIDIA.

Être le premier n'est pas être le seul

La véritable réussite d'Azure est d'être le premier à commercialiser le GB300 NVL72 en tant que service cloud accessible avec des données de performance transparentes et reproductibles. C'est un leadership significatif en matière de mise sur le marché et d'intégration de systèmes – le travail ingrat mais essentiel de transformer du matériel expérimental en infrastructure facturable.

Mais c'est un leadership mesuré en trimestres, pas en années. Le fossé concurrentiel est étroit car tout le monde utilise finalement la même base NVIDIA. Une fois que les concurrents publieront leurs chiffres – en particulier les soumissions MLPerf vérifiées – la suprématie d'Azure en matière de titres s'évaporera.

Le défi plus profond reste non résolu : ces systèmes consomment toujours 100 à 120 kilowatts par baie, nécessitent un refroidissement liquide sophistiqué, et ne répondent pas à l'évolution de l'industrie vers des fenêtres contextuelles plus longues, une efficacité multi-locataires, ou l'optimisation du routage des mélanges d'experts.

Ce que Microsoft a prouvé, c'est que la prochaine génération d'infrastructures d'IA fonctionne et fonctionne bien dans les environnements cloud de production. Ce qu'ils n'ont pas prouvé, c'est que quiconque se souviendra de qui était le premier une fois que tout le monde arrivera au même endroit.

Vous aimerez peut-être aussi

Cet article est soumis par notre utilisateur en vertu des Règles et directives de soumission de nouvelles. La photo de couverture est une œuvre d'art générée par ordinateur à des fins illustratives uniquement; ne reflète pas le contenu factuel. Si vous pensez que cet article viole les droits d'auteur, n'hésitez pas à le signaler en nous envoyant un e-mail. Votre vigilance et votre coopération sont inestimables pour nous aider à maintenir une communauté respectueuse et juridiquement conforme.

Abonnez-vous à notre bulletin d'information

Obtenez les dernières nouvelles de l'entreprise et de la technologie avec des aperçus exclusifs de nos nouvelles offres

Nous utilisons des cookies sur notre site Web pour activer certaines fonctions, fournir des informations plus pertinentes et optimiser votre expérience sur notre site Web. Vous pouvez trouver plus d'informations dans notre Politique de confidentialité et dans nos Conditions d'utilisation . Les informations obligatoires se trouvent dans les mentions légales