CoreWeave Bat le Record de Vitesse d'Entraînement d'IA Grâce à un Cluster GPU Massif pour les Modèles de Langage

Par
Lang Wang
8 min de lecture

L'infrastructure d'IA record de CoreWeave établit une nouvelle norme industrielle

Dans une avancée majeure pour l'infrastructure d'intelligence artificielle, CoreWeave (Nasdaq : CRWV) a démontré des performances sans précédent dans l'entraînement de grands modèles linguistiques, transformant potentiellement l'économie et le rythme du développement de l'IA pour les entreprises du monde entier.

Coreweave (gstatic.com)
Coreweave (gstatic.com)

Le jalon des 27 minutes : une percée technique qui a pris des années à se concrétiser

Dans ce que les experts de l'industrie appellent un moment décisif pour le cloud computing, CoreWeave — en partenariat avec NVIDIA et IBM — a réussi à entraîner un modèle Llama 3.1 massif de 405 milliards de paramètres en seulement 27,3 minutes. Cette prouesse, dévoilée lors de leur soumission au MLPerf Training v5.0 le 4 juin, représente plus du double de la vitesse des systèmes comparables.

« Ce n'est pas seulement un progrès incrémental, c'est un changement fondamental dans ce qui est possible », a déclaré un architecte de systèmes d'IA dans un laboratoire de recherche de premier plan. « Les cycles d'entraînement qui prenaient auparavant des journées entières de travail sont désormais terminés avant que votre café ne refroidisse. »

La réussite technique repose sur le déploiement par CoreWeave de 2 496 GPU NVIDIA GB200 dans une configuration spécialisée connue sous le nom de NVL72, qui regroupe 72 GPU via des connexions NVLink à large bande passante. Cette architecture représente un écart significatif par rapport aux clusters de GPU traditionnels, éliminant de nombreux goulots d'étranglement qui ont historiquement entravé l'entraînement d'IA à grande échelle.

Au-delà des chiffres : pourquoi cela compte pour le développement de l'IA

Les implications vont bien au-delà de la simple gloire dans une référence industrielle. Pour les laboratoires d'IA et les entreprises travaillant sur des modèles de pointe, la capacité d'entraîner un modèle de fondation en moins de 30 minutes transforme les cycles de développement de semaines en jours.

« Lorsque vos temps d'entraînement passent de 12 heures à 27 minutes, tout change », a expliqué un chercheur en calcul familier avec les déploiements d'IA à grande échelle. « Vous pouvez exécuter des dizaines d'expériences en une seule journée, tester plus d'hypothèses et, au final, construire de meilleurs modèles plus rapidement que les concurrents qui attendent encore les résultats. »

La prouesse de CoreWeave est particulièrement remarquable par son échelle : leur soumission a utilisé un cluster 34 fois plus grand que toute autre entrée MLPerf d'un fournisseur de cloud. Cela démontre non seulement une capacité technique, mais aussi une préparation opérationnelle à supporter les charges de travail d'IA les plus exigeantes à un moment où l'accès aux ressources informatiques avancées reste limité à l'échelle de l'industrie.

L'équation économique : redéfinir le coût total de possession de l'IA

Les gains de performance se traduisent directement par des implications financières. Une analyse de l'industrie suggère que l'entraînement d'un modèle de 405 milliards de paramètres sur l'infrastructure de CoreWeave coûterait environ 350 000 $ à 420 000 $ — soit environ 30 à 40 % de moins que des exécutions comparables sur d'autres plateformes, qui peuvent dépasser 600 000 $.

Pour les startups axées sur l'IA et fonctionnant avec un financement limité, cet écart de coût pourrait déterminer si des projets ambitieux peuvent se concrétiser ou restent théoriques. Pour les entreprises établies, cela représente des millions d'économies potentielles pour les initiatives d'IA à grande échelle.

« Les aspects économiques sont ici convaincants », a noté un investisseur en capital-risque spécialisé dans les startups d'IA. « Lorsque vous prenez en compte à la fois les économies de coûts directes et l'avantage concurrentiel des cycles de développement plus rapides, l'offre de CoreWeave devient transformatrice pour certains segments du marché. »

L'architecture technique derrière la réussite

La performance record de CoreWeave repose sur plusieurs innovations techniques :

Les superpuces GB200 Grace Blackwell représentent la dernière génération d'accélérateurs d'IA de NVIDIA, associant de puissants cœurs GPU à des CPU Grace basés sur ARM et des unités de traitement de données spécialisées sur le même boîtier.

Contrairement aux racks de GPU traditionnels qui nécessitent des CPU hôtes séparés pour acheminer les données entre les unités de traitement, la conception intégrée du GB200 élimine ce goulot d'étranglement. La configuration NVL72 étend cet avantage en créant des domaines unifiés de 72 GPU avec des connexions directes à haute vitesse entre eux.

« Ce qui rend cette architecture spéciale, c'est la façon dont elle gère le mouvement des données, qui a toujours été le talon d'Achille de l'entraînement d'IA distribué », a expliqué un spécialiste de l'infrastructure dans une grande université de recherche. « En intégrant directement les CPU et en étendant le domaine NVLink à 72 GPU, ils ont éliminé plusieurs couches d'indirection qui créent généralement des inefficacités de mise à l'échelle. »

La contribution d'IBM, bien que moins détaillée dans les documents publics, englobe probablement la conception critique au niveau du système, y compris la gestion thermique, la distribution d'énergie et les architectures de réseau capables de maintenir les flux de données massifs requis.

Positionnement sur le marché : où CoreWeave se situe-t-il dans le paysage concurrentiel ?

Cette réalisation positionne CoreWeave comme une alternative spécialisée aux fournisseurs de cloud hyperscale comme AWS, Google Cloud et Microsoft Azure — qui offrent tous leurs propres options de calcul haute performance pour les charges de travail d'IA.

Les TPU v5 Pods de Google, les instances EC2 P5 d'AWS et le CryoPod récemment annoncé de Microsoft représentent les concurrents les plus proches, mais aucun n'a publiquement démontré des performances comparables à cette échelle pour les benchmarks MLPerf v5.0.

« La course à la suprématie du calcul d'IA a plusieurs fronts », a observé un analyste d'infrastructure cloud. « Les fournisseurs hyperscale disposent d'énormes ressources, mais l'approche ciblée de CoreWeave et son accès anticipé à l'architecture Blackwell leur ont donné un avantage temporaire dans ce segment haut de gamme spécifique. »

Cet avantage pourrait s'avérer temporaire — AWS, Google et Microsoft ont tous accès à la même technologie NVIDIA sous-jacente et à de vastes ressources pour la déployer. Cependant, pour les prochains trimestres critiques, CoreWeave semble avoir établi une avance significative dans la capacité d'entraînement de LLM à ultra-échelle.

La voie à suivre : défis et opportunités

Bien que la réussite de CoreWeave représente une étape importante, plusieurs défis subsistent pour les organisations cherchant à tirer parti de cette technologie :

La préparation des données et l'efficacité des pipelines deviennent de plus en plus critiques lorsque le traitement GPU s'accélère à ce point. Même des goulots d'étranglement mineurs dans l'alimentation des données peuvent réduire considérablement les avantages réels des capacités d'entraînement plus rapides.

La complexité logicielle reste substantielle, nécessitant une expertise spécialisée pour exploiter pleinement l'entraînement distribué sur des milliers de GPU. De nombreuses organisations manquent des talents internes pour optimiser à cette échelle sans un soutien supplémentaire.

La disponibilité et les délais de provisionnement détermineront combien d'organisations peuvent réellement accéder à cette capacité. CoreWeave affirme disposer d'un inventaire suffisant pour allouer des milliers de GPU en 24 heures — un contraste frappant avec les listes d'attente de plusieurs mois signalées chez certains fournisseurs hyperscale — mais la disponibilité soutenue à cette échelle reste à prouver.

Perspective d'investissement : implications pour le marché de l'infrastructure d'IA

Pour les investisseurs qui suivent le marché de l'infrastructure d'IA, la démonstration de CoreWeave met en évidence plusieurs tendances clés :

Le marché des fournisseurs de cloud d'IA spécialisés semble se consolider aux côtés des fournisseurs hyperscale établis, suggérant une bifurcation entre le cloud computing généraliste et l'infrastructure d'IA spécialisée.

La position dominante de NVIDIA dans les accélérateurs d'IA se maintient malgré l'émergence de concurrents comme Cerebras, Graphcore et Habana Labs. L'avantage de performance de l'architecture GB200 renforce le leadership technologique de NVIDIA, bien que les contraintes d'approvisionnement restent un facteur de marché significatif.

Le marché total adressable pour l'entraînement d'IA à ultra-échelle (modèles de plus de 100 milliards de paramètres) est estimé à 2-3 milliards de dollars annuellement et connaît une croissance rapide, représentant l'un des segments les plus rentables du marché plus large de l'infrastructure d'IA de 50 milliards de dollars.

Les organisations ayant des initiatives d'IA substantielles pourraient avoir besoin d'adopter des stratégies multi-cloud, tirant parti de fournisseurs spécialisés comme CoreWeave pour des charges de travail spécifiques à haute performance tout en maintenant des relations avec les fournisseurs hyperscale pour des besoins de calcul plus larges.

Ce que cela signifie pour le développement de l'IA

La démonstration de CoreWeave suggère que nous sommes entrés dans ce que certains appellent une « voie rapide pour l'IA » pour le développement de modèles de fondation, où le goulot d'étranglement des longs cycles d'entraînement est considérablement réduit pour ceux qui ont accès à une infrastructure de pointe.

Pour les équipes d'IA en entreprise travaillant sur de grands modèles, les nouvelles capacités méritent une sérieuse considération, en particulier pour les projets impliquant des modèles dans la fourchette de 100 à 500 milliards de paramètres. Même un accès occasionnel à de telles ressources pourrait accélérer considérablement les cycles de développement.

Les petites organisations et les équipes de recherche pourraient toujours trouver les clusters de GPU traditionnels plus rentables pour le travail quotidien, réservant les ressources à ultra-échelle pour des jalons spécifiques ou des démonstrations de faisabilité.

Alors que le paysage de l'infrastructure continue d'évoluer, avec de nouvelles technologies d'accélérateurs et des optimisations logicielles émergentes régulièrement, le rythme de l'innovation dans le développement de l'IA semble prêt à s'accélérer davantage.

Pour l'instant, la prouesse de CoreWeave sert de référence pour ce qui est possible — et un signal que la course à l'infrastructure d'IA reste aussi dynamique et significative que les algorithmes d'IA eux-mêmes.

Vous aimerez peut-être aussi

Cet article est soumis par notre utilisateur en vertu des Règles et directives de soumission de nouvelles. La photo de couverture est une œuvre d'art générée par ordinateur à des fins illustratives uniquement; ne reflète pas le contenu factuel. Si vous pensez que cet article viole les droits d'auteur, n'hésitez pas à le signaler en nous envoyant un e-mail. Votre vigilance et votre coopération sont inestimables pour nous aider à maintenir une communauté respectueuse et juridiquement conforme.

Abonnez-vous à notre bulletin d'information

Obtenez les dernières nouvelles de l'entreprise et de la technologie avec des aperçus exclusifs de nos nouvelles offres

Nous utilisons des cookies sur notre site Web pour activer certaines fonctions, fournir des informations plus pertinentes et optimiser votre expérience sur notre site Web. Vous pouvez trouver plus d'informations dans notre Politique de confidentialité et dans nos Conditions d'utilisation . Les informations obligatoires se trouvent dans les mentions légales