La Puce Ironwood de Google Redéfinit l'Économie de l'IA, Ouvrant une Nouvelle Ère pour l'Inférence
Un Bond Technologique pour un Monde Contraint par l'Énergie
Le TPU v7 Ironwood de Google Cloud fait son entrée sous les projecteurs, se dirigeant vers la disponibilité générale après sa prévisualisation en avril 2025. Il ne s'agit pas d'un simple lancement de puce, mais d'un pari architectural audacieux. Google mise gros sur l'inférence plutôt que sur l'entraînement, un changement rendu limpide après la révélation de nouveaux détails techniques lors de la conférence Hot Chips 2025.
Chaque unité Ironwood offre une puissance de calcul FP8 stupéfiante de 4 614 téraflops, soutenue par 192 gigaoctets de mémoire HBM3e ultra-rapide fonctionnant à 7,3 téraoctets par seconde. Construite sur un procédé avancé de 5 nanomètres, la puce consomme environ 600 watts de puissance – impressionnant au vu de ses performances.
La véritable magie opère au niveau du pod. Imaginez 9 216 puces refroidies par liquide, connectées via une commutation de circuit optique, atteignant ensemble 42,5 exaflops de performance FP8 et une mémoire partagée époustouflante de 1,77 pétaoctet. C'est un chiffre record dans le monde des systèmes d'apprentissage automatique. Cette configuration révèle la conviction profonde de Google : le plus grand obstacle au déploiement de l'IA fin 2025 n'est plus la puissance de calcul brute, mais la mémoire, la bande passante et l'efficacité énergétique nécessaires pour exécuter des agents d'IA massifs et à états (stateful) à grande échelle.
La fabrique d'E/S de 1,2 téraoctet par seconde d'Ironwood et sa performance par watt doublée par rapport à la génération précédente Trillium s'attaquent directement à ces points faibles. Les hyperscalers se heurtent aux limites physiques des réseaux électriques, donc tirer plus d'inférence de chaque watt est devenu la nouvelle référence. Dans les centres de données multi-gigawatts d'aujourd'hui, la métrique clé n'est pas la vitesse à laquelle vous pouvez entraîner, mais l'efficacité avec laquelle vous pouvez servir les charges de travail d'inférence.
L'Accord avec Anthropic Déclenche la Demande et Alimente la Rivalité avec Nvidia
Le tournant s'est produit le 23 octobre 2025. Anthropic a signé un accord massif s'engageant à acquérir « jusqu'à un million de TPU » et « des dizaines de milliards de dollars » en contrats, avec une consommation électrique projetée dépassant un gigawatt d'ici 2026. Du jour au lendemain, Ironwood est passé d'une promesse sur feuille de route à une réalité de production, soutenue par une demande réelle et à enjeux élevés.
Pour Google, cet accord signifie visibilité et stabilité. L'entreprise peut désormais planifier la construction de centres de données et les accords d'alimentation sans craindre une capacité inutilisée – une préoccupation majeure en avril dernier.
L'ampleur du pari d'Anthropic en dit long. Au lieu d'attendre les dernières puces de Nvidia ou d'AWS, le développeur de Claude a choisi l'Ironwood de Google pour sa rapidité de mise sur le marché et son efficacité énergétique. C'est un clin d'œil évident à l'économie du TPU v7 : plus d'inférence, moins d'énergie. Dans un monde où l'énergie, et non le silicium, limite la croissance, cela compte plus que jamais.
La concurrence dans le monde des puces IA se divise désormais par charge de travail. Les puces Blackwell de Nvidia dominent toujours l'entraînement de pointe, offrant une inférence jusqu'à 30 fois plus rapide que Hopper et préparant le terrain pour les configurations à l'échelle du rack Rubin de 3,6 exaflops prévues pour 2026. AWS, de son côté, a déployé 500 000 puces Trainium2 connectées via son réseau UltraCluster, bien que chaque puce dispose de moins de mémoire embarquée (environ 1,29 pétaflops FP8 par bloc de 16 puces). Le programme Maia de Microsoft est toujours à la traîne, le matériel de nouvelle génération étant retardé jusqu'en 2026.
La stratégie de Google est différente. Elle ne cherche pas le plus grand nombre, mais le bon. La mémoire partagée de 1,77 pétaoctet d'Ironwood lui confère un avantage pour la gestion des modèles de mélange d'experts (mixture-of-experts), le raisonnement à long contexte et les systèmes à forte récupération de données (retrieval-heavy systems). Ce sont les bêtes de somme de l'IA moderne. Alors que Nvidia vend une solution « taille unique », Google construit une infrastructure sur mesure pour ce qu'il appelle « l'ère de l'inférence ».
Analyse d'Investissement : Protéger les Marges Grâce à l'Intégration Verticale
Pour les investisseurs d'Alphabet, Ironwood représente plus qu'une simple nouvelle puce : c'est une défense contre la réduction des marges dans le secteur de l'IA cloud. Les hyperscalers comme AWS devraient atteindre 11,8 gigawatts de capacité électrique d'ici 2027, et l'ensemble de l'industrie dépense massivement pendant cette période. Le silicium personnalisé permet à Google de transformer ces dépenses en profits, en capturant de la valeur depuis la conception de la puce jusqu'à son déploiement.
Les chiffres parlent d'eux-mêmes. Ironwood double les performances par watt par rapport à Trillium, ce qui signifie que chaque mégawatt de capacité de centre de données en 2026 peut produire le double de la capacité d'inférence des systèmes de 2024. Ajoutez à cela un logiciel plus intelligent – comme l'intégration vLLM de Google et l'amélioration de la planification Pathways – et Google peut fixer des prix compétitifs pour ses services d'IA tout en améliorant ses marges. En clair, utiliser ses propres puces est plus avantageux que de revendre celles des autres.
Le contrat avec Anthropic supprime également l'incertitude des plans de dépenses en capital de Google. Au lieu de construire de la capacité en espérant que les clients viendront, Google construit en fonction d'une demande garantie. Cela fait passer le modèle financier de la spéculation à la certitude – les dépenses d'infrastructure IA sont désormais directement liées aux revenus garantis.
Cependant, trois grandes questions demeurent en suspens. Premièrement, Google peut-il attirer davantage de clients majeurs ? Deux ou trois contrats TPU à long terme supplémentaires prouveraient qu'Ironwood n'est pas un succès éphémère lié à un seul client. Deuxièmement, les projets énergétiques respecteront-ils les délais ? L'objectif de 2026 dépend des approbations de sous-stations et des calendriers de construction qui ne sont pas entièrement entre les mains de Google. Troisièmement, la pile logicielle de Google peut-elle suivre le rythme de l'écosystème CUDA de Nvidia ? Les taux d'utilisation en dépendront – une baisse de 90 % à 70 % nuirait à l'efficacité.
Bien que la domination de Nvidia dans l'entraînement reste assurée, la menace des puces personnalisées comme Ironwood est réelle. Google n'essaie pas de détrôner Nvidia dans la recherche ou le prototypage rapide. Au lieu de cela, il cible les charges de travail essentielles – les tâches d'inférence massives et stables qui maintiennent les systèmes d'IA en fonctionnement quotidien. D'ici 2027, les TPU de Google pourraient gérer jusqu'à 30 % du marché total de l'inférence.
Ce changement, combiné à des initiatives similaires d'Amazon et de Microsoft, explique pourquoi Nvidia subit une pression croissante pour justifier ses prix. Le marché des puces IA évolue d'un fournisseur géant vers plusieurs écosystèmes verticalement intégrés, chacun possédant sa propre pile technologique.
La véritable signification d'Ironwood réside dans la preuve que l'infrastructure IA peut augmenter les marges bénéficiaires – et non pas seulement évoluer à l'infini. Pour Alphabet, c'est un filet de sécurité stratégique, offrant la flexibilité de basculer entre l'utilisation interne et la location cloud tout en réduisant la dépendance vis-à-vis des fabricants de puces externes. Dans un monde où l'efficacité est reine, l'Ironwood de Google pourrait être la puce qui redéfinit l'économie de l'IA elle-même.
CECI N'EST PAS UN CONSEIL EN INVESTISSEMENT
