L'IA Générative ne va pas seulement dévorer les emplois du logiciel – elle s'attaque aussi au cloud public

L'IA générative ne se contentera pas de faire disparaître des emplois dans le logiciel, elle s'attaque aussi au cloud public

Pendant dix ans, le discours semblait imparable. Déployez sur le cloud public ou regardez vos concurrents vous laisser sur le carreau. Les services managés promettaient une évolutivité infinie et une portée mondiale. Pourquoi lutter contre la gravité ? Puis l'IA générative est arrivée et a changé la donne d'une manière que personne n'avait prévue. Cette même technologie que tout le monde craignait de voir remplacer les ingénieurs logiciels est en train de démanteler discrètement le fossé opérationnel qui rendait le cloud hyperscale inévitable.

Considérez cela comme un grand rééquilibrage. Les systèmes SRE agentiques rédigent automatiquement les manuels d'exploitation (runbooks). L'auto-remédiation corrige les problèmes avant même que les humains ne les remarquent. Les copilotes génèrent des configurations Terraform et des manifestes Kubernetes en quelques minutes au lieu de plusieurs jours. Une fois que la charge opérationnelle diminue, l'économie du modèle change radicalement. De nombreuses grandes entreprises gèrent des charges de travail prévisibles. Pour elles, posséder leur propre capacité ou utiliser des VPS mondiaux à faible coût redevient soudainement financièrement intéressant.

(Cet article se concentre sur les charges de travail non-IA du cloud public, à l'exclusion des charges de travail d'IA générative)

L'IA générative s'attaque au cloud public

Le vieux pacte est en train de mourir

Le cloud public n'a jamais signifié simplement "quelqu'un d'autre gère les serveurs". Les entreprises payaient des primes pour la vitesse, la sécurité et l'évolutivité sans avoir à construire d'énormes équipes de plateforme. Cependant, l'IA est en train de combler ce fossé plus rapidement que la plupart des gens ne le réalisent.

Les opérations agentiques éliminent entièrement les tâches ingrates. Les grands modèles de langage génèrent du code d'infrastructure à la demande. Ils proposent des restaurations sécurisées lors d'incidents. Ils résument des problèmes complexes et exécutent des manuels d'exploitation standard dans les limites des politiques établies. Des tâches qui occupaient des après-midis entières pour les équipes de plateforme sont désormais accomplies en quelques minutes. Mieux encore, la documentation reste cohérente et les pistes d'audit complètes.

Les outils open source sont devenus "suffisamment matures" pour une utilisation sérieuse en production. Les opérateurs Postgres, les bases de données vectorielles, les serveurs de modèles, les "feature stores" et les piles d'observabilité semblaient autrefois trop risqués pour être auto-hébergés. Désormais, les agents les assemblent à l'aide de frameworks "policy-as-code". La personnalisation l'emporte toujours sur le verrouillage propriétaire. L'IA empêche le "glue code" (code de raccordement) de se détériorer avec le temps.

Les charges de travail prévisibles surpassent économiquement les charges de travail élastiques. La plupart des entreprises matures constatent des schémas de trafic stables à plus de quatre-vingts pour cent. Une utilisation élevée sur une infrastructure propre ou un VPS écrase la tarification à l'heure. Les coûts de sortie de données amplifient considérablement cet avantage.

Voici le point crucial : les primes opérationnelles s'effondrent à l'échelle de l'industrie. L'économie unitaire devient le seul tableau de bord qui compte — euros par mille inférences, euros par mille tokens, euros par gigaoctet traité. La marge de commodité du cloud est mise en évidence sous ce jour implacable.

Les pics de charge ont toujours besoin du cloud — juste les dix à vingt pour cent supérieurs

Les défenseurs du cloud mentionnent immédiatement les charges de travail en pointe. Les événements marketing provoquent des pics de trafic. Des fermes d'évaluation de modèles sont mises en service temporairement. Ils ont tout à fait raison concernant ces scénarios. La location de capacité pour des pics imprévisibles a parfaitement sens. Cela ne justifie cependant pas de garer toute votre infrastructure dans des centres de données hyperscale pour toujours.

Un modèle plus intelligent émerge dans l'industrie. Faites fonctionner votre charge de base sur une infrastructure propre ou un VPS. Dimensionnez-la pour une utilisation de soixante-dix à quatre-vingt-cinq pour cent. Créez des capacités de débordement dans le cloud ou avec des fournisseurs de bare-metal secondaires. Utilisez-les pour les expériences, les pics de trafic et les exercices de reprise après sinistre. Maintenez le même plan de contrôle et les mêmes politiques partout. Le placement devient une décision d'ordonnancement plutôt qu'un projet de migration douloureux.

Le cloud ne disparaît pas de cette équation. Il devient la soupape de décharge au lieu d'être le domicile par défaut de tout.

Les arguments de la dernière chance perdent de leur force

Trois arguments avaient l'habitude de clore immédiatement ce débat. Aujourd'hui, ce ne sont plus que des obstacles sur la voie de l'infrastructure hybride.

Le basculement global (failover) semble essentiel jusqu'à ce que vous l'examiniez de près. La fiabilité découle de la conception du système, et non de SKU (références) premium. Les opérations agentiques automatisent la surveillance de la santé des régions, la redirection DNS, les instantanés inter-régions et les tests de reprise après sinistre. Ce qui change la donne, c'est la génération instantanée de preuves. Les agents compilent les objectifs de temps de récupération, les journaux de sauvegarde et les approbations de modifications en paquets prêts pour l'auditeur. La discipline reste importante. Mais vous n'avez pas besoin d'un hyperscaler pour y parvenir.

La gestion des identités d'entreprise et les garde-fous (guardrails) ont désormais des équivalents open source. Keycloak, Ory, SPIFFE, SPIRE, OpenFGA, Cedar, Vault, OPA et Gatekeeper offrent une gestion robuste des identités, des politiques et des secrets. Les agents relient ces contrôles de bout en bout. Ils maintiennent la documentation des politiques synchronisée avec l'infrastructure réelle. La consolidation organisationnelle offerte par les clouds publics est pratique. Elle n'est plus irremplaçable.

Les tissus réseau spéciaux comme NVLink ou InfiniBand sont importants pour des charges de travail spécifiques. L'entraînement de modèles sur des centaines de GPU exige des interconnexions exotiques. L'inférence à très faible latence nécessite une planification topologique minutieuse. Mais il s'agit de classification des charges de travail, pas d'un atout universel. La plupart des pipelines d'inférence, des tâches de traitement de données et des backends d'applications fonctionnent très bien sur des réseaux standards. Placez les charges de travail spécialisées sur le matériel approprié. Déplacez tout le reste des plateformes hyperscale coûteuses.

Les petites équipes viennent de bénéficier d'une remise sur plateforme

Historiquement, les petites entreprises ont choisi le cloud pour éviter la surcharge cognitive. Désormais, les agents réduisent considérablement cette charge.

Vous pouvez amorcer une plateforme complète en une semaine environ. Terraform provisionne l'infrastructure automatiquement. Talos ou K3s fournissent un Kubernetes léger. Argo CD gère les déploiements. Vault gère les secrets. SPIRE gère l'identité des services. Keycloak assure l'authentification. Cilium met en réseau tout de manière sécurisée. Les opérateurs Postgres gèrent les bases de données. MinIO offre le stockage d'objets. Prometheus, Loki et Grafana surveillent l'ensemble de la pile. L'IA écrit la configuration pour tout cela.

Les opérations fonctionnent en pilote automatique par la suite. Les agents de manuels d'exploitation exécutent automatiquement des remédiations sécurisées. Les agents de conformité compilent les revues d'accès, la vérification des sauvegardes et les métriques de reprise après sinistre. Les agents de coûts signalent les dépenses par mille requêtes et signalent les augmentations soudaines.

Lorsque le travail d'infrastructure se réduit à écrire des invites et à cliquer sur des approbations, l'économie des VPS écrase la tarification à la demande pour la plupart des charges de travail des petites entreprises. Les services managés sont toujours utiles pour les véritables pics de charge à l'échelle de la minute ou les exigences de conformité lourdes. Ils sont désormais optionnels au lieu d'être obligatoires.

La nouvelle équation : évaluer les résultats, pas les instances

Cette transformation n'est pas une posture idéologique. C'est l'arithmétique de base qui prend le relais dans la prise de décision. Arrêtez de comparer les spécifications des machines virtuelles. Commencez à suivre ce qui compte réellement pour votre entreprise.

Calculez le coût par résultat dans tous les environnements. Mesurez les euros par mille inférences, les euros par mille tokens, les euros par gigaoctet traité. Le temps de mise à disposition de la capacité montre l'agilité — minutes contre jours pour provisionner des GPU ou doubler un niveau de service. Les preuves de fiabilité incluent les horodatages des restaurations réussies et les objectifs de récupération vérifiés des exercices récents. La vélocité des changements suit la rapidité avec laquelle les problèmes deviennent des déploiements en production avec des "pull requests" générées par agent. La pénibilité opérationnelle compte les pages par semaine et le temps moyen de remédiation.

Affichez ces métriques sur un tableau de bord unifié. Vous découvrirez exactement la quantité de capacité cloud dont vous avez réellement besoin. Ce n'est plus "la totalité" dans la plupart des cas.

L'IA générative va-t-elle dévorer le cloud public ?

Non pas par la concurrence directe ou une OPA hostile. Mais plutôt par une lente inanition.

La programmation agentique et les opérations basées sur l'IA mûrissent rapidement. La prime que vous payiez autrefois pour une infrastructure entièrement gérée devient de plus en plus difficile à justifier à chaque trimestre qui passe. Les charges de travail de base migrent vers une capacité propre ou des fournisseurs de VPS à faible coût. Les pics et les cas limites louent encore brièvement de la capacité hyperscale. Les factures cloud passent de "plateforme fondamentale" à "soupape de décharge".

L'IA générative écrit déjà du code applicatif pour les développeurs. Désormais, elle rédige les manuels d'exploitation, les politiques de sécurité et les preuves de conformité qui permettent un auto-hébergement en toute confiance. Les emplois d'ingénieurs logiciels ne disparaîtront pas du jour au lendemain. Leur nature fondamentale est cependant en train de changer. Le cloud public ne mourra pas non plus. Il se réduira à ses positions les plus défendables — une véritable capacité de pointe, des tissus réseau exotiques et une automatisation de la conformité que vous ne pouvez ou ne voulez pas construire vous-même.

Tout le reste se déplace ailleurs. Les charges de travail stables avec des schémas éprouvés et une sensibilité aux coûts seront absorbées par un nouveau triumvirat. Les opérations basées sur l'IA, les outils open source matures et la capacité VPS mondiale à faible coût sont en train de réécrire l'économie de l'infrastructure. L'ère du cloud ne se termine pas. Elle est simplement en train d'être redimensionnée à sa juste mesure.