Anthropic met fin à un procès historique concernant l'entraînement de son IA sur des millions de livres piratés

Par
Jane Park
11 min de lecture

Le prix du progrès : comment le règlement d'Anthropic a redéfini l'économie des données de la Silicon Valley

SAN FRANCISCO — Une requête juridique conjointe déposée mardi auprès de la Cour d'appel du Neuvième Circuit a révélé qu'Anthropic avait conclu un projet de règlement de recours collectif avec des auteurs dans l'affaire Bartz c. Anthropic, les deux parties demandant à la cour de suspendre l'appel pendant qu'elles finalisent les modalités de ce que l'avocat des plaignants a qualifié d'accord « historique ».

Le règlement découle d'un litige contestant l'utilisation par Anthropic de livres protégés par le droit d'auteur pour entraîner son modèle linguistique Claude. Selon des documents judiciaires, les parties ont signé une feuille de modalités contraignante le 25 août décrivant les principales conditions du règlement, bien que les détails spécifiques restent confidentiels en attendant la documentation finale.

Anthropic
Anthropic

L'affaire est centrée sur des allégations selon lesquelles Anthropic aurait téléchargé des millions de livres depuis des bases de données pirates, LibGen et PiLiMi, pour entraîner ses systèmes d'intelligence artificielle. En juin, le juge William Alsup a rendu une décision partielle qui a distingué la méthodologie d'entraînement de l'acquisition de données : si l'entraînement sur des livres légalement acquis constituait un usage équitable, la cour a estimé que l'acquisition et la conservation de matériel piraté pouvaient toujours engager la responsabilité en matière de droit d'auteur.

Un recours collectif est une procédure juridique qui permet à un grand groupe de personnes ayant une plainte commune contre le même défendeur, souvent une entreprise, de poursuivre en justice en tant que groupe unique. Plutôt que chaque personne dépose une plainte individuelle, un ou plusieurs plaignants principaux représentent l'ensemble de la « catégorie » pour résoudre le problème dans une seule affaire consolidée.

Alsup a ensuite certifié une catégorie d'auteurs dont les œuvres figuraient dans les deux bases de données pirates, augmentant considérablement l'exposition potentielle d'Anthropic aux dommages et intérêts légaux avant une date de procès en décembre à San Francisco. En vertu de la loi fédérale sur le droit d'auteur, les dommages et intérêts légaux varient de 750 à 30 000 dollars par œuvre pour une contrefaçon standard, pouvant atteindre 150 000 dollars pour des violations délibérées – appliqués à des millions d'œuvres, créant une exposition potentielle atteignant des centaines de millions de dollars, voire plus.

Ce règlement représente bien plus qu'une résolution juridique. Il signifie l'émergence de ce que les analystes du secteur décrivent comme une refonte fondamentale de la tarification du développement de l'IA, où l'assurance d'une provenance des données irréprochable devient aussi critique pour la survie des entreprises que l'efficacité computationnelle elle-même.


Quand le droit d'auteur est entré en collision avec le code informatique

La fondation juridique de cette transformation remonte à une décision rendue en juin par le juge William Alsup qui a ouvert de nouvelles voies dans l'application du droit d'auteur à l'intelligence artificielle.

Un marteau de juge posé sur un livre de droit avec du code binaire projeté dessus, symbolisant l'intersection du droit et de l'intelligence artificielle. (iiprd.com)
Un marteau de juge posé sur un livre de droit avec du code binaire projeté dessus, symbolisant l'intersection du droit et de l'intelligence artificielle. (iiprd.com)

La décision d'Alsup a établi une distinction cruciale : l'entraînement de modèles linguistiques sur des livres légalement acquis constitue un usage équitable selon la doctrine du droit d'auteur. Mais le téléchargement et la conservation d'œuvres provenant de bases de données pirates comme LibGen et PiLiMi ? Cela restait directement dans le viseur de la responsabilité en matière de droit d'auteur.

La doctrine de l'« usage équitable » (Fair Use) dans le droit d'auteur américain permet l'utilisation limitée de matériel protégé par le droit d'auteur sans autorisation. Les tribunaux appliquent un test flexible à quatre facteurs pour prendre cette décision, se concentrant souvent sur la question de savoir si la nouvelle œuvre est « transformative », une question clé dans le contexte de l'entraînement des modèles d'IA sur des données existantes.

Les chiffres étaient stupéfiants. Des documents judiciaires ont révélé qu'Anthropic avait téléchargé environ 5 millions d'œuvres de LibGen et 2 millions de PiLiMi – un corpus qui, en vertu de dommages et intérêts légaux allant de 750 à 150 000 dollars par œuvre, aurait pu générer une responsabilité dépassant plusieurs fois la valorisation actuelle de l'entreprise.

La certification du recours collectif a transformé l'exposition théorique en une crise commerciale aiguë. Contrairement aux litiges individuels en matière de droit d'auteur, la structure du recours collectif certifié a permis des calculs de dommages simplifiés sur des millions d'œuvres, chaque titre représentant une responsabilité potentielle à six chiffres si un jury constatait une contrefaçon délibérée.

Les experts juridiques ont souligné la nature existentielle de cette exposition. Même selon des estimations prudentes, les dommages potentiels auraient pu éclipser la couverture d'assurance disponible et les réserves de trésorerie, créant un risque de survie qui a rendu l'économie du règlement attrayante, quelles que soient les perspectives d'appel.


L'art de la reddition stratégique

Le moment de la capitulation d'Anthropic révèle un calcul des risques sophistiqué plutôt qu'une faiblesse juridique.

Avec les dates de procès de décembre approchant et les appels au Neuvième Circuit créant une incertitude supplémentaire, l'entreprise était confrontée au dilemme du prisonnier classique de la Silicon Valley : continuer à se battre avec des inconvénients potentiellement catastrophiques, ou négocier une résolution qui préserve la flexibilité opérationnelle.

La signature du protocole d'accord du 25 août est intervenue quelques jours avant les décisions judiciaires anticipées sur les procédures de notification de recours collectif, suggérant que les négociations ont atteint une masse critique à mesure que la machine judiciaire s'accélérait vers le procès. Ce calendrier indique qu'Anthropic a privilégié la certitude aux possibilités de victoire en appel – une décision reflétant une maturation plus large de l'industrie concernant l'évaluation des risques juridiques.

Au-delà des considérations financières, le règlement anticipe les processus de divulgation d'informations (discovery) qui auraient pu exposer les protocoles d'acquisition de données d'Anthropic dans les moindres détails. Une telle intelligence opérationnelle se serait avérée inestimable pour les concurrents et les futurs plaignants, rendant une résolution confidentielle stratégiquement essentielle, quels que soient les résultats juridiques finaux.

Les analystes du secteur suggèrent que le règlement représente la reconnaissance que les paysages juridiques ont fondamentalement changé. Si la victoire sur l'usage équitable concernant la méthodologie d'entraînement offre une protection jurisprudentielle importante, la responsabilité en matière de piratage crée des modèles pour de futurs litiges qui pourraient fragmenter les stratégies juridiques des entreprises d'IA à travers plusieurs juridictions.


Naissance de l'économie de la conformité

L'impact le plus profond du règlement ne réside peut-être pas dans une résolution immédiate, mais dans l'établissement d'un précédent pour ce que les observateurs appellent la « prime de provenance » – les coûts supplémentaires et la complexité opérationnelle requis pour garantir que les données d'entraînement répondent aux normes légales en évolution.

La provenance des données est l'historique documenté des données, détaillant leurs origines, leurs transformations et leur parcours tout au long de leur cycle de vie. Bien que liée à la lignée des données, qui suit principalement le chemin des données, la provenance offre un enregistrement plus complet qui est crucial pour établir la confiance, la reproductibilité et la responsabilité dans des systèmes complexes comme l'IA et l'apprentissage automatique.

Les conditions de règlement attendues incluent des exigences complètes en matière d'hygiène des données qui deviendront probablement la norme de l'industrie : la purge obligatoire des matériaux provenant de sources pirates, la mise en œuvre de pistes d'audit d'acquisition et des systèmes de surveillance continue pour vérifier l'approvisionnement légal.

Pour les entreprises d'IA, cela représente une transformation architecturale fondamentale. La vérification de la provenance doit désormais être intégrée comme un principe de conception fondamental plutôt qu'une considération ultérieure, nécessitant une intégration dans les fonctions d'ingénierie, juridique et de développement de produits.

Les implications opérationnelles s'étendent aux cycles d'approvisionnement des entreprises, où les acheteurs d'entreprise exigent de plus en plus une documentation des sources de données d'entraînement dans le cadre de l'évaluation des fournisseurs d'IA. Une gouvernance des données irréprochable passe de protection juridique à avantage concurrentiel, créant des opportunités de différenciation sur le marché pour les entreprises dotées d'une infrastructure de conformité robuste.


Les marchés des capitaux accueillent la clarté

Du point de vue des investissements, le règlement valide la thèse selon laquelle la provenance des données représente à la fois un risque et une opportunité dans le développement de l'IA.

Les sociétés de capital-risque augmentent leurs allocations aux entreprises dotées de capacités de gouvernance des données démontrables tout en dévalorisant les entreprises s'appuyant sur des pratiques d'acquisition douteuses. L'infrastructure de conformité requise par les règlements crée de nouvelles opportunités de marché dans la technologie de provenance des données et les systèmes automatisés de dégagement de droits d'auteur.

Pour Anthropic spécifiquement, la résolution de l'exposition au recours collectif élimine un frein important à la levée de fonds tout en accélérant potentiellement l'adoption en entreprise dans des secteurs réticents au risque comme les services financiers et la santé. Les entreprises démontrant une exposition juridique résolue grâce à un règlement complet peuvent trouver des avantages concurrentiels sur les marchés d'entreprise où les défaillances de conformité génèrent une responsabilité en cascade.

Le règlement apporte également de la clarté aux investisseurs des marchés publics concernant les principales catégories de risques de litige tout en établissant des références pour les futures résolutions liées au droit d'auteur. Ce précédent suggère que les entreprises d'IA bien capitalisées peuvent relever les défis de la propriété intellectuelle grâce à une conformité structurée plutôt que de faire face à une exposition contentieuse existentielle.


La bifurcation commence

La dynamique du marché suggère une bifurcation émergente entre les entreprises d'IA dotées d'une infrastructure de gouvernance des données robuste et celles opérant selon des pratiques d'acquisition héritées.

Les entreprises qui ont mis en œuvre de manière proactive des pipelines de données propres peuvent découvrir des avantages concurrentiels significatifs à mesure que les coûts de conformité augmentent à l'échelle du secteur. Les conditions du règlement incluent probablement des exigences de surveillance et d'audit continues qui génèrent des dépenses opérationnelles récurrentes, favorisant les grands développeurs bien capitalisés tout en créant des obstacles pour les petits acteurs incapables d'absorber les investissements complets en matière de gouvernance des données.

La révolution de la conformité s'étend au-delà des exigences légales immédiates. Les clients d'entreprise considèrent de plus en plus les capacités de gouvernance des données comme des critères fondamentaux de qualification des fournisseurs, créant une pression de marché qui dépasse les mandats réglementaires.


Évolution de la thèse d'investissement

Le règlement accélère l'allocation de capital vers les entreprises se positionnant comme des fournisseurs de pipelines de données « conformes au règlement », tout en dévalorisant les entreprises d'IA qui dépendent considérablement de sources douteuses.

Croissance projetée des investissements en capital-risque dans la conformité de l'IA et la technologie de provenance des données par rapport au développement général de l'IA.

SecteurInvestissement/Taille du marché 2023Investissement/Taille du marché 2024Taille du marché projetée 2030Principaux moteurs de croissance
Gouvernance et Conformité de l'IA168,2 millions de dollars (revenus)227,7 millions de dollars1,42 milliard de dollarsPression réglementaire croissante, besoin de transparence et d'atténuation des risques dans les systèmes d'IA.
IA Générative24 milliards de dollars45 milliards de dollars1,3 billion de dollars (d'ici 2032)Adoption généralisée dans diverses industries et applications grand public.
Investissement VC général dans l'IA55,6 milliards de dollarsPlus de 100 milliards de dollarsNon spécifiéLarge intégration des technologies d'IA dans divers secteurs pour améliorer l'innovation et l'efficacité.
RegTech11,7 milliards de dollars14,9 milliards de dollars19,5 milliards de dollars (d'ici 2026)Complexité croissante des réglementations financières et besoin de solutions de conformité automatisées.

Les gestionnaires de portefeuille devraient considérer ce précédent comme une validation que les risques de droit d'auteur, bien que significatifs, restent gérables pour les entreprises sophistiquées disposant de réserves légales adéquates. Le cadre suggère que les coûts de règlement restent généralement proportionnels à la valeur de l'entreprise sans menacer la viabilité fondamentale de l'activité.

À l'avenir, les opportunités d'investissement pourraient se concentrer sur les fournisseurs de technologies de conformité et les entreprises d'IA démontrant des capacités de gouvernance des données supérieures. La « taxe de nettoyage » émergente crée une pression de consolidation naturelle alors que les petits développeurs peinent à maintenir des systèmes de provenance complets que les marchés d'entreprise exigent de plus en plus.


Le nouveau contrat social algorithmique

Le règlement d'Anthropic représente une maturation de l'industrie en matière de gestion des risques liés à la propriété intellectuelle à mesure que le développement de l'IA passe de l'expérimentation de recherche au déploiement en entreprise.

Cette transformation exige à la fois une innovation technologique et juridique, créant des opportunités pour les entreprises naviguant dans la complexité tout en gérant les coûts associés. La question fondamentale passe de savoir si l'entraînement de l'IA constitue un usage équitable à savoir si les entreprises peuvent démontrer l'acquisition légale des matériaux d'entraînement.

Alors que la Silicon Valley digère ces développements, le règlement sert simultanément de conclusion et de commencement – résolvant un défi juridique significatif tout en établissant des cadres pour la manière dont le développement de l'IA doit évoluer dans un environnement de plus en plus réglementé.

La révolution silencieuse entamée dans un dépôt judiciaire pourrait finalement s'avérer plus transformative que les lancements de produits les plus retentissants, réécrivant le contrat social entre l'innovation technologique et les droits de propriété intellectuelle de manières qui définiront la prochaine génération de l'intelligence artificielle.

Analyse d'investissement basée sur des informations accessibles au public et des modèles de marché établis. Les performances passées ne préjugent pas des résultats futurs ; les lecteurs sont invités à consulter des conseillers financiers qualifiés pour des conseils personnalisés.

Vous aimerez peut-être aussi

Cet article est soumis par notre utilisateur en vertu des Règles et directives de soumission de nouvelles. La photo de couverture est une œuvre d'art générée par ordinateur à des fins illustratives uniquement; ne reflète pas le contenu factuel. Si vous pensez que cet article viole les droits d'auteur, n'hésitez pas à le signaler en nous envoyant un e-mail. Votre vigilance et votre coopération sont inestimables pour nous aider à maintenir une communauté respectueuse et juridiquement conforme.

Abonnez-vous à notre bulletin d'information

Obtenez les dernières nouvelles de l'entreprise et de la technologie avec des aperçus exclusifs de nos nouvelles offres

Nous utilisons des cookies sur notre site Web pour activer certaines fonctions, fournir des informations plus pertinentes et optimiser votre expérience sur notre site Web. Vous pouvez trouver plus d'informations dans notre Politique de confidentialité et dans nos Conditions d'utilisation . Les informations obligatoires se trouvent dans les mentions légales