
L'Allemagne vient de juger illégal le 'cerveau' de ChatGPT : Un arrêt historique fait des données d'entraînement de l'IA une mine d'or pour le droit d'auteur
Le modèle lui-même est la copie : Comment un tribunal allemand vient de bouleverser l'économie de l'IA
Un tribunal de Munich déclare ChatGPT d'OpenAI coupable de contrefaçon par « mémorisation » — transformant les données d'entraînement d'une zone grise en un actif monétisable.
Le 11 novembre 2025, le Tribunal régional de Munich a rendu le type de verdict que craignait le plus la Silicon Valley. Un juge a plongé au cœur d'un grand modèle linguistique et a décidé que ses poids mêmes constituaient des copies contrefaisantes. Dans l'affaire GEMA c. OpenAI, la 42e Chambre civile a statué que l'encodage par ChatGPT de neuf paroles de chansons allemandes – de Männer d'Herbert Grönemeyer à la célèbre chanson d'anniversaire de Rolf Zuckowski – violait le droit d'auteur. La contrefaçon ne s'est pas produite uniquement lorsque les paroles sont apparues à l'écran. Elle a commencé au moment où elles ont été intégrées aux paramètres de GPT-4 lors de son entraînement.
Voici la partie que les entreprises d'IA admettent rarement à voix haute : parfois, le modèle lui-même est la scène du crime, pas seulement l'instrument. Les exceptions de fouille de textes et de données, autrefois sûres en Europe, ne s'appliquent plus lorsque l'« apprentissage » franchit la ligne du « stockage ».
Les pénalités financières peuvent sembler modestes au regard des standards des géants de la technologie – des centaines de milliers d'euros pour neuf chansons – mais le contrecoup juridique est immense. La structure juridique d'OpenAI, jadis si confiante, s'est fissurée. Le tribunal a accordé à la GEMA des droits de communication de documents, une injonction et une théorie de la contrefaçon qui pourrait s'étendre à chaque œuvre protégée par le droit d'auteur qu'un modèle peut restituer. Ce n'est plus une simple action en justice. C'est un tarif appliqué à l'ensemble de la chaîne d'approvisionnement de l'IA.
Ce que le tribunal a réellement dit
Le concept clé de la décision est quelque chose que la plupart des titres de presse négligent : la mémorisation. Lorsque les grands modèles linguistiques s'entraînent sur du texte, ils sont censés apprendre des modèles – grammaire, sémantique, relations – et non mémoriser des lignes exactes. Mais la recherche a montré que les modèles peuvent et « mémorisent » certaines données, en particulier les contenus rares ou répétés. La GEMA l'a démontré en interrogeant ChatGPT avec des requêtes inoffensives et en le regardant produire des paroles de chansons originales presque mot pour mot. Coïncidence ? Le tribunal a dit non.
Les juges ont conclu que cela équivalait à deux contrefaçons distinctes.
Premièrement, la mémorisation elle-même constitue une reproduction en vertu de l'article 2 de la directive InfoSoc de l'UE. Pourquoi ? Parce que ces paroles sont « fixées de manière reproductible » dans les poids mathématiques du modèle – même si elles ne sont pas stockées sous forme de texte visible. La Directive couvre la reproduction « sur tout support et sous toute forme », et les décisions antérieures de la CJUE indiquent clairement que même les copies indirectement perceptibles sont qualifiées si la technologie peut les extraire. Puisque ChatGPT pouvait recréer les paroles sur commande, cela correspondait parfaitement à cette définition.
Deuxièmement, les sorties générées par le chatbot sont des actes supplémentaires de reproduction et de communication au public – OpenAI, et non ses utilisateurs, étant tenu responsable. Les requêtes utilisées par la GEMA étaient simples (« écris les paroles de [titre de la chanson] »), ce qui signifie que le contenu provenait de l'entraînement du modèle, et non de la créativité de l'utilisateur. La défense d'OpenAI – « c'est l'utilisateur qui m'a fait faire ça » – s'est effondrée à ce moment-là.
Plus important encore, le tribunal a rejeté le bouclier préféré d'OpenAI : l'affirmation selon laquelle l'entraînement est protégé par la section 44b de la loi allemande sur le droit d'auteur, qui met en œuvre la directive DSM de l'UE. Cette clause autorise la copie pour la fouille de textes et de données, mais uniquement lorsque les copies sont temporaires et utilisées uniquement à des fins d'analyse. Le juge a statué que lorsqu'un modèle stocke de manière permanente des œuvres protégées d'une manière qui permet leur réutilisation commerciale, ce n'est pas de l'analyse – c'est une appropriation déguisée en innovation. La loi protège l'exploration de données pour des analyses, pas la mémorisation pour la revente.
Pourquoi cette décision ébranle le modèle économique de l'IA
Si cette décision résiste à l'appel – devant la Cour fédérale de justice allemande ou même la CJUE – elle pourrait transformer les données d'entraînement d'une ressource gratuite en une marchandise tarifée. Trois dominos sont déjà en train de vaciller.
La communication de documents inverse la dynamique du pouvoir. Une fois que les poids des modèles sont considérés comme des copies contrefaisantes, les plaignants obtiennent le droit d'exiger une transparence concernant les sources d'entraînement. OpenAI ne peut plus se cacher derrière le « secret des affaires » lorsque ces mêmes secrets peuvent contenir des preuves de contrefaçon. La GEMA vient de montrer que les sociétés de gestion collective, disposant de données exhaustives, peuvent ouvrir la boîte noire et l'emporter. Chaque éditeur, label discographique et banque d'images dispose désormais d'une feuille de route juridique à suivre.
La responsabilité incombe à l'opérateur, et non au "scraper". Les précédentes batailles juridiques sur le droit d'auteur tournaient autour de la constitution des ensembles de données : l'entreprise a-t-elle copié illégalement du matériel lors de sa collecte ? Cette décision déplace l'attention sur ce qui vient après : la rétention par le modèle lui-même. Même si l'ensemble de données a été collecté légalement, la mémorisation permanente devient une nouvelle violation. Cela double l'exposition au risque. Les filtres ne serviront à rien lorsque la contrefaçon est intégrée à l'architecture. Le réentraînement du modèle n'est pas une solution rapide – c'est un aveu que votre fondation provient de la propriété d'autrui.
L'économie d'échelle est bouleversée. Plus votre modèle est performant, plus son problème juridique est profond. Un système entraîné sur dix mille milliards de jetons présente bien plus de contrefaçons potentielles qu'un autre entraîné sur dix milliards. L'échelle même qui rend les modèles puissants en fait aussi des cibles juridiques massives. Et cette théorie ne dépend pas du fait que l'œuvre soit allemande ou musicale – tout texte reproductible et protégeable par le droit d'auteur pourrait déclencher une réclamation.
L'équation de l'investissement : Évaluer le coût du changement
Pour les investisseurs qui ont vu l'IA comme une simple équation de puissance de calcul plus talent, ce verdict introduit une troisième variable : la libération des droits. Trois voies d'avenir se dessinent.
Scénario A – L'effondrement du statu quo. OpenAI fait appel, perd, et la CJUE confirme d'ici 2027 ou 2028. Tout modèle d'IA opérant dans l'UE devra licencier ses données d'entraînement ou faire face à des injonctions. Les sociétés de gestion collective déploient des tarifs pour l'IA générative – la GEMA a déjà des ébauches. Les coûts d'entraînement augmentent de 10 à 20 % pour les modèles de pointe, et les acteurs plus modestes ne peuvent pas gérer l'avalanche des paiements de droits. Le marché se consolide autour de géants disposant de données sous licence comme Google ou OpenAI après un règlement. Les exigences de gouvernance des données de la loi européenne sur l'IA deviennent soudainement très contraignantes : « Connaissez vos sources ou payez le prix. »
Scénario B – Une trêve commerciale. OpenAI règle discrètement l'affaire avec la GEMA – un paiement en espèces plus une licence prospective – sans admettre sa culpabilité. Ensuite, elle conclut des accords plus larges via la CISAC, le groupe faîtier représentant 240 sociétés de gestion collective dans le monde entier. Microsoft, en tant que partenaire commercial d'OpenAI, absorbe les coûts dans la tarification Azure pour l'UE. Les marges bénéficiaires diminuent légèrement, peut-être de 1 à 2 %, mais l'activité se stabilise. D'autres suivent le mouvement. Les données deviennent « payantes mais sûres » au lieu de « gratuites mais risquées ». Parmi les gagnants figurent les agrégateurs de droits, les entreprises de technologie de conformité et les grands acteurs qui peuvent se permettre les licences. Les perdants ? Les startups, les laboratoires universitaires et le rêve de la démocratisation de l'IA.
Scénario C – L'évasion juridictionnelle. Pendant ce temps, les tribunaux américains continuent de pencher vers l'« usage équitable transformateur » dans les procès en cours intentés par le New York Times, Getty et des groupes d'auteurs. Il en résulte une division transatlantique. Les entreprises entraînent et hébergent leurs modèles en dehors de l'UE, puis livrent des versions édulcorées aux utilisateurs européens. L'écosystème de l'IA de l'UE souffre, car les modèles mondiaux suppriment les données européennes pour éviter les problèmes de licence. Les régulateurs réagissent par des lois de localisation des données, approfondissant le fossé. Les géants de la technologie peuvent naviguer dans ce labyrinthe, mais pas les startups d'IA locales.
L'issue la plus réaliste pourrait être un mélange des scénarios B et C : des règlements pour la musique et les actualités (là où la gestion collective des droits existe), des impasses dans l'art et les livres (là où les droits sont fragmentés), et une lente fragmentation régionale des capacités d'IA. Mais la direction est indubitable : l'Europe vient de mettre fin à l'ère du « demander pardon plutôt que permission ». Les données d'entraînement ont désormais un prix, et les négociations se déroulent au fil des procès.
Les quelques centaines de milliers d'euros que la GEMA gagne pour neuf chansons n'entameront pas les finances d'OpenAI. Ce qui compte, c'est le précédent : un tribunal a statué que les poids du modèle eux-mêmes peuvent être traités comme des preuves de violation du droit d'auteur. Le prochain plaignant ne s'arrêtera pas à des dommages-intérêts modestes. Il exigera une part de chaque euro gagné grâce aux productions contrefaisantes depuis le lancement. Et maintenant, un tribunal européen a déclaré que c'est une question qui mérite une réponse.
CECI N'EST PAS UN CONSEIL EN INVESTISSEMENT