Juridique

Droit d’auteur et IA : le point de vue américain

Le droit d'auteur et l'IA, le point de vue américain - Photo DR

Droit d’auteur et IA : le point de vue américain

La troisième partie du rapport sur l’IA de l’USCO (U.S. Copyright Office) aborde la question de l’interaction entre l’entraînement des systèmes d’IA génératives et le droit d’auteur. L’occasion de mieux appréhender la philosophie qui sous-tend l’approche américaine de ces questions.

J’achète l’article 1.5 €

Par Alexandre Duval-Stalla
Créé le 01.07.2025 à 12h29

Le rapport « Copyright and Artificial Intelligence, Part 3 : Generative AI Training » du Bureau du Copyright des États-Unis (USCO), publié en mai 2025, se penche sur l’utilisation d’œuvres protégées lors de l’entraînement des systèmes d’intelligence artificielle générative. Ce document intervient dans un contexte de débats juridiques et politiques intenses, alors que des dizaines de procès sont en cours aux États-Unis et que les législateurs du monde entier s’interrogent sur la nécessité d’obtenir l’autorisation ou de compenser les titulaires de droits d’auteur.

La première partie de ce rapport se concentrait sur les répliques digitales, la deuxième abordait la protection par le droit d’auteur des créations assistées ou générées par IA. Cette fois-ci, le rapport traite la question épineuse de l’interaction entre l’entraînement des systèmes d’IA génératives et le droit d’auteur. Le rapport vise à fournir un cadre analytique pour comprendre les enjeux techniques, juridiques et économiques liés à cette utilisation des œuvres, sans trancher de cas particulier, mais en posant les bases d’une réflexion pour le législateur et les parties prenantes.

Retour sur les fondements techniques de l’IA générative

Le rapport commence par une explication détaillée du fonctionnement des systèmes d’IA générative, notamment les modèles de langage. Ces systèmes reposent sur l’apprentissage automatique, utilisant des réseaux de neurones et des jeux de données massifs, souvent composés d’œuvres protégées, pour apprendre à générer de nouveaux contenus. Les données utilisées sont sélectionnées selon leur quantité, leur qualité et leur adéquation à la finalité du modèle. Leur acquisition se fait par des moyens variés : extraction automatisée de contenus en ligne, utilisation de bases de données préexistantes, ou encore licences spécifiques. Une fois collectées, ces données subissent des processus de curation, de filtrage et de nettoyage pour optimiser leur valeur lors de l’entraînement du modèle.

L’entraînement des modèles se déroule en plusieurs phases, allant du pré-entraînement sur de vastes corpus à des ajustements plus ciblés (fine-tuning) pour des tâches spécifiques. Un point central du débat concerne la mémorisation : dans quelle mesure les modèles conservent-ils, de façon explicite ou implicite, des extraits d’œuvres protégées, et peuvent-ils les reproduire lors de la génération de nouveaux contenus ? Si la plupart des développeurs affirment que la mémorisation est rare et non intentionnelle, des études montrent que des reproductions quasi verbatim peuvent se produire, notamment pour des exemples atypiques ou surreprésentés dans les données d’entraînement.

Points d’incidence du droit d’auteur

Le rapport identifie plusieurs étapes du développement des IA génératives susceptibles d’impliquer une violation du droit d’auteur. La collecte et la curation des données impliquent la reproduction d’œuvres, souvent sans autorisation, ce qui constitue une atteinte potentielle au droit exclusif de reproduction. L’entraînement des modèles, par la copie temporaire ou persistante d’œuvres lors de leur exposition au modèle, pose également question. De plus, les poids du modèle, s’ils contiennent des éléments mémorisés, pourraient être considérés comme des œuvres dérivées ou des copies illicites. Enfin, lors de la génération de contenus (outputs), des reproductions ou adaptations d’œuvres protégées peuvent survenir, en particulier dans les systèmes utilisant la génération augmentée par récupération (RAG), qui intègrent des extraits de bases de données externes.

Analyse du fair use (usage équitable)

La défense principale invoquée par les développeurs d’IA est celle du fair use, codifiée à l’article 107 du Copyright Act. Le rapport analyse en détail les quatre facteurs du fair use

  1. But et caractère de l’utilisation

Le caractère transformateur de l’utilisation est central. Si l’IA modifie substantiellement l’œuvre originale, cela peut jouer en faveur du fair use. Toutefois, le caractère commercial des systèmes d’IA est également pris en compte et peut peser contre la qualification d’usage équitable.

  1. Nature de l’œuvre protégée

Les œuvres hautement créatives bénéficient d’une protection renforcée, ce qui complique l’invocation du fair use pour leur utilisation dans l’entraînement des IA.

  1. Quantité et importance de la portion utilisée

L’utilisation massive de corpus entiers d’œuvres, souvent dans leur intégralité, pèse contre le fair use, surtout si l’IA mémorise ou reproduit des passages significatifs.

  1. Effet sur le marché

Le rapport s’attarde sur l’impact potentiel sur les ventes, la dilution du marché, la perte d’opportunités de licences et les bénéfices pour le public. La concurrence entre les contenus générés par l’IA et les œuvres originales est un point de tension majeur, certains craignant une érosion de l’écosystème créatif, d’autres plaidant pour la nécessité de préserver l’innovation technologique.

Le rapport souligne que l’appréciation du fair use reste fondamentalement casuistique : aucun facteur n’est déterminant à lui seul, et l’équilibre entre innovation et protection des ayants droit doit être recherché au cas par cas. Il compare également les approches internationales, certaines juridictions favorisant des exceptions pour l’entraînement de l’IA, d’autres imposant des restrictions plus strictes.

Enjeux et modèles de licences

Face à l’incertitude juridique, le rapport examine les différentes options de licences pour l’entraînement des IA. Il explore la faisabilité de systèmes de licences volontaires, la capacité à offrir une compensation significative aux titulaires de droits, ainsi que les obstacles juridiques à la gestion collective. Sont également étudiées les approches statutaires, telles que la licence obligatoire ou la gestion collective étendue, et la possibilité pour les titulaires de droits de s’opposer à l’utilisation de leurs œuvres (opt-out). Le rapport recommande de poursuivre l’exploration de solutions hybrides, combinant flexibilité et protection des créateurs, tout en tenant compte de l’évolution rapide des technologies et des marchés.

Le rapport du Bureau du Copyright conclut que l’utilisation d’œuvres protégées pour l’entraînement de l’IA générative soulève des questions juridiques complexes, non encore tranchées par la jurisprudence. Il appelle à un équilibre entre l’innovation technologique et la préservation de l’écosystème créatif, et insiste sur la nécessité d’adapter les cadres juridiques à l’évolution rapide des technologies d’IA. Le Bureau s’engage à suivre de près les développements et à ajuster ses recommandations en conséquence, afin de garantir un environnement propice à la fois à l’innovation et à la protection des droits d’auteur.

 

Alexandre Duval-Stalla

Olivier Dion - Alexandre Duval-Stalla

Les dernières
actualités