Dans la première partie de cet article nous avons évoqué le fait que plusieurs grands modèles d’intelligence artificielle ont été entraînés, au moins partiellement, sur des contenus soumis au droit d’auteur et obtenus illégalement. Cette pratique, bien que largement dissimulée jusqu’à récemment, devient aujourd’hui un sujet de contentieux à l’échelle internationale.

Cette deuxième partie se penche sur les implications éthiques de ce phénomène, sur les réponses – encore timides – apportées par les législateurs et sur les pistes envisageables pour encadrer l’entraînement des IA de manière plus juste, plus transparente et plus respectueuse des créateurs.

Une rupture éthique majeure

L’exploitation non autorisée d’œuvres protégées dans le développement de technologies avancées représente une faille éthique profonde. Contrairement à des situations d’usage marginal (comme la citation ou la parodie), les systèmes d’IA exploitent les œuvres dans leur totalité, souvent à des fins commerciales, et à une échelle industrielle. Cela pose plusieurs problèmes :

  • L’absence de consentement : les auteurs, les éditeurs, les chercheurs et les artistes n’ont pas été consultés, ni informés de l’usage de leurs contenus.

  • La dissociation entre exploitation et rémunération : alors que l’IA génère des profits pour les entreprises qui la commercialisent, les ayants droit ne reçoivent aucune compensation.

  • Le brouillage de la traçabilité : une fois ingérées, les œuvres deviennent invisibles dans le corpus d’entraînement ; il est alors presque impossible de savoir si un texte généré est influencé ou non par un auteur spécifique.

Au-delà de la question juridique, c’est donc une philosophie de la propriété intellectuelle qui est en jeu. Le droit d’auteur repose sur l’idée que la création implique un investissement intellectuel, émotionnel et souvent économique, qui mérite reconnaissance et protection. L’IA, en absorbant sans permission ces productions humaines, ébranle cette conception au profit d’un paradigme extractiviste, hérité du modèle économique des plateformes.

La position des géants de la tech

Face aux critiques, certaines entreprises technologiques adoptent une stratégie de défense fondée sur plusieurs axes :

  • Le progrès technologique comme justification : elles affirment que l’entraînement sur un maximum de données est une condition sine qua non du développement de modèles utiles à la société (traduction, médecine, accessibilité, etc.).

  • Le fair use comme fondement juridique (dans le droit américain), même s’il est contesté dans de nombreuses juridictions.

  • La dilution des responsabilités : certains acteurs affirment ne pas avoir eu connaissance exacte des sources utilisées, notamment lorsque les données proviennent de sous-traitants ou de bases publiques intermédiaires.

  • L’émergence de modèles open source comme levier de démocratisation : des entreprises comme Meta promeuvent le libre accès à leurs modèles pour justifier une certaine tolérance vis-à-vis des pratiques d’entraînement.

Toutefois, cette ligne de défense apparaît de plus en plus fragile. Elle ignore volontairement les principes fondamentaux du droit d’auteur et repose sur une logique utilitariste, dans laquelle le bien potentiel généré pour le plus grand nombre justifierait le préjudice infligé aux créateurs individuels.

Les réactions juridiques en cours

Sur le plan contentieux, les procédures se multiplient dans plusieurs pays. Aux États-Unis, les recours collectifs contre OpenAI, Meta ou Stability AI tentent d’imposer une jurisprudence protectrice pour les auteurs. En Europe, les juridictions nationales commencent à se positionner. On note également :

  • Une plainte en cours en France contre Meta, dont nous avons parlé dans la première partie de notre article
  • Des interpellations au niveau du Parlement européen, où la directive sur l’intelligence artificielle pourrait intégrer des dispositions relatives à l’origine des données.

     

Certains législateurs plaident pour l’instauration d’un droit de licence obligatoire pour l’entraînement des IA, sur le modèle de ce qui existe en matière de reprographie ou de radio. Cela permettrait de légaliser les pratiques existantes tout en assurant une forme de redistribution aux ayants droit.

Vers des obligations de transparence ?

Un autre levier possible concerne la transparence des corpus d’entraînement. Aujourd’hui, la plupart des modèles sont des « boîtes noires » en ce qui concerne leurs données sources. Or, sans information claire sur ce qui a été utilisé, il est difficile pour les créateurs de défendre leurs droits.

Des propositions émergent pour imposer aux développeurs d’IA de :

  • Publier une liste complète ou représentative des œuvres utilisées lors de l’entraînement.

  • Fournir une interface permettant aux ayants droit de vérifier la présence de leurs contenus.

  • Permettre un mécanisme de retrait ou d’opposition (« opt-out ») clair, simple et accessible.

Cette transparence ne résoudrait pas tous les problèmes (notamment ceux liés à l’usage passé des données), mais elle constituerait une première avancée vers un modèle plus équitable et plus responsable.

Repenser la chaîne de valeur

Le débat sur l’IA et les contenus piratés n’est pas simplement une question de droit ou de morale. Il interroge en profondeur la chaîne de valeur dans l’économie numérique. Si les œuvres peuvent être absorbées par des machines sans contrepartie, quelle est la valeur résiduelle de la création humaine dans l’économie du XXIe siècle ?

Il faut ici éviter deux écueils :

  • Celui de la technophobie, qui refuserait par principe l’IA comme menace systématique.

     

  • Celui du solutionnisme technologique, qui évacue les problèmes éthiques sous prétexte d’innovation.

     

Entre les deux, un chemin est possible : il passe par la reconnaissance du rôle des créateurs, la mise en place de cadres de rémunération justes, et l’intégration des droits culturels dans la gouvernance technologique.

 

Plusieurs pistes sont actuellement à l’étude au niveau international :

  • Obliger les développeurs à publier les sources exactes de leurs corpus d’entraînement ;

  • Mettre en place un mécanisme de licence collective obligatoire, sur le modèle de ce qui existe pour la musique ou la télévision ;

  • Créer un droit d’opposition clair (opt-out) pour les auteurs refusant que leurs œuvres soient utilisées ;
  • Instaurer une redevance automatique, redistribuée aux ayants droit via des sociétés de gestion collective.

L’entraînement des intelligences artificielles à partir de contenus piratés est une pratique qui soulève des enjeux complexes, à la fois juridiques, économiques, politiques et éthiques. Si certaines entreprises ont pu se croire au-dessus du droit dans un contexte d’euphorie technologique, il est désormais évident qu’un rééquilibrage est nécessaire.

Les outils existent : obligations de transparence, mécanismes de licence, droits de retrait, encadrement législatif. Encore faut-il une volonté politique forte, à l’échelle nationale comme internationale, pour les mettre en œuvre. L’avenir de la création, de la justice et de l’innovation responsable en dépend.

Retrouvez-nous en juin pour notre série sur les cryptomonnaies. Dans l’intervalle, si vous avez un film, une série, un logiciel ou un livre électronique à protéger, n’hésitez pas à faire appel à nos services en contactant l’un de nos gestionnaires de comptes; PDN est pionnier dans la cybersécurité et l’antipiratage depuis plus de dix ans, et nous avons forcément une solution pour vous aider. Bonne lecture et à bientôt !

Partager cet article