L’intelligence artificielle, notamment dans sa déclinaison fondée sur les grands modèles de langage (LLM), repose sur l’ingestion d’un très grand volume de données textuelles. Toutefois, au fil des révélations, il apparaît que certains de ces modèles ont été entraînés sur des contenus soumis au droit d’auteur sans autorisation préalable. L’utilisation de contenus piratés, notamment de livres issus de bases telles que LibGen, interroge à la fois le respect du droit, la soutenabilité du développement technologique et la place des auteurs dans ce nouvel écosystème.
Cette première partie examine les faits révélés récemment, notamment autour de l’affaire Meta / LibGen, en retraçant les motivations, les procédés techniques et les premiers contentieux judiciaires.
En mars 2025, des documents judiciaires ont mis en lumière l’usage de contenus piratés par Meta dans le cadre de l’entraînement de son modèle LLaMA (Large Language Model Meta AI). L’entreprise aurait utilisé des données issues de Library Genesis (LibGen), une plateforme bien connue dans les milieux académiques pour proposer l’accès gratuit à des livres numériques, en grande majorité téléchargés illégalement.
Le volume des données concernées est considérable : environ 183 000 livres auraient été utilisés, représentant près de 32 To d’informations. Les échanges internes à Meta, révélés par The Atlantic et d’autres médias spécialisés, montrent que l’entreprise était parfaitement consciente de la nature illicite de ces sources. Des membres de l’équipe juridique auraient mis en garde contre les risques juridiques, mais la direction aurait autorisé l’utilisation de ces contenus pour « ne pas rester à la traîne » face à des concurrents comme OpenAI ou Anthropic.
Le recours à des contenus piratés, malgré sa dangerosité juridique, présente des avantages considérables. Trois éléments principaux peuvent expliquer cette dérive.
Les géants de la tech s’appuient souvent sur le fair use du droit américain pour justifier l’exploitation de contenus protégés. Ce concept permet, sous certaines conditions, une utilisation sans autorisation à des fins de recherche, de commentaire ou de parodie. Mais ce fondement est contesté dans plusieurs affaires en cours, notamment parce que :
En France, trois organisations représentatives – le Syndicat national de l’édition (SNE), la Société des gens de lettres (SGDL) et le Syndicat national des auteurs et des compositeurs (SNAC) – ont saisi la justice. Elles dénoncent l’appropriation non autorisée d’œuvres protégées, souvent disponibles en librairie ou dans les bibliothèques numériques officielles.
De nombreux auteurs, parfois sans notoriété internationale, ont découvert que leurs livres figuraient dans les corpus d’entraînement utilisés par certaines IA. Des initiatives citoyennes ont permis de croiser les métadonnées des modèles d’IA avec celles des bases pirates pour identifier les œuvres concernées.
Le sentiment de dépossession est réel. Non seulement les auteurs n’ont pas été consultés, mais ils constatent que leurs créations servent à générer des textes automatiquement, parfois dans leur propre style, sans aucune rémunération. Certains évoquent un nouveau type de vol de propriété intellectuelle, où les œuvres ne sont plus simplement copiées ou distribuées illégalement, mais absorbées pour nourrir des outils susceptibles de concurrencer leur métier même.
Les affaires Meta, OpenAI ou Stability AI ne sont probablement que les premières d’une série. Aux États-Unis, des recours collectifs ont été déposés par des écrivains, des artistes visuels, des éditeurs. En Europe, plusieurs juridictions nationales s’emparent du sujet, souvent en l’absence de jurisprudence stabilisée.
La question centrale reste : une IA peut-elle être formée à partir d’une œuvre sans autorisation, si elle ne reproduit pas explicitement son contenu ? Le débat oppose les tenants d’une interprétation fonctionnelle (qui s’intéresse au résultat final) à ceux d’une approche patrimoniale stricte (selon laquelle tout usage doit être rémunéré).
L’utilisation de contenus piratés dans l’entraînement des modèles d’intelligence artificielle révèle les tensions majeures entre innovation technologique, respect du droit d’auteur et viabilité économique du travail créatif. Le cas de Meta et l’exploitation de LibGen cristallisent ces enjeux : il montre que la frontière entre exploration technique et contournement du droit est aujourd’hui franchie par certains acteurs du numérique, sous couvert d’efficacité et de compétitivité.
Retrouvez-nous mi-mai pour notre seconde partie, nous aborderons les conséquences éthiques de ces pratiques, les pistes de régulation envisagées à l’échelle internationale, et les perspectives d’évolution vers un modèle plus équitable d’entraînement des IA. Dans l’intervalle, si vous avez un film, une série, un logiciel ou un livre électronique à protéger, n’hésitez pas à faire appel à nos services en contactant l’un de nos gestionnaires de comptes; PDN est pionnier dans la cybersécurité et l’antipiratage depuis plus de dix ans, et nous avons forcément une solution pour vous aider. Bonne lecture et à bientôt !
Partager cet article