Les entreprises d’IA générative s’appuient massivement sur les contenus journalistiques pour entraîner leurs modèles de langage. Alors que certains médias négocient des accords avec les acteurs de la tech, d’autres refusent de mettre leurs données à disposition. Entre opportunités économiques pour les uns et risques d’invisibilisation pour les autres, cette situation hétérogène pourrait remodeler l’économie et la pluralité médiatique de demain.
Si deux ans d’expérimentation avec les grands modèles de langage (LLMs) tels que ChatGPT ont montré quelque chose, c’est la fiabilité encore toute relative des réponses de la machine et la nécessité de données d’entraînement vérifiées, recoupées, journalistiques. Les textes générés par l’IA ne possèdent pas ces qualités et leur utilisation exclusive pour l’entraînement des modèles pourrait entraîner la chute de ceux-ci. Alors que l’on prédit que les développeurs d’IA pourraient arriver à court de données d’entraînement d’ici 2028, un rapport de l’institut Nieman évoque l’importance capitale des données journalistiques de qualité pour l’IA générative.
Les acteurs de celle-ci utilisent déjà massivement les contenus journalistiques, qu’ils ont siphonnés via leurs « web-crawlers », ces robots numériques qui parcourent et indexent le web. OpenAI a d’ailleurs expliqué à ce sujet qu’il lui était impossible d’entraîner des modèles performants sans utiliser de données soumises aux droits d’auteur.
La proportion de données journalistiques parmi les données d’entraînement reste toutefois très floue. Dans un rapport technique publié en mars 2023, la firme de Sam Altman a explicitement indiqué ne pas souhaiter détailler les jeux de données utilisés. Alors que l’IA générative semble actuellement ne pas pouvoir se passer de données journalistiques, le manque de transparence dans l’utilisation des contenus médiatiques a provoqué une réaction en chaîne dans l’industrie de l’information.
Les médias montent au front juridique
L’utilisation intensive des contenus journalistiques par les entreprises technologiques a déclenché d’importantes confrontations juridiques. Le New York Times en a donné le signal le 27 décembre 2023 en poursuivant Microsoft et OpenAI pour « violation de droits d’auteur et de travail journalistique ». OpenAI a également été attaqué en justice en avril 2024 pour violation du droit d’auteur par huit autres journaux américains, puis fin novembre 2024 par une coalition des grands organismes de presse canadiens.
Face à toutes ces accusations, l’entreprise derrière ChatGPT s’est défendue principalement en arguant que l’utilisation de contenus journalistiques pour l’entraînement de ses modèles était transformative plutôt que duplicative.
Ce procès, comme d’autres qui ont suivi, a mis en lumière l’ampleur du scraping dont les médias ont fait l’objet, soit l’extraction automatisée de données internet, destinée dans ce cas à entraîner les LLMs. Une enquête a révélé la présence de millions d’articles issus de sites d’information dans les jeux de données de pré-entraînement d’OpenAI.
A l’heure d’écrire ces lignes, le délibéré de ce procès n’est pas connu, et le débat principalement américain du « fair use » est encore loin d’être tranché. Ce qui semble toutefois terminé, c’est la phase « far west » où l’on voyait les développeurs d’IA siphonner Internet dans les grandes largeurs sans que les médias ne réagissent. Aujourd’hui, face à cette moisson de données médiatiques, les acteurs du journalisme adoptent différentes approches.
Face au scraping, les stratégies contrastées des médias
Plusieurs groupes ont négocié des accords avec les développeurs de LLMs pour réglementer l’utilisation de leurs contenus. C’est notamment le cas des agences américaines Associated Press avec OpenAI et Reuters avec Meta. En Europe, Le Monde (France), Axel Springer (Allemagne) Prisa Media (Espagne) et le Financial Times (Royaume-Uni) ont également conclu des partenariats avec le développeur de ChatGPT, mais ces accords demeurent encore minoritaires dans le paysage médiatique et leurs conditions pour les médias demeurent floues.
Fréquemment, les entreprises médiatiques choisissent toutefois de s’opposer au scraping en utilisant les mécanismes de blocage proposés par les développeurs : fichiers « robots.txt » pour bloquer les « web-crawlers » des LLMs, mécanismes d’« opt-out », ou enregistrement d’adresses IP (Chesterman 2024). Une étude de l’institut Reuters révèle que 48% des sites d’information les plus consultés dans dix pays bloquent activement les robots d’OpenAI. Des considérations déontologiques pourraient entrer en jeu. A ce sujet, Matthias Kettemann, chercheur à l’université d’Innsbrück et spécialiste de la gouvernance d’internet, a expliqué à l’EJO que le rôle des médias n’est pas, selon lui, d’entraîner les algorithmes.
En Suisse, les groupes de presse NZZ, Tamedia et CH Media bloquent aux « web-crawlers » l’accès aux portails d’informations de leurs différentes marques. Le service de presse de CH Media, interrogé par l’EJO, a indiqué vouloir s’opposer à la situation, qui voit la « big tech » utiliser les contenus des éditeurs de presse et capter trafic et recettes publicitaires sur leur plateforme, le tout sans participer au coût de production des contenus. Le directeur technique de l’agence de presse nationale Keystone-ATS Tom Schneider a indiqué faire preuve de réserves similaires, et que l’entreprise, en phase d’évaluation, tendait actuellement elle aussi vers un blocage des « web-crawlers ».
CH Media reconnaît toutefois les limites des stratégies de blocage. Le groupe précise que des mesures effectuées indiquent des possibles contournements de ces précautions, corroborant les conclusions d’une enquête du média américain Wired réalisée en juin 2024 sur Perplexity. CH Media plaide ainsi pour une plus grande régulation étatique et davantage de soutien de l’applicabilité des stratégies de blocage de ce scraping. Nadia Kohler, à la tête du Tamedia AI lab, nous a apporté quelques précisions quant à la stratégie d’installation de fichiers robots.txt. « Il est admis que ces fichiers établissent une ligne directrice, et qu’ils ne sont pas respectés par tous les acteurs. Il s’agit là aussi de renforcer la position juridique du groupe », a-t-elle déclaré, précisant que Tamedia a mis en place diverses mesures techniques de blocage.
Une troisième voie se dessine : plusieurs médias choisissent délibérément de ne pas s’opposer au scraping des développeurs de LLMs, même sans avoir passé d’accord avec ceux-ci. C’est le cas de la Société suisse de radiodiffusion (SSR) – à laquelle appartient les médias de service public suisses. L’entreprise a précisé à l’EJO via un porte-parole qu’il s’agissait d’abord pour ses unités d’entreprises (ndlr. dont la RTS) d’acquérir de l’expérience avec ces technologies. « Cela doit permettre de mieux comprendre si et comment la technologie pourrait être utilisée à l’avenir dans l’intérêt de nos offres médiatiques et du public ».
De son côté, le groupe Ringier, via un porte-parole du média Blick, a justifié ce choix au média spécialisé Persoenlich par sa volonté de garantir l’accessibilité de ses contenus sur toutes les plateformes, LLM compris.
Cette nouvelle cartographie des relations entre médias et IA soulève une interrogation majeure : quand seuls certains médias alimentent les LLMs, quels critères président cette sélection ?
Le poids économique, facteur décisif des négociations
Le scraping généralisé qui prévalait auparavant pouvait présenter l’avantage de ratisser large dans ses sources, en semblant peu discriminant. Maintenant qu’une différenciation s’opère, il est possible de craindre que le critère dominant ne soit pas celui de la pluralité médiatique.
Selon le chercheur Felix Simon, les organisations médiatiques ayant les moyens d’investir dans la recherche et le développement disposent d’un avantage significatif (Simon 2023). Ces « gagnants », comme les qualifie le chercheur, se trouvent en position de force pour négocier des conditions favorables avec les géants de la technologie. Cette dynamique ne fait que renforcer les disparités existantes dans le paysage médiatique En effet, les géants du web comme Google, Meta (ex-Facebook), ou plus récemment TikTok, tendaient déjà auparavant à privilégier les grands groupes médiatiques pour leurs partenariats commerciaux et le développement de nouveaux formats.
Si le poids économique d’un média apparaît déterminant dans sa capacité à négocier avec les acteurs de la tech, les retombées positives de l’IA et le potentiel gain de visibilité pourraient s’en retrouver concentrés entre quelques acteurs, aux détriments des plus petits d’entre eux, comme ceux de la presse locale.
Ceci étant dit, le 15 janvier dernier, OpenAI a annoncé avoir investi dans l’éditeur de presse locale Axios, en échange de l’accès à leur contenu pour répondre aux requêtes des utilisateurs du « chatbot ». Ce partenariat a de quoi surprendre, la « big tech » semblant jusqu’ici privilégier les groupes médiatiques de portée nationale voire internationale. Spécialisé dans le journalisme de proximité, le média Axios ne peut toutefois pas réellement être qualifié de petit acteur, couvrant plus de 30 grandes villes américaines et ayant été racheté pour 525 millions de dollars en 2022.
Le collectif comme levier économique
Interrogé par l’EJO, Javier Díaz Noci, professeur à l’université Pompeu Fabra et chercheur en journalisme numérique, en est convaincu : « à long terme, les acteurs majeurs comme les plus modestes devront conclure des alliances et négocier avec OpenAI [ndlr. ou d’autres entreprises], c’est inévitable ». Une position renforcée par la posture d’OpenAI, qui affirme que l’industrie médiatique ne représente qu’une infime partie des données utilisées pour entraîner ses modèles. Selon le Financial Times, « la menace tacite adressée aux éditeurs est la suivante : si vous ne respectez pas nos conditions, nous nous ferons un plaisir de vous exclure. » Un avertissement qui souligne encore la nécessité d’une approche collective des médias, pour gagner en puissance de négociation.
La collaboration inter-médiatique s’avère également cruciale pour la monétisation des contenus. Pour Javier Díaz Noci, l’enjeu est clair : ne pas répéter les erreurs du passé, lorsque les éditeurs distribuaient gratuitement leurs contenus aux géants du web. Le Financial Times note à ce sujet que « beaucoup dans l’industrie médiatique semblent cette fois avoir appris de leur douloureuse expérience avec les gatekeepers (ndlr. acteurs contrôlant l’accès à l’information) en ligne tels que Google et Facebook ».
En Suisse cette fois, le directeur technique de Keystone-ATS s’est dit ouvert à l’introduction d’une solution commune aux groupes médiatiques du pays, semblable à celle évoquée par Jeff Jarvis. La formation d’alliances inter-médiatiques se concrétise donc davantage
Nouvelles pistes de monétisation
Les accords lucratifs avec les développeurs d’IA, en plus de demeurer rares, pourraient de surcroît ne constituer qu’une relativement maigre source de revenus pour les médias. Selon le service de communication du groupe CH Media, « les éditeurs suisses n’ont actuellement aucune perspective de partenariat équitable. La rémunération actuellement discutée sur le marché pour les contenus produits par les éditeurs est bien trop faible. » D’après le média The Information, OpenAI aurait proposé entre un et cinq millions de dollars par an à certains éditeurs de presse, pour l’utilisation de leurs articles destinés à entraîner leurs LLMs.
De nouvelles voies de monétisation se dessinent toutefois. L’introduction de la publicité dans les LLMs ouvre une première piste. Perplexity a fait figure de pionnier en franchissant ce pas, qui pourrait redonner aux médias une partie des revenus publicitaires jusqu’ici captés par les GAFAM. La startup a présenté en juillet 2024 son « publishers program », s’engageant à verser aux éditeurs une part de tout revenu publicitaire lié directement aux résultats qui dépendent de leur contenu. Le Financial Times tempère cependant les attentes des journalistes pour des revenus suffisants à court terme, mais indique que ce modèle présente l’avantage d’établir un précédent que les éditeurs pourraient promouvoir plus largement.
Une autre approche émerge avec des entreprises comme Prorata.ai, qui développe une technologie d’analyse et d’attribution automatique des contenus générés par les LLMs. Cette solution permettrait d’identifier précisément les sources utilisées et d’assurer une juste rémunération des ayants droit, ouvrant la voie à un système de rétribution basé sur l’utilisation effective des contenus. Le projet a été soutenu par de nombreux médias, comme Sky News et le Guardian Media Group.
Les solutions RAG (Retrieval-augmented generation), sur lesquelles se basent également Prorata.ai constituent une voie prometteuse. Cette technologie permettrait aux LLMs de générer des réponses en s’appuyant non plus sur les immenses quantités de données d’entraînement, mais sur une base de connaissances externe et spécifique, consultée en temps réel. L’approche se distingue fondamentalement du « scraping » traditionnel : plutôt que de voir leurs contenus intégrés de manière permanente dans les paramètres du modèle, les médias pourraient proposer un accès contrôlé et payant à leurs archives. Cela pourrait également permettre une meilleure traçabilité des sources.
En Suisse, Tamedia fait partie des groupes qui développent des solutions RAG pour l’amélioration de leur service. «Nous avons vectorisé l’intégralité de nos archives (ndlr: conversion de texte en données mathématiques exploitables par l’IA) et utilisons déjà la génération de récupération augmentée (RAG) pour diverses applications d’IA – à la fois pour soutenir nos journalistes et développer une approche centrée sur l’utilisateur » précise Nadia Kohler. Sur le site web 24heures.ch, par exemple, un « chatbot » assisté par IA permet aux lecteurs d’accéder plus facilement aux contenus Tamedia liés aux séries en streaming. L’utilisation de solutions RAG à des fins de distribution monétisée n’a toutefois pas été mentionnée. À l’international, en revanche, le directeur du groupe singapourien NUS press Peter Schoppert a précisé sur son canal Substasck que l’accord entre Axel Springer et OpenAI portait principalement sur l’octroi de licences pour la récupération de données via la RAG, illustrant ainsi le potentiel de cette technologie pour les modèles d’affaires des médias.
L’arrivée des LLMs dans le paysage informationnel pourrait certes apporter de nouvelles opportunités économiques aux acteurs journalistiques. Elle pourrait cependant également voir se fragiliser le modèle traditionnel, fondé sur l’attraction du trafic vers les sites des médias.
Le jeu du référencement biaisé ?
L’arrivée des LLMs rebat-elle les cartes du SEO (search engine optimization) que les médias ont mis des années à maîtriser ? Une nouvelle forme d’optimisation émerge déjà: le GEO (Generative Engine Optimization), qui vise à adapter les contenus pour qu’ils soient mieux repérés et exploités non plus par les moteurs de recherche mais par les modèles génératifs. Si le trafic web n’a pas encore massivement migré vers des outils comme Perplexity ou ChatGPT, dont la fonction de recherche en temps réel demeure récente et imparfaite, la paysage de la recherche d’information pourrait s’en voir transformé.
Selon le chercheur Felix Simon (2023), certaines organisations médiatiques craignent de perdre jusqu’à la moitié de leur audience actuelle provenant des moteurs de recherche. Une tendance déjà observable : le rapport 2023 du Reuters Institute confirme un déclin significatif de l’accès direct aux sites d’information, au profit des plateformes tierces et des agrégateurs.
Un point positif émerge toutefois : ChatGPT cite de plus en plus systématiquement ses sources, une pratique quasi-inexistante lors du lancement de l’outil. Cependant, les informations directement extraites des sources et résumées dans la bulle de dialogue dispensent théoriquement les utilisateurs de consulter les sites d’origine, sauf par souci de vérification.
Dans ce contexte, une question cruciale se pose : si seule une fraction des médias participe à l’entraînement des LLMs, alors que tous peuvent potentiellement être référencés sur Google, l’accès à l’information ne risque-t-il pas de devenir de plus en plus inégal ? Interrogé par l’EJO, Mario Haim, professeur en sciences communicationnelles et communication informatique à l’université de Munich (LMU), nuance cette inquiétude. Il rappelle que le secteur a déjà traversé des phases similaires avec l’émergence des agrégateurs d’actualités et des moteurs de recherche. « Les grands acteurs, Google en tête, ont établi leurs règles de bonnes pratiques. Il est difficile de dire si la pluralité médiatique faisait partie de leurs préoccupations. » Il ajoute : « l’Union européenne a fini par imposer une régulation exigeant la présentation d’un panel diversifié d’éditeurs. Cette réglementation est suffisamment flexible pour s’appliquer à OpenAI dès lors que ChatGPT atteindra une certaine importance comme outil de recherche d’informations, ce qui est loin d’être acquis à ce stade. »
Au-delà des questions de visibilité, une question plus large émerge : celle de la représentation démocratique des médias dans un espace public de plus en plus façonné par les LLMs.
LLMs et espace public : les nouveaux enjeux du pluralisme médiatique
Jungherr et Schroeder (2023) définissent l’espace public comme le lieu où « la société devient visible à elle-même et où se forment les publics et contre-publics. » Selon ces mêmes chercheurs, l’IA façonne les informations que les gens voient et celles qu’ils sont autorisés ou incités à publier. La fonction essentielle de l’espace public semble donc pouvoir être altérée par une représentation déséquilibrée des médias dans les LLMs.
En effet, ne risque-t-on pas de favoriser certaines visions du monde , alors que son pendant idéologique reste sur la touche ? Cet écueil est d’autant plus préoccupant que les LLMs ont été épinglés pour parfois « recracher » verbatim le contenu absorbé.
Pour le chercheur Matthias Kettemann, la priorité se trouve à une toute autre échelle. « Le plus grand défi réside dans les disparités de données d’entraînement entre le Nord et le Sud global. L’ajout de nouveaux médias européens, quelle que soit leur ligne éditoriale, n’aura qu’un impact limité sur la diversité globale des données. Ce qui manque surtout, c’est une représentation équilibrée de toutes les régions du monde dans les jeux de données, notamment une meilleure inclusion des sources journalistiques d’Afrique et d’Asie », précise-t-il.
Le chercheur Felix Simon voit également d’autres dangers pour l’espace public. Si les impacts pour la pluralité médiatique pourraient selon lui être tant positifs que négatifs, il souligne un risque particulier. « Au niveau systémique, les orientations individuelles induites par l’IA ne biaisent pas nécessairement les contenus dans une direction particulière. Mais la façon agrégée et coordonnée dont cette médiation technologique modifie imperceptiblement les contenus au fil du temps peut affecter le fonctionnement de l’espace public » (Simon, 2023).
Ces biais potentiels sont d’autant plus complexes à identifier qu’il n’existe pas de référentiel normatif permettant de comparer la composition idéale de l’espace public avec celle façonnée par l’IA. Cette situation appelle à une vigilance et des recherches accrues sur l’évolution de l’espace public à l’ère des LLMs et du scraping, où les algorithmes pourraient redéfinir silencieusement les contours de l’opinion publique.
Références
Jungherr, A., Schroeder, R. (2023). Artificial intelligence and the public arena, Communication Theory, Volume 33, Issue 2-3, Pages 164–173
Simon, F. (2024). Artificial intelligence in the news: how AI retools, rationalizes, and reshapes journalism and the public arena. Tow Center for Digital Journalism, Columbia University.
Chesterman, S. (2024). Good models borrow, great models steal: intellectual property rights and generative AI, Policy and Society
Cet article est publié sous licence Creative Commons (CC BY-ND 4.0). Il peut être republié à condition que l’emplacement original (fr.ejo.ch) et les auteurs soient clairement mentionnés, mais le contenu ne peut pas être modifié.
Tags: Artificial Intelligence, gafa, intelligence artificielle, suisse
[…] текст було вперше опубліковано на швейцарському сайті EJO 15 лютого 2025 року. Українською переклала Олександра […]