L’agrégation de news : quel taux d’originalité au HuffPost ?

9 novembre 2017 • Déontologie et qualité • by

Moins d’un article sur deux publié par les différentes éditions du HuffPost est original, selon le chercheur Jean-Hugues Roy. S’il jette un éclairage inédit sur les pratiques d’agrégation du pure player, ce résultat doit être nuancé, avertit-il. Le copier-coller n’est pas toujours synonyme de qualité moindre et cette pratique peut varier fortement en fonction des éditions étudiées.

Produire du journalisme coûte cher. Nous y investissons des moyens énormes, de la technologie aux salaires. Agréger des contenus, ce n’est pas une pratique équitable. Pour être malpoli, c’est du vol.

Rupert Murdoch cité par Kimberley Isbell

Le Huffington Post, média en ligne fondé en 2005, s’est en particulier fait connaître pour ses blogues. Lorsqu’il a été acquis par AOL, en 2011, pour la somme de 315 millions $US, le fait qu’aucune rétribution n’ait été versée aux blogueurs a suscité la controverse.

Mais le HuffPost est aussi un site web d’information. C’est à cette portion de ses activités qu’on va s’intéresser dans cette étude.

Le HuffPost est souvent présenté comme un agrégateur de nouvelles. Cela signifie qu’il collige des informations publiées ailleurs et les republie, offrant ce que le premier chef des nouvelles de la version québécoise, Jean-Philippe Cipriani, appelait «le meilleur du web».

Pour l’ancien rédacteur en chef du New York Times, Bill Keller, cette pratique, « souvent, consiste à prendre des mots écrits par d’autres, à les mettre en forme sur un site web, et à récolter des revenus qui auraient dû être ceux des créateurs de ce matériel. En Somalie, on appellerait cela de la piraterie. Dans la médiasphère, c’est un modèle d’affaires respectable ».

Copier-coller : been there, done that

Republier de l’information n’est pourtant pas une pratique nouvelle. Dans son histoire du journalisme québécois à la fin du XIXe et au début du XXe siècle, Jean de Bonville raconte combien « ciseaux et pot de colle demeurent [à cette époque] les principaux instruments de travail » des journalistes (p. 170). On les a remplacés aujourd’hui par le copier-coller, mais la pratique et son ampleur restent similaires.

Si les modèles d’affaires basés sur l’agrégation de contenus suscitent des critiques sur la qualité et le travail à bas coût, des commentateurs font aussi remarquer que copier-coller n’est pas nécessairement synonyme de qualité moindre, et citent le HuffPost comme contre-exemple. Selon le chercheur Piet Bakker : 

Au lieu de simplement dénoncer ces pratiques et le contenu produit sur la base d’une qualité et d’une originalité supposées moindres, il faudrait souligner que ces services peuvent aussi faire tout le contraire : offrir un journalisme original et de qualité.

Le Huffington Post est donc l’un de ces sites qui combinent journalisme original et agrégation. Mais dans quelle proportion ? Cela n’avait encore jamais été étudié. Il me semblait important de mesurer le phénomène afin d’étudier les pratiques journalistiques d’un des plus importants pure players au monde.

Le travail journalistique original

Pour mesurer le taux d’originalité du HuffPost, je me suis appuyé sur la notion de « travail journalistique original » développée par Rachel del Fante:

Un journaliste fait un  » effort journalistique original  » lorsqu’il se pose une question d’intérêt public et qu’il décide de répondre à cette question en posant des gestes concrets. Il peut (1) interviewer des personnes qui peuvent lui fournir des réponses ou (2) effectuer toute forme de recherche susceptible de lui fournir une réponse. […] [Il] s’oppose donc […] au churnalism ou second hand journalism qui est la tendance dans les salles de nouvelles à réécrire ou à recycler rapidement du contenu préformaté.

Pour éviter d’avoir à choisir une édition du HuffPost plutôt qu’une autre, j’ai tenté de toutes les inclure dans cette étude. En effet, depuis mai 2011, le Huffington Post a lancé 18 éditions internationales. Elles ont toutes été incluses, donc, sauf l’édition sud-africaine, trop récente pour offrir un échantillon significatif, et l’édition en langue arabe, en raison de contraintes d’ordre technique. Pour chaque édition, la période étudiée s’étend de la date de sa fondation (voir tableau 1) jusqu’au 31 décembre 2016, sauf pour l’édition étasunienne où le point de départ a été fixé au 1er janvier 2011.

Prenant soin d’exclure les blogues, un peu moins de deux millions d’articles ont été moissonnés (par web scraping) dans les premiers mois de 2017. J’ai recueilli tous les articles compris dans la section «Archive» de chaque édition (par exemple ici pour la version allemande), sinon j’ai utilisé l’API Custom Search de Google. Mon échantillon ne représente pas 100% des articles publiés, mais une proportion significative des 12 à 13 millions d’éléments (blogues et articles confondus) publiés par toutes les éditions du HuffPost dans la période étudiée.

Pour chaque article, je n’ai recueilli que le titre, les mots-clé et, ce qui était capital pour cette étude, les signatures.

Ces signataires ont ensuite permis de classer chaque article dans l’une des trois catégories créées en conformité avec le postulat de R. Del Fante mentionné ci-dessus : quand un employé de la rédaction (journaliste ou responsable [editor]) ou un pigiste était l’auteur, l’article était rangé dans la catégorie HP_oui. J’ai considéré que de signer un article était la marque d’un « travail journalistique original », et c’est ce qui fait que le taux d’originalité représente la proportion d’articles rangés dans cette catégorie.

Quand l’article provenait d’une autre publication ou d’une agence de presse, il était rangé dans la catégorie HP_non.

Dans les cas où la signature incluait à la fois une agence extérieure et une mention du genre : « avec la rédaction du Huffington Post », l’article était classé HP_oui.

Les articles non signés étaient catégorisés « HP_inconnu ». Dans l’édition américaine, où le taux d’inconnus était élevé, une recherche dans le texte des articles a été effectuée, car parfois on y trouve des indications que l’article a été rédigé par l’équipe du HuffPost.

Tableau 1: Taux d’originalité mesuré par édition
Édition Données depuis* Articles HP_oui HP_non HP_inconnu Taux originalité
États-Unis 01.01.2011 550 955 250 528 210 226 90 201 45.47%
Canada 26.05.2011 265 153 40 809 222 950 1 394 15.39%
UK 06.07.2011 161 263 118 317 42 757 189 73.37%
France 23.01.2012 54 156 49 815 4 088 253 91.98%
Québec 08.02.2012 390 231 44 282 344 510 1 439 11.35%
Espagne 07.06.2012 56 348 48 879 7 381 88 86.74%
Italie 24.09.2012 64 880 53 820 9 944 1 116 82.95%
Japon 06.05.2013 23 708 16 490 6 865 353 69.55%
Maghreb 25.06.2013 28 653 25 200 3 337 116 87.95%
Allemagne 01.10.2013 68 733 31 831 33 445 3 457 46.31%
Brésil 29.01.2014 20 831 14 543 5 745 543 69.81%
Corée du Sud 26.02.2014 51 890 25 945 25 476 469 50.00%
Grèce 20.11.2014 55 433 55 004 279 150 99.23%
Inde 08.12.2014 14 618 8 613 3 154 2 851 58.92%
Australie 18.08.2015 17 154 12 335 3 255 1 564 71.91%
Mexique 01.09.2016 2 168 1 916 102 150 88.38%
Ensemble   1 826 174 798 327 923 514 104 333 43.72%
*Données récoltées depuis le jour du lancement pour tous les sites sauf USA (lancé le 09.05.2005)

Moins d’un article sur deux est original

Les résultats du tableau 1 montrent un taux d’originalité de près de 44% pour l’ensemble des articles analysés. Les six éditions européennes (britannique, française, espagnole, italienne, allemande et grecque) ont un taux d’originalité combiné de 77,6%. On remarque des taux très variables d’une édition à l’autre, passant de plus de 99% pour l’édition grecque à 11% à peine pour l’édition québécoise. Le HuffPost Québec apparaît comme une exception, comme le HuffPost Canada dont le taux d’originalité dépasse à peine 15%. Toutes les autres éditions ont un taux supérieur à 45%.

Figure 1: Classement par taux d’originalité mesuré

Comment expliquer ces différences? Les équipes des éditions québécoise et canadienne sont-elles plus paresseuses? Ont-elles moins de moyens? Ou sont-elles plus honnêtes parce qu’elles citent davantage leurs sources?

Le chercheur allemand Thorsten Quandt, qui a analysé le contenu de dix sites web d’information il y a une décennie, avait déjà remarqué que certains médias en ligne n’attribuaient pas du tout la source des articles qu’ils publiaient : « Nous estimons qu’il existe un réel danger que le copier-coller devienne un principe de base sans que les usagers ne sachent d’où provient en fait le contenu ».

Lorsqu’on examine la liste des cinq mots-clés les plus utilisés (tableau 2), les éditions canadienne et québécoise se distinguent également. Alors que toutes les éditions ont des mots-clés qui se ressemblent et qui décrivent le contenu des articles (politique, société, style de vie, divertissement, vidéo, etc.), ceux des deux éditions canadiennes décrivent plutôt les sources de ces articles. «CP» ou «PC» désignent la Presse canadienne, la principale agence de presse du pays. «CBC» et «Radio-Canada» désignent le diffuseur national Radio-Canada. Il n’y a que dans l’édition américaine qu’on retrouve le nom d’une agence, Reuters, parmi les cinq principaux mots-clés utilisés. Dans les autres éditions, l’attribution ne se retrouve jamais dans les mots-clés.

Tableau 2: Les cinq mots-clés le plus souvent utilisés par édition du HuffPost
Édition Mots-clés les plus fréquents
États-Unis video, reuters, TV Canada, elections 2012, slidepollajax
Canada cp, cbc, video, vancouver, business video
Royaume-Uni uk news, uk celebrity, video, uktv, uk lifestyle
France video, politique, culture, international, insolite
Québec pc, afp, hp, rc, divertissement
Espagne política, tendencias, internacional, España, deportes
Italie politica, notizie, esteri, cronaca, italia-politica
Japon 国際 (international), 社会 (société), エンタメ (divertissement), ライフスタイル (style de vie), 政治 (politique)
Maghreb tunisie, societe maroc, international maroc, culture, Cultures algerie
Allemagne video, politik, nachrichten, entertainment, lifestyle
Brésil País, diversão, mulheres, entretenimento, brasil mundo
Corée du Sud 국제 (international), 사회 (société), 문화 (culture), 정치 (politique), 라이프스타일 (style de vie)
Grèce ΔΙΕΘΝΕΣ (international), ΠΟΛΙΤΙΚΗ (politique), ΚΟΙΝΩΝΙΑ (société), ΟΙΚΟΝΟΜΙΑ (économie), life
Inde in-news, news, News, in-politics, politics
Australie news, in-news, politics, life, entertainment
Mexique ENTRETENIMIENTO, POLÍTICA, INTERNACIONAL, NEGOCIOS, ESTILO DE VIDA

En entrevue téléphonique, l’éditeur de l’édition québécoise, Patrick White, explique que durant ses trois premières années, le HuffPost Québec disposait d’un système qui republiait automatiquement les dépêches de la Presse canadienne, de l’Associated Press et de l’Agence France Presse ainsi que des textes de Radio-Canada.ca : « On en publiait 7’000 par semaine », dit-il. Aujourd’hui, il dispose d’une équipe de dix journalistes et se sert beaucoup moins de textes d’agences. Depuis le 1er août 2017, le HuffPost Québec a même cessé de reproduire les textes de Radio-Canada.

En effet, le taux d’originalité de l’édition québécoise a augmenté avec les années, passant d’à peine 4 % en 2012 à un peu plus de 45 % en 2016, un taux plus près de la moyenne de l’ensemble. Le nombre d’articles qu’il publie par année a, par contre, considérablement chuté. Il a dépassé 100’000 en 2012, 2013 et 2014. Mais il n’était plus que de 31’000 en 2015 et dépassait à peine le 27’500 en 2016.

Tous les textes qui proviennent d’un média ou d’une agence externe au HuffPost doivent, par contrat avec ces sources externes, être attribués, précise Patrick White. Il dit que ses rédacteurs n’adjoignent la mention « avec le HuffPost » que « lorsqu’on ajoute des informations qu’on a nous-mêmes confirmées ».

Au-delà de la distinction reprise/originalité

Cette étude jette un éclairage inédit sur les pratiques d’agrégation d’un pure player qui s’est, en quelques années, hissé au rang des grands médias de la planète en terme d’achalandage sur le web. Au final, on apprend que moins d’un article sur deux, au HuffPost entre 2011 et 2016, a été le fruit d’un « travail journalistique original ».

Mais cette étude reste préliminaire. Plusieurs questions demeurent sans réponse. Pourquoi ces différences entre des éditions d’une même entreprise de presse, par exemple? M. White l’ignore : « Chaque rédaction est autonome », dit-il.

Même si cette étude n’apporte pas de réponse supplémentaire à la question de la qualité journalistique (reprise ou originalité), elle pose tout de même une question cruciale, à l’heure de l’information citoyenne, de la crise des médias traditionnels et du problème de la survie des « marques d’information » en ligne : se peut-il, comme Thorsten Quandt le suggérait, que les lecteurs de certaines éditions du HuffPost ne soient pas informés de la source du matériel qu’ils consultent? Pour le savoir, il faudrait effectuer une étude sur le contenu des articles afin de vérifier si ce contenu a déjà été publié ailleurs.

Par ailleurs comment les taux d’originalité observés au HuffPost se comparent-il avec les autres médias, traditionnels ou pure players? Ici encore, d’autres études sont nécessaires pour aller plus loin. Si des chercheurs souhaitaient entamer un tel travail, les données complètes de cette étude et les carnets d’analyses des données pour chacune des éditions étudiées sont accessibles sur le compte Github de l’auteur.

 

Cet article est publié sous licence Creative Commons (CC BY-ND 4.0). Il peut être republié à condition que l’auteur et EJO soient clairement mentionnés avec un lien vers l’article original, mais le contenu ne peut pas être modifié.

Image de couverture par Wiredforlego, Flickr (licence CC BY-SA 2.0)

Tags: , , , , , ,

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Send this to a friend