Les données pour comprendre le monde

L’année dernière, l’un des ateliers de Lift France était consacré au journalisme de données. A l’occasion d’une masterclass consacrée au sujet, Nicolas Kayser-Bril, datajournalise – c’est-à-dire à la fois journaliste, statisticien, programmeur et chef de projet -, est venu faire le point sur ce qu’il s’est passé en un an.

nkblift2011
Image : NKB sur la scène de Lift, photographié par Swannyyy.

« On était radicaux l’année dernière, on avait des espoirs. On l’est peut-être moins un an après », reconnait Nicolas Kayser-Bril en attaquant sa présentation.

Le journalisme de données est né en 2005, quand Adrian Holovaty a lancé sa carte du crime de Chicago puis a signé en 2006 un important manifeste du data journalisme. En 2009, le Guardian a lancé son datablog, montrant l’importance que le sujet avait pris pour la presse innovante. Le journalisme de données a explosé l’année dernière, le 27 juillet 2010, quand Wikileaks a sorti ses documents sur l’Afghanistan : une base de données était devenue le matériel principal pour créer des articles. Des développeurs ont travaillé avec des journalistes pour créer des choses nouvelles en jouant du matériel source et de la manière d’en présenter les résultats. Les articles et cartographies du Guardian sur la localisation des attaques ont bien montré que c’était là la révélation principale de ces données. Fin 2010, sur les documents clefs irakiens libérés à nouveau par Wikileaks, l’information clef reposait là encore sur les morts et leur cartographie. La diffusion des télégrammes de la diplomatie américaine dès fin 2010, même s’ils étaient essentiellement composés de textes qu’il fallait décrypter, a tout de même permis de créer des visualisations sur leurs répartitions. Désormais, à chaque évènement majeur (Fukushima, Lybie…), les rédactions jouent avec des outils ouverts pour créer des visualisations et sortir du cadre traditionnel de l’article. « Le datajournalisme est devenu un champ à part entière du journalisme », estime Nicolas Kayser-Bril. Les rédactions se sont organisées. En 2009, quand le Guardian était isolé quand il a fait appel aux internautes pour analyser les notes de frais des représentants britanniques. En 2011, dans le cas de l’affaire des e-mails de Sarah Palin (l’Etat de l’Alaska ayant rendu public sous forme papier les e-mails officiels de son ancienne gouverneur), plusieurs rédactions se sont rapidement organisées pour scanner, traiter et faire analyser avec la complicité des internautes, les 24 000 documents libérés.

« La question qu’il faut se poser, un an plus tard est « est-ce que ça marche ? » et « qu’est-ce que ça a changé ? ». Pour les journalistes, pour les utilisateurs, mais aussi pour les actionnaires des groupes de presse ». Pour les journalistes : le datajournalisme a changé beaucoup de choses : il leur a appris à utiliser des bases de données, d’acquérir de nouvelles compétences, de nouveaux outils. Car sans ces nouveaux outils nombre de ces histoires n’auraient pu voir le jour, rappelle le datajournaliste. Cela a donné naissance à de nouvelles communautés, comme ScraperWiki, une plateforme pour mettre en relation journalistes et développeurs. Cela a donné naissance à de nouveaux process permettant d’intégrer les utilisateurs dans le processus comme l’ont montré Prixdeleau.fr (une cartographie collaborative pour connaitre le prix de l’eau dans chaque ville de France) ou les Warlogs (une interface de visualisation pour analyser de manière collaborative les documents libérés par Wikileaks) ou encore InfluenceNetworks (une interface collaborative pour visualiser les conflits d’intérêts entre personnes publiques) ou bien sûr l’analyse des notes de frais des députés britanniques.

« Tous n’ont pas marché », reconnaît le journaliste. Force est de reconnaitre que les Warlogs, les systèmes d’analyse des e-mails de Sarah Palin ou l’analyse des notes de frais des députés britanniques n’ont pas fourni des résultats intéressants. Cela s’explique en partie parce qu’il faut connaître le contexte pour comprendre quels documents sont intéressants.

Pour les utilisateurs, ce qui a le plus changé c’est l’accès massif aux bases de données, comme celles libérées et analysées par le journal texan en ligne Texas Tribune. Il y a une demande pour ce type d’information, même si elle est limitée. La plus grande partie des utilisateurs de NosDeputes.fr est composée d’assistants-parlementaires qui utilisent le site parce qu’il est plus accessible que celui de l’Assemblée nationale. Mais ce n’est pas une demande de l’utilisateur lambda : « l’accès aux bases de données ne va pas créer des pages vues et sauver les journaux », ironise NKB.

En fait, pour les utilisateurs, les données permettent d’imaginer de nouveaux types de récits, interactifs, comme le jeu Primaires à gauche, lancé par LeMonde.fr ou des webdocumentaires qui délinéarisent le récit pour que l’utilisateur puisse naviguer dans le contenu. Reste que les rédactions ne sont pas des professionnels des interactions ou des jeux vidéos. L’audience du web documentaire est souvent faible. On demande aux gens de consulter des sujets par eux-mêmes (puisqu’ils doivent naviguer dedans) alors que les sujets ne les passionnent pas nécessairement. Les webdocumentaires sont souvent des échecs en terme d’audience, ce qui montre qu’il faut certainement encore un peu plus les professionnaliser et surtout mettre en valeur les moyens d’amener le public jusqu’à eux.

La dernière nouveauté pour les utilisateurs, c’est le risque du contre-sens. Tout le monde veut faire du datajournalisme, mais les chiffres ne se travaillent pas comme les textes. Les erreurs sont légions et tout le monde ne maîtrise pas les calculs de probabilité ou les statistiques.
Pour les actionnaires par contre, les avantages du datajournalisme sont loin d’être avérés ! Alors qu’un article papier demande 5 heures de travail d’un journaliste pour faire 5000 impressions, le datajournalisme nécessite le travail de toute une équipe (journaliste, développeur, designer, cher de projet). Il coûte trois fois plus cher, prend 3 fois plus de temps à développer, alors qu’il ne rapporte pas 3 fois plus d’argent, ni 3 fois plus d’impressions. « Si le datajournalisme ne rentre pas dans les business models des journaux ont aura un problème ».

Le datajournalisme est un processus comme le disait Paul Bradshaw, et le principal problème réside souvent dans la dernière étape : la communication. Toutes les données ne valent pas le coût de la visualisation : beaucoup demeurent peu intéressantes. Enfin, il faut arriver à les communiquer pas simplement en pointant vers une belle animation.

Pour Nicolas Kayser-Bril, il y a encore des choses à faire. Les actionnaires doivent investir dans la confiance entre les médias et les utilisateurs. Le modèle publicitaire est cassé et ne va pas se réparer tout seul. Un article qui fait 1000 pages vues rapporte entre 2 et 10 euros. Mais si vous faites un article qui permet à des gens d’économiser quelque chose, peut-être qu’on peut trouver le moyen d’y gagner et de rétablir des relations de confiances basées sur la rentabilité de tous.

Les écoles de journalisme doivent changer leurs cursus : elles doivent aller chercher des mathématiciens, des statisticiens, des geeks. 87 % des étudiants en école de commerce utilisent Excel contre seulement 5 % des étudiants en école de journalisme. Les rédactions doivent fonctionner en mode projet plutôt qu’en mode article. Elles ont besoin de journalistes-chefs de projets, capables de travailler en équipes pour avoir des projets cohérents…

« On a besoin d’analyses pertinentes sur les données qu’on collecte pour en raconter les histoires… » conclut Nicolas Kayser-Bril.

Le datajournalisme n’est-il pas confronté au risque de trop de transparence, questionne Laurent Haugg. En Suède, les e-mails officiels des élus sont publics, tant et si bien qu’ils n’y disent plus rien. « C’est une question d’équilibre », reconnaît NKB. « Les députés en France peuvent faire des notes de frais sans justificatif… Là-bas le curseur est trop fort, ici le curseur n’est pas bon. »

En février, Hasan Elahi, expliquait qu’il avait regagné sa vie privée en publiant tout de lui. « Le risque du datajournalisme n’est-il pas d’être noyé sous l’information ? », interroge encore Laurent Haug. « Oui, c’est ce que font les gouvernements actuels, en reprenant la main sur l’Open Data », souligne NKB. « On nous fournit des données non stratégiques, des ensembles peu intéressants. Les budgets sont peu présents, ou sans détails. Effectivement, on a un problème si on laisse les administrations et les gouvernements noyer le poisson des données. »

C’est ce que montrait récemment l’association rennaise Bug qui s’intéressait aux données financières libérées par la ville de Rennes, montrant que leur usage n’est pas si évident parce qu’il est difficile de les comparer à d’autres jeux de données (qui ne prennent pas en compte les mêmes ensembles de données) et parce que les jeux de données libérés sont largement incomplets pour créer des statistiques intéressantes.

L’Open Data montre surtout combien l’acteur public manque d’outils pour prendre des décisions éclairées. Il n’est certainement pas le seul… L’open data a certainement besoin de bonnes pratiques, d’ambitions comme l’exprimait un récent rapport, mais il a aussi besoin de s’affirmer pour ne pas rester un outil de communication politique dans lequel beaucoup sont tentés de l’enfermer. Et c’est bien tout l’enjeu du datajournalisme de montrer que d’autres outils sont possibles pour comprendre le monde.

À lire aussi sur internetactu.net

0 commentaires

  1. L’analyse de données a toujours existé en entreprise (Excel aussi d’ailleurs). Les « data crunchers » les plus connus sont les statisticiens en « business intelligence », les gens du marketing (études de marché) et les contrôleurs de gestion (analyse de la performance). Il suffit donc de reprendre leurs méthodes et recettes :
    – GIGO (« garbage in, garbage out » signifiant qu’à partir de données erronées, les conclusions le sont aussi)
    – 2 types de comparaisons (dans le temps – passé ou objectif – et dans l’espace -avec ses voisins comparables ou avec les entités au niveau mondial)
    – etc…

    Comme par hasard les décideurs en entreprise et les contrôleurs de gestion vont aussi vers la visualisation avec le phénomène du « visual analytics » dont les outils dédiés (ex.: tableau software) ou de « Business Intelligence » disposant maintenant de fonctions graphiques avancées (Qlikview). D’ailleurs ces outils sont maintenant repris par les « Data journalists ».

    Plus d’infos sur http://www.decideo.fr/datavisual/
    « Quels graphiques pour quelles données ? »

    Cordialement