De la « Data Science » à l’infovisualisation (2/2) : rendre tangible la friction des données

L’après-midi de la journée d’études PraTic a continué (voir la première partie) avec une intervention passionnante de Paul Edwards, professeur de sciences de l’information et d’histoire à l’université du Michigan, qui s’est penché sur les aspects « matériels » de la collection de données, ce qu’il appelle la « friction des données ». Car celles-ci impliquent un coût en transport, en énergie, qui peut ralentir l’analyse. Il rappelle que dans les années 50, le nombre de cartes perforées au centre de données météorologiques américain était si important qu’on croyait que le bâtiment risquait de s’effondrer sous le poids !

A cette friction des données correspond celle des « métadonnées », qui racontent comment les données ont été construites. Paul Edwards a illustré le problème à partir d’exemples sur le réchauffement climatique (comme il l’a fait dernièrement dans l’émission Place de la Toile où il évoquait le même thème).

Lorsqu’on travaille dans ce domaine, on cherche à transformer les informations météo, issues du court terme, en tendances climatiques, propres au long terme. Dans ce cas, il importe parfois de savoir comment ont été collectées les données de base, si la station météo à l’origine des observations a subi des changements, comment on a calculé les moyennes, etc. Il existe en effet des centaines de manières de calculer une moyenne journalière. Les différences obtenues sont minimes, mais elles existent. Si on connait le mode de calcul, on peut procéder à des ajustements, si on l’ignore cela peut engendrer des erreurs. Par exemple, des cartes de pluviométrie en Finlande ont connu un changement de l’ordre de 20 % parce qu’on avait modifié les horaires d’observation des stations météo.


Image : Paul Edwards, photographié par E2A.

Dans le domaine très controversé (du moins aux Etats-Unis) du réchauffement climatique, ce travail sur l’origine et la nature des données peut alimenter des débats animés. Paul Edwards s’est appuyé, entre autres, sur l’exemple de sufacestation.org, un site web d’analyse mis au point par des « climato-sceptiques » qui affirmaient que 9 stations météo sur 10 produisaient des températures en hausse parce qu’elles se trouvaient mal situées. Après vérification, les scientifiques ont découvert que surfacestation.org avait raison, mais l’histoire ne s’arrête pas là. En fait, l’analyse des données globales a montré que cette erreur était largement corrigée dans les calculs. En fait, il existait bien un biais par rapport à l’observation, mais contrairement à ce qu’espéraient les climato-sceptiques, celui-ci avait tendance à indiquer des températures un peu trop… froides !

Ce cas montre à quel point une telle archéologie de l’infrastructure de l’information est fondamentale. Mais il n’est pas facile de travailler sur les métadonnées. « Ce n’est le métier de personne », a commenté Edwards. Très souvent les informations ont été collectées par des gens qui ne s’y connaissent pas très bien, des étudiants qui ont quitté les lieux… Il n’y a pas de « versioning » permettant de décrire la constitution d’un ensemble d’informations, et très souvent si on veut savoir quelque chose sur l’élaboration des bases de données il faut envoyer un mail à quelqu’un qui sait comment les choses se sont passées. Il n’est pas rare de voir une équipe reconstruire une base de données parce qu’elle n’a pas confiance dans le travail des prédécesseurs.

Les données en sciences sociales

Paul Girard, responsable numérique du Médialab de Sciences Po, s’est intéressé à la génération de « datascapes » (une contraction entre data et landscapes qui renvoie à l’idée du déploiement d’un univers de données) dans le domaine des sciences sociales. Selon lui, il existe deux méthodes dominantes pour collationner des données en sociologie. Deux grandes figures du domaine, Gabriel Tarde et Emile Durkheim les incarnent.

Tarde avait une approche « psychologique » de la sociologie, il se demandait si les faits sociaux existaient en tant que tels, ou s’il s’agissait de phénomènes qui changeaient en permanence sous l’effet du niveau le plus bas, celui de l’individu. Durkheim, pour sa part, préférait les analyses statistiques. Durkheim a triomphé et son approche est devenue classique. Suite à ce débat qui eut lieu à la fin du XIXe siècle, on a observé une coupure entre les méthodes qualitatives et quantitatives. En quantitatif, on possède des résultats sur une grande partie de la population, mais ils sont assez pauvres. En qualitatif, on étudie plus précisément un petit groupe, pour obtenir des informations très riches à la clé, mais limitées par le nombre restreint de personnes étudiées.

Aujourd’hui, avec le data déluge, la coupure tend à se cicatriser puisqu’on possède des volumes de données importants sur une grande partie de la population. L’exemple type est la prédiction des épidémies de grippe par Google. Peut-on espérer voir apparaître de nouvelles méthodes, à la fois qualitatives et quantitatives ? Cette possibilité est explorée par des visualisations comme la carte de la blogosphère élaborée par Ben Fry en 2006, qui permet de voir non seulement comment deux blogs sont reliés entre eux, mais également les liens hypertextes existants entre les blogs. On découvre ainsi que les sites les moins visibles pointent vers les plus visibles, mais pas l’inverse.


Image : La carte de la blogosphère de Ben Fry.

Paul Girard a terminé son intervention en nous parlant d’une étude sociologique très poussée sur un groupe d’artistes américains des années 60, Experiments in Art and Technology. Pour effectuer ce travail, les chercheurs, à l’instar de l’exemple du Minitel évoqué par Christophe Cariou, ne disposaient pas de données déjà informatisées. Il leur a fallu lire les documents, puis les transformer en données. Le concepteur du système disposait d’un moteur de données et d’une interface de visualisation qui lui donnait tout de suite un retour sur son processus de codage. A l’aide d’un tel outil, de nouvelles corrélations apparaissent dans les interactions entre les artistes et les oeuvres. Un chercheur en sciences sociales peut plonger dans la partie immergée de l’iceberg.

Les formes du data-journalisme

Alexandre Lechenet (@alphoenix), rédacteur spécialisé en data-journalisme au Monde et au Monde.fr , nous a donné de multiples exemples de ce nouveau champ, comme la cartographie des règlements de comptes à Marseille ou en Corse. Mais surtout, il s’est demandé en quoi consistait l’apport de ce nouveau type d’écriture.

Tout d’abord, il permet de donner accès à des informations de manière bien plus complète qu’un article traditionnel. Pour preuve, la carte des « emprunts toxiques » souscrits par les municipalités publiée par Libération. Dans le Monde, le sujet avait été traité en deux lignes. Là, la carte a permis d’impliquer le lecteur. Comment s’était comportée sa région ? Sa commune avait-elle souscrit de tels emprunts ? Dans les jours qui ont suivi la publication de l’infographie, les chiffres de consultation ont été excellents, et la visualisation a été reprise par la presse régionale.

La pyramide des âges interactive de News21Cette implication du lecteur peut aussi prendre des formes ludiques en permettant à ce dernier de paramétrer l’interface. Ainsi la pyramide des âges publiée par news21.com permet à tout un chacun de se projeter dans le futur en essayant de comprendre où il se situera dans ladite pyramide au cours des années qui viennent, après un questionnaire concernant son sexe, sa situation sociale, ses origines ethniques et bien évidemment son âge. Une autre manière de mobiliser l’attention était illustrée par la simulation de reports de voix au deuxième tour des élections présidentielles, grâce à laquelle n’importe quel citoyen pouvait tester ses théories sur les résultats à venir.

Le recours au crowdsourcing, à la collaboration ouverte, constitue encore un procédé intéressant. Grâce à lui, le lecteur contribue activement à la construction de la visualisation. Ainsi, la revue Owni, qui avait entrepris une enquête sur le prix de l’eau sur tout le territoire, avait-elle demandé à ses lecteurs d’envoyer une copie de leur facture.

Cependant, data ou pas, le journalisme reste affaire d’actualité. Certains avaient espéré que cette nouvelle pratique pouvait donner naissance à un journalisme de stock : autrement dit la publication de documents destinés à une certaine pérennité, qui resteraient une précieuse source d’informations sur le long terme. Interrogé sur cet aspect, Lechenet a confirmé que les visualisations infographiques, comme les articles classiques, restaient tributaires des mouvements de l’actualité.

Au delà du sens de la vue

Matthieu Savary, designer, fondateur associé de User Studio (@UserStudio), a terminé cette journée en nous rappelant que la vue n’était pas le seul sens dont nous disposions. Pour un designer, il est important de conserver le sens du tangible, de « donner à toucher », ce à quoi il s’applique en compagnie de son équipe.

Les premiers projets qu’il a présentés s’apparentaient plus au domaine de l’art : par exemple, il a montré comment les photographies étaient comparables à des « datascapes » et comment on pouvait recomposer une nouvelle image en classant les pixels, non plus en fonction de leur position dans l’image originale, mais selon leur valeur numérique. Dans un domaine plus pragmatique, il a présenté un travail effectué pour Visa, qui tentait d’aider les consommateurs à comprendre comment ils dépensent leur argent. Ce système, qui suppose une étape supplémentaire lors du passage devant un terminal de paiement, classait les différentes dépenses en fonction de catégories telles alimentation, hygiène, distraction, etc. Les utilisateurs pouvaient consulter leurs différents achats depuis un smartphone, mais également depuis une version papier, cette catégorisation se retrouvant sur le ticket de caisse. En effet, selon Savary, il faut savoir multiplier les interfaces de consultation, et il est important, toujours dans cette logique du « retour du tangible », de disposer d’une trace matérielle de ses données.


Image : le projet Prism réalisé pour Visa par l’agence UserStudio.

Savary à présenté d’autres projets, comme un serious game créé pour EDF permettant aux futurs propriétaires de simuler la construction d’une maison « économisatrice » d’énergie, ou encore un système offrant la possibilité d’éditer et consulter ses notes de téléphone de manière plus simple et lisible, ce qui, selon lui, peut bien souvent amener à vouloir changer d’abonnement ou d’opérateur !

Une conclusion qui achevait bien la journée, en nous rappelant que nous en sommes pas de purs esprits, des spectateurs les yeux rivés sur les écrans, mais également des acteurs possédant un corps doté de multiples canaux sensoriels.

Rémi Sussan

À lire aussi sur internetactu.net