De la “Data Science” à l’infovisualisation (1/2) : qu’est-ce qu’un data scientist ?

Par le 06/03/13 | 7 commentaires | 2,732 lectures | Impression

Comment articuler “Science des données” et visualisation ? C’est à cette question que se sont attaqués une multitude d’experts lors de la journée d’étude PraTIC du 25 février (conçue et organisée par Etienne-Armand Amato, Etienne Perény et Jean-Christophe Plantin pour Gobelins, l’Ecole de l’Image, en partenariat avec le laboratoire Paragraphe de l’Université Paris 8 et l’Observatoire des mondes numériques en sciences humaines). Car il s’agit de deux domaines indissociables, mais, comme l’a expliqué Jean-Christophe Plantin (@JCPlantin, blog), souvent présentés de manière séparée. Pourtant, avant toute cartographie, la sélection et la préparation des données s’imposent.

La science des données est-elle une science ?

L’expression “data scientist” a été créée en 2008 par Patil (qui s’occupa de “data science” à Linked-in) et Hammerbacher (qui travailla dans le même domaine pour Facebook) lorsqu’ils ont tenté de qualifier le travail des personnes confrontées à d’énormes masses de données. Ils ont fini par opter pour elle, après avoir hésité entre plusieurs dénominations, dont “business analyst”. Le data scientist “aide à la décision” et œuvre à la création d’applications et de services. Il met en place des modèles prédictifs basés sur les données qu’il manipule.

En quoi consiste sa tâche ? Elle s’articule autour de trois grandes étapes. La première tourne naturellement autour de la collecte et des statistiques. Vient ensuite le “nettoyage des données” dont il s’agit de vérifier la valeur, de les structurer, de les organiser. Le dernier stade est celui de l’élaboration de la visualisation proprement dite.

Le domaine de la “data science” n’est pas sans susciter quelques interrogations. Tout d’abord est-ce vraiment nouveau ? N’est-ce pas plutôt du data mining, de la fouille de données rebaptisé ? Pour Plantin, la différence entre l’ancien et le nouveau champ tient au fait que dans le cas de la data science, on s’appuie sur des sources hétérogènes, peu fiables, avec des informations lacunaires. Au contraire, les adeptes du data mining se fondent surtout sur des bases de données classiques. Par ailleurs, certains scientifiques critiquent la formulation, car, pour eux, la collecte et l’analyse des “data” ne sont qu’une même étape et ne peuvent être l’objet de la recherche elle-même. Ils arguent aussi du fait que bien des objectifs du data scientist, comme convaincre, présenter, aider à la décision, ne sont pas du ressort de la science à proprement parler. D’ailleurs, comme le dit Plantin, l’une de ses qualités principales du data scientist réside dans un sens solide du storytelling, ce qui n’appartient définitivement pas au domaine scientifique…

Ce qui caractérise ce nouveau métier c’est qu’il se situe à la convergence de disciplines très différentes. Elles demandent de la part de ses praticiens des compétences situées à la fois dans les domaines des statistiques, du design et de la programmation. Conséquence, les “data scientists” potentiels sont plutôt difficiles à trouver. La tendance consiste donc à chercher du côté des scientifiques déjà formés à la manipulation d’importants volumes de données statistiques : physiciens, chimistes, océanographes… Pour Hal Varian, économiste en chef chez Google, “statisticien sera le job le plus sexy des 10 prochaines années”.

Etienne-Armand Amato (@EA_Amato), pour sa part, s’est plutôt concentré sur l’aspect “visualisation”. Un domaine ambigu, tant les logiques rationnelles et sensibles s’y trouvent mêlées. Amato effectue une distinction entre visualisation, vue et vision. La première est le résultat d’un processus de mise en visibilité. La seconde est un instantané d’un phénomène en évolution. La troisième est plus subjective et idéologique.

Slide de Vivien Cormier, Danielo Jean-Louis et Marine CrespelLorsqu’on crée une image, la façon dont le spectateur recevra les informations peut être influencée par le mode de présentation. Dans une présentation effectuée par des étudiants des Gobelins (Vivien Cormier, Danielo Jean-Louis et Marine Crespel) on voit très bien cela avec un “camembert” créé par Apple représentant le marché des smartphones. Si l’on regardait attentivement les chiffres, Apple était en troisième position en terme de ventes, mais grâce au jeu des couleurs et des contrastes la part du diagramme correspondant à la société américaine donnait l’impression que celle-ci venait en second…

L’entreprise de la “data science” ne va pas sans entraîner un questionnement philosophique. Pouvons-nous tout réduire à l’état de “traces” analysables quantitativement, s’est demandé Yves Jeanneret, professeur en sciences de l’information et de la communication ? Les “indices” que nous pouvons tirer de l’analyse de situations complexes restituent-ils l’essence de ce que nous étudions ? Si nous réduisons A la recherche du temps perdu à une série d’indices, a-t-il argumenté, on déduira que Proust souffrait d’asthme et ne sortait pas beaucoup de chez lui. Mais on aura perdu tout le sens de l’œuvre. Jeanneret a également remis en cause la notion même de “cartographie”, lorsqu’on prend un domaine abstrait, par exemple l’internet, et qu’on essaie de le décrire comme un territoire. “La carte n’est pas le territoire”, disait déjà Alfred Korzybski, mais là, on fait plus que les confondre: la carte génère véritablement le territoire.

Les données et leur contexte

Comment récupère-t-on les données ? Peut-on être sûr de ce qu’elles représentent ?
La question a été abordée plusieurs fois au cours de la journée, notamment par Christophe Cariou (designer indépendant, et maître de Conférences associé à Sciences Po Rennes) et, dans l’après-midi, par Paul Edwards.

Christophe Cariou (@ChCariou) était à l’origine un mathématicien spécialisé dans les statistiques. “Un pur bonheur, car un univers complètement abstrait”. Mais il a voulu se frotter à des obstacles concrets et la problématique de la visualisation s’est vite posée. L’une de ses premières interrogations étant : “comment résumer une thèse en quelques slides ?”

Intéressé par ce type de questions, Christophe Cariou s’est consacré à une multitude de projets “concrets”. Parmi ceux-ci, une reconstitution de l’histoire des trente années dominées par le minitel


Image : Christophe Cariou présente l’histoire du Minitel, photographié par E2A.

Voici une tâche pour laquelle on ne dispose pas de bases de données, d’accès aux informations en temps réel, d’API diverses. Dans le cadre de cette étude, la collecte des données s’est effectuée manuellement. Et ce cas est beaucoup plus fréquent qu’on ne le pense.

Il existe de multiples sources hétérogènes à comparer, il faut également convertir certaines données (comme les francs en euros). De fait, il ne s’agit pas là de données brutes, mais patiemment reconstruites.

Un autre exemple de reconstruction en vue de visualisation est donné par une recherche effectuée sur les mots clefs liés à 66 villes européennes (voir la présentation du projet), réalisé à l’aide de Google Insights. Il a fallu effectuer des comparaisons par groupes villes et générer pas moins de 600 tables différentes, qu’il a fallu ensuite synthétiser.

Présentation : Linked City de Christophe Cariou.

Du reste, lorsqu’on se penche sur les données, tout est une question de contexte. Ainsi, qu’est-ce qu’un utilisateur de Twitter ? L’importance de cette tribu oscille entre 160 et 517 millions selon la manière dont on défini l’utilisateur. Même questionnement pour les contributeurs de la Wikipedia. Celle-ci donne ses statistiques d’utilisateurs actifs : ceux qui sont inscrits et qui ont effectué plus de 10 modifications. Mais beaucoup de contributeurs n’entrent pas dans ce cadre. Autre exemple posant des questions de définition, celui des mobiles et des déplacements des usagers. Comment déterminer la fin des appels ? Lorsqu’un quidam marche sur l’avenue des Gobelins et donne un coup de fil de son portable, le système se réfère à l’antenne à laquelle l’appareil est relié. Si l’utilisateur va un peu trop loin, il change d’antenne, et on considère (en terme de statistiques et non de facturation) qu’il a effectué “deux communications” alors qu’il s’agit d’un seul et même appel.

Mais Christophe Cariou a insisté sur un autre aspect important de la visualisation. Elle ouvre la discussion. Dans le cadre d’un travail sur les stages en université pour les étudiants de Science-Po, il a pu montrer à ses interlocuteurs un modèle de la visualisation finale, ce qui a permis de délier les langues et encourager la collaboration sur le projet.

Modèles de graphes

Sébastien Heyman, CEO de Linkurious (@linkurious) nous a présenté son nouvel outil d’analyse des données. Une bonne occasion de nous faire comprendre la différence entre deux modèles de visualisation, le mode global et le mode “centré”.


Image : Sébastien Heyman de Likurious photographié par E2A.

Dans le premier, on observe l’ensemble des informations disponibles dans un domaine donné. On peut ensuite affiner sa vision en utilisant des outils de type filtre ou zoom. Par exemple, on peut obtenir un graphe de l’ensemble des relations entre les acteurs de Hollywood.

Dans le graphe centré, on commence par effectuer une recherche sur un élément. Puis, on peut voir les relations entretenues par cet élément avec ses voisins, et on peut voyager au sein du graphe. Ainsi, à partir du nom d’un acteur, on peut découvrir avec qui il a joué, dans quels films, avec quels réalisateurs.

Le graphe global est utile pour déterminer la constitution de groupes ou certaines propriétés propres au réseau… Il permet aussi de déclencher chez les spectateurs un effet “wow”. C’est-à-dire capter leur attention par l’illustration de la complexité des relations au sein d’un réseau. Ensuite, le conférencier peut attaquer un discours sans véritable rapport avec l’image du graphe !

Problème, ces visualisations globales sont souvent peu parlantes, surtout lorsque les graphes sont riches. Bien souvent, on ne perçoit qu’un gros nuage. Il y a aussi la question de la complétude des données. Pour que de tels graphes présentent une relative exactitude, il faut que les informations soient le plus exhaustives possible. Si 5% des données manquent, ils perdent leur valeur. Enfin, ces graphes impliquent de grosses ressources matérielles.

Le graphe centré, dont Linkurious est un exemple, s’avère beaucoup plus facile à utiliser et mobilise moins de ressources. Il possède aussi ses limites. D’abord, il faut savoir quoi chercher. Ensuite, certains aspects statistiques sont masqués. Enfin, naviguer dans un tel graphe n’est pas forcément aisé.

En général mieux vaut recourir au global lorsqu’on cherche à analyser l’ensemble des données et à produire des hypothèses, et opter pour le local pour trouver une information précise. On peut aussi grâce à ce dernier traiter des graphes de n’importe quelle taille, alors qu’un graphe global de 50 000 noeuds est trop difficile à gérer.

On le voit, la nouvelle data science présente une multitude de difficultés, tant techniques qu’épistémologiques, tant éthiques qu’esthétiques, voire philosophiques.

Rémi Sussan

De la “Data science” à l’infovisualisation (2/2) : rendre tangible la friction des données

Rétroliens

  1. Conférences à venir – Digital humanities, statut de l’image et analyse ethnographique - Cartonomics: Space, Web and Society » Cartonomics: Space, Web and Society
  2. De la “Data Science” à l'infovisualisation (1/2) : qu'est-ce qu'un data … – InternetActu.net | Nouveaux jobs
  3. Somewhere else, part 37 | Freakonometrics
  4. Big data, déjà la fin ? | PJExploration
  5. Il n’y a pas de données brutes: recension d’ouvrage - Cartonomics: Space, Web and Society » Cartonomics: Space, Web and Society
  6. Liens fleuris #1 | Data Bloom

1 commentaire

  1. par vignali

    Je crois qu’un aspect essentiel de la visualisation de données est qu’elle crée une distorsion très importante entre les attitudes du producteur (compilation lourde, rigueur) et du récepteur (vision globale, esthétique).
    Même annoncée comme parcellaire ou intermédiaire, une représentation visuelle est, pour le récepteur, un produit fini sur lequel il pose un regard global. Cela n’est d’ailleurs pas qu’une illusion. Une fois représentées graphiquement, les données perdent la capacité de recoupement avec d’autres données qu’elles pouvaient avoir auparavant.

    L’image finale tend à “aspirer“ l’observateur bien loin des paramètres de la construction (un peu comme l’aspect architectural d’une construction ne mobilise pas l’observateur sur l’alimentation en eau ou le ferraillage du béton)

    Imaginons ce que le producteur incorpore comme données dans sa représentation (on en a une image dans l’article).
    Imaginons le temps nécessaire à l’observateur pour avoir l’impression d’en avoir saisi le sens.
    Imaginons ensuite ce qu’il va rester du contenu de départ lorsque l’observateur va transmettre à son tour et à quelqu’un d’autre ce qu’il a retenu du message graphique

    En fait, la visualisation de données est une des formes les plus attractives (et les plus coûteuses à produire) d’un principe général de l’évolution de la communication: celui de la réduction du contenu des messages.
    Comment ne pas opérer de réduction face à la suraccumulation de données, mais que reste-t-il alors dans le message réduit? Là, la réduction s’opère par la voie séduisante de l’image et pas par une limitation à 140 caractères.

    Il s’agit là principe qui concerne toutes les formes et tous les supports de communication, qui affecte progressivement même notre langage, et qui va sans doute constituer un élément déterminant de notre futur.