Vers un Nouveau Monde de données

Par le 01/06/12 | 19 commentaires | 7,024 lectures | Impression

vdd01

A l’occasion de la Semaine européenne des l’Open Data qui se déroulait à Nantes du 21 au 26 mai 2012, j’étais invité à faire une présentation sur le web des données, pour dépasser et élargir la problématique particulière de la réutilisation des données publiques. En voici la transcription.

vdd02

Nous sommes passés d’un web de l’information et de la connaissance à un web de données. “Les données sont le nouveau pétrole de l’économie”, expliquait le consultant Clive Humby dès 2006. Tim O’Reilly et John Battelle ne disaient pas autre chose quand ils imaginaient le concept de Web² devenu depuis (et il serait intéressant de regarder comment) celui des Big Data. Nous n’échapperons pas à l’exploitation maximale de la puissance des données par l’analyse, la combinaison, la représentation, la recherche, le traitement…

Le web est un écosystème de bases de données interconnectées. Les données sont partout, sous forme d’énormes répertoires de données produisant elles-mêmes leurs propres données, car la façon même dont nous interrogeons ces données devient elle-même source de données. C’est d’ailleurs la première des données, la plus accessible, la plus importante. Celle de nos comportements en ligne, de nos historiques de navigations.

vdd03

Tout est information. Tout est données. Mais c’est avant tout un monde du temps réel, de l’immédiateté. Les données ne cessent de s’accumuler, mais ce sont les plus récentes qui ont toujours le plus d’importance, car elles permettent de comprendre à la fois le monde d’aujourd’hui et prédire le monde de demain. “90 % de l’ensemble des données du monde ont été créées ces deux dernières années”, estimait récemment Stephen Gold d’IBM lors d’une présentation au récent Webcom de Montréal. Nous vivons un “datadéluge” : l’essentiel des données que nous utiliserons dans 2 ans n’aura rien à voir avec celles que nous utilisons aujourd’hui. Les données sont un nouveau pétrole inépuisable, mais qu’on brûle aussi rapidement que le précédent.

Le web est devenu “la base de données de nos intentions”, affirmait John Battelle en 2003. Le moindre de nos clics sert à la construire. Notre surf, notre historique, ce sur quoi nous cliquons, ce sur quoi nous nous attardons en ligne est tracé, mesuré et influe sur ce à quoi nous accédons. La moindre de nos actions sur l’internet est une donnée, même le temps passé sur une page. Ce sont nos comportements qui font l’internet.

vdd04

La première des données, le pétrole non raffiné, est bien celle de nos comportements en ligne, ces milliards de clics que nous faisons sur le web à chaque instant. Ces bases de données de petits cookies que nous transportons par-devers nous via nos navigateurs. Nous sommes devenus Midas. Tout ce que nous touchons devient données, devient or, pétrole. “L’informatique se dissout dans nos comportements” expliquait déjà en 2007 Adam Greenfield. Le web nous trace en permanence. Nous n’avons pas le droit de ne pas y être tracé, insistait Alexis Madrigal.

vdd05

Mais ne nous y trompons pas. Ce ne sont pas les données publiques ni les données ouvertes qui sont le seul pétrole de cette économie. Ce sont d’abord nos données personnelles : “Les données personnelles sont le nouveau pétrole de l’internet et la nouvelle monnaie du monde numérique”, soulignait Meglena Kuneva, Commissaire européenne à la consommation en 2009. Et les données personnelles sont la prochaine génération de données à ouvrir, comme l’expliquait récemment David Eaves, spécialiste de ces questions.

Vous avez certainement du voir cette vidéo des lunettes de réalité augmentée de Google et plus encore l’une de ses parodies, qui augmente l’interaction que nous avons avec la réalité de publicités (voir également celle-ci). En préparant votre café, vous avez automatiquement de la publicité qui s’affiche en contexte. Comme l’illustre le projet Google Glass, les données vont s’immiscer toujours plus près de nous, au coeur de nos comportements et de notre intimité, se nourrissant de l’un et de l’autre.

vdd06

Il n’y a presque plus de données qui ne soient pas personnelles. Tout le monde se souvient des fichiers de Logs d’AOL, c’est-à-dire le journal des utilisations d’internet de plusieurs dizaines de milliers d’utilisateurs, qui ont permis, rien qu’en observant ce que ces utilisateurs ont recherché en ligne, d’en identifier un très grand nombre. Ces données ne portaient pourtant aucune information nominative. Il n’empêche. Elles ont permis d’identifier des gens, simplement en observant les sites sur lesquels ils se sont rendus. Aujourd’hui, par exemple, la startup Face.com permet d’analyser n’importe quelle image du web. De vous donner des informations sur un visage : à savoir si c’est un homme, s’il sourit, son âge. La start-up est même capable de reconnaître des gens en photo ou en vidéo nominativement avec une assez incroyable précision, en puisant dans des banques d’images documentées (où les noms sont renseignées), comme le net en regorge – c’est l’exemple de l’identification des personnages de Star Trek. Demain, quand vous publierez une photo sur l’internet, l’infrastructure sera capable non seulement d’identifier les métadonnées associées à l’image (date de prise de vue, appareil, etc.) mais également de reconnaître qui est sur la photo, avec toutes les avantages et les dérives que cela comporte. Le croisement d’énormes capacités de traitements et de tout aussi vastes bases de données signe la fin des données personnelles.

Bien sûr, “toutes” les données ne sont pas devenues personnelles (les horaires de transports, les données de capteurs environnementaux, les documents administratifs… par exemple), mais une masse considérable de données qui ne l’étaient pas a priori sont en passe de le devenir. D’autant plus que leur couplage, chaque jour plus facile, peut à chaque moment faire basculer des données “sans valeurs” en données à caractère personnel. “Les données transforment l’internet en un lieu où les gens n’ont plus d’anonymes que leur nom”. Et celui-ci, en fait, n’a plus beaucoup d’importance. Il n’est plus un rempart contre la personnalisation.

vdd07

Voici une application qui s’appelle SceneTAP. Elle consiste à installer une simple caméra dans un bar. Celle-ci va compter les gens présents afin d’évaluer le taux de remplissage, en utilisant l’API – Application Programming Interface ou interface de programmation – de Face.com (dont nous parlions juste avant), elle va être capable de déterminer le pourcentage de filles et de garçons, leurs âges moyens respectifs et demain peut-être d’identifier les personnes présentes. SceneTAP va ainsi permettre à chacun depuis son application pour smartphone de voir, en temps réel, quels sont les bars qui bougent aux alentours. Est-ce que le population qui est à l’intérieur correspond à celle que je recherche… comme l’expliquait Yves Eudes dans un récent numéro du Monde magazine.

Le plus intéressant dans cet exemple, ne repose pas tant dans les nouvelles données issues de ce système, que d’observer comment elles fonctionnent, comment elles se reproduisent et se démultiplient entre elles. Installer une caméra dans un bar n’a pas d’intérêt en soi. L’intérêt c’est le couplage des données que la caméra produit avec d’autres bases de données, comme celles de Face.com.

On ne produit pas seulement plus de données. Ce qu’il faut comprendre, c’est que ces données sont désormais en réseaux. Et du fait même qu’elles soient en réseaux, elles se démultiplient et produisent de nouvelles données. Les données ne sont pas enfermées dans des silos, le fait même qu’elles puissent se combiner, s’interroger les unes les autres, produit un nouvel internet, une nouvelle infrastructure basée sur l’échange de données. C’est l’économie des APIs, des mashups de services, l’un des points clef de la structure de ce Nouveau Monde de données. Nos systèmes sociotechniques ont accès à une foultitude de bases de données permettant de reconfigurer les données à la volée, de leur donner du sens par leur croisement même.

vdd09

Dans ce Nouveau Monde, la moindre de nos actions produit des données, comme l’illustre très bien cet exemple, parmi des dizaines de milliers d’autres. Ashtmapolis consiste en un petit capteur GPS qui se branche au bout de n’importe quel inhalateur de ventoline que prennent les asthmatiques. Ce capteur connecté permet de renseigner, sans avoir à remplir le moindre formulaire, les zones où les asthmatiques souffrent, simplement en l’utilisant. Il produit des cartographies permettant aux asthmatiques de documenter le réel à plusieurs, de s’entraider pour repérer les zones dangereuses, les zones à pollen par exemple, qu’ils pourront plus facilement éviter. Asthmapolis est une parfaite illustration du monde de capteurs qui se met en place. Le prix modique des capteurs, leur bidouillabilité permet d’envisager leur démultiplication, et ce, sans qu’on y pense, sans avoir à faire d’action de renseignement de données. C’est l’internet des objets, l’internet des capteurs qui vient documenter notre monde réel, l’hybridant d’une ombre d’information partout et en tout temps. Nous entrons dans un monde où toutes nos actions, même la plus insignifiante, comme celle-ci, produisent potentiellement des données, de manière volontaire, comme à notre insu.

vdd10

Tout est appelé à devenir des données. J’aime beaucoup cet exemple de lunettes développé par Rosalind Picard directrice du Groupe de recherche sur l’informatique affective au MIT, car elle permet d’entrouvrir de nouveaux horizons pour comprendre jusqu’où va aller cette “mise en données” du monde. Ce sont des lunettes qui servent à mesurer notre niveau d’interaction réel avec les autres. Cette paire de lunettes a pour fonction d’aider celui qui la porte à décoder les émotions de la personne avec qui il discute. Les lunettes sont équipées d’une petite caméra qui surveille plusieurs points du visage de son interlocuteur et leurs mouvements pour le décrypter. Des petites lumières rouges, jaunes et vertes installées sur le bord du champ de vision permettent de traduire les expressions de l’interlocuteur selon qu’elles sont négatives, neutres ou positives. L’idée derrière ce projet, c’est de voir comment les détecteurs d’émotions peuvent nous aider à mieux nous comprendre mutuellement. La plupart du temps, nous n’arrivons pas à repérer les signes de communication non verbaux que nous avons lors de nos interactions physiques. Demain, ces signes non verbaux seront décodés par nos systèmes techniques et viendront nous aider à comprendre les autres, à mesurer nos temps de paroles pour nous montrer par exemple que nous ne laissons pas assez de temps d’expression à ceux avec lesquels nous discutons. La production de données est appelée à s’immiscer dans les plis les plus intimes de nos interactions sociales.

vdd11

Dans ce Nouveau Monde de données, nous allons également avoir de nouveaux producteurs et de nouveaux modes de production de données. Tout et tout le monde va produire des données. Elle ne sera pas seulement le fait de systèmes techniques ou d’institutions, qui étaient les principaux producteurs de données, mais elle va être de plus en plus le fait d’individus, comme le montrent les cartographies d’UsahidiFixMyStreet ou Leon à Mérignac. La donnée va être coproduite par des utilisateurs et des capteurs toujours plus nombreux, toujours plus accessibles (et accessibles de partout) via l’internet mobile.

vdd12

Mais si l’on parle d’une démultiplication des données, il faut également évoquer la transformation des modalités de traitement, ces “algorithmes qui nous gouvernent”. On observe souvent l’émergence massive de données, comme matière première de la connaissance, de la représentation, de la discussion, de la décision, de la production, de l’évaluation… Mais on interroge peu le rôle de la collecte et du traitement des données. Pourtant, nous sommes de plus en plus confrontés à un tissage complexe qui va de la discrétisation des données (c’est-à-dire la manière dont elles sont produites et collectées) à la programmabilité des données (c’est-à-dire la manière dont elles sont traitées, programmées, algorithmisées).

Nous sommes tous producteurs de données. Mais peut-on reléguer l’infrastructure et l’architecture, la manière dont celles-ci sont utilisées, à des spécialistes et à des programmes face auxquels nous nous sentons démunis et face auxquels nous pourrions n’avoir plus aucun pouvoir. Il semble essentiel de regarder où sont les lieux de pouvoirs des systèmes techniques et comment faire que le code, l’algorithme puissent demain être plus accessible a tous. Face au déluge de données, il nous faut aussi nous intéresser aux formes de traitement auxquelles les données donnent lieu. Quelle est la place de l’utilisateur dans les traitements dont nous sommes tributaires, comme ceux qui disposent de site internet sont tributaires des changements algorithmiques du moteur de recherche de Google (les Google Dance) pouvant les faire passer d’un très bon classement à un très mauvais, simplement parce que l’algorithme qui produit ces classements a changé. Dans ce Nouveau Monde de données, nous devons interroger les traitements bâtis par les statisticiens, physiciens, mathématiciens, ingénieurs et spécialistes des réseaux : pour savoir quelle est la place de l’utilisateur dans ces traitements. Comment un monde couvert de données devient un monde qui rend du pouvoir à l’utilisateur plutôt qu’il ne l’aliène ? Si on connait les régulations qui encadrent la collecte de données, on connait moins celles qui encadrent les modalités de traitement des données, notamment tels qu’ils ont désormais lieux dans les mashups de services, dans les échanges entre API que nous évoquions précédemment.

vdd13

C’est cet ensemble : ces données, multipliées par ces données en réseau, ces nouveaux modes de production, ces nouveaux types de producteurs, et ces nouvelles modalités de traitement qui crééent un Nouveau Monde de données. C’est le monde des #bigdata. Un monde “conduit” (data driven) par les données dont il faut comprendre le but, les enjeux, l’objectif. A quoi vont-elles servir ? Qui va les traiter ? Comment ?

vdd15

Ce Nouveau Monde ne produit pas des données pour des données. Le but de ce Nouveau Monde n’est pas de produire des fichiers Excels pour des fichiers Excels. Regardez comment fonctionne la Google Car, cette voiture sans conducteur, qui vient d’être autorisée à rouler dans le Nevada. “La voiture autonome consiste à analyser et prédire le monde 20 fois par seconde”, expliquait Anthony Levandowski à Wired responsable du projet de voiture autonome de Google. Elle est un pur produit de données. Elle ne fonctionne que par les données qu’elle capte de son environnement (elle est bardée de capteurs), mais également de données distantes comme la configuration des routes issues du projet Google Maps et des données de géolocalisation.

Ce Nouveau Monde analyse le monde réel en permanence dans le but est de produire de la prévisibilité, de rendre le monde prédictible. Nous sommes confrontés à un avenir où tout va être prévisible par les autres, via le nuage informatique et la façon dont nous sommes liés via l’internet.
Ce Nouveau Monde cherche à nous permettre en permanence de situer nos comportements dans l’univers social, via un maelström de données comportementales sur lesquelles seront appliqués des algorithmes prédictifs. Derrière les produits de données, c’est bien évidemment notre perception de nous-mêmes qui va s’en trouver modifiée. Car nous sommes au centre de ce monde de données.

vdd16

Nous sommes au centre de ce festin de données. Et comme dans tout Nouveau Monde, nous devons apprendre à y survivre.

Nous avons besoin d’outils capables de nous rendre plus anonymes ou de nous rappeler de l’être. Nous avons besoin d’outils capables de mentir pour nous selon les personnes à qui l’on s’adresse, les systèmes que l’on autorise à se connecter à nos données ou aux données que d’autres collectent sur nous. Plus que jamais, nous avons besoin d’identités actives, c’est-à-dire, comme le proposait l’intuition de Daniel Kaplan et Charles Népote de la Fing, non seulement d’être maîtres des données que nous libérons, mais surtout de faire en sorte que leurs conséquences nous soient transparentes.

Comment s’assurer que ces informations que nous émettons ou qui transitent par nous et nos objets ne puissent pas permettre d’identification formelle ou d’interprétation qui nous échappent ? Comment séparer qui je suis d’où je suis ? Pourquoi trop de systèmes enregistrent-ils des données qu’ils n’ont pas besoin de conserver ? C’est d’ailleurs l’argumentaire d’un rapport de l’Electronic Frontier Foundation sur la confidentialité de nos localisations, qui s’inquiète de savoir si nous pourrons toujours nous déplacer sans que nos moindres mouvements soient systématiquement et secrètement enregistrés par un tiers pour une utilisation ultérieure, comme le font déjà nos téléphones mobiles mouchards.

“Il faut construire des systèmes qui ne collectent pas les données en premier lieu” recommandent-ils, simplement sous le prétexte que ce serait la voie la plus facile… Pour cela, il faut que les systèmes de traitement soient conçus en intégrant un large éventail de politiques de confidentialité. “Il faut construire des systèmes géolocalisés qui ne sachent pas où nous sommes”, c’est-à-dire des titres de transport qui n’enregistrent pas l’endroit où nous sommes par exemple ou des modules de géolocalisation anonymes, avec des identifiants dynamiques, qui ne permettent pas de corréler simplement une personne et un lieu… Pour les militants de l’EFF, les techniques cryptographiques doivent être systématiquement exploitées afin, par exemple qu’un service sache localiser quelqu’un, identifier qu’il a un compte sur un service, lui appliquer un tarif (à un péage urbain ou au passage par un portillon de métro par exemple…), mais sans dire qui il est. Une autre couche d’information doit lui permettre, s’il le souhaite, de discuter ou localiser ses amis… Sans que tout cela ne soit accessible en clair pour chacun des services utilisés, comme c’est trop souvent le cas actuellement. Les protocoles cryptographiques nécessaires existent. Ils représentent certes un défi technique et nécessitent des investissements, mais ils sont seuls en mesure de nous permettre d’échapper à la transparence de nos déplacements tout en tirant avantage des services géolocalisés.

Il y a un enjeu à faciliter l’exploitation des données comme le clament O’Reilly et Battelle, mais aussi à raréfier les informations qu’elles portent. Cette opposition engendre un point de tension dont il va être difficile de trouver l’équilibre. Mais si on veut prôner un droit à l’oubli, un droit à l’erreur, un droit à l’accès aux données qui transitent par nous : il va non seulement falloir faciliter leur exploitation, mais surtout faciliter leur accès, leur gestion. Demain plus qu’aujourd’hui, tous les champs des formulaires ne doivent pas être obligatoires.

Nous avons besoin d’un meilleur accès à la collecte de données, de meilleures garanties quant aux règles qui régissent les processus (afin qu’elles ne puissent être changées unilatéralement par exemple) et de meilleures assurances et protections quant à la dissémination des données.

vdd17

Dans ce Nouveau Monde, nous avons besoin de nouveaux repères. Nous avons besoin de nous approprier les données que nous produisons pour comprendre ce qu’elles produisent. Nous avons besoin d’outils, d’expérimentations, de méthodologies. Nous avons besoin de lieux, d’espaces, physiques ou virtuels, ouverts, de ressources organisées pour échanger et comprendre ce Nouveau Monde. C’est à cela que devraient ou pourraient servir les Info Labs, un concept de lieu ouvert que nous vous invitons à préciser et discuter avec nous. Nous avons besoin d’organiser collectivement les formes d’appropriation culturelles de ce Nouveau Monde dans lequel nous pénétrons. Nous avons besoin plus que jamais d’espaces pour le comprendre, ensemble.

Hubert Guillaud

Cette présentation puise dans de nombreux articles présentés sur InternetActu.net et en partie compilés dans Un Monde données, un livre numérique de la collection “Washing Machine” disponible chez tous les libraires électroniques.

vdd18

Retrouvez notre dossier réalisé à l’occasion de la semaine européenne de l’Open Data :

Rétroliens

  1. A savoir absolument !!!!: Vers un Nouveau Monde de données « InternetActu.net « Les notes de Melodie68
  2. Traces/données personnelles | Pearltrees
  3. La revue de presse de Red Guy – week 22 | Red Guy
  4. association tiriad (tiriad) | Pearltrees
  5. La lettre du 4 juin : la bulle des médias sociaux a-t-elle déjà éclaté ? | Proxem, le blog
  6. data | Pearltrees
  7. Opendata | Pearltrees
  8. opendata | Pearltrees
  9. La semaine européenne de l’Open Data [Open Data Week 1/7] « Mickaël Poiroux
  10. La “Tweetletter” de Christophe Cousin, Fondateur de Camp de Bases… | Camp de Bases
  11. Vers une fiscalité des données » OWNI, News, Augmented
  12. Data brokers | Du fixe et du flux
  13. Proxem » La lettre du 4 juin : la bulle des médias sociaux a-t-elle déjà éclaté ?
  14. Vers un Nouveau Monde de données «...

5 commentaires

  1. Très belle et utile synthèse. Merci Hubert.

  2. par Arnaud Contival

    Très belle prospective data ! Merci

  3. Bravo pour votre article. Très intéressant.
    Du vrai contenu sur le big data, c’est pas si fréquent !

  4. Watch Dogs est l’un des jeux les plus spectaculaire annoncé à l’E3 de Los Angeles. Trailer. Démo : un jeu pour se plonger dans le Nouveau Monde des données… qui peuplent déjà nos rues, comme les Marseillais ont pu en faire la désastreuse expérience.