Critiques du Web² (2/4) : Mesurer les résultats de la libération des données

La question de la libération des données publiques se superpose à celle de leur utilisation. Cette libération – bien qu’encore timide – produit-elle aujourd’hui ce qu’on en attend ? A-t-elle des effets pervers ? Faudrait-il mieux en travailler les conditions, les licences ? Comment la rendre féconde ? Comment, en particulier, l’accompagner de manière à ce qu’elle ne profite pas uniquement à quelques autorités publiques ou quelques entreprises équipées de puissants moyens informatiques, et en dehors d’elles, au mieux, à quelques lobbies ou groupes militants très bien organisés ? Comment ces données pourraient-elles profiter, par exemple, à l’émergence de nouvelles entreprises, à la recherche, au débat public, à des initiatives locales ?

Quelle est la valeur de la libération des données ?

Il va être temps de mesurer les résultats du programme d’Open Government mené par l’administration Obama, explique David Robinson, directeur associé du Center for Information Technology Policy de Princeton et notamment de la politique de libération de données, de dépenses (voir également USAspending) ou de développement et d’hébergement d’applications publiques.

Les usages semblent pour l’instant se concentrer sur certains types de données, souligne Jay Nath responsable de l’innovation au Comté de San Francisco, notamment l’exploitation des données criminelles qui concentrent à elles seules 80 % des réutilisations. De quoi se poser quelques questions sur cette libération… Si au final elle ne sert qu’à rendre la société encore un peu plus anxiogène, on peut se poser des questions sur leur potentiel libératoire (quand bien même quelques applications serviraient à mieux surveiller les dépenses publiques).

Le tableau de la réutilisation des données publiques
Image : Le tableau de la réutilisation des données publiques du site data.gov entre octobre 2008 et mai 2009 se concentre sur certains types de données explique Jay Nath.

Cette libération pose une autre question : quels vont être les retours sur investissement de l’Open Government ? Les acteurs économiques vont avoir des demandes simples pour mesurer leur potentiel : les données ouvertes créent-elles de la valeur ? Permettent-elles de créer de nouveaux services ou d’en améliorer ? Le mouvement de libération des données a-t-il généré des économies d’échelle ? Or, il n’est pas certain, pour l’instant, que le mouvement en ait apporté la démonstration.

Pas sûr que ces indices de mesure dont on dispose jusqu’à présent soient pertinents, mais ils risquent bien d’être ceux que chacun va employer. Peut-être faudrait-il parvenir à mieux mesurer la capacité de réponse des autorités, avant et après publications des données ou celle des citoyens ? Peut-être faudrait-il plutôt, comme le suggère Ellen Miller de la Sunlight Foundation, trouver d’autres critères de succès : mesurer la capacité d’un gouvernement à passer des données secrètes aux données libres et ouvertes, et plus encore montrer l’utilisation croissante par les citoyens de l’information fournie par les gouvernements.

Quels critères président à l’ouverture des données ?

Pourquoi certaines données plutôt que d’autres ? Qui décide d’ouvrir quoi ? On voit bien qu’O’Reilly et Battelle ne parlent pas de toutes les données – mais sans dire jamais clairement à quelles données ils pensent et surtout, ne pensent pas. Bien sûr la plupart ont tout à gagner à s’ouvrir. Les données publiques de transport (horaires, état des flux…) par exemple permettent de construire des services qui pourraient considérablement faciliter la mobilité urbaine – mais leur enfermement dans les systèmes des opérateurs et des collectivités locales bloque dans la plupart des cas l’émergence de services d’information multimodale. Mais faut-il ouvrir la base de données des immatriculations de voitures ? Faut-il ouvrir celle du Pass Navigo ?…

Quels sont les critères qui président à l’ouverture ou pas des données ? Même dans les 8 principes pour des données publiques ouvertes, coécrites par le même Tim O’Reilly, un an plus tôt, le respect de la vie privée ou l’anonymisation des données est un préalable qui paraît secondaire dans la liste établie… En tout cas, il n’est pas le seul critère qui guide le choix de l’ouverture des données.

L’abus de données n’est pas bon pour la vie privée

Partout, les organisations exigent plus de données qu’elles n’en ont besoin. Pourquoi toutes nos cartes sont-elles nominatives ? Pourquoi certaines ne proposent-elles pas juste une photo et pas nos noms ? Ou n’autorisent que leur porteur, quel qu’il soit ?

La facilité avec laquelle on produit, on stocke, on agrège, on cumule les données est devenue si grande que nul ne s’interroge sur la nature des données qu’il amasse. Ne jetons pas le blâme sur l’administration, les sociétés privées ne font pas mieux. Une demande de carte de fidélité nécessite toujours une masse de données dont pourtant bien peu sont effectivement utilisées. Pourquoi ma bibliothèque me demande-t-elle ma date de naissance par exemple (pour ses statistiques de fréquentation ? Mais elle n’a besoin que d’un âge approximatif et elle n’a pas besoin qu’il soit corrélé à mon nom ou à ma carte) ? Quelles données sont mentionnées, conservées, combien de temps… ?

Ces problèmes sont bien connus : mais ils deviennent plus graves quand les données circulent, quand elles sont mises à disposition d’autres acteurs. La combinaison de petit excès de collecte d’information produit potentiellement de gros excès…

L’identification possède une valeur en soi : elle permet de vendre les données à d’autres services. C’est ce qui permet leur volatilité : les données peuvent s’échanger puisqu’on échange des identités. L’interopérabilité se construit sur le commerce de nos identités… Mais nous subissons tous un état de fait qui, à l’heure du numérique, transforme le système en entier. La donnée ne coûte rien à produire, c’est pourquoi nous en abusons.

Le problème, c’est qu’elles finissent par nous cerner jusqu’à nous déposséder de toute vie privée. Alors oui, libérer les données est certainement le meilleur moyen pour faire le ménage, pour voir quels systèmes en collectent trop, pour permettre à chacun de réagir et aux organisations de se poser des questions sur ce qu’elles collectent. Mais à l’heure où les données se démultiplient avec une si consternante facilité, il faut certainement revoir les règles qui les régissent pour que le numérique ne tue pas la vie privée.

Hubert Guillaud

Dossier Critique du Web²

À lire aussi sur internetactu.net

0 commentaires

  1. « Quelle est la valeur de la libération des données ? »

    Pourquoi la valeur ? LES valeurs ! Elles sont nombreuses. Pourquoi twitter a crée une API ? Pourquoi un site publie un flux RSS ? Pourquoi le LinkedData grossit a vu d’oeil ?
    Pour chacun cette valeur différente.
    D’autre part, je pense qu’il ne faut pas trop vite juger l’expérience de e-gov. Le gouvernement (qui travaille avec la sunlight foundation) a permis d’exploiter visuellement quelques petits dataset. Rien qu’avec cette maigre contribution on compte aujourd’hui plus de 80 visualisations différentes et uniformisation du format des données effectué par The Tetherless World.

    « Pourquoi certaines données plutôt que d’autres ? »

    Encore une fois, tout dépend de ce qu’on en attend. C’est une question souvent stratégique.

    « L’abus de données n’est pas bon pour la vie privée »

    Un des clichés du web sémantique. L’ouverture des données c’est plus de contrôle sur ses données personnelles. Pourquoi tous les sites nous demandent des infos persos ? Car ils en ont besoin dans le service qu’ils délivrent…et au passage ils en profitent pour en récupérer un peu plus…
    L’ouverture des données, c’est la possibilité de centraliser son profil à un endroit et d’autoriser (ou non) la récupération de ces données par des sites tiers. Cela apporte de la transparence, du contrôle, et une vraie gestion de son identité numérique. (cf. tous les travaux qui existent autour de OpenID et FOAF).

  2. @Nicolas. Oui, l’ouverture des données c’est plus de contrôle sur les données qui y transitent (pas nécessairement sur ses propres données, ni sur ses données personnelles hélas).

    Pour autant, le paradigme qui voudrait qu’on maîtrise toutes nos données personnelles n’est hélas pas vraiment une réalité. Cela n’empêche pas que certaines applications puissent demander plus de données qu’elles n’en ont besoin.

    On en reparle dans la 3e partie ;-).

  3. Ca marche 🙂

    « le paradigme qui voudrait qu’on maîtrise toutes nos données personnelles n’est hélas pas vraiment une réalité »

    En effet on est dans la prospective.

  4. Décidément j’aime bien cette série 🙂

    > « l’exploitation des données criminelles qui concentrent à elles seules 80 % des réutilisations. De quoi se poser quelques questions sur cette libération… Si au final elle ne sert qu’à rendre la société encore un peu plus anxiogène, on peut se poser des questions sur leur potentiel libératoire »

    Il faut bien voir que les américains ont un rapport avec la criminalité qui n’est pas le même dans les autres pays. Je ne connais pas d’autres pays qui ont des chicagocrime et consorts. Ne généralisons pas ces chiffres pour l’instant assez récents et laissons le temps aux services de développer des applications un peu moins « people » 🙂

    La problématique de l’identité ne peut être décorrélée de la libération des données. Voir à ce sujet l’initiative des américains :
    http://informationcard.net/blog/open-identity-initiative-2009-09-09

  5. @David : Pas sûr que ce soi un atavisme américain. 😉 Les britanniques ont produit également beaucoup de cartographies criminelles depuis qu’ils ont libéré leurs données… – mais je n’ai pas de chiffres. L’Australie en avance dans le domaine de la libération de données, en a certainement également…

    A mon avis, cela s’explique plus par le fait que
    1. ces données sont facilement cartographiables…
    2. que le « people » marche aussi bien sur l’internet qu’ailleurs. 😉

  6. Beaucoup d’employeur regarde aujourd’hui les données libres, publiées sur intenet sur un candidat : facebook et autre …
    La libération des données a certe des avantage mais aussi risque de nuir a beaucoup

    Article intérressant !

  7. Bonjour,

    un commentaire sur mon blog m’a signalé votre excellent article (comme le sont les précédents de la série). Etant étroitement spécialisé, j’ai essayé de préciser un peu sur la directive INSPIRE.
    Cordialement

  8. Sur le CrimeMapping et ses limites Boris Beaude sur EspacesTemps.net livre une courte et stimulante étude sur le cette floraison de cartographie de la criminalité telle – notamment en Angleterre et aux Etats-Unis -, pour en mesurer les limites. Et de souligner le décalage entre la perception du crime et sa réalité représentée, surtout quand l’essentiel des actes criminels n’y sont pas reportés (car non déclarés) ou sur-déclarés : sans compter que ces cartes n’intègrent pas la fréquentation des lieux. Enfin, il ne rapporte des crimes que par rapport à la surface pas aux réalités, aux différents types d’habitats et aux densités des espaces… « les images de la criminalité ainsi produites nécessitent un investissement considérable pour être interprétées, mobilisant des compétences et des informations que ces dispositifs ne proposent pas, aussi interactifs soient-ils. »