Critiques du Web² (1/4) : Quelles données libère-t-on ?

Oui, les données valent de l’or. C’est aussi comme cela qu’on peut lire le Web à la puissance deux (Web²) de Tim O’Reilly et John Battelle. Mais si c’est effectivement le cas, si nous sommes tous assis sur un capital dont on mesure mal l’exploitation qui peut en être faite, pourquoi faudrait-il les libérer ? Que gagne-t-on à les partager ?

Image : Illustration de Boris Müller pour le festival de littérature allemand de 2006 montrant les relations entre les lettres dans un poème, mis en avant par l’australien Andrew Vande Moere, l’auteur du cultissime blog infosthetics sur l’esthétisme de la visualisation de données, pour un article de PingMag sur la beauté de cette nouvelle discipline de représentation de l’information.

Un des présupposés de l’article d’O’Reilly et Battelle est que les données que produisent les dispositifs sociotechniques, depuis les bases de données commerciales jusqu’aux réseaux de capteurs, en passant par les logs de sites web et les documents publics, « s’ouvriront » pour permettre à toutes sortes d’acteurs de les exploiter de manières nouvelles : les agréger, les croiser, les analyser, en extraire d’autres significations ou d’autres décisions…

Or l’ouverture des données ne va pas de soi pour les organisations. Et ce ne sont pas seulement des questions de droits ou de vie privée (centrales), mais aussi des questions de conception (politique) et de valeur (économique) des données elles-mêmes. Si les données sont le capital immatériel de demain comme l’expliquent Tim O’Reilly et John Battelle, ou comme l’ont déjà dit Jean-Pierre Jouyet et Levy avant eux, il sera difficile de dire qu’il faut les libérer, c’est-à-dire les ouvrir, les rendre accessible facilement – voir gratuitement. Surtout si demain, leur agrégation, leur compilation, leur croisement appellent à créer de nouvelles données, de nouveaux services et de nouvelles valeurs.

Indéniablement, la question de leur ouverture deviendra à l’évidence un sujet conflictuel. « Libérer » une donnée, c’est la mettre en circulation et bien souvent, en perdre le contrôle, y compris économique. C’est aussi permettre à d’autres de créer à partir d’elle de nouveaux services, de nouvelles valeurs. En contrepartie de quoi ? Dans quelles conditions ? On peut bien sûr montrer que bien souvent, une donnée qui circule et que beaucoup de gens exploitent intelligemment produit plus de bien-être collectif qu’une donnée soigneusement enfermée dans son silo, mais la plupart des acteurs n’intègrent pas (encore ?) leur contribution au bien-être collectif dans leurs comptes…

Certes, on peut souhaiter qu’elles n’appartiennent plus seulement à ceux qui les produisent ou les collectent, puisqu’elles sont pour l’essentiel composées de nos identités et de nos activités. Mais n’est-ce pas un vain rêve ? Un miroir aux alouettes dont les reflets nous empêchent de regarder le problème plus en profondeur ?

Il y a au moins deux limites intrinsèques à la vision de Battelle et O’Reilly :

Il n’existe pas de données brutes.
Toute donnée est construite par le système qui la produit. Un capteur est installé à un endroit précis ; il mesure certains paramètres et pas d’autres, avec une certaine marge d’erreur, à une certaine fréquence. Un document est rédigé dans une langue donnée et avec un certain langage, administratif, scientifique, commercial, littéraire… Deux entreprises faisant le même métier collecteront des données différentes ; elles définiront des segments différents : par exemple, on pourra classer un âge dans les segments de 5 ans (15-20 ans, 20-25…) ou beaucoup plus larges (« jeune », « actifs », « vieux »…). Toutes les données auront du mal à discuter entre elles, quels que soient les progrès de la science des algorithmes ou de la sémantique.
On ne libère jamais tout.
Quelles sont-elles ces données qu’on appelle à libérer ? Desquelles parle-t-on ? Desquelles ne parle-t-on pas ? Amazon par exemple libère certaines données via ses interfaces de programmation (API), oui. Celles qui permettent à d’autres services de construire des services depuis ses données à son propre profit… Amazon ne libère pas les données de ses clients. N’importe qui n’a pas accès aux livres que vos Kindle ont achetés. Nous n’avons pas non plus accès aux chiffres de ventes des produits que propose le commerçant. Pas plus que nous n’avons accès aux données de visites (les logs) de son site marchand. Où sont les données des plaintes ou des demandes de retrait de titres qu’il reçoit et qui justifient certains de ses reclassements de titres par exemple ?

S’il y a de plus en plus de lois et/ou de décisions politiques pour libérer les données publiques – et encore, les exemples britanniques et américains demeurent pour l’instant isolés -, les entreprises, elles, n’ont pas cette contrainte et ne libèreront que ce qui leur semble soit non stratégique, soit plus probablement utile à l’émergence d’écosystèmes de services qui leur profiteront en dernier ressort.

La libération des données qu’appellent O’Reilly et Battelle ressemble certes à un horizon, une nouvelle frontière, mais elle n’a rien de magique en soi. Le plus dur assurément sera de créer les conditions de la libération des données pour ne pas que ces promesses ne se transforment en un vaste Data-entertainment, un « grand spectacle des données », une industrie du divertissement autour des données, comme le propose Facebook.

Hubert Guillaud

Dossier Critique du Web²

Première partie : Quelles données libère-t-on ?
Seconde partie : Mesurer le résultat de la libération de données
Troisième partie : Toutes les données sont devenues personnelles
Quatrième partie : Que faire face à la puissance des données ?

0 commentaires

Nils Oj dit :

15/09/2009 à 6:55

Bien vu, en particulier le problème qu’il n’y a pas de données brutes « intrinsèques ».

Cette démarche d’ouverture se fait effectivement quand elle sert les intérêts de celui qui héberge les données. Force est de reconnaitre qu’on ne dispose pas de cadre définissant la « propriété » d’une donnée. Lors d’une transaction à mon supermarché, celui-ci, ainsi que ma banque enregistrent certaines informations. En tant que partie prenante ne devrais-je pas être considéré comme co-propriétaire de ces données ? Et à ce titre y avoir accès ?

C’est la problématique du VRM (Vendor Relationship Management, par opposition au CRM) développée par Doc Searls. J’ai tout de même du mal à croire que les entreprises classiques s’engageront sur la voie de l’ouverture, de l’interopérabilité et de la portabilité des données client. Déjà qu’une communauté informée et active telle que celle du web a du mal à l’obtenir des Facebook et consors, je vois difficilement la ménagère de plus de 50 ans se battre contre les Carrefour / BNP / SFR et autres…

Loin d’être un fervent jacobin je pense qu’une intervention d’un régulateur sera nécessaire. J’espère me tromper.
Sarro Philippe dit :

16/09/2009 à 9:25

Christian Fauré réclame avec Ars Industrialis (voir le livre Pour en finir avec la mécroissance chez Flammarion) une nouvelle puissance publique qui s’occuperait du dataware et de la politique d’ouverture des données publiques au travers de data centers et du cloud computing.

Avec Bernard Stiegler il critique fortement le rapport Levy Jouyet sur l’économie de l’immatériel en dénonçant l’utilisation commerciale des données pour traiter la France comme une marque.

Voir son site ci-dessous
http://www.christian-faure.net/2009/08/09/apie-agence-pour-lincurie-de-letat/
Hubert Guillaud dit :

16/09/2009 à 10:10

Oui, nous avions fait la même critique que Christian Fauré et Bernard Stiegler sur le rapport Levy Jouyet, comme indiqué en lien dans l’article : https://www.internetactu.net/2007/06/14/limmateriel-sera-t-il-payant/
David, biologeek dit :

16/09/2009 à 3:29

Bel article, si la sémantisation informatique des données pourrait en partie nous sortir du premier point (Il n’existe pas de données brutes), le second (On ne libère jamais tout) est plus critique.

Dans les deux cas, il s’agit plus d’un problème/choix politique que technique.

Il faut aussi noter la problématique de la dépendance envers les entrepôts de données que ces mashups de données libérées va entraîner…
Hubert Guillaud dit :

16/09/2009 à 3:57

« En partie », tu as raison David… Mais en partie seulement… Même les passerelles sémantiques ou algorithmiques ne permettront pas de tout relier.

Tu as raison sur la dépendance croissante envers des entrepôts de données et d’ontologies : ce qui va avoir un impact majeur sur l’infrastructure : nous aurons besoin partout en tout moment en temps réel et de plus en plus… d’accéder aux entrepôts de données sans lesquelles nos propres données ne vaudront plus rien. Ce qui pose la question technique de l’hébergement de nombre de ces entrepôts.

Un exemple pour être plus clair. Pour repérer des noms de villes dans un document, j’aurais besoin d’accéder à une base de donnée de noms de villes qui sera capable, par croisement, de m’en sortir toutes les occurrences. Reste que pour en extraire ce sens, qu’il faut que je puisse accéder à ce type de base de données en permanence, quelque soit le support de mon texte, quelque soit mon lieu de consultation…
Nicolas Cynober dit :

16/09/2009 à 6:28

« Il n’existe pas de données brutes. »

Heuu.. si 🙂 Ca s’appelle les standards. 2 acteurs se mettent d’accord pour publier leurs données en utilisant un schéma commun ou une partie du schéma. Je ne ferais pas ici la liste de tous les standards de données qui existent. Je ne veux surtout pas dire que l’on va vers des standards uniques, mais les gens ont tendance à se mettre d’accord. (cf. W3C).

« On ne libère jamais tout. »

Oui. Mais est-ce une « limite » au web des données ? Chaque entreprise, chaque institution est libre de ses choix stratégiques et d’étudier le bénéfice que peut apporter l’ouverture de telles ou telles données. (cf. le gouvernement anglais qui considère la mise à disposition des données comme un « service publique »).

Bravo pour cet article, ca donne matière à discuter. Je vais commenter avec plaisir chaque partie.

Pour ce qui est de l’e-gov et de l’ouverture des données, j’ai pas mal de liens sur le sujet ici:
http://www.pearltrees.com/nicolas/map/1_53584/
Hubert Guillaud dit :

16/09/2009 à 6:40

@Nicolas. Certes. Encore faut-il que les standards parviennent à tout décrire, encore faut-il que les outils sociotechniques et les capteurs y soient conformes, encore faut-ils qu’ils soient adoptés, encore faut-il qu’ils soient utilisés et renseignés… Dans l’absolu vous avez raison.
David, biologeek dit :

16/09/2009 à 6:58

Aaah l’insouciance de la jeunesse 🙂

@Hubert Guillaud : oui tout était dans le « en partie », mais bon d’ici à ce qu’on arrive à sémantiser ce qui est techniquement possible la recherche aura aussi avancée dans ce sens (surtout s’il y a des retombées économiques directes derrière).

Sinon en dehors de l’accessibilité/disponibilité des données, il y aura immanquablement un problème de performances à un moment ou un autre si on ne veut pas avoir trop de duplications. Ici aussi les avancées sont encourageantes mais ça reste un point bloquant aujourd’hui : faire un mashup avec 3/4 entrepôts de données sans trop de cache est illusoire pour l’instant… alors lorsque chaque machine connectée sera un entrepôt (définition originelle du web) ça risque de faire mal.
Nicolas Cynober dit :

16/09/2009 à 7:16

@Hubert
Je comprends ton point du vu: il y a encore beaucoup d’inconnus. Ca va se faire progressivement. D’ailleurs dans ta liste de « Encore faut-il » je ne vois rien d’insurmontable.

@David
Quel est le souci avec le cache ?
Je ne t’apprends rien, toutes les grosses applications web font du cache. Les serveurs de cache sont utilisés massivement à tous les niveaux…
Après tout dépend comment tu règles ta syncro et quels sont les besoins de tes utilisateurs en terme de fraicheur des données 🙂 CrunchBase par exemple a pas été mis à jour depuis des mois… so what?
David, biologeek dit :

16/09/2009 à 10:56

@Nicolas : on ne parle pas des mêmes ordres de grandeur. Imagine le jour où ta page devra faire appel à une cinquantaine d’entrepôts de données pour se constituer, tu auras beau cacher tu n’auras pas un rendu très performant si tu veux de l’information fraîche, il n’y a qu’à voir ce que font les Netvibes & co qui n’en sont que les prémices. Ensuite le cache c’est bien mais on en arrive à la duplication des données qui n’est pas envisageable à cette échelle non plus…
Nicolas Cynober dit :

17/09/2009 à 9:52

A voir. Je pense qu’il ne faut pas être trop catégorique sur ce qui sera possible / pas possible dans le web des données. Qu’une duplication des données ne soit pas ensageable reste pour moi une hypothèse dans la mesure ou ce qui importe c’est l’expérience utilisateur sur le service qui utilise ces données.
Arthur dit :

23/01/2011 à 2:56

Billet très intéressant,
je regrette de ne l’avoir pas vu passer avant de mettre en ligne mon coup de gueule (http://freakonometrics.blog.free.fr/index.php?post/2010/12/17/Ma-vie-et-les-bases-de-donn%C3%A9es) sur ce sujet
bonne continuation