Vers des “produits de données”

Par le 04/10/11 | 2 commentaires | 2,510 lectures | Impression

Pour O’Reilly Radar, Mike Loukides, a publié un court rapport sur la nature de ce qu’il appelle les “produits de données” où il tente de dresser une esquisse d’une taxonomie des services imaginables depuis ce que produisent les données.

EvolutionofdataproductLa science des données explique-t-il, est en train de donner naissance à de nouveaux types de produits qu’on n’imaginait pas il y a encore quelques années. En fait, les données sont en train de devenir des produits, que ce soit des produits liés aux données elles-mêmes (des données de transports ou de trafic par exemple qui deviennent des services en tant que tels), ou des produits liés à l’activation des données par les utilisateurs (par exemple les produits liés au Quantified Self). Ce que suggère Mike Loukides, c’est que les produits de demain reposeront avant tout sur l’exploitation originale de données.

Les données font naître de nouveaux types de produits

Nous commençons à nous habituer aux produits virtuels à mesure qu’ils remplacent les produits physiques, explique Mike Loukides. De stockée sur des supports physiques, la musique s’achète désormais de façon numérique. Avec des services comme Spotify, elle est même devenue un produit de données pures. Mais qu’allons-nous vouloir demain ? Des produits qui fournissent des données ? Ou des produits qui offrent des résultats depuis les données ?

L’iPod est pour Mike Loukides le meilleur exemple d’un produit qui livre des données, bien que son application partenaire, iTunes, ne soit rien d’autre qu’un tableur exposant les métadonnées de vos collections. De même la recommandation sociale que l’on trouve sur des sites comme LinkedIn ou Facebook pioche ses recommandations dans les métadonnées de nos relations, en les présentant de manière un peu moins classique qu’une feuille de calcul. Mais ces produits de données demeurent classiques. Ils conservent “l’odeur de données” qui les produisent. Pour Mike Loukides ce sont “des produits de données déclarés”, manifestes, car les données sont clairement visibles dans ce qui nous est délivré.

Pour Mike Loukides, il existe néanmoins d’autres formes de livrables. Des systèmes capables d’analyser des données de trafic pour optimiser votre itinéraire utilisent également des données pour produire un service et des produits. Ford utilise ce type de données couplées à des outils de prédiction de trafic pour optimiser le trajet proposé par des navigateurs GPS expérimentaux qu’il destine à des voitures hybrides. Tous les produits de données ne sont donc pas explicites, beaucoup utilisent des produits de données “secrètes” pour fourbir d’autres services.

En filant l’analogie, la Google Car capable de se déplacer toute seule (et qui utilise une quantité considérable de données y compris les cartes et les images de Google Street View pour calculer l’emplacement des trottoirs, bordures et panneaux… ainsi bien sûr que des données de trafic comme les données que la voiture produit elle-même) est typiquement un produit de données, même si celles-ci ne sont pas visibles dans le résultat final : une voiture qui se déplace toute seule.

Aujourd’hui, une grande chaîne d’hôtel peut voir son métier de nombreuses façons différentes, et se considérer avant tout comme une société de logiciels, qui fournit un produit de données : son système de réservation. C’est un système souvent complexe, qui doit être capable de gérer des milliers de chambres, d’énormes masses de clients, de faire des offres spéciales selon le taux de réservation, etc. Pour l’utilisateur, l’expérience est celle d’un lit confortable, mais la réalité repose sur des masses de données cachées.

“Les produits de données manifestes” ont tendant à dépendre d’une collecte de données ouvertes, avance-t-il encore. LinkedIn ou Facebook ne disposent pas de données qui n’aient été apportées de façons explicites, même s’ils sont en mesure de les combiner de manières inattendues, notamment en les mixant avec d’autres. “Les produits de données secrètes”, non seulement proposent des données invisibles dans les résultats, mais ont également tendance à être collectés de façon invisible. Nous ne pourrions obtenir une voiture qui se conduit toute seule si nous ne devions la nourrir qu’avec nos antécédents de conduite. La Google Car est construite notamment à partir d’un “échappement de données”, c’est-à-dire de données qui proviennent de dispositifs qui recueillent des informations sur nos activités. Ces échappements de données ambiantes, à l’avenir, vont être un réservoir important pour produire de nouveaux “produits de données” : les données sur l’utilisation de l’eau par exemple vont permettre de produire des données sur la localisation des fuites et permettre d’imaginer de nouveaux services.

Puissance et limites de la combinaison de données

Les premières générations de produits de données reposaient sur des bases de données uniques, mais les plus récentes, comme la base de données de compétences de LinkedIn, sont composites : elle intègre à la fois les bases de données d’utilisateurs, d’employeurs, d’offres d’emplois, etc. L’intégration de la reconnaissance faciale dans Facebook est un excellent exemple de la puissance des bases de données liées. Alors que l’identification des visages est un problème complexe, la réponse de Facebook de restreindre l’identification a priori aux amis de celui qui l’a prise, permet de lever dans de très nombreux cas l’immensité du problème de l’identification des visages. Le croisement des données permet de résoudre le problème de l’appariement de millions de photos, pour le restreindre à un cercle limité. La solution ne provient pas d’un robot surpuissant, mais de pouvoir apparier les photos au graphe social.

Beaucoup de produits de données actuels sont en fait des moteurs de recommandations utilisant le filtrage collaboratif, estime Mike Loukides. Mais la recommandation est un objectif limité. “Le problème avec la recommandation c’est qu’elle ne cherche qu’à recommander quelque chose que l’utilisateur va apprécier.” Or l’appréciation n’est pas toujours un bon critère. Genius, sur mon iPad m’a ainsi récemment recommandé d’essayer Zite, parce que dans mes applications je disposais de Flipboard (deux applications qui créent des magazines depuis les recommandations de vos relations sociales sur Facebook ou Twitter, NDT). Certes, j’ai bien aimé Zite, mais j’aurais préféré qu’il me recommande une application pour faire autre chose”. J’ai besoin d’un logiciel qui me raconte des choses nouvelles : des choses que je ne savais pas et que je voudrais, ou dont je pourrais avoir pensé que je n’en voudrais pas alors qu’elles pourraient m’être indispensables, explique-t-il. “Si vous disposez de ForScore, une application qui permet de transformer votre iPad en lecteur de partition de musique et qui indique que vous êtes musicien, alors le système doit pouvoir vous proposer une application comme Magic Fiddle, qui n’a pourtant a priori rien à voir, mais intéressera tout musicien.”

Il faut que la recommandation nous amène à la découverte et pas seulement à la recommandation du similaire. Et de faire référence au livre d’Eli Pariser, The Bubble Filter, une excellente réflexion sur le danger de la personnalisation excessive liée à l’utilisation des médias sociaux…

Pour autant, le filtrage nous est nécessaire, rappelle Mike Loukides. “Essayez de faire des recherches dans Google Chrome en mode privé, qui supprime toute information qui pourrait être utilisée pour personnaliser les résultats de recherche. J’en ai fait l’expérience. Il est difficile d’obtenir des résultats de recherches pertinents lorsque le filtrage n’est pas basé sur la connaissance préalable de vos intérêts. Pour autant, quand les outils que nous utilisons se transforment en parodie de nos goûts, cela dégrade également les résultats. Passer de la recommandation à la découverte est le problème principal auquel nous allons être confronté dans la prochaine génération des “produits de données”.”

Concevoir des produits de données

Dans les premiers temps des produits de données, nous les avons consultés via nos ordinateurs. Mais ce n’est désormais plus le cas. On écoute de la musique via nos iPod, on lit des livres sur nos Kindle, on joue des vidéos sur nos téléviseurs… Or, les ordinateurs avaient l’avantage de nous faire prendre conscience que les données étaient des données. DJ Patil, spécialiste des données en résidence chez Greylock Partners, affirme que lors de la construction d’un produit de données, il est essentiel d’intégrer des designers dans l’équipe d’ingénierie dès le début. Pour Patil par exemple, Foursquare a réussi parce qu’il a utilisé le GPS d’une manière très simple et c’était autant une décision technique qu’une décision de conception. Les nouvelles interfaces des produits de données travaillent toutes à masquer les données proprement dites pour trouver et faire apparaitre ce que l’utilisateur souhaite. L’iPod a révolutionné l’écoute audio en éliminant les boutons et les commandes pour accéder à sa base de données musicale !

Dans le passé, nos recherches sur Google étaient basées sur des données datant parfois de plusieurs semaines. Désormais, bien souvent, les données doivent être basées sur le “temps humain”, comme le dit Justin Sheehy, de Basho Technologies. L’heure d’arrivée du bus n’a pas de sens si le bus est passé. Faire une prédiction de trafic depuis des données de la veille peut avoir une certaine valeur, mais elle est bien moindre que de la faire depuis des données temps réel. Une Google Car ne pourrait pas circuler depuis les conditions routières d’hier. Prédire l’infection chez un nourrisson prématuré n’est utile que si vous pouvez l’annoncer avant qu’elle devienne apparente pour les observateurs humains, via les données enregistrées en continu par les moniteurs. Pour répondre à l’exigence du temps humain, de nouveaux outillages de données voient le jour, Percolator, Apache Flume, Storm… permettant de produire des données en temps réel, de produire des flux de traitement en contexte.

Mike Loukides conclut en expliquant que les produits de données font de plus en plus partie de nos vies. Mais que les changements à venir seront plus flagrants encore quand ils ne ressembleront plus à des données. Nous allons vers un monde où nos appareils délivreront des résultats de données plus que des données elles-mêmes. Les données qui font fonctionner la Google Car ne nous intéressent pas en tant qu’utilisateurs, estime peut-être un peu rapidement Loukides. Eric Schmidt, le PDG de Google, déclarait en juin dernier : “Google a besoin d’aller au-delà du format de recherche actuel qui est d’entrer une requête pour obtenir une dizaine de résultats. L’idéal serait que nous sachions ce que vous voulez avant de le chercher…”

Cette phrase controversée et quelque peu effrayante capture pourtant l’étape suivante dans l’évolution des données, estime Mike Loukides. Nous ne voulons pas des listes ou des tableurs, nous ne voulons pas de données en forme de données, nous voulons des résultats qui soient en phases avec nos objectifs humains. “Nous avons besoin de produits de données qui tirent leurs puissances de plusieurs sources, qui offrent des résultats dans le temps humains, plutôt que via des procédés discontinus, et plus importants encore, nous avons besoin de produits de données qui nous conduisent de la recommandation à la découverte.”

Dans les années 80-90, vous ne pouviez penser le réseau sans être conscient de sa plomberie. Aujourd’hui, les produits de données se battent pour le même objectif : les consommateurs se moquent d’être conscients qu’ils utilisent des données. Lorsque nous réaliserons que la richesse des produits de données repose sur des données qui n’appellent pas l’attention sur elles, alors nous serons prêts pour la prochaine révolution.

Bien sûr, les propos de Mike Loukides sont à replacer dans leur contexte. Il n’est pas si simple d’affirmer – trop rapidement, cela n’était pas son sujet – que les consommateurs ne s’intéressent pas à la manière dont elles sont assemblées. L’esquisse de taxonomie qu’il propose est encore bien fragile, mais sa tentative d’essayer de comprendre ce que les données produisent et permettent comme nouveaux types de services ou d’objets, est certainement un point de vue fécond pour mieux comprendre les transformations en cours liées à la production de masses de données.

Rétroliens

  1. Vers des “produits de données&rdqu...

1 commentaire

  1. par Pierre

    Je suis fort troublé par cet article…
    J’ai en effet du mal à accepter l’idée de sous-traiter ma vie privée à des technologies dont le seul objet est d’améliorer les marges de divers “philanthropes”. Je n’ai rien à battre des recommandations de je ne sais quel algorithme. Pour choisir un livre, la lecture du “Magazine Littéraire “, de “La Quinzaine” – ou de votre site! – est autrement plus riche que le point de vue d’un robot stupide.
    Quant au vaste problème de la reconnaissance faciale et du fingerprinting des visages, il me semble naïf d’y voir une gentille application destinée à améliorer nos relations sociales. Là, nous sommes chez les Bisounours!
    Parfois j’aimerais que l’esprit critique l’emporte sur l’abdication intellectuelle devant les technologies abusives.