Demain, l’intelligence des données

Quand on regarde l’avenir, on a souvent tendance à penser que le changement le plus radical reposera sur l’internet des objets, une intelligence qui va bouleverser notre relation avec eux et leurs relations entre eux. Bien sûr, parce qu’on va les tenir dans nos mains, parce qu’ils vont bouger sous nos yeux, ces changements-là seront spectaculaires.

Pourtant, demain, il n’y a pas que les objets qui seront intelligents : il y aura aussi les données. Et l’impact de ce changement pourrait bien être tout aussi radical.

Voilà longtemps que Tim Berners-Lee nous explique que le web sémantique est l’avenir du web (voir la traduction de l’article originale dans la lettre de l’URfist de Toulouse de novembre 2001 .pdf). Reste que le terme est difficile à faire comprendre et entendre à bien des néophytes. Sans compter que l’évolution qui se profile dans le domaine des données ne repose pas seulement sur la sémantisation du web et ne se résume pas à inscrire des méta-données pour décrire les données.

L’intelligence des données (au sens, plutôt, que l’on donne à « intelligence économique »), c’est d’abord leur abondance et leur accessibilité, même si chaque donnée demeure elle-même tout à fait brute. C’est par exemple accéder aux données de tel capteur, de telle caméra ou de tel moniteur. C’est la possibilité, demain de tracer n’importe quel évènement du monde réel. C’est la fouille de données accessible depuis chez soi, permettant d’analyser les statistiques de la criminalité ou de la circulation dans sa ville, ou des informations sur ce que lisent les gens, avec un raffinement de détails, des modalités de recherche et de précision dans la requête toujours plus grands.

Ce n’est donc pas seulement la sémantisation qui change la donne, mais aussi l’accès à un nombre croissant de données, associé à la possibilité de les reconfigurer, de les recombiner sans cesse, de plus en plus facilement, pour en tirer des intuitions neuves ; la possibilité d’en faire des mashups, de produire des nouveaux services dont elles forment la matière première… Quand les données elles-mêmes ne sont pas « intelligentes », leur masse, bien exploitée, peut produire du sens bien au-delà de ce que nous imaginons, comme l’explique Ian Ayres. Pas seulement des masses d’information statiques et statistiques d’ailleurs, mais des données qui vont être de plus en plus dynamiques, parce qu’elles seront accessibles à distance et en temps réel bien sûr, mais surtout parce que ces données mêmes seront le résultat de flux de données eux-mêmes mouvants. De combinatoires. De formules appelant d’autres données, provenant de bases sémantisées, de nos historiques de navigation, ou de requêtes sur des applications tierces.

Comme l’imageait Bradley Horowitz, responsable du département des nouvelles technologies chez Yahoo, en évoquant l’avenir de l’internet des objets pour la BBC : « Mon téléphone sait toujours l’heure qu’il est. Il sait approximativement toujours où je suis via GPS ou via le réseau téléphonique qu’il utilise. Si le système sait aussi que je suis présent à tel évènement à telle heure (via mon agenda ou mes messages), alors quand je prends une photo, le système est capable d’automatiser l’étiquetage de cet évènement et d’introduire les métadonnées automatiquement. C’est ce vers quoi nous tendons : un monde où le qui, quoi, où et quand peuvent être générés, lus et résolus automatiquement par les machines. »

Le croisement des données elles-mêmes, au lieu et à l’heure où elles sont collectées ou regroupées va en générer de nouvelles.

L’intelligence des données, ce n’est pas que le web sémantique, c’est aussi le web implicite, celui qui comprend ce que vous faites, ce que vous avez fait et en déduit ce que vous allez faire. C’est celui qui trace vos données, votre histoire, qui suit votre « parcours », votre « chemin » pour apprendre de vous et mieux vous servir et qui se diffuse demain au-delà du web, jusqu’à nos mobiles.

L’intelligence des données c’est enfin ce web que nous façonnons à coups de liens, d’étiquettes, d’intelligence collective : « Chaque fois que nous forgeons un lien entre les mots, nous lui enseignons une idée », disait Kevin Kelly. C’est ce web qui apprend de nous. Ces données qui prennent du sens quand on les touche. Nos actions qui deviennent une donnée primordiale pour donner de l’intelligence à l’ensemble. Un web sémantique a posteriori, en quelque sorte, qui repose sur le constat qu’il semble parfois plus difficile de rendre les données « intelligentes » en les qualifiant a priori, que d’acquérir une « intelligence », une perception et une compréhension riches, des données brutes que notre monde produit à jet continu.

Assurément, l’intelligence des données va transformer notre rapport à l’information aussi sûrement que l’internet des objets va bouleverser notre rapport à notre quotidien (l’un n’ira pas sans l’autre d’ailleurs).

Nous allons mesurer le monde, notre vie, notre entourage, notre réseau comme jamais. Tout sera traçable et tracé, comme le montre d’une manière ludique Socialistics, cette petite application pour Facebook qui mesure les pulsations de votre réseau social. Un outil de lifelogging (ces outils qui augmentent notre intimité d’informations) qui rassemble toutes les données de votre réseau relationnel pour produire des mesures vous permettant d’en connaître les tendances (répartition par âge, par ville ou pays, par genre, par tendances politiques ou religieuses…). Cet outils de classement et d’analyse illustre à merveille la puissance de l’information que l’on pourrait être capable de produire demain. Cela ne va pas seulement nous donner accès à une « nouvelle classe d’outils », comme l’évoquait Tim Berners Lee, mais radicalement changer nos pratiques, notre regard sur celles-ci et sur tout ce que nous faisons et nous entoure.

Reste qu’il ne faut pas oublier que les données ne sont pas intelligentes pour elle-mêmes. Leur couplage peut aussi produire des syllogismes faciles et des erreurs d’interprétation : coupler une base de donnée statistique sur la criminalité et une autre sur la pauvreté de la population fera peut-être ressortir l’image fameuse des « Classes laborieuses, classes dangereuses ». Cela n’en fait pas forcément une vérité, disait déjà l’historien Louis Chevalier. Et puis, on n’est pas obligé d’aimer la perspective d’un monde infiniment lisible, traçable et analysable. Ca ne doit pas nous empêcher d’y réfléchir.

Hubert Guillaud

0 commentaires

dormez dit :

07/09/2007 à 10:37

n’était-ce pas un certain rêve hitlérien ?
OUI ! REFLECHISSONS-Y !
Hunold dit :

07/09/2007 à 11:59

Tres bon article de fond.
En fait cela ne sera pas tant un problème technique que déontologique et d’éthique.
La question est a l’ordre du jour d’ailleurs dans le cadre de la conférence Office 2.0 qui a lieu en ce moment a SF. Il est a noté que les gros acteurs du marché n’ont pour le moins pas encore bien défini le perimettre de la politique de confidentialité sur les documents collaboratif.

Je tiens à signaler un concept qui prend de l’ampleur : l’économie de l’attention
http://www.readwriteweb.com/archives/towards_the_attention_economy_opening_silos.php

Avec une application déja existante pour « enregistrer » ses faits et gestes
http://www.attentiontrust.org/
Hubert Guillaud dit :

07/09/2007 à 12:39

Oui, tout à fait Hunold. Nous avions déjà signalé l’intérêt du concept développé par Iskold, qui est effectivement plutôt pertinent.
Laurent Bastide dit :

11/09/2007 à 2:13

Bel article…

Attention toutefois à la distinction entre données et informations, la raccourci est peut être parfois un peu rapide.

Bonne journée
Yves Epelboin dit :

14/09/2007 à 4:51

Il serait temps que les « penseurs du Web » construisent leur bibliographie : cela a déjà été étudié et très bien expliqué depuis longtemps. Je vous recommande la lecture des ouvrages de Stephen Jay Gould.
Thierry Joliveau dit :

15/09/2007 à 1:55

La question va devenir cruciale et le cadre général est bien posé mais le raisonnement me semble passer un peu vite sur certains points.

D’abord, et je suis d’accord avec la remarque de Daniel Kaplan https://www.internetactu.net/?p=7274, il me semble plus juste de parler d’intelligence des traitements que d’intelligence des données. C’est aussi ce que pointe Laurent Bastide plus haut. Traditionnellement dans les systèmes d’information, on ne considère pas les données comme intelligentes, c’est l’information produite par les traitements sur les données qui (le cas échéant) peut incorporer une certaine intelligence. Les données ne peuvent avoir qu’un certain niveau de pertinence par rapport aux objectifs implicites ou explicites de celui (individu, organisation ou système) qui l’a collecté et produite.

Dans le cas de l’information fournie par les utilisateurs des outils de type Web 2.0 (ce que les anglo-saxons appellent Volounteered Information – cette notion de volontairement fournie demanderait une investigation à elle seule), la pertinence des données est liée aux objectifs de chacun des utilisateurs et au contexte dans lequel celui-ci le produit (blog, réseau social, partage d’information …). La réutilisation de ces données brutes pour en faire un traitement intelligent, en fonction de buts qui diffèrent nécessairement de ceux qui ont présidé à la collection pose des problèmes très difficiles. D. Kaplan point celui de l’introduction – volontaire elle aussi – de données fausses par simple vandalisme, par intérêt ou par sabotage délibéré. La question de fond me semble donc être la capacité à produire des traitements capables de repérer puis d’écarter (ou de réinterpréter) des données peu fiables, inadaptées ou délibérément erronées.

Un simple exemple :
L’application Walk Score http://www.walkscore.com calcule interactivement un indice de « walkability » du voisinage d’une adresse, en se basant sur les distances à une série d’équipements (restaurants, écoles, bibliothèques, cinémas) localisés volontairement sur Google Maps. La walkability est une politique des villes américaines pour améliorer l’environnement piétonnier des quartiers. Un l’algorithme (non publié) combine les différentes distances plus d’autres indicateurs pour classer le niveau de qualité piétonnière du quartier.
Lancez-le traitement sur une adresse française que vous connaissez et vous constaterez que les équipements déclarés dans Google sont largement fantaisistes. L’indice calculé est peu fiable car l’information volontaire sur Google Maps est faible en France. Il faudrait que les entrepreneurs, commerçants et services publics français soient plus nombreux à se déclarer volontairement sur Google Maps. A un deuxième niveau, l’algorithme semble calé sur une morphologie urbaine et des normes de déplacements nord-américaines, a priori inadaptées à l’Europe. Il faut donc contextualiser l’algorithme et le rendre plus intelligent. A un troisième niveau, il faudra empêcher des propriétaires peu scrupuleux de créer de faux équipements afin d’augmenter l’indice de Walkability de leur voisinage et donc la valeur de leur logement. Il faut donc améliorer à la fois la qualité des données, sans décourager la bonne volonté et améliorer l’intelligence du traitement.

Tout cela va demander un peu d’intelligence et beaucoup de travail …
Hubert Guillaud dit :

17/09/2007 à 11:05

La distinction que vous soulignez entre traitements et données me semble tout à fait juste et j’y souscrits complètement.

Cependant, quand la donnée elle-même se transforme en équation, je pense que c’est bel et bien la donnée elle-même qui est mise en question. Ainsi quand plutôt que de mettre dans un texte le chiffre de la population de la France, mais de mettre un script qui va chercher ce résultat sur le net par exemple, c’est bien la donnée qui me semble être transformée.

Et puis « l’intelligence des données », c’est plus lisible que « l’intelligence des traitements ». ;-).
Hubert Guillaud dit :

25/09/2007 à 3:57

Très intéressant rebond de Christophe Deschamps :

« Pour ma part il me semble que l’intuition sera pourtant au coeur de cette activité et que c’est même elle qui fera la différence entre les bons et les mauvais dataminers. L’intuition c’est la part humaine, subjective, créative, interprétative que l’on applique sur la réalité, dans le but de comprendre et d’anticiper les évènements. Parce qu’aussi brutes que soient les données c’est toujours l’homme qui, au final, les transformera en informations et en connaissances. Pour cela il aura besoin de trouver les sources de données à exploiter et, comme l’ont montré Edouard Chi et Peter Pirolli, du Xerox Palo Alto Research Center, c’est d’abord à son instinct qu’il se fie pour cela. Quant à la créativité, elle lui permettra d’imaginer des croisements improbables de données, susceptibles de générer de la valeur, comme cela est déjà perceptible avec le phénomène des mashups. »
Hubert Guillaud dit :

08/10/2007 à 10:08

Tiens, un outil de monitoring original : Terapeak. Voici ce qu’en dit Techcrunch.fr : « Après les classement d’audience, les classements d’influence voici les classements de tendances ecommerce. Neteven lance un bulletin des tendances de l’ecommerce en France en analysant les données se trouvant sur eBay et en détectant les objets ou catégories d’objets les plus vendus, ou les mots clés les plus déclencheurs de ventes. Si vous êtes marchants sur internet voilà le Nielsen de l’ecommerce (du moins ce qui s’en rapproche le plus). »
F. Griffe dit :

11/04/2008 à 3:51

Très bon article.

A noter que la transformation des données en « information » peut également passer par la visualisation (représentations graphiques, réseaux…). C’est ce que l’on appelle la « fouille de données visuelle ».
Si les efforts de recherche dans ce domaine sont très importants il y a encore trop peu d’applications grand public de ces travaux.
A noter cependant les efforts de sociétés comme kartoo (www.kaartoo.com) ou iconocast (www.iconocast.fr).