La nouvelle science des données

Par le 12/07/10 | 1 commentaire | 1,728 lectures | Impression

Comment pouvons-nous créer et partager de la connaissance des masses de données que nous accumulons ? Telle était la question que posaient Fabien Girardin et Jan Blom lors de la conférence Lift France dont la seconde édition avait lieu la semaine dernière à Marseille.

On commence à bien connaître Fabien Girardin, chercheur au Lift Lab, dont nous avons de nombreuses fois évoqué les travaux sur InternetActu. En 2009, à Lift Timo Arnall avait montré comment le réseau est imbriqué dans notre vie quotidienne. Il a depuis produit une vidéo qui montre justement de manière imagée les flux d’information qui parcourent la ville.

Wireless in the world 2 from timo on Vimeo.

La technologie qui nous entoure au quotidien produit un nombre considérable de données. Nos interactions constantes avec ces réseaux d’infrastructures génèrent des données qui alimentent les fonctions des services que nous utilisons en permanence. Si on fait l’exercice de cartographier dans une journée tous les moments où l’on génère des données, pour faire attention à comment nous générons ce réseau de données, comme l’a fait Fabien Girardin en cartographiant une de ses journées à Barcelone (voir sa présentation .pdf), on se rend compte que nous produisons des données en réseau presque en continu : quand on loue un vélo, quand on retire de l’argent, dès qu’on téléphone…

Les sociétés cherchant à exploiter ces données sont nombreuses, d’autant qu’il existe de nombreux niveaux d’informations dans la ville, de nombreux de filtres pour mieux comprendre les différents types d’information qui y sont produits. Ces données sont le sang de l’économie d’aujourd’hui, dit Daniel Kaplan. La géographie et la topologie sont un niveau parmi d’autres pour comprendre ces productions d’information, qui vont du sensible à des observations plus spécifiques, qualitatives, ethnologiques.

Utiliser les données de réseaux pour construire de nouvelles stratégies urbaines

Les données génèrent du matériel, auquel il faut pouvoir accéder, qu’il faut collecter, anonymiser, gérer et modéliser, fouiller, y appliquer des traitements statistiques et enfin les rendre plus visible, plus lisible, les analyser et les communiquer. Ce processus complexe et itératif d’analyse permet de définir des indicateurs et des éléments de gestion. Il nécessite de nombreuses compétences différentes : celles des ingénieurs en télécommunication, celle des physiciens qui ont l’habitude d’utiliser de vastes volumes de données, celles des statisticiens, des designers et des analystes pour les comprendre.

Cette distribution des compétences nécessaires pour faire de l’analyse de données nécessite 3 “types d’arts” pour appliquer cette science dans le domaine des stratégies urbaines, explique Fabien Girardin.

fabiengirardin
Image : Fabien Girardin sur la scène de Lift à Marseille, photographié par User Studio.

Celui de la visualisation bien sûr, est le plus évident. Il faut savoir représenter les données pour qu’elles soient lisibles, accessibles, à l’image des City Wall mis en place par le MIT à Rome pour montrer sur des écrans géants l’utilisation des mobiles dans la ville. Cette visualisation permet d’engager des dialogues et des débats ouverts sur la qualité des données et leur valeur potentielle.

Il faut aussi connaître “l’art de prendre le pouls”, c’est-à-dire comprendre les modes et les rythmes de l’activité d’un réseau sur un espace. Saisir le pouls de l’information urbaine à l’image des antennes de réseaux mobiles qui chaque week-end montrent une accalmie, comme nos battements cardiaques ont eux-mêmes leurs accalmies. L’analyse d’une impulsion est souvent axée sur la détection des tendances et des anomalies à partir des données alimentées en temps réel. La visualisation souvent est le début du processus, plus que la fin, et sert à tirer du sens de ces données. Mais il ne sert à rien si on ne met pas en avant des données “parlantes”, évocatrices, qui permettent de mesurer ce que l’on cherche à mettre en avant.

Enfin, cela nécessite d’avoir recours à l’art du “carottage”, c’est-à-dire savoir utiliser l’accumulation de données numériques jour après jour, comme on regarde une carotte de glace pour comprendre le climat de la planète. L’important est de sonder l’évolution de l’activité de ces données de réseaux dans le temps.

Pour illustrer ces aspects, Fabien Girardin évoque un projet mené à New York en 2008 sur la rénovation du front de Mer de Manhattan. La stratégie de rénovation urbaine s’est accompagnée d’une exposition artistique (présentant 4 immenses chutes d’eau) pour attirer les New-Yorkais à découvrir ce nouveau front de mer. La ville de New York a voulu mesurer l’activité de cette exposition en mettant des capteurs dans certains lieux liés à l’exposition et d’autres dans des endroits non liés à l’exposition. Les chercheurs ont ainsi pu mesurer une augmentation d’activité dans les zones d’exposition, permettant de montrer ce qu’ils ont appelé “un indicateur d’attirance”. Autre indicateur utilisé également : les photos publiées sur Flickr montrant les chutes d’eau installées sur les sites de l’exposition. En collectant les photos sur les bords de l’Hudson pendant trois ans, les chercheurs ont peu reconstruire les parcours de visites, montrant comment le front de mer est devenu un lieu touristique après sa rénovation. En collaboration avec Andrea Vaccari, les chercheurs du MIT ont mis au point un PlaceRank (.pdf) sur le modèle du Page Rank de Google pour mesurer la popularité des lieux.

Girardin Lift France10 Notes

Autre exemple. Fabien Girardin a également travaillé pour le musée du Louvre afin de les aider à mesurer et réagir à l’hypercongestion de certaines zones du musée dans le but d’améliorer l’expérience des visiteurs et la sécurité. L’étude a consisté à capter la présence des téléphones mobiles dans le musée pour mesurer en temps réel le niveau d’occupation des différents bâtiments du musée. D’une perception qualitative de la congestion, le musée est passé à une information quantitative et précise, permettant de mettre en place des indicateurs d’hypercongestion dans le temps… Le musée a utilisé ces informations pour modifier sa politique de distribution des oeuvres et surtout pour mieux réagir au trafic en temps réel, fermant certaines zones quand elles sont trop chargées.

Bien sûr, rappelle le chercheur, les informations quantitatives ne donnent pas tout. Il faut y ajouter du qualitatif pour expliquer pourquoi les gens se comportent de cette manière.

Pour Fabien Girardin, ces recherches offrent plusieurs potentialités qu’il faut intégrer…

Tout d’abord, l’extraction de données commence à faire partie de la valeur de l’espace. A Palexpo, le palais d’exposition de Genève, on est capable de mesurer les points chauds lors d’un salon ce qui permettrait par exemple de commercialiser différemment les différentes zones du hall d’exposition.

Autre possibilité offerte, permettre l’émergence de nouveaux fournisseurs d’information urbaine, comme Idealista.com en Espagne qui analyse la qualité du marché immobilier et ses évolutions via les données de vente, d’achat et de location en provenance de son site. Ils ont utilisé les informations de leur site pour proposer un nouveau service d’analyse du marché immobilier.

Enfin, les réseaux de données permettent aux citoyens de saisir de nouvelles possibilités pour s’approprier, détourner ou peaufiner les systèmes urbains. A Barcelone, un jeune étudiant a exploité les données du réseau de location de vélo urbain pour mettre au point un algorithme permettant d’optimiser le remplissage des bornes à vélo.

… et de nouveaux services

Les traces laissées par les utilisateurs de réseaux mobiles sont énormes, explique Jan Blom, directeur de recherche pour l’équipementier Nokia dans sa succursale de Lausanne. Elles constituent de que les scientifiques appellent des “big data” dont tout l’enjeu est de trouver le moyen d’en tirer parti.

Pourtant, il y a matière, comme le montre les recherches de Vincent Blondel, professeur en mathématiques appliquées à l’école polytechnique de Louvain. En analysant les communications téléphoniques en Belgique, Vincent Blondel a superposé les informations communautaires et les informations linguistiques pour démontrer la réalité de la séparation entre les groupes néerlandophones et francophones. Et Jan Blom d’évoquer également le laboratoire de fouille de la réalité de Nathan Eagle et Alex Pentland qui ont utilisé les données recueillies par les mobiles de leurs étudiants pendant plusieurs mois pour en déduire des conclusions sur l’évolution des dynamiques de population (voir nos articles sur ce laboratoire).

Le projet que porte Jan Blom pour Nokia sur Lausanne est très proche de celui mené par le Laboratoire de fouille de la réalité du MIT il y a 5 ans, même s’il a été réactualisé notamment en y intégrant le positionnement GPS et en élargissant le panorama des appareils utilisés, tout en n’étant pas limités aux étudiants, mais en prenant en compte l’ensemble de la population. Cette campagne qui se déroule depuis un an ne s’intéresse pas au contenu des messages, mais à la localisation, aux données sociales (qui appelle qui ?), aux médias et applications utilisés ainsi qu’aux données de contrôles (savoir si le téléphone est en mode silencieux ou pas, quel est l’état de sa batterie…).

Ainsi, les chercheurs de Nokia ont découvert que les applications de communication sont surtout utilisées en journées, tandis que la caméra est utilisée en journée, mais aussi en soirée. L’étude a ainsi permis de mieux identifier les besoins des utilisateurs de mobiles en fonction des plages horaires. Pour Nokia, estime Blom, le but est avant tout d’en faire profiter les utilisateurs, de permettre aux utilisateurs de services de savoir où se déplacent les gens pour leur donner des idées sur l’endroit où aller. Reste que pour l’instant, toutes ces données sont loin d’être accessibles à tout le monde. Et Nokia s’en sert surtout pour spécifier les services qu’il déploie dans le cadre de sa stratégie de détection du monde via les outils mobiles que la firme définissait fin 2008 (.pdf). Pour l’instant, à écouter la présentation de Jan Blom, les utilisateurs de téléphones mobiles ne semblent pas encore vraiment plus que des capteurs pour les analystes de données… Ou, à tout le moins, Jan Blom ne nous l’a pas montré.

Hubert Guillaud et Rémi Sussan