Les métadonnées de nos téléphones mobiles sont extrêmement parlantes. Selon Une récente étude publiée dans Nature (intitulée « Unique dans la foule : les limites de confidentialité de la mobilité humaine »), nos déplacements quotidiens sont tellement prévisibles que même anonymisées (c’est-à-dire sans disposer d’information sur l’abonné), les données issues de nos téléphones mobiles permettent d’identifier un utilisateur avec une très grande facilité. En utilisant une base de données anonymisée de 1,5 million de clients d’un opérateur téléphonique enregistré sur plus de 14 mois, les chercheurs ont montré qu’il suffisait de 4 informations de localisation dans le temps et l’espace (c’est-à-dire connaître 4 antennes d’où un utilisateur s’est connecté pour téléphoner ainsi que la date est l’heure, données qui sont par essence compilées dans les métadonnées de nos appels téléphoniques) pour identifier précisément 95 % des utilisateurs. 2 informations suffisent à les identifier à 50 %.
Image : Ces images montrent les mouvements d’un utilisateur en particulier au cours du temps. Les zones colorées figurant dans B et C représentent la résolution approximative offerte par l’antenne mobile et sont tirés de l’étude « Unique dans la foule ».
En conclusion de leur étude, Yves-Alexandre de Montjoye et César A. Hidalgo du MediaLab du MIT, Michel Verleysen et Vincent Blondel de l’université catholique de Louvain, en appelaient à réfléchir sur la collecte, l’utilisation et la protection des données de mobilité.
Comme pour répondre à cette étude, des chercheurs de AT&T, la Rutgers University, Princeton et de l’université Loyola ont mis au point un moyen d’extraire des données de nos téléphones mobiles pour faire des études sur la mobilité sans révéler l’identité des utilisateurs, en utilisant un algorithme pour obfusquer les données qui rendent possible la réidentification des abonnés, rapporte David Talbot pour la Technology Review.
L’idée est de faire une représentation synthétique, proche de la représentation des données agrégées, mais sans induire les réels parcours des gens. La solution, utiliser un algorithme qui calcule le risque d’identification pour le réduire en altérant les données, en obscurcissant mathématiquement les données qui pourraient permettre d’identifier les gens, tout en permettant d’avoir des résultats corrects, plutôt qu’exacts. Ces vastes ensembles de données peuvent servir à faire d’innombrables recherches épidémiologiques, urbaines, économiques… mais la protection de la vie privée demeure l’obstacle le plus difficile à la multiplication des recherches exploitant ce type de données. Même si ces ensembles de données sont dépouillés des noms et numéros de téléphone des abonnés, l’identité d’une personne peut souvent être retrouvée par d’autres moyens, notamment par le traçage de nos déplacements d’antenne en antenne et leurs régularités quotidiennes.
L’approche des chercheurs d’AT&T et Princeton consiste à créer des modèles de déplacement créant des synthèses de données. Un algorithme calcule le risque de réidentification des données et le réduit en modifiant les données. « L’idée est d’introduire du bruit dans le modèle pour réduire la probabilité que des personnes demeurent identifiables », explique Margaret Martonosi de Princeton. Le bruit modifie délibérément la localisation des lieux d’habitation et de travail, modifie les temps d’appels globaux… Les chercheurs ont publié publiquement leurs méthodes pour que d’autres chercheurs puissent les utiliser.
Pour Linus Bengtsson, épidémiologiste à l’Institut Karolinska de Suède et fondateur de Flowminder, une société qui fournit des données de mobilité pour les ONG et les organismes de secours, « le développement de règles pour protéger la vie privée est le point le plus important » pour la recherche.
Reste à savoir si l’extraction de données obfusquées pour la recherche pourrait être étendue aux données mêmes des opérateurs ?
Hubert Guillaud