Critique du Web² (3/4) : Toutes les données sont devenues personnelles

La technologie nous forcera-t-elle à choisir entre la vie privée et la liberté, comme l’affirmait David Brin dans son livre Transparent Society (Wikipédia) ?

Il n’y a pas ou plus, d’un côté des données personnelles et de l’autre des données qui ne disent rien des individus : un très grand nombre de données apparemment anonymes peuvent acquérir un « caractère personnel », c’est-à-dire aider indirectement à savoir quelque chose sur un individu précis. Les champs de données permettent de plus en plus d’identifier leurs émetteurs, tant et si bien qu’on peut se demander à l’avenir si le concept de données anonymes a encore une pertinence. Si la directive européenne Inspire (Wikipédia, voir aussi le volet français) et la loi française sur la réutilisation des données publiques excluent explicitement du partage les données nominatives, force est de reconnaître que nous savons de moins en moins ce que sont des données nominatives. Car toute donnée est en passe de devenir une donnée à caractère personnel, comme le rappelle l’histoire des logs d’AOL qui avaient permis d’identifier plusieurs dizaines de personnes simplement en observant la liste des sites sur lesquels elles avaient surfé… Demain, des logiciels permettront d’identifier qui a écrit un texte en observant tout simplement la masse des écrits du web et proposeront des correspondances qui reposeront sur le style, le vocabulaire, la grammaire ou les tics de langages de chacun… De même, combien de temps les visages anonymes sur les photos que nous échangeons le resteront-ils, quand on regarde les progrès de la reconnaissance faciale… Par leurs seuls champs, des ensembles de données peuvent révéler des préoccupations qui vous sont propres. La régularité de vos passages anonymes sous des capteurs permet aussi de vous reconnaitre en croisant des données de déplacement avec d’autres issues de la masse des données chaque jour un peu plus disponible en ligne.

Bien sûr, « toutes » les données ne sont pas devenues personnelles (les horaires de transports, les données de capteurs environnementaux, les documents administratifs… par exemple), mais une masse considérable de données qui ne l’étaient pas a priori sont en passe de le devenir. D’autant plus que leur couplage, chaque jour plus facile, peut à chaque moment faire basculer des données « sans valeurs » en données à caractère personnel.

Horloge de l'utilisation des termes vie privée et surveillance dans The Guardian par Jer Thorp
Image : Horloge de l’utilisation des termes « vie privée » et « surveillance » dans le journal The Guardian entre 1999 et 2008 (le graphique se lit comme une horloge, on commence par 1999 et on fini par 2008, le terme surveillance est en noir et vie privée en blanc) par blprnt alias Jer Thorp.

Peut-on réellement anonymiser des données ?

Au milieu des années 90, une commission d’un groupe d’Assurance américain décidait de publier des données médicales anonymisées d’employés de l’Etat du Massachusetts. Un étudiant en informatique, Latanya Sweeney, en demanda une copie et travailla à leur « réidentification ». Le gouverneur du Massachusetts assurant que l’organisme d’assurance avait protégé chaque patient en effaçant tous les identifiants nominatifs, Sweeney utilisa les listes de votants de la petite ville où habitait le gouverneur et croisa les deux bases de données. Seulement 6 personnes dans cette ville partageaient les mêmes dates de naissance, seulement 3 étaient des hommes et un seul partageait le même code postal… que le gouverneur. L’informaticien envoya au gouverneur tout son dossier médical.

Cette histoire que raconte Nate Anderson pour Ars Technica montre bien que l’anonymisation à une époque où les données sont démultipliées n’est plus si simple. Quelques années plus tard, Latanya Sweeney démontra d’ailleurs que 87 % des Américains pouvaient être identifiés uniquement à partir de 3 informations : le code postal, la date de naissance et le sexe.

Toute information peut devenir personnelle quand elle se combine avec suffisamment d’autres données. Dans un récent article sur « l’étonnant échec de l’anonymisation », Paul Ohm, de la faculté de droit de l’université du Colorado, explique qu’avec toute l’information que nous disséminons en ligne, nettoyer les données des identifiants les plus évidents ne suffit plus. Ré-identifier ou dé-anonymiser des données se fait le plus souvent avec une étonnante facilité. « La science de la ré-identification bouleverse le paysage politique de la confidentialité en sapant la foi que nous avons placée dans l’anonymat », écrit Ohm.

Parce que la plupart des lois sur la confidentialité des données mettent l’accent sur la restriction des informations personnelles identifiables, il faut maintenant les repenser, avance-t-il. Pour Ohm, il est plus approprié de penser l’identifiabilité comme un continuum : c’est-à-dire d’observer les champs de données dans leur capacité à générer de l’identifiabilité. La notion de données anonymisées devient alors problématique, car le code par lequel on remplace des données permettant l’identification ne remplace pas le caractère identificatoire de ces données… Et il n’y aura pas de solution miracle prévient Ohm : les mesures qui sont prises augmenteront la confidentialité ou réduiront l’utilité des données, mais il n’y aura aucun moyen de garantir à la fois une utilité maximale des données et une confidentialité maximale.

Il ne suffit pas de ne plus enregistrer le numéro de sécurité sociale ou les noms et adresses des gens. Une partie de l’historique de vos recherches sur internet suffit à vous identifier, des informations sur les déplacements d’un véhicule permettent d’identifier son conducteur… Car les informations personnelles identifiables sont une catégorie en expansion constante : il y a dix ans, personne n’aurait classé des critiques d’internautes sur des films (1) ou des requêtes de recherche dans cette catégorie. Ce qui explique qu’aucune loi ne l’ait pris en compte. Mais on comprendra vite que développer des règles de confidentialité à chaque fois qu’une technique de réidentification nouvelle se développera entraînerait une escalade législative à laquelle il serait impossible de répondre.

La distinction binaire et traditionnelle entre les données à caractère personnel et les autres devient difficile à maintenir. Des données présentées comme anonymes ne le sont souvent pas du tout, prévient l’Electronic Frontier Foundation dans un billet tendant à définir ce qu’est une information à caractère personnel. « Etant donné le nombre de variables qui permettent de nous distinguer, nous sommes bien plus différents les uns des autres que nous nous y attendions, et il y a plus de sources de données que nous le pensons qui peuvent être utilisé pour préciser exactement à qui fait référence un enregistrement particulier »

Quelles intimités le partage libère-t-il ?

Alors, certes, la « libération » des données permet d’imaginer beaucoup d’applications utiles et transformatrices, comme le décrivent très bien O’Reilly et Battelle. Mais très vite, des questions importantes se poseront sur la nature de ces données, leur propriété, leurs effets collatéraux, et donc la légitimité de leur « libération ». Quelles sont-elles ? Comment et par qui sont-elles produites ? Quels champs renseignent-elles ? De quoi sont-elles composées ? A quel niveau de vie privée, d’intimité, permettent-elles d’accéder (ce qui suppose d’établir une grille des degrés d’intimité que les données révèlent selon les champs qu’elles proposent et imbriquent : il y a là assurément un vrai référentiel à construire) ? Qu’elles incohérences le partage libère-t-il, démultiplie-t-il ?

Souvent, les systèmes de capteurs conservent des données qui ne semblent pas indispensables à leur fonctionnement courant. Faut-il que notre système de télépéage ou notre pass Navigo conserve des données nominatives, permettant de savoir qui passe à tel ou tel portique ? A-t-il besoin de conserver nos lieux d’entrée et de sortie (alors que d’autres compteurs sont en place, comme les compteurs de passage aux barrières et aux portes) ? L’important, pour ces systèmes, c’est de savoir qu’un titulaire de droit à la possibilité de franchir la barrière, pas qui il est, ni à quel endroit il passe, ni où il va. Et surtout que se passe-t-il quand ces données-là peuvent être croisées avec des milliers d’autres ?

De quelle transparence ces données sont-elles porteuses ?

Car c’est bien là l’enjeu ! Comme le remarque pertinemment Thierry Lhôte, le texte fondateur du Web² ne parle pas de liberté pas plus qu’il ne soulève une réflexion sur les possibilités d’atteintes à la vie privée par l’exploitation des données – et de pointer du doigt un intéressant édito de Saul Hansell pour le New York Times, qui s’étonne que l’administration Obama soit restée à ce jour si silencieuse sur la vie privée dans son programme technologique. De quelles transparences, de quelles autonomies libératrices, ces données sont-elles donc porteuses ? A quoi serviront-elles ? Quel est le but du Web² ?

Faut-il lire derrière l’absence de référence au caractère personnel des données un présupposé en faveur d’une « société de la transparence » ? Pas une transparence qui permet de mieux voir et comprendre les données, comme la défendent les tenants de la visualisation de l’information comme ceux qui animent le magazine Good.is. Mais cette transparence qui permet d’aller à la source des données. Cette transparence – cachée dans l’ombre informationnelle des données – est devenue la nouvelle objectivité, clame David Weinberger sur son blog. A l’heure du lien explique-t-il, le mécanisme de confiance change : on passe de l’objectivité à la transparence. La transparence permet de voir les sources et les valeurs qui mènent chacun à prendre la position qui est la sienne. Dans cette mécanique, les données sont la source et la valeur ultime.

Cette conception de la transparence n’est pas sans poser de nombreuses questions. Est-elle bénéfique ? Est-elle la seule réponse à une situation où protéger sa vie privée ne serait plus une option ? Est-elle à combattre et si oui, comment ? Peut-on s’appuyer sur la perspective du Web² pour imaginer rendre la transparence « réciproque » (on sait ce que les autres savent sur soi et ce qu’ils en font), voire même pour appliquer la transparence aux organisations sans nécessairement l’appliquer aux individus ?

Les données, pas plus que la technologie, ne sont neutres. Elles ne sont transparentes qu’en partie. Si l’on ne croit pas aux vertus de cette transparence, alors il y a incontestablement un enjeu à raréfier les informations produites : réduire la collecte, anonymiser et chiffrer, créer des processus d’effacement ou d’oubli…

Notre historique, notre activité, notre identité (jusqu’à quel niveau de précision ?) seront-ils toujours masqués dans notre ombre informationnelle ? Regarderons-nous vraiment les gens avec des lentilles qui nous rappelleront les informations qu’ils portent sur eux, les notes avec lesquelles les autres les étiquettent, à la manière de tous ces systèmes de réalité augmentée qui ont fleuri cet été ? Nos données seront-elles attachées sans cesse non seulement à notre existence numérique, mais également à notre existence physique ? Quelle sera leur capacité à oublier, à s’effacer, à disparaître comme les #hastags s’effacent dans Twitter – mais pas sur d’autres services comme hastags ? Pourrons passer facilement d’une identité l’autre, comme le propose élégamment le projet TAT (vidéo) ? Aurons-nous le droit d’en avoir plusieurs ? Pourrons-nous encore mentir ?

Hubert Guillaud

Dossier Critique du Web²

Première partie : Quelles données libère-t-on ?
Seconde partie : Mesurer le résultat de la libération de données
Troisième partie : Toutes les données sont devenues personnelles
Quatrième partie : Que faire face à la puissance des données ?

_________
1. Le fait de poster de simples avis sur des films peut aussi permettre de vous identifier, expliquent Arvind Narayanan et Vitaly Shmatikov. Quand Netflix, le loueur de films par internet américain, a rendu disponible sa base de données de recommandations de films – anonymisée la encore – pour lancer son concours d’amélioration de son moteur de recommandation, des scientifiques ont combiné ces données avec d’autres données de recommandation sur l’internet leur permettant de réidentifier un grand nombre de recommandations.

0 commentaires

Un anonyme pour un temps seulement.... dit :

22/09/2009 à 12:40

Après la lecture de cet article, on en vient même à hésiter à noter l’article, de peur que l’on nous reconnaisse….
Finalement, je prends mon courage à deux mains, et j’ose noter et même poster ce commentaire. Publiquement, je suis anonyme, mais bientôt, un logiciel pourra me réidentifier. Pour tous les utilisateurs du net, réussir à rester anonyme tout en essayant d’utiliser les derniers outils web 2 au maximum, c’est un défi qui ne dépend déjà plus de nous, ni des lois en vigueur (Ex : Que faire si, par erreur, un ami vous appelle par votre nom dans un twitt alors que vous vous battez pour être anonyme ?).

Pour autant, la transparence de l’information chez l’individu permet dans certains cas de recréer la confiance (ex : de plus en plus de jeunes osent recevoir des inconnus chez eux grâce à la transparence de l’information laissée sur la plateforme « couchsurfing »). Mais quels risques y a t’il à perdre petit à petit notre anonymat ?
Dominique Dupagne dit :

22/09/2009 à 11:56

Très intéressante réflexion, bien étayée.
Après avoir longtemps tenté de défendre l’anonymat des données, j’ai basculé récemment. En effet, la protection des données personnelles me fait penser à la loi HADOPI : à la fois légitime par certains aspects, obsolète dans son environnement et impraticable techniquement.

L’avenir n’est pas dans la protection des données, mais dans la lutte contre leur usage à des fins délétères. De façon plus générale, le Web2 apporte les solutions aux problèmes qu’il crée : tout acteur qui fera un usage inapproprié des données des autres sera mis au ban de la société car signalé immédiatement au sein des réseaux. Pas besoin de procès pour cela, il sera ruiné en tant qu’acteur économique ou littéralement banni en tant qu’individu.

La justice en général sera profondément modifiée par les réseaux, ce n’est pas encore palpable mais c’est inévitable : pas besoin de class-action, un gros buzz négatif suffit à mettre à mort tout acteur économique.
Antoine dit :

25/09/2009 à 10:01

Réalité augmentée…dans la sémantique même, il y a peut être là l’aveu même de l’incapacité du web et qu’il soit web~2 à dire qui nous sommes « réellement ». !!!
Néanmoins cela est très inquiétant.
Nicolas Cynober dit :

29/09/2009 à 5:27

Bon article, qui pose beaucoup de questions, et qui a d’ailleurs fait peur à notre premier commentateur anonyme 🙂 Attention quand même à ne pas tomber dans les clichés TF1: « internet c’est dangereux, les cambrioleurs regardent les status facebook ».
Du coup je pense que ca serait intéressant dans la partie 4/4 de répondre à quelques questions (peut être pas les 31) posés dans cet article. A mon avis Dominique a donné la voie.
Hubert Guillaud dit :

19/09/2011 à 3:48

Selon une étude plus récente (.pdf), c’est 63 % de la population américaine qui pourrait être identifiée depuis un simple code postal et une date de naissance.