Critiques du Web² (4/4) : Que faire face à la puissance des données ?

Nous n’échapperons pas au Web², c’est-à-dire à l’exploitation maximale de la puissance des données par l’analyse, la combinaison, la représentation, la recherche fine, etc. Pas plus que nous n’échapperons au fait que les données deviennent chaque jour un peu plus personnelles, même – surtout – celles qui nous semblent les plus anodines. Nous déversons nos identités, nos activités et notre histoire dans des flux aux combinatoires qui nous échappent chaque jour un peu plus. Ces constats sont en train de devenir une fatalité, quelque chose qui nous submerge sans que nous l’ayons voulu. Sans politique publique active de protection des données personnelles (qu’elles soient collectées par les organismes publics ou privés), force est de reconnaître que nous devons déjà faire le deuil de toute vie privée.

Les illusions de la maîtrise de l’identité

Que pouvons-nous faire pour rendre aux gens un peu de contrôle sur les données qu’ils libèrent abondamment dans les sites sociaux notamment ? Ces sites sont déjà capables d’en dire beaucoup plus sur nous, que nous le croyons nous-mêmes, comme le montre le projet Personas d’Aaron Zinman, qui utilise la fouille de données pour dresser, à partir des données disponibles un peu partout sur le Net, des portraits-robots de nous d’une redoutable précision (du moins si l’on n’a pas trop d’homonymes). Mais avec Personas, le portrait reste flatteur. Ce qui n’est pas nécessairement le cas du projet Gaydar de deux étudiants du MIT qu’évoquait récemment le Boston Globe repris par le Read Write Web francophone. Le projet Gayvatar utilise des techniques de fouille de données pour déterminer les caractéristiques d’un utilisateur sur la base de son réseau de relations. A l’aide des profils de vos amis, sans même avoir besoin de regarder vos données, le logiciel est capable de prédire votre positionnement politique, votre religion, et même votre orientation sexuelle. Comme le précise Hal Abelson, un scientifique du MIT qui a dirigé l’étude : « cela coupe l’herbe sous les pieds de ceux qui affirment que la solution au problème de la vie privée est de donner un total contrôle des données aux utilisateurs”.

Une étude qui montre bien la limite du personnal branding, de l’identité maîtrisée, car en fait nous ne connaissons pas les analyses et les utilisations qui peuvent être faites de nos données, mêmes de celles que nous pensons maîtriser. Cela ne signifie pas qu’il ne faut pas essayer de maîtriser son identité, au contraire, mais cela montre combien cette maîtrise demeure limitée et sera insuffisante face à la puissance des données. Car le but de la maîtrise de son identité n’est pas d’arriver en tête des résultats de Google comme on cherche souvent à nous le faire croire, mais bien d’être conscient de ce qui est accessible à propos de soi. Il faudrait être capable d’une infaillibilité de fer pour que les données qui nous concernent, les identités parfois étanches que nous affirmons en ligne, n’aient pas de points de recoupement, alors qu’il suffit bien souvent de deux ou trois éléments communs pour parvenir à les relier.

Les politiques de confidentialité doivent être au coeur de nos systèmes sociotechniques

L’exemple de Gaydar nous montre que nous avons besoin d’outils pour mieux contrôler les données que nous dispersons dans la nature, pour mieux comprendre, nous-mêmes, ce qu’elles révèlent de nous et pouvoir y réagir. Nous avons besoin d’outils capables de nous rendre plus anonymes ou de nous rappeler de l’être. Nous avons besoin d’outils capables de mentir pour nous selon les personnes à qui l’on s’adresse, les systèmes que l’on autorise à se connecter à nos données ou aux données que d’autres collectent sur nous. Plus que jamais, nous avons besoin d’identités actives, c’est-à-dire, comme le proposait l’intuition de Daniel Kaplan et Charles Népote, non seulement d’être maîtres des données que nous libérons, mais surtout de faire en sorte que leurs conséquences nous soient transparentes.

Comme le dit un éditorial d’Adam Cohen du New York Times : il est temps d’avoir une sérieuse discussion pour savoir combien de liberté de mouvement nous sommes prêts à abandonner à l’heure de la surveillance permanente. Nos déplacements, nos identités ne sont plus privées. Comment s’assurer que ces informations que nous émettons ou qui transitent par nous et nos objets ne puissent pas permettre d’identification formelle ou d’interprétation qui nous échappent ? Comment séparer qui je suis d’où je suis ? Pourquoi trop de systèmes enregistrent-ils des données qu’ils n’ont pas besoin de conserver ? C’est d’ailleurs l’argumentaire du récent rapport de l’Electronic Frontier Foundation sur la confidentialité de nos localisations, qui s’inquiète de savoir si nous pourrons toujours nous déplacer sans que nos moindres mouvements soient systématiquement et secrètement enregistrés par un tiers pour une utilisation ultérieure.

Ce sujet est certainement un bon exemple des enjeux de la libération des données et de leurs limites. Les recommandations de l’EFF sont d’ailleurs à écouter avec attention : « Il faut construire des systèmes qui ne collectent pas les données en premier lieu » recommandent-ils, simplement sous le prétexte que ce serait la voie la plus facile… Pour cela, il faut que les systèmes de traitement soient conçus en intégrant un large éventail de politiques de confidentialité. « Il faut construire des systèmes géolocalisés qui ne sachent pas où nous sommes », c’est-à-dire des titres de transport qui n’enregistrent pas l’endroit où nous sommes par exemple ou des modules de géolocalisation anonymes, avec des identifiants dynamiques, qui ne permettent pas de corréler simplement une personne et un lieu… Pour les militants de l’EFF, les techniques cryptographiques doivent être systématiquement exploitées afin, par exemple qu’un service sache localiser quelqu’un, identifier qu’il a un compte sur un service, lui appliquer un tarif (péage urbain, passage par un portillon de métro…), mais sans dire qui il est. Une autre couche d’information doit lui permettre, s’il le souhaite, de discuter ou localiser ses amis… Sans que tout cela ne soit accessible en clair pour chacun des services utilisés. Les protocoles cryptographiques nécessaires existent. Ils représentent certes un défi technique et nécessitent des investissements, mais ils sont seuls en mesure de nous permettre d’échapper à la transparence de nos déplacements tout en tirant avantage des services géolocalisés.

Quel oeil portons-nous sur les formulaires par Rosenfeld Media
Image : Quel oeil portons-nous sur les formulaires ? via Rosenfeld Media, données issues de la bible de la création de formulaires : Web Form Design de Luke Wroblewski.

Bien sûr, explique l’EFF, on pourrait essayer d’imposer une limite dans la durée de conservation des données, comme s’y emploient déjà la plupart des législations… « Mais il n’y a pas de meilleur substitut à la protection que de ne pas enregistrer ces informations », rappellent-ils avec la force de l’évidence. Car l’avidité du marché et des autorités pour nos données personnelles n’a pas de limites. Une assurance kilométrique qui met une borne dans votre voiture pour connaitre le nombre de kilomètres que vous effectuez n’a pas besoin de connaître les trajets que vous effectuez ! Or, les entreprises et les administrations sont incitées à tenir un registre étendu de nos activités, pour améliorer et optimiser leurs services, d’autant que la collecte et le stockage des données n’a aucun coût. Cela doit-il se faire au détriment de notre liberté ?

Derrière les recommandations de l’EFF s’énoncent en fait 4 règles :

  • Moins collecter de données ;
  • Les chiffrer pour incorporer des politiques de confidentialité et les rendre plus difficiles à échanger ;
  • Limiter la durée de conservation des données, voire les effacer instantanément ;
  • Rendre la collecte transparente pour les humains (et pas seulement pour les machines) afin que l’on sache précisément qu’elles données s’échangent, ce qu’elles disent de nous, afin que l’on puisse s’y opposer.

Comme le dit l’EFF, la conservation des données sur la confidentialité de notre localisation – mais c’est valable pour d’autres types de données – doit être fixée par l’action démocratique et le processus législatif plutôt que par un opportunisme technologique consistant à ramasser les données sous prétexte qu’elles sont disponibles. Leur rôle croissant dans notre société ne doit pas supposer pour autant que nous y soyons soumis.

C’est d’ailleurs de cette façon que réfléchit le gouvernement américain quand il envisage d’utiliser des technologies d’identification pour enrichir l’interaction des citoyens avec les sites web publics, rapporte Fast Company. L’Open Identity Initiative annoncée le 9 septembre 2009 repose sur l’utilisation de standards de fait (OpenID et Information Cards) pour faciliter l’identification sur ses sites, et donc l’accès à des services personnalisés, mais avec l’objectif de donner à l’usager la plus grande maîtrise de ses données : accès via des pseudonymes, indication et négociation des données demandées pour accéder à un service donné, etc.

Si les données sont le code, si le code c’est la loi, alors je veux avoir accès aux données !

Dans l’émission « Place de La Toile » de juillet 2009, Godefroy Beauvallet, directeur de la stratégie à l’Institut Télécom, donnait un très bon exemple du rôle croissant des données dans notre société. Il relatait l’histoire du bug informatique qui a eu lieu à la Caisse nationale d’assurance vieillesse en mai dernier. Une anomalie de programmation du système d’information du régime d’assurance-chômage a conduit à surestimer la durée d’assurance des personnes ayant validé des périodes au titre du chômage. Le gouvernement et la Cnav ont décidé de ne pas réviser l’erreur. Le bug, donc le code informatique, est devenu la loi, comme l’affirme depuis longtemps le juriste Lawrence Lessig.

« Le problème, c’est qu’il y a une urgence démocratique à mettre le code sous contrôle. La question de l’ouverture des données et des programmes prend d’un coup une autre tournure », souligne avec la force de l’évidence Godefroy Beauvallet. Il ne s’agit plus, cette fois, de contrôler individuellement ce qui est collecté ou conservé sur soi, mais de savoir quelles données une application exploite, ce qu’elle en fait, avec quoi elle les croise, comment elle les protège ou encore, qui a le pouvoir de modifier l’application. Comme le précise Daniel Solove dans sa taxonomie de la vie privée, nous avons besoin d’un meilleur accès à la collecte de données, de meilleures garanties quant aux règles qui régissent les processus (afin qu’elles ne puissent être changées unilatéralement par exemple) et de meilleures assurances et protections quand à la dissémination des données.

Contrairement à ce qu’on pense souvent, en passant à l’électronique, on ne simplifie pas toujours les démarches – du moins pour l’usager… Pour simplifier, il faut arrêter de demander trop d’information. Les processus demandent, par défaut, toujours plus d’information qu’il n’en est nécessaire. D’autant que dans notre société inquiète, prévoyante et informatisée, la tentation d’en demander toujours plus apparaît presque irrésistible. Regardez le dossier scolaire : on est passé de fiches que les enfants pouvaient remplir, à des fiches d’une telle complexité qu’il faut une soirée aux parents pour le faire (et trouver les pièces justificatives nécessaires).

Ouvrir ou tout ouvrir ?

Si on a tant besoin de libérer les données, c’est assurément parce qu’on a besoin de savoir ce qu’elles renferment afin de pouvoir rétroagir sur elles. Libérer les données réclame qu’elles soient collectées avec des règles claires. Prôner l’ouverture des données, c’est aussi permettre de mieux voir ce qu’on enregistre à notre insu et peut-être arriver demain, à mettre fin à des enregistrements inutiles… On a géré les données dans un monde de rareté sans règles claires et précises. Peut-on les gérer de la même manière dans un monde d’abondance ? Nous devons voir quelles données discutent entre elles pour pouvoir les refuser le cas échéant. Mais on comprend mieux alors que cette ouverture ne soit pas si évidente pour les organisations… Non seulement, elles vont perdre leur potentielle poule aux oeufs d’or, mais de plus, elles vont s’ouvrir à des critiques multiples sur la façon même dont elles ont collecté des données…

Les données ne sont pas si simples à libérer. Pour libérer les données, il va falloir creuser plus avant leur nature. Elles ne forment pas un groupe homogène. Elles sont multiples et diverses. Elles ont des niveaux de confidentialité différents. Leur couplage même créé des niveaux de dévoilement différents.

Certes, la perspective du web de données que tracent O’Reilly et Battelle est stimulante. Mais elle ouvre aussi la voie au contrôle individualisé généralisé. Amazon sait ce que chaque Kindle télécharge, ce que chaque utilisateur lit et même où il en est précisément dans sa lecture (à la page exacte). Il peut supprimer à distance un fichier ou le modifier à notre insu (mais il a plus de mal par contre à bloquer l’utilisation d’un Kindle volé, allez comprendre pourquoi). Apple connait chaque application que vous installez sur votre iPhone. Cela permet certes de créer des écosystèmes d’applications… Mais est-ce que cela doit se faire à notre insu ? Quand on autorise une application sur Facebook ou sur notre iPhone, on ne sait pas à quelles données on leur permet d’accéder. Nous avons besoin de savoir clairement ce qui est fait de nos données, par où elles transitent, ce qu’elles autorisent et comment. Il faut qu’on puisse plus facilement qu’avant y accéder, les rectifier, les supprimer. Et que les systèmes soient plus attentifs à ces nécessités.

Il y a certainement plus de valeur dans la libération des données que dans leur conservation, n’en doutons pas. La Fing s’est régulièrement engagée dans ce mouvement, avec raison je pense. Pour autant, ne soyons pas naïfs. Les blocages que rencontrent ces idées doivent nous amener à poser plus avant ces questions. Le rêve d’une société transparente est aussi celui d’une société totalitaire, comme la dénonce avec raison Lawrence Lessig. Il y a une différence entre ouvrir et tout ouvrir.

Il y a un enjeu à faciliter l’exploitation des données comme le clament O’Reilly et Battelle, mais aussi à raréfier les informations qu’elles portent. Cette opposition engendre un point de tension dont il va être difficile de trouver l’équilibre. Mais si on veut prôner un droit à l’oubli, un droit à l’erreur, un droit à l’accès aux données qui transitent par nous : il va non seulement falloir faciliter leur exploitation, mais surtout faciliter leur accès, leur gestion. Demain plus qu’aujourd’hui, tous les champs ne doivent pas être obligatoires.

Hubert Guillaud

Dossier Critique du Web²

À lire aussi sur internetactu.net

0 commentaires

  1. Une piste de solution pourrait être d’armer les utilisateurs pour être plus conscients de ce qu’ils publient, à la manière de plug-in pour navigateurs capables de détecter et de nous alerter sur le niveau de confidentialité des champs que nous renseignons. La Technology Review évoquait il y a peu le projet FaceCloak, qui permet de nous alerter sur la confidentialité des données que l’on confie à Facebook. Il y a certainement des outils de ce type à imaginer ou à rassembler.

    Vous en connaissez d’autres ?

  2. L’équilibre est surtout difficile quand on oublie que l’essentiel reste le respect des droits de l’homme !………………………..