A qui appartiennent mes logs ?

La mise en ligne par AOL d’un document contenant des millions de données sur les recherches effectuées par ses utilisateurs américains pose des questions de fonds sur l’exploitation des contenus des logs, ces journaux des connexions au serveur. L’occasion de s’interroger sérieusement sur leur sens, leur risque, leur valeur, leur pérennité et leur volatilité.

Début août, une équipe d’AOL Research a mis en ligne, avant de le retirer promptement, un document contenant des millions de données sur les recherches effectuées par ses utilisateurs américains (concernant quelques 658 000 internautes ayant effectué quelques 20 millions de requêtes sur les mois de mars, avril et mai 2006). Téléchargé plusieurs centaines de fois, le fichier a été depuis livré en pâture sur l’internet (il existe même plusieurs moteurs de recherche spécifiques permettant de mener des requêtes sur ces données, notamment AOL Search Database, Datablunder ou Frogspy…).

Exemple du fichier divulgué par AOL

Le fichier a déjà été exploité par de nombreux chercheurs et blogueurs (comme BioloGeek), et a livré des premiers résultats généraux assez intéressants, indique SearchNewz :

  • 45 % des clics se font sur le premier résultat de recherche, le second ne totalisant déjà plus que 13 % des clics et ainsi de suite ;
  • Un fort pourcentage de requête ne porte pas sur un sujet, mais sur un nom de domaine ;
  • Le nombre de requête incomplètes ou mal orthographiées est très important ;
  • 28 % des requêtes sont une reformulation à la suite d’une première recherche infructueuse. En moyenne, les utilisateurs reformulent 2,6 fois leurs requêtes pour accéder à un meilleur résultat…

Pourtant l’essentiel n’était pas dans les résultats généraux.

Avant publication, le fichier avait été rendu anonyme : le nom des abonnés n’était pas visible et avait été remplacé par des numéros d’identification. Une anonymisation qui n’a pas servi à grand-chose : la liste des recherches associées à chaque identifiant a permis à de nombreux pisteurs de retrouver la trace d’internautes, d’identifier leurs numéros de sécurité sociale, leurs adresses parfois, jusqu’à leurs noms pour certains. En observant la seule liste des requêtes quotidiennes, sur plusieurs mois, il n’est souvent pas difficile de comprendre les préoccupations de l’internaute, d’imaginer son intimité, voire de retrouver son identité.

Les journalistes du New York Times sont par exemple parvenus à identifier l’utilisateur « 4417749 », une veuve de 62 ans, grâce à la liste de ses requêtes (par exemple : « chien qui fait pipi partout », « taxe foncière de Harrisburg, Virginie », « solitude », « Paranoïa », « Thé pour une bonne santé », etc.). Le grand jeu de l’été a ainsi consisté à pister les requêtes les plus étranges, faisant apparaître un formidable « tableau des intentions cachées », comme le soulignent Google Blogoscoped et Chryde. Le Guardian évoque ainsi cet homme, qui a une passion pour le football portugais et vit dans une ville de Floride. Visiblement, il apprend que sa femme a une relation extraconjugale et les requêtes qu’il effectue sur son moteur décrivent l’évolution de sa relation : « Ma femme ne m’aime plus ». Il cherche à « interrompre son divorce » puis à prendre une « revanche sur sa femme » avant de regarder les propres symptômes de son malaise : « manque d’alcool », « symptômes du manque d’alcool » (à 10 heures du matin) et « problème d’érection ». Le 1er avril, il chercha un médium local pour lui « prédire son futur ».

Autre exemple frappant ? L’utilisatrice 11110859 à New York qui, le 7 mars, a recherché des « fringues hip-hop ». Le 26, elle a cherché « perdre sa virginité » avant de s’interroger pendant plusieurs semaine pour savoir si on « pouvait tomber enceinte même après avoir eu ses règles ». Quelques temps plus tard, elle s’interroge à nouveau « pourquoi les gens font-ils mal aux autres ? » Le 19 mai, elle demande : « Comment aimer quelqu’un qui vous maltraite ? », « Que dit Jésus à propos d’aimer ses ennemis ? » Ensuite, elle demandera encore « la direction de la prison de New York » avant de demander au moteur « quels objets a-t-on le droit d’y apporter ? »

On pourrait rapporter beaucoup d’autres histoires sur ces requêtes mises bout à bout. Un site, AOL Psycho, invite même les internautes à décrire collectivement les profils pour repérer les cas les plus « intéressants », les plus emblématiques ou les plus dangereux, c’est selon. Ces tentatives de retracer des parcours individuels font froid dans le dos. Bien sûr, pour quelques séquences de recherche éclairantes, la plupart des autres s’avèreront sans doute impossibles à interprêter. Mais le « 17556639 » voulait-il vraiment « tuer sa femme », comme il l’a formulé à plusieurs reprises ?

Si quelques chercheurs ont exprimé des réserves éthiques a utiliser un tel fichier, comme l’indique l’International Herald Tribune, d’autres se sont félicités de disposer d’une telle ressource, qui est rarement accessible au commun des chercheurs. Reste que le scandale AOL pose de nombreuses questions laissées sans réponses et notamment sur le rôle et la fonction de l’anonymisation. Car on ne rend pas des données anonymes en masquant seulement le nom de leur utilisateur, comme semblaient le croire certains chercheurs d’AOL.

Les traces de nos requêtes que gardent les moteurs ne sont pas innocentes. Bien sûr, pour les moteurs, ces données servent à fournir des résultats plus pertinents, à personnaliser nos résultats de recherche en fonction de nos habitudes pour nous fournir un meilleur service. Sont-ce des raisons suffisantes pour qu’ils conservent indéfiniment des informations aussi sensibles ?

« Où est le pouvoir totalitaire ? », s’interroge le Guardian, avant de répondre : le vrai pouvoir totalitaire ne repose peut-être pas tant sur la censure, que sur le fait de laisser les citoyens dire et chercher ce qu’ils veulent – et le garder en mémoire.

Il s’agit pourtant d’une question récurrente, à laquelle les réponses apportées ne sont jamais satisfaisantes. Quelle est la valeur réelle, dans le temps, des traces de connexion et de recherche ? Augmente-t-elle avec le temps et les progrès technologiques ? Comment anonymiser les données à l’origine ? Peut-on préserver leur valeur marchande tout en respectant l’intimité de chacun ? Ou se situe l’équilibre ? Faut-il adopter une mesure radicale comme celle que prône Jason Calcanis de Weblogs Inc., récemment rachetée par AOL, à savoir de ne plus garder aucune trace des requêtes effectuées ? Faut-il créer une autorité indépendante qui vérifie la destruction régulière de ce type de données, comme le suggère Bruno Giussani ? L’EFF (Electronic Frontier Foundation) appelle à une politique claire de conservation des données ; « AOL pourrait rendre un grand service à la communauté en ligne en s’engageant à supprimer définitivement les données de requêtes et en poussant les autres entreprises à faire de même« , affirme pour sa part Marc Rotenberg, directeur de l’Epic (Electronic Privacy Information Center).

Certes, Google par exemple affirme régulièrement que les données collectées ne seront divulguées nulle part, et qu’en aucun cas les gouvernements (même celui des États-Unis) n’obtiendraient leurs fichiers. Mais comme l’expliquent de nombreuses associations, le mieux serait peut-être que ces données n’existent pas.

Certes, des techniques qui nous permettent d’anonymiser nos données à la source (outils, moteurs « propres », navigateurs) refont surface depuis l’incident AOL, dont certaines sont extrêmement simples. Mais les internautes ne changeront pas si facilement leurs habitudes, et l’on serait en droit d’attendre que les entreprises aillent au-devant de ces attentes. « Les moteurs de recherche doivent comprendre qu’ils disposent d’informations très sensibles, même si cela n’implique pas forcément des données personnellement identifiables« , rappelle Ari Schwartz, vice-président du Center for Democracy and Technology.

Assurément, le log – c’est-à-dire, le journal des connexions au serveur -, qui permet d’identifier l’internaute et de tracer l’historique de ses actions, est appelé a prendre de plus en plus d’importance, à mesure que nous utilisons l’internet pour accomplir de plus en plus de choses de la vie de tous les jours. Cette donnée a toujours été capitale pour tous les acteurs de l’internet. Mais il est peut-être temps en tout cas de s’interroger sur son sens, son risque, sa valeur, sa pérennité et sa volatilité. Si les gouvernements européens font aux fournisseurs d’accès obligation de conserver les données de connexion – mais pas les contenus des communications -, reste que les contenus de ces données doivent être éclaircies. Car une chose est sûre : si ces données existent, tôt ou tard, quelqu’un en abusera.

En attendant, manifestement, les moteurs de recherche continuent de jouer aux apprentis sorciers avec nos données.

Hubert Guillaud

Tag : .

___________
Pour ceux qui s’intéressent à ces problématiques, signalons la parution d’un excellent dossier intitulé « Traçage électronique et libertés« , dans le numéro de juin 2006 de la revue Problèmes politiques et sociaux de La documentation Française.

À lire aussi sur internetactu.net

0 commentaires

  1. « le vrai pouvoir totalitaire ne repose peut-être pas tant sur la censure, que sur le fait de laisser les citoyens dire et chercher ce qu’ils veulent – et le garder en mémoire. »
    Ceci me rappelle ce que j’avais appris à la fac sur la période des « Cent fleurs, cent écoles » lancée par Mao Zedong : que tout le monde s’exprime librement ! Pour découvrir les dissidents et les neutraliser.

  2. Intéressant, mais vous devriez aller plus loin … Je vous trouve trop gentil.

    Les moteurs de recherche ne stockent pas toutes ces informations gratuitement : c’est bien pour les utiliser et les rentabiliser qu’ils engrangent ces données !

    L’utilisation qui est faite de ces données est déjà abusive, pas la peine d’en parler au « conditionnel futur ».

    Veuillez excuser la forme un peu abrupte de cette réaction, et bonne journée,

    Jeff

  3. Le gros souci avec ce genre « d’analyse » est que les requêtes loggées n’ont pzs forcément de lien direct avec le « profil » de l’utilisateur. Par exemple, il m’arrive assez souvent d’utiliser un moteur de recherche pour vérifier l’orthographe d’un mot. D’où la présence d’un très suspect « barbithuriques » dans les logs du moteur à la lettre « b », aux côtés de « Bataille de la Marne », « batteur à oeuf », « bible l’Exode », « boulier » et « boîtier pour disque dur 2,5 pouces ».

    Maintenant, la seule requête « utile » (càd. me touchant de près) est celle portant sur les boîtiers pour disques durs (il m’en fallait un), tout le reste correspondant à la recherche de photos ou de références diverses en vue de leur postage sur un forum où j’écris parfois de petits textes humoritiques agrémentés de photos.

    Est-ce que ça fait de moi un dépressif regrettant de ne pas être monté au front pendant la guerre de 14-18 avec un battoire à oeuf, après avoir calculé sur un boulier ses chances de survie, relu la Bible, et glissé un boîtier de disque dur sous mon uniforme en guise de gilet pare-balle ? Pas sûr…

  4. « Une procédure judiciaire a été entamée aujourd’hui en Californie contre AOL suite à la divulgation des données privées de milliers d’utilisateurs. L’accusation demande notamment à AOL, de ne plus héberger les données de recherche de manière agrégée. Il est également demandé à ce que les données de recherche n’apparaissent plus dans les futures pages de résultats et qu’aucune utilisation commerciale ou non commerciale n’en soit faite », rapporte TechCrunch.

  5. http://incident.net/works/islanders/

    “On ne peut pas travailler pour les autres. On travaille pour des frères mystérieux qu’on possède à travers le monde. Il y a une île qui est brisée, dispersée à travers le monde. Et, en somme, l’art est une espèce de signal, comme un mot d’ordre pour retrouver des compatriotes”
    (Jean Cocteau – Journal sonore du testament d’Orphée)

    Où êtes-vous? Où est chacun d’entre vous? Quelle est votre ville? Quel est votre nom? Quelle existence menez-vous?

    Qui êtes-vous? je sais certaines choses de vous. Je sais que vous regardez mon site. Vous y restez un certain temps. Je sais que vous êtes chez vous. Je peux presque vous voir. Passer de l’un de vous à un autre. Voir le pays. Votre pays. Passer d’un continent à l’autre. Et vous voir. Vous voir presque. Vous voir autant que vous me voyez sur mon site. Nous ne nous connaissons pas. Je sais que vous êtes là. Vous le savez aussi.

    Durée: 55′04

    Mashup: Google Earth + websire statistics + GPS PHP conversion.
    Statistiques du site gregory.incident.net le 24 mars 2007. Géolocalisations des internautes et implantation dans Google Earth de ces données pour une promenade à travers le monde.
    ps: Le site est encore en cours de développement.