Les limites de la fouille sociale de données

Par le 14/09/11 | 10 commentaires | 4,069 lectures | Impression

Lors de la conférence de sécurité informatique Black Hat qui se tenait récemment à Las Vegas, Alessandro Acquisti, professeur agrégé de technologie de l’information et de politique publique à l’Ecole de Heinz de l’université Carnegie Mellon, a montré comment une photographie d’une personne pouvait être utilisée pour retrouver sa date de naissance, son numéro de sécurité sociale et d’autres informations en utilisant la technologie de reconnaissance faciale pour faire correspondre l’image à celles que l’on trouve sur les sites sociaux type Facebook. Acquisti reconnaît les limites de confidentialité de son travail, mais avertie que le plus gros problème ne repose pas tant sur la violation de la vie privée que sur l’inexactitude des données extraites des techniques d’extraction.

Pour Alessandro Acquisiti, explique Erica Naone de la Technology Review, le risque est bien de voir demain l’information en ligne préjuger de qui nous sommes et se tromper. L’internet pourrait devenir non plus l’endroit où nul ne sait que vous êtes un chien, mais “un endroit où tout le monde connaît votre nom”.

Acquisti s’inquiète de ce qu’il se passe quand les données font des erreurs. “Nous avons tendance à faire des extrapolations fortes sur les données faibles”, explique-t-il. Un certain nombre d’entreprises ont déjà commencé à utiliser les médias sociaux pour mesurer la réputation. La société californienne Social Intelligence par exemple, effectue des fouilles de données poussées sur des employés éventuels pour révéler leurs qualités et défauts…

socialintelligence
Image : Quel est votre taux d’erreur quand vous Googlez quelqu’un ?

Acquisit a tenté de montrer les pièges de ces outils. Pour cela il a procédé à plusieurs expériences. Pour la première, les chercheurs ont récupéré des photos de profils sous pseudonymes sur des sites de rencontres et ont tenté de les identifier en les comparant avec des photos de profils de sites sociaux via une technologie de reconnaissance de visage (PittPatt, racheté récemment par Google). La seconde a consisté à faire la même chose mais depuis des photos d’étudiants prises avec une simple webcam sur un campus et a permis d’identifier un tiers des cobayes. Enfin, cette expérience s’est complétée d’un autre algorithme pour prédire le numéro de sécurité social d’une personne identifiée dans la rue. Son but était de montrer qu’en partant d’un visage anonyme dans la rue, on pouvait obtenir des informations sensibles sur cette personne.

L’équipe a ainsi été capable de retrouver environ un tiers des profils des sujets. A 75 % du temps, ils ont correctement prédit les centres d’intérêts des personnes. Pour 16 % des sujets, ils ont réussi à prédire correctement les cinq premiers chiffres du numéro de sécurité sociale de leurs cobayes, en seulement deux tentatives.

“Mais cela signifie pourtant, que pour 2/3 des sujets, ils n’ont pas réussi à identifier correctement les personnes. Que pour 25 % des sujets, ils ont mal identifiés les intérêts personnels et pour 80 % mal identifié le numéro de sécurité sociale”, pointe avec raison Erica Naone. Ce qui signifie que ces technologies ne fonctionnent pas encore très bien. Et c’est justement là qu’est le risque le plus important, explique Acquisti.

Acquisti s’attend à ce que les technologies de reconnaissance faciale s’améliorent dans les prochaines années et se demande ce qu’il se passera quand elles seront assez évoluées pour qu’on puisse leur faire confiance la plupart du temps. “La technologie risque de devenir cauchemardesque pour ceux qui seront mal identifiés”.

Au Defcon, une conférence sur le hacking qui se tenait également à Las Vegas à la même période, un groupe nommé la Fondation pour la confidentialité en ligne a présenté les résultats (.pdf) de sa Big Five Experiment, une étude du même type, visant à faire correspondre les traits de personnalités de bénévoles à des profils Facebook. Les cobayes devaient remplir des tests de personnalité dont ils se sont servis pour identifier des profils regroupant les mêmes caractéristiques. Les chercheurs de la Privacy Foundation ont trouvé une corrélation entre les personnes dont la personnalité tendait vers l’ouverture et ceux dont les profils Facebook étaient les plus informées. Pourtant, les corrélations exactes ont été là aussi relativement faibles. Selon leurs conclusions, les profils Facebook ne sont pas une source fiable d’information. Cela reste un pari, estime le cofondateur de la Fondation, Chris Summer.

Ce qu’ont cherché à démontrer Acquisti et Summer, conclut Erica Naone, “c’est que les politiques doivent protéger les individus de la fouille sociale de données et de la mauvaise utilisation des informations qui peuvent en être faite en émettant par exemple des normes de précisions auxquelles les organisations devraient se conformer”. Alors que les erreurs sont encore là pour longtemps et ne vont pas nous empêcher d’utiliser ces technologies, quels recours proposent-on aux victimes ? Quelles assurances prend-t-on pour diminuer le risque des fausses identifications – pour autant que leurs effets soient pires qu’une bonne identification ?!

“La question déterminante de notre époque”, affirme Acquisti, “est de savoir comment nous, en tant que société, nous allons traiter ces grands répertoires de données, les big data ?”