L’anonymisation transforme-t-elle les résultats de recherche ? – ACMQueue

Le 30 mai 2014, des chercheurs du laboratoire de l’apprentissage numérique du MIT et de Harvard ont publié des données anonymisées sur les étudiants suivants 16 cours de la plateforme de cours en ligne (Moocs) EdX pour permettre à d’autres chercheurs de les utiliser. Celles-ci ont donné lieu à de nombreuses exploitations, notamment par le Chronicle of Higher Education montrant que les cours en ligne attiraient surtout des étudiants de sexe masculin, déjà largement diplômés, de 24 ans de moyenne d’âge, provenant pour 1/3 d’Amérique du Nord, dont la moitié n’a fait que s’inscrire (10 % n’a consulté que la moitié des cours et 3 % ont visionné toutes les pages). Parmi les élèves les plus assidus, ce sont les plus diplômés et les européens qui ont consulté le plus de cours.

Mais le problème du respect du nécessaire anonymat des données a induit de mauvaises interprétations de celles-ci, estiment les chercheurs dans une récente étude. Si l’analyse initiale montre que 5 % des inscrits ont obtenu leur certificat, certaines méthodes d’anonymisation conduisent à réduire ce résultat de moitié.

L’anonymisation a des conséquences directes sur la reproductibilité des résultats, soulignent les chercheurs. Peut-être, faut-il mieux travailler à distinguer anonymat et vie privée dans les techniques de protection des données. “Si nous privilégions la vie privée, nous avons connaissance de l’identité des personnes, mais pas des faits personnels associés, si nous privilégions l’anonymat, nous avons connaissance de faits personnels mais pas de l’identité de la personne associée.”

Réaliser le potentiel de l’ouverture des données scientifiques nécessite un nouveau paradigme, une solution technique qui soit capable de distinguer la possession des données de leur analyse ou des solutions à bases de règles qui permettent l’accès ouvert à des données non anonymisées tout en réglementant leur usage. En tout cas pour les chercheurs, aujourd’hui, les idéaux d’ouverture de données scientifiques et les exigences réglementaires sur l’anonymat des données sont incompatibles. Selon eux, la solution est à trouver dans le “différentiel de vie privée”, un cadre où les données d’origine sont maintenues, mais leur accès brut protégé, permettant au chercheur d’accéder à une base de données sécurisée qu’il peut interroger mais qui ne fournit pas de réponses permettant d’identifier les personnes (à l’image de SafeAnswers du MIT qu’évoquait Yves-Alexandre de Montjoye). Autre solution, permettre des accès sans restriction à des bases de données sécurisées mais interdire aux chercheurs d’utiliser les données à des fin commerciales ou de les extraire, afin de maximiser leur protection.

À lire aussi sur internetactu.net

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.