D’autres outils et règles pour mieux contrôler les données

Nous le disions dernièrement : l’avenir est à une autre innovation, une innovation proposant une utilisation plus respectueuse de nos données. C’est également l’avis de Sandy Pentland et de ses collègues du MIT qui travaillent à proposer protocoles et outils pour permettre aux utilisateurs de mieux contrôler leurs données personnelles.

L’année dernière pour la revue The Edge, Sandy Pentland, directeur du Laboratoire des dynamiques humaines du MIT qui réfléchit à comment la société peut bénéficier des Big Data, expliquait comment réinventer la société à l’heure des Big Data.

Sandy Pentland
Image : Sandy Pentland, via The Edge.

« La puissance du Big Data, c’est de reposer sur les informations de comportement des gens plutôt que de reposer sur de l’information sur leurs convictions », estime Pentland. Les Big Data ne reposent pas tant sur ce que vous publiez sur Facebook ou ce que vous cherchez dans Google, que sur les données de localisation de votre téléphone ou celles de dépenses de votre carte de crédit. « Elles reposent surtout sur des miettes de données que vous laissez derrière vous quand vous vous déplacez dans le monde. Ces chapelures de données racontent l’histoire de votre vie. Elles disent ce que vous avez choisi de faire. (…) Les Big Data reposent surtout sur le comportement réel, et, en analysant ce type de données, les scientifiques peuvent dire une énorme quantité de choses sur vous. Ils peuvent dire si vous êtes le genre de personne qui va rembourser un prêt. Ils peuvent dire si vous êtes susceptible d’avoir un diabète. (…) Ils peuvent le dire parce que le genre de personnes que vous êtes est largement déterminé par le contexte social. » En comparant les données des uns aux autres, ont peut en déduire votre propre comportement. « Ce qui importe réellement est de savoir comment les gens sont reliés entre eux par les machines et comment, ensemble, ils créent un marché financier, un gouvernement, une société, et d’autres structures sociales. »

C’est pour comprendre cela que Sandy Pentland et Asu Ozdaglar ont créé au MIT le Centre pour la connexion de la science et de l’ingénierie, un centre qui regroupe tous les départements et écoles du MIT, provenant de toutes les spécialités, car ce sont « les liens entre les gens qui sont en fait le problème de base dans la fabrication de systèmes de transport qui fonctionnent bien, des réseaux énergétiques qui marchent efficacement, ou qui créent des systèmes financiers stables. »

La compréhension des systèmes homme-machine est ce qui va rendre nos systèmes sociaux futurs stables et sûrs, assure Pentland. Selon lui, pour dépasser la science, la complexité et la science des données, nous devons inclure les gens comme un élément clé des systèmes. Et c’est là la promesse du Big Data, comprendre les systèmes qui rendent notre société technologique. Et c’est seulement en les comprenant qu’on pourra construire de meilleurs systèmes, que ce soit des systèmes financiers qui ne s’écroulent pas, des gouvernements qui ne s’embourbent pas dans l’inaction, des systèmes de santé qui fonctionnent réellement… Rien de moins !

Reste qu’avec les Big Data, on peut facilement obtenir de fausses corrélations, par exemple, « le lundi, les gens qui se rendent au travail sont plus susceptibles d’attraper la grippe ». Si l’on regarde les données avec les méthodes traditionnelles, cela peut s’avérer vrai, mais le problème est de savoir pourquoi est-ce vrai ? Est-ce causal ? Est-ce juste un accident ? « Les méthodes d’analyses habituelles ne suffiront pas à répondre à ces questions. Nous devons trouver de nouvelles façons de tester la causalité des connexions dans le monde réel bien plus que nous l’avons fait jusqu’à présent ». Pour Pentland, cela signifie que nous ne pouvons plus compter sur des expériences de laboratoire pour comprendre les systèmes, mais nous appuyer sur des expériences provenant du monde réel.

Comprendre le monde

Bien sûr, reconnaît Pentland, les données traitées par les Big Data sont des gens plus que des données. Ce qui génère d’énormes problèmes concernant la vie privée, la propriété et le contrôle des données. Pentland en a depuis appelé à un New Deal sur les données (voir notamment cette tribune pour le Christian Science Monitor cosigné avec Cesar Hidalgo et Yves-Alexandre de Montjoye – et récemment traduite sur LeMonde.fr), une nouvelle politique, qui a inspiré le projet de loi sur la protection des données des consommateurs américains de février 2012 (.pdf). L’idée est que les gens soient plus en capacité de gérer les données qui les concerne.

« Le fait que nous puissions maintenant commencer à réellement regarder la dynamique des interactions sociales et la façon dont elles jouent, et ne plus se limiter à raisonner sur des moyennes comme des indices de marché est pour moi tout simplement étonnants. Etre en mesure de voir les détails de variations sur le marché et les débuts des révolutions politiques, de les prévoir, et même les contrôler, nous rapproche de Prométhée. Les Big Data peuvent être utilisés pour de bonnes ou mauvaises actions, mais de toute façon ils nous conduisent à une époque intéressante. Nous allons réinventer ce que signifie d’avoir une société humaine. »

« Une des grandes questions est de savoir ce que va être, à quoi va ressembler ce monde guidé par les données », interroge Pentland. La clef, bien sûr, est de comprendre que vos données valent plus si vous les partagez, parce qu’elles favorisent le fonctionnent d’autres systèmes comme la santé publique. En étant capable de regarder le comportement en temps réel des gens, comme c’est possible aujourd’hui, vous pouvez par exemple surveiller l’avancement d’une pandémie. « Cela signifie que vous pouvez réellement voir la propagation de la grippe d’une personne à une autre. Et si vous pouvez le voir, vous pouvez l’arrêter. Vous pouvez commencer à construire un monde où les pandémies infectieuses cessent d’être comme une grande menace. »

A mon avis, il y a là un glissement très risqué chez Alex Pentland. Voir la propagation d’une pandémie ne signifie pas être capable de l’arrêter, hélas. Tout comme si un programme de Big Data appliqué à Facebook permettait de discrétiser les enfants qui risquent de devenir un serial shooter dans les 6 mois ne permet de savoir pour autant la réponse à apporter à leur comportement.

La question de la propriété des données

Qui possède les données dans une société guidée par les données ? Est-ce votre compagnie de téléphone, parce qu’elle a les a collectés alors que vous marchiez en utilisant votre mobile ? Peut-être a-t-elle un certain droit à les utiliser, hésite Pentland. « Mais ce que révèlent les discussions entre tous les participants, même les opérateurs téléphoniques, est que vous êtes le seul qui devrait en avoir la disposition. Ils doivent pouvoir avoir la possibilité de conserver des copies pour offrir les services que vous avez demandés, mais vous, individu, devez avoir le dernier mot. Certaines situations sont bien sûr plus complexes. Qu’en est-il des données de transaction avec un commerçant ? Il a un droit d’accès aux données également. Mais en attribuant des droits de propriété aux personnes, ce que vous faites c’est de permettre de briser les silos de données. » Ce que souligne Pentland ici, c’est que l’accès aux données ne peut appartenir qu’à son légitime propriétaire, celui qui est concerné par elles, celui qui les produit.

Nul ne s’oppose vraiment à cela, estime Pentland, sauf les barons des données, « les Facebook et Google qui ont grandi dans un environnement totalement dérégulé ». Il est naturel pour eux de penser qu’ils ont le contrôle sur les données, mais désormais ils vont devoir, lentement, en venir à l’idée qu’ils vont devoir faire des compromis sur ce point.

« Ceux qui ont les données les plus précieuses sont les banques, les compagnies de téléphone, les sociétés médicales, des industries hautement réglementées, qui ne peuvent pas vraiment tirer parti des données de la façon dont ils aimeraient à moins qu’ils obtiennent l’accès à la fois des consommateurs et des régulateurs. L’accord qu’ils vont devoir passer est de donner aux consommateurs le contrôle de leurs données en retour d’une possibilité leur permettant d’utiliser leurs données. Si vous traitez les données des personnes d’une manière responsable, les gens partageront volontairement leurs données. C’est la solution gagnant-gagnant au problème de la vie privée, et seules les entreprises qui ont grandi dans un environnement non réglementé ou les sociétés qui profitent de ce marché gris qui risque de se tarir y seront les plus fortement opposées. »

Nous commençons à voir poindre des services qui s’appuient sur un usage respectueux des données personnelles, estime Pentland. Des services comme ceux faisant de la recommandation personnelle, ceux faisant de la certification d’identité sans mots de passe, des services publics à caractère personnel pour le transport, la santé, etc.

« Il est inhérent à une société fondée sur le partage des données qu’elle atteigne un certain niveau de transparence et de choix pour les individus qui auront tendance à atténuer le contrôle central », conclut Sandy Pentland. « Elle tend à dissoudre la puissance des organisations étatiques et des grandes organisations parce que l’on peut construire des choses qui sont plus efficaces et robustes si elles sont distribuées au-delà des frontières rigides à l’information que l’on voit aujourd’hui. Cela signifie que le gouvernement axé sur le service ou l’entreprise axée sur le service aura tendance à avoir de meilleures offres à un prix inférieur que ceux qui essayent de posséder le client ou contrôler le citoyen. Je m’attends à ce que les organisations avec des frontières d’information dures aient tendance à se dissoudre, parce qu’il y aura une concurrence de choses qui sont mieux que les limites marquées et qui n’essayent pas de posséder vos données. »

Et concrètement ?

Pour Sandy Pentland, les restrictions sur la collecte de données ont toujours du sens, rappelle Steve Lohr dans le New York Times. L’utilisateur devrait rester au coeur du processus. Il devrait demeurer le propriétaire de ses données, être capable de contrôler la façon dont elles sont utilisées, les détruire ou les distribuer comme bon lui semble.

Au MIT, son groupe de recherche développe des outils pour le contrôle, le stockage et la vérification des flux de données à caractère personnel, comme openPDS (vidéo), un entrepôt de données personnelles ouvert. En théorie, ce type de technologie pourrait saper le rôle des courtiers en données et, peut-être, atténuer les risques pour la confidentialité. Si vous cherchez une friteuse sur un moteur de recherche par exemple, un système de vérification devrait détecter toute utilisation non autorisée de votre requête par des sociétés de marketing ou leurs clients (assureurs, etc.) …

Une construction certainement idéale, mais qui risque d’être très compliqué à gérer pour l’utilisateur, qui risque de recevoir sans cesse d’innombrables requêtes… Faudra-t-il autoriser ou refuser les demandes des innombrables sociétés qui nous tracent quand on surfe sur le net à chaque fois que l’on arrive sur une page ?
Le groupe du professeur Pentland collabore également avec des experts en droit, comme Scott L. David de l’université de Washington et membre du conseil consultatif de l’Open Identity Exchange, à élaborer des règles contractuelles innovantes pour le traitement et l’échange de données qui assurent la confidentialité et la sécurité et minimise les risques.

Les équipes du professeur Pentland travaillent aussi à étudier concrètement nos échanges, comme dans le cas du programme Mobile Territorial Lab, qui consiste à étudier les données de mobilité d’une centaine de familles autour de la région de Trente, en Italie, pour comprendre à la fois leurs comportements et les problèmes de vie privée issus de leurs données.

Mais ces solutions ne se focalisent-elles pas trop sur la collecte au détriment de la régulation des croisements et des traitements ? Si la collecte est toujours trop gourmande (parce que devenue trop facile), les problèmes qui nous sont adressés proviennent avant tout des traitements et des croisements. Les extractions de données consistant à aspirer des masses de données en ligne se moquent allégrement des autorisations… comme le montrent les nouveaux services d’emplois ou les futurs services de crédits.

Reprendre la main

Sandy Pentland est également impliqué dans l’Institut pour la conception conduite par les données (ID3) qui travaille à mettre au point une plateforme open source pour sécuriser l’identité numérique et renforcer le contrôle des données personnelles centrées sur l’utilisateur, baptisée Open Mustard Seed. David Bollier et John Clippinger en ont récemment présenté les enjeux dans un texte intitulé « le prochain grand bouleversement de l’internet : l’autorité et la gouvernance ».

La loi de Reed (du nom de David Reed, qui l’exprimait en 1999 dans un article consacré aux Groupes formant réseaux (Group Forming Networks” (GFNs)), pose comme principe que la valeur des réseaux augmente de façon exponentielle à mesure que les interactions passent d’un modèle de diffusion sur le principe du meilleur contenu (où la valeur est décrite par n, le nombre de consommateurs) à un réseau de transactions P2P (où la valeur de base est n²). Mais les réseaux les plus précieux sont ceux qui facilitent les affiliations de groupes.

Lorsque les utilisateurs disposent d’outils pour s’associer de façon libre et responsable à des fins communes la valeur s’élève de façon exponentielle (2n), estiment Bollier et Clippinger.

Le monde d’aujourd’hui basé sur des plateformes propriétaires fournit donc des outils limités. Le meilleur moyen de débloquer d’énormes réserves de valeur sur les réseaux est de développer des outils qui peuvent faciliter la formation de réseaux par des groupes. Ce sera la prochaine grande perturbation de l’internet, estiment David Bollier et John Clippinger, mais pour y parvenir « nous devons développer une architecture de réseau et de systèmes logiciels capables de renforcer la confiance et le capital social des utilisateurs. Ce qui signifie que nous devons ré-imaginer la nature même de l’autorité et de la gouvernance. »

Nous devons inventer de nouveaux types d’institutions numériques qui soient capables d’administrer une autorité reconnue comme authentique et utiliser des outils algorithmiques pour élaborer et faire appliquer la loi, estiment-ils certainement très rapidement. « Nos gouvernements sont-ils à l’abri des forces qui ont perturbé l’Encyclopedia Britannica ? Comment soutenir l’action coopérative face à des institutions centralisées, alors que les plateformes, elles, ont tendance à renforcer la méfiance sociale ? Pouvons-nous demain imaginer une gouvernance et une autorité distribuée, sans gouvernement ? Pouvons-nous imaginer un droit algorithmique, où l’apprentissage des machines permettraient de formuler, d’administrer et faire respecter les lois ? » Bollier et Clippinger semblent ainsi légitimer des pratiques de gouvernement qui iront demain chercher leur légitimité dans leur implacable objectivité, comme le dénonçait le philosophe Thomas Berns. Un propos plus effrayant que rassurant.

Reste que pour cela il propose de nouveaux types d’outils qui méritent l’attention. Générer de nouveaux types d’institutions nées du réseau, tel est l’enjeu de l’Institut pour la conception conduite par les données (ID3) – – fondé par Sandy Pentland et John Clippinger -, qui développe une nouvelle plateforme logicielle (Open Mustard Seed, OMS) permettant aux utilisateurs de créer de nouvelles formes de décentralisation. L’idée est de permettre aux gens de construire leurs propres écosystèmes sociaux de manière distribuée pour contrôler de manière fiable leurs ressources partagées et leurs données personnelles. Le but est de permettre de faciliter la gouvernance à plusieurs et de permettre aux utilisateurs d’être pleinement maîtres de leurs données et de leur partage. Dans ces nouvelles relations, l’opt-in est au coeur des interactions en lignes et de la confiance, permettant aux utilisateurs d’exprimer et de faire valoir leurs propres préférences. Demain, un nouveau « Climat de confiance computationnel » (ou « cadre de calcul digne de confiance ») va permettre de développer de nouveaux types d’institutions de gouvernance, plus évolutifs. Pour David Bollier, ces nouvelles plateformes seraient susceptibles de fournir une plus grande légitimité sociale en rappelant que l’autorité est un processus social collectif qui se construit à travers l’expression de besoins autonomes, les valeurs et les engagements d’un groupe.

L’Open Mustard Seed (OMS) est cadre open-source pour développer et déployer des applications Web dans un nuage personnel sécurisé, centré sur l’utilisateur. Le cadre fournit une pile de technologies de base qui travaillent ensemble pour offrir un haut niveau de sécurité et de facilité d’utilisation lors du partage et de collecte de données personnelles et de l’environnement, le contrôle de périphériques Web, et la collaboration avec d’autres et voir les résultats de ces calculs dans des services protégés. OMS devrait être disponible en version alpha dès l’été. Le logiciel se veut une synthèse d’une variété de systèmes logiciels existants (pour l’identité numérique, la sécurité, la gestion de données) conçus pour servir de nouvelle plate-forme pour l’échange social et économique, une nouvelle « pile sociale » de protocoles. L’idée est qu’OMS permette aux utilisateurs d’exprimer leurs préférences dans la façon dont leurs données personnelles peuvent être consultées et utilisées, en prenant en compte le contexte (banque, santé, amis…). Il étend les fonctionnalités de base des entrepôts de données personnelles.

Difficile pour l’instant de se faire un avis sur le potentiel et les limites de cet outil, dans lequel ses promoteurs semblent placer beaucoup d’espoirs, qui semble ressembler d’une certaine façon à l’expérimentation que lance la Fondation internet nouvelle génération avec le projet MesInfos. Permettre aux gens de redevenir maîtres des données que des entreprises possèdent sur eux. De quelque façon qu’on tourne le problème, on voit bien qu’on en revient toujours là.

Hubert Guillaud

À lire aussi sur internetactu.net

0 commentaires

  1. Très bon article qui explique le problème majeur aujourd’hui des grosses sociétés comme Google ou Facebook avec la protection des données ! Mais il ne faut pas comparer ce qui n’est pas comparable, à savoir les sociétés comme Google qui essaient à tout pris de nous enfermer dans leur écosystème, qui essaient de créer leur propre internet en créant d’avantages de services afin de devenir maître de l’internaute. On constate aujourd’hui que nos données ne sont finalement plus secrètes mais il ne faut pas mélanger Google avec ces autres sociétés fournissant des solutions de web analytics. Ces solutions permettent de mesurer le nombre de visiteurs sur une page mais respectent parfaitement la vie privée des internautes. Un article écrit par Mathieu Llorens souligne ce problème d’Internet « fermé » par les acteurs majeurs du web : http://blog.atinternet.com/fr/index.php/2013/04/08/tendances/pour-internet-ouvert-liberez-les-apis/3012

    Merci pour votre article très instructif.