Big Data : nouvelle étape de l’informatisation du monde

Par le 14/05/13 | 13 commentaires | 9,969 lectures | Impression

Viktor Mayer-Schönberger, professeur à l’Oxford internet Institute, et Kenneth Cukier, responsable des données pour The Economist ont récemment publié Big Data : une révolution qui va transformer notre façon de vivre, de travailler et penser (le site dédié). Ce livre est intéressant à plus d’un titre, mais avant tout pour ce qu’il nous apprend du changement du monde en cours. Riche d’exemples, facilement accessibles, il dresse un état compréhensible des enjeux des Big Data en insistant notamment sur ce que cette nouvelle étape de l’informatisation transforme.

Le code n’est plus la loi !

“Les systèmes informatiques fondent leurs décisions sur des règles qu’ils ont été explicitement programmés à suivre. Quand un problème survient, nous pouvons donc revenir en arrière et comprendre pourquoi l’ordinateur a rencontré un problème. Par exemple, nous pouvons étudier pourquoi le pilote automatique d’un avion s’élève de cinq degrés lorsqu’un capteur externe détecte une soudaine augmentation de l’humidité… Le code informatique d’aujourd’hui peut être ouvert et inspecté, et ceux qui savent comment l’interpréter peuvent suivre et comprendre le fondement de ces décisions, quelle que soit sa complexité.

Avec les Big Data, cependant, cette traçabilité va devenir beaucoup plus difficile. La base de prédiction d’un algorithme peut devenir beaucoup trop complexe pour qu’un être humain moyen la comprenne.”

Pour les auteurs, les Big Data créent une intelligence artificielle qu’aucun humain ne peut comprendre. Mais plus encore, à les lire, résonne les propos de Lawrence Lessig, sur le code fait loi, qui nous expliquait que c’était le code qui régulait le cyberespace. Et qui nous disait aussi qu’à mesure que le code change, la nature du cyberespace change. Et c’est bien ce qui est à l’oeuvre avec les Big Data. Si jusqu’à présent nous pouvions, la plupart du temps, accéder au code source et donc mesurer ce qui était pris en compte, c’est de moins en moins le cas, et cela risque de le devenir toujours moins avec les Big Data.

“Quand les ordinateurs ont été explicitement programmés pour suivre des ensembles d’instructions, comme avec les premiers programmes de traduction d’IBM permettant de passer du russe à l’anglais en 1954, un humain pouvait facilement comprendre pourquoi le logiciel substituait un mot par un autre. Mais Google Translate intègre lui des milliards de pages de traductions pour prendre ses décisions quant à savoir si le mot anglais light doit être traduit par lumière ou léger. Il est impossible pour un humain de trouver les raisons précises de choix du mot dans le programme, car ce choix est basé sur des quantités massives de données et de vastes calculs statistiques.”

A l’heure des algorithmes, des APIs et des Big Data (c’est-à-dire des traitements, des croisements et des vastes ensembles de données), le code, qui était le fondement d’internet, se complexifie. Il n’est plus la loi, comme nous l’avait appris Lawrence Lessig. Il ne se régule plus par la transparence. On ne peut plus regarder le code source de Google Translate pour en comprendre le fonctionnement. Et c’est d’autant plus vrai à mesure que les données, les croisements et les traitements se démultiplient, se complexifient et s’imbriquent. Et l’une des conséquences est bien le changement de l’internet tel que nous le connaissions.

“Les Big Data fonctionnent à une échelle qui dépasse notre compréhension ordinaire. Par exemple, la corrélation que Google a identifiée entre une poignée de termes de recherches et la grippe est le résultat du test de 450 millions de modèles mathématiques. Par contraste Cynthia Rudin (responsable du Predictics Lab du MIT, NDE) avait initialement conçu 106 indicateurs pour savoir si une bouche d’évacuation pouvait prendre feu pour expliquer aux gestionnaires de Con Edison (la société qui fournit l’électricité, le gaz et la vapeur à plus de 3 millions de clients à New York, NDE) comment son programme d’inspection de sites prioritaires fonctionnait. “L’explicabilité”, comme on l’appelle dans les milieux de l’intelligence artificielle, est importante pour nous mortels, qui ont tendance à vouloir comprendre pourquoi et pas seulement comment. Mais que faire si au lieu d’avoir 106 indicateurs, le système en générait 601, et si la grande majorité avait une faible pondération, mais si, pris tous ensemble, ils amélioraient la précision du modèle ? La base de toute prédiction peut devenir incroyablement complexe. Comment aurait-elle pu alors l’expliquer aux décisionnaires et les convaincre de réaffecter leurs budgets limités ?

Ces scénarios, nous permettent de voir que les prédictions issues des Big Data, des algorithmes et des ensembles de données derrière eux, vont devenir des boîtes noires nous offrant ni responsabilité, ni traçabilité ou confiance. Pour éviter cela, les Big Data vont nécessiter une surveillance et une transparence, qui a leur tour va nécessiter de nouvelles formes d’expertises et d’institutions. De nouveaux acteurs vont être appelés à fournir un soutien dans les domaines où la société aura besoin d’examiner des prédictions issues des Big Data et permettre aux personnes qui se sentent lésées par elles de demander réparation.

En tant que société, nous avons souvent vu ces nouvelles entités apparaitre lorsqu’une augmentation spectaculaire de la complexité et de la spécialisation dans un domaine particulier produisait un besoin urgent de spécialistes pour gérer ces nouvelles techniques. Des professions comme le droit, la médecine, la comptabilité et l’ingénierie ont subi ces transformations il y a plus d’un siècle. Plus récemment, des spécialistes de la sécurité informatique et la vie privée sont apparus pour certifier que les entreprises se conforment aux meilleures pratiques établies par des organismes comme l’Organisation internationale de normalisation (qui a été lui-même lancé pour répondre à un nouveau besoin de lignes directrices dans ce domaine).

Les Big Data vont nécessiter un nouveau groupe d’experts pour assumer ce rôle.”

Et Mayer-Schönberger et Cukier d’en appeler à la naissance d’“algorithmistes”… Des spécialistes capables de comprendre les données pour contrôler les entreprises de l’extérieur comme de l’intérieur – “tout comme les entreprises disposent en interne de comptables et d’auditeurs externes pour surveiller leurs comptes.”

Pour les auteurs, le fait que nous ne puissions plus contrôler le code ou y avoir accès nécessitera à l’avenir de nouvelles formes de régulateurs et de régulations, dont les “algorithmistes” seront l’une des formes. Si effectivement on peut penser que les spécialistes des données vont se multiplier dans les entreprises, il est pour l’instant plus difficile d’imaginer une fonction externe ou une autorité de contrôle ou de surveillance des algorithmes – Evgeny Morozov suivait pourtant la même piste en imaginant demain des auditeurs externes chargés de la vérification des algorithmes. Mais si les uns et les autres imaginent une certification des algorithmes, personne ne semble vraiment savoir sur la base de quelles règles. Là où celles de la comptabilité et de la fiscalité sont nombreuses, force est de constater que pour l’instant, en matière de Big Data, c’est encore le Far West !

Qu’importe la causalité, voici venu le temps des corrélations

Autre point important que développent les auteurs dans leur livre, l’avènement de la pure corrélation. Alors qu’on a tendance à souligner combien corrélation n’est pas causalité – parce que les corrélations sont déjà tout autour de nous, rappelait Daniel Engber -, Mayer-Schönberger et Cukier estiment quant à eux que c’est là un combat perdu. Pire, c’est même l’inverse que permet le Big Data : trouver des corrélations que nous n’avions pas vues.

Ils rappellent que ceux qui ont mis au point Google Flu ont justement cherché une combinaison de termes de recherches dans le moteur de Google qui se corrèlent avec les prédictions sanitaires existantes. C’est ainsi qu’ils ont trouvé une solution “leur logiciel a trouvé une combinaison de 45 termes de recherches qui, quand ils sont utilisés ensemble selon un modèle mathématique, forment une forte corrélation entre les prédictions et les chiffres officiels”. En évoquant un autre exemple, l’indice de prix des billets d’avion mis en place par Oren Etzioni pour Farecast (devenu Bing travel), ils expliquent que le spécialiste ne cherchait pas à comprendre les raisons expliquant l’évolution des prix des billets d’avion (les calculs complexes de la tarification algorithmique), mais seulement d’être capable de prédire si le prix allait augmenter ou diminuer dans le futur.

“Le but de son modèle n’était pas de comprendre le pourquoi, mais uniquement le comment.”

Il se moquait de connaître les variables qui décident des fluctuations de prix (comme le nombre de sièges non vendus, la saisonnalité…), il voulait juste savoir s’il fallait acheter ou ne pas acheter son billet d’avion. Son idée n’était que de construire un autre algorithme pour comprendre les algorithmes auxquels il n’avait pas accès. Pour cela, Oren Etzioni a fait avaler plus de 200 milliards d’enregistrements de prix de vols à son algorithme. En 2012, son système était capable de faire une prévision correcte à 75 % du temps, faisant gagner en moyenne quelque 50$ par billet acheté.

Cette double construction algorithmique (celle qui permet de construire le prix du billet et celle qui permet de la comprendre sans en connaître les facteurs) illustre très bien le phénomène des Big Data. “Le changement d’échelle a conduit à un changement d’état”, insistent Mayer-Schönberger et Cukier. “Le changement quantitatif a entraîné un changement qualitatif”… un peu comme quand nous sommes passés de la photo au cinéma prennent-ils comme exemple : en modifiant la quantité (le nombre de prises de vues possibles à la seconde), nous avons changé l’essence de la photographie.

Les Big Data – soulignent-ils – se réfèrent à des choses qu’on peut faire à grande échelle et qui ne peuvent pas être faites à plus petites échelles, pour en extraire de nouvelles connaissances ou de nouvelles formes de valeurs, et créer de nouvelles innovations et de nouveaux services. Notre obsession pour la causalité est en passe d’être transformée par de simples corrélations, qui n’expliquent pas le pourquoi, mais montrent uniquement le quoi. Nous n’allons pas comprendre les domaines du comportement humain (sur lesquels vont agir les Big Data), mais nous allons savoir (ou tenter de savoir, ces corrélations n’étant pas exemptes d’erreurs) comment ils agissent et réagissent.

“Les corrélations ne peuvent pas nous dire précisément pourquoi quelque chose se passe, mais elles peuvent nous avertir du moment où cela se passe.” L’impact, le changement qu’induit la corrélation, relègue la causalité à quelque chose de beaucoup moins important. Et ça fonctionne assez bien la plupart du temps, rappellent les auteurs. “Si l’étude de millions de dossiers médicaux montrent que les personnes atteintes d’un cancer voient leur maladie entrer en rémission s’ils prennent de l’aspirine et du jus d’orange par exemple, alors la cause exacte qui explique l’amélioration de leur santé est beaucoup moins importante que le fait qu’ils vivent”, que le remède marche.

“La plupart de nos institutions ont été créées en vertu de la présomption que les décisions humaines sont fondées sur l’information qui est petite, exacte, et de nature causale. Mais la situation change lorsque les données sont énormes, peuvent être traitées rapidement, et tolèrent l’inexactitude. En outre, en raison de l’immensité des données, les décisions peuvent souvent être prises non plus par les humains, mais par des machines.”

Pour les auteurs, les corrélations peuvent être trouvées de manière beaucoup plus rapide (et moins cher) que les liens de causalité, ce qui explique qu’elles vont leur devenir préférables. Cela ne signifie pas que nous n’aurons plus besoin d’étude de causalités, mais bien souvent, la corrélation sera “assez bonne” et les auteurs de prendre l’exemple du travail du responsable des données de la ville de New York, Mike Flowers, qui a révolutionné l’inspection des immeubles de la ville grâce à l’analyse de données en ordonnant les 25 000 plaintes annuelles que reçoivent les 200 inspecteurs du service débordés. Leur travail a consisté à trouver une corrélation entre l’urgence des innombrables réclamations et les signalements de problèmes aux services d’urgence, permettant aux inspecteurs de se concentrer sur les problèmes les plus importants plutôt que d’être débordés par le flux des plaintes.

Autant d’éléments qui annoncent transformer en profondeur notre rapport à l’information.

“À bien des égards, la façon dont nous contrôlons et gérons les données devra changer. Nous entrons dans un monde de prédictions basées sur des constantes qui pourraient ne pas être en mesure d’expliquer les raisons de nos décisions.” Demain, un médecin pourra décider d’une intervention médicale uniquement parce que les données le lui auront indiqué, sans même en comprendre la raison… Et on entend très vite les conséquences que cela aura sur la liberté et la dignité humaine. Quel rôle sera laissé à l’intuition, à la foi, à l’incertitude, à notre libre arbitre, à notre liberté à agir en contradiction avec les preuves, à l’apprentissage par l’expérience ? A l’heure des corrélations, que va devenir notre idéal, notre capacité à toujours chercher la causalité ? Assurément, nos certitudes sur ce que nous sommes sont appelées à changer.

Nous devons réinventer la protection de la vie privée

L’avènement des Big Data ne rend pas seulement la protection de la vie privée beaucoup plus difficile, estiment Mayer-Schönberger et Cukier (et c’est un euphémisme, l’informaticien Arvind Narayanan de l’université de Princeton, estime déjà qu’à l’heure des Big Data, “l’anonymat est devenu algorithmiquement impossible”), elle présente aussi de nouvelles menaces : la dictature des données pourrait nous conduire tout droit à la justice prédictive. “Malgré le contrôle de la population que l’Etat imposa, l’Allemagne de l’Est était incapable de prévoir qui pourrait devenir un dissident, mais désormais nous pouvons le faire – les forces de police commencent à utiliser des modèles algorithmiques pour décider où et quand patrouiller, car les données leur donnent un soupçon sur les choses à venir”. Avec PredPol, ils ne savent pas qui va frapper, ni pourquoi… Mais ils ont une indication statistique de l’endroit où devrait se dérouler le prochain délit.

Pour les auteurs, la question n’est pas tant de regarder si les gros volumes de données bouleversent notre conception de la vie privée (elles le font), mais si elles changent le caractère du risque lié à la surveillance. “Si la menace est simplement plus grande, alors les lois et les règles qui protègent la vie privée peuvent être améliorées : tout ce que nous devons faire est redoubler nos efforts actuels. Mais si le risque change, nous allons avoir besoin de nouvelles solutions.”

Pour les auteurs, il est frappant que les utilisations secondaires des données n’aient pas été réellement imaginées avant de devenir possibles (et ce alors qu’“une grande partie de la valeur des données proviendront de ces utilisations secondaires, et non simplement son utilisation principale, comme nous sommes habitués à le penser”). Longtemps, les formulaires d’autorisation de collecte de données n’ont pas mentionné la possibilité d’utiliser les données à d’autres fins. Peut-on pourtant demander leur consentement aux gens pour toute utilisation qui sera faite de leurs données ? Peut-on imaginer Google contacter tous ses utilisateurs pour leur demander leur permission pour utiliser leurs requêtes afin de prédire la grippe ? Pour Mayer-Schönberger et Cukier cela ne semble pas probable. Trop compliquée, une telle mesure couperait court à l’innovation promise par les Big Data.

L’alternative, comme le proposent bien des Conditions générales d’utilisation d’aujourd’hui, consistant à demander aux utilisateurs d’accepter toute utilisation future possible de leurs données au moment de la collecte, n’est pas plus raisonnable, concèdent-ils. La technique de l’anonymisation des données ne fonctionne plus. Elle était efficace dans un monde où les données étaient rares. Mais les Big Data facilitent tellement la ré-identification, que toute volonté d’anonymisation semble devenir impossible… Ne suffit-il pas que vous notiez 6 films obscurs pour que cela suffise à identifier un utilisateur en comparant les données anonymisées livrées par Netflix aux chercheurs chargés d’améliorer ses algorithmes, avec d’autres données trouvées en ligne ? Dans le cas de l’affaire des logs d’AOL, il a suffi de scruter l’activité de recherche d’utilisateurs pour en identifier un bon nombre. Dans les deux cas, les données étaient pourtant anonymisées. Mais à mesure que nous capturons et que nous combinons de plus en plus de données, tout anonymat devient impossible.

“A l’ère du Big Data, les trois principales stratégies qui assuraient la protection de la vie privée – à savoir le consentement préalable, l’opt-out et l’anonymisation – sont dépassées.”

De l’obsession de la prévention au danger de leur prédiction

“Prévenir les comportements malsains, dangereux ou risqués est devenue une pierre angulaire de la société moderne”. La prévention des risques – l’obsession de la prévention devrait-on dire – pourrait aller encore plus loin avec les Big Data. Que se passera-t-il quand les données seront capables d’identifier des individus dangereux avant même qu’ils n’aient commis de crimes ? Certes, accuser une personne d’un comportement futur possible, c’est nier le fondement même de la justice : la présomption d’innocence… Mais comment utiliserons-nous les prédictions issues de nos algorithmes ? Comment allons-nous traiter la responsabilité individuelle ? Le développement des Big Data fait peser une réelle menace non seulement sur notre vie privée, mais également sur notre liberté et notre dignité.

Bien sûr Mayer-Schönberger et Cukier, rappellent longuement que les chiffres sont bien plus faillibles qu’on ne le pense. Ils peuvent être biaisés, mal analysés, utilisés à tort ou ne pas saisir ce qu’ils sont censés mesurer. L’analyse produite peut-être mal utilisée également… Et ces problèmes peuvent devenir plus fréquents et avoir des conséquences plus importantes à l’heure des Big Data. Google, par exemple, a longtemps utilisé les résultats scolaires des candidats à l’embauche pour les choisir, alors qu’aucune étude interne n’a montré de corrélation entre ces résultats et le rendement des employés. Selon les normes de Google, ni Bill Gates, ni Mark Zuckerberg, ni Steve Jobs n’auraient été embauchés puisqu’aucun n’a eu son diplôme universitaire. Peut-on résoudre toute décision à un problème de logique sans risque de paralyser la décision elle-même ? Les gens qui recherchent des informations sur la grippe peuvent ne pas en avoir les symptômes, mais faire cette recherche pour d’autres ? Le risque est bien demain qu’on punisse les gens pour leurs penchants, pour leurs relations, plutôt que pour leur action…

Nous ne devrions pas être capables de juger les gens sur ce que nous avons prédit qu’ils feraient, estiment les spécialistes. Mais combien de temps ce rempart pourra-t-il tenir ? Si demain, un logiciel est capable d’identifier des individus à risque (comme c’est déjà le cas des logiciels utilisés par les services de renseignements… souvenons-nous de l’édifiante histoire de l’artiste Hasan Elahi), comme de potentiels terroristes ou tueurs, peut-on croire que nous ne l’utiliserions pas ! La prière de Mayer-Schönberger et Cukier, que la présomption d’innocence demeure basée sur des actions concrètes plutôt que sur l’analyse des Big Data, n’est-elle pas déjà un voeu pieux ? Notre nom se transforme en alerte sur les logiciels bien avant d’avoir commis un crime, comme c’est déjà le cas en cas de découvert bancaire, ou quand nous partons dans un pays blacklisté ou lorsqu’on exprime certaines idées. On se souvient par exemple de la dénonciation du rapport de l’Inserm de 2005 par le collectif Pas de zéro de conduite pour les enfants de trois ans qui se dressait contre la corrélation abusive entre des difficultés psychiques de l’enfant et une évolution vers la délinquance… Et c’est pourtant bien ce type de corrélations que vont produire demain les Big Data.

Les Big Data risquent surtout d’accentuer la discrimination et la catégorisation (la communautarisation préféreront d’autres) de la société. Les données vont s’attacher de plus en plus à nous, nous engluer, pour mieux nous classer et nous discriminer. On connaît suffisamment la discrimination pour percevoir très vite les dérives d’une telle société sans qu’il soit nécessaire de les expliquer.
On peut aussi les analyser autrement. Plutôt que de faire reposer la ségrégation sur des critères qui n’ont pas d’effets, les Big Data pourraient faire reposer la prévention sur des critères effectifs. En nous alertant sur ceux qui ont le plus fort risque de tomber dans la criminalité, nous pourrions aussi mettre en place un traitement plus adapté, pour autant que nous en soyons capables. Mais ce n’est pas la partie la plus simple du processus…

L’avenir de la réutilisation des données doit-il se baser sur la responsabilisation de leur impact ?

L’invention de l’imprimerie a fait fleurir des lois pour garantir la liberté d’expression qui n’existait pas avant du fait de la faiblesse de l’expression écrite, expliquent les auteurs. Au XIXe siècle, la liberté d’expression est devenue une garantie constitutionnelle dans la plupart des pays. Au fil des siècles, nous avons opté pour plus d’informations plutôt que moins, en nous prémunissant de ses excès par des règles limitant l’utilisation abusive de l’information. A l’heure des Big Data, “nous aurons besoin de nouvelles règles pour protéger le caractère sacré de l’individu”. Mais contrairement à nos ancêtres, nous n’aurons pas des siècles pour nous adapter. A peine quelques années.

Protéger la vie privée nécessite que les utilisateurs des grandes données deviennent plus responsables de leurs actes. Dans le même temps, la société aura à redéfinir la notion même de justice pour garantir la liberté de l’homme à agir.

“Pendant des décennies, un principe essentiel du droit à la vie privée à travers le monde a été de mettre les individus en contrôle en leur permettant de décider si, comment et par qui leurs renseignements personnels pouvaient être traitées. A l’ère d’internet, cet idéal louable a souvent été transformé en un système stéréotypé de “notification et de consentement”. Mais à l’ère du Big Data, cependant, une grande partie de la valeur des données nait d’utilisations secondaires qui peuvent avoir été inimaginables lorsque les données ont été recueillies, ce qui signifie que le mécanisme de “notification et de consentement” pour assurer la confidentialité n’est plus adapté.”

Et les auteurs d’esquisser un nouveau cadre de confidentialité de nos données, en se concentrant moins sur le consentement individuel au moment de la collecte et de plus en plus sur la responsabilisation de l’utilisation des données, par les sociétés qui les collectent, les croisent et les traitent. “Dans un tel monde, les entreprises devront évaluer formellement la réutilisation des données amassées sur les particuliers basés sur l’impact qu’elle a sur les personnes dont les renseignements personnels sont traités.” Pour Mayer-Schönberger et Cukier, c’est aux entreprises (et aux experts internes ou externes) d’évaluer les politiques de réutilisation des données, notamment parce que ce sont eux qui tirent avantage de l’utilisation secondaire des données. “Il est donc juste de les tenir responsables de leurs actes et de faire porter le fardeau de cette revue sur eux.”

Car pour Mayer-Schönberger et Cukier, visiblement, les avantages de la réutilisation des données est supérieur aux risques d’une trop grande divulgation des données des gens. Pour eux, nous ne reviendrons pas sur le Big Data, quels que soient ses effets. C’est aux régulateurs et aux réutilisateurs de trouver des approches plus équilibrées, certains pays décidant de pouvoir être plus prudents que d’autres. Pour les auteurs, si les entreprises obtiennent le droit d’utiliser et exploiter les données personnelles, elles doivent assumer en contrepartie la responsabilité des usages qui en sont faits. Cela semble pouvoir dire beaucoup de choses, mais les auteurs ne sont pas là très diserts. La responsabilité pourrait vouloir dire que ces entreprises devraient donner un droit d’accès et de rectification aux utilisateurs. Elles devraient contrôler les croisements qu’elles autorisent via leurs API afin peut-être d’exclure certains types de services par rapport aux données qu’ils proposent. Ou permettre de régler la durée de conservation des données…

Force est de constater cependant que le jugement de Mayer-Schönberger et Cukier est assez libéral. Sans contraintes, peu de sociétés décideront de limiter la collecte des données ou leurs croisements. Pourquoi Facebook déciderait-il de limiter la durée de conservations de nos likes, qui n’ont pourtant, la plupart du temps, qu’une valeur éphémère ? Pourquoi interdirait-il l’usage de nos relations comme facteur déterminant de nos capacités d’emprunt comme le proposent déjà certaines start-ups ?

Le changement réglementaire qu’ils appellent semble également un peu rapide. Passer de la “vie privée par consentement” à la “vie privée par responsabilisation” est tout de même un changement de paradigme qui ne va pas aider à minorer la collecte des données ni à rétablir la confiance des utilisateurs envers les collecteurs de données. Alors que malgré tout, à la base, il n’y a aucune raison que l’usage d’un Kindle ou d’un Fitbit, un produit que l’utilisateur final achète, ou même que l’utilisation d’un Facebook, soit vendue avec un droit pour la société à monitorer vos usages dans le temps, sans que l’utilisateur soit au courant, sans qu’il puisse récupérer ou avoir accès aux données, sans qu’il puisse décider du contraire. Quand on achète une cocotte-minute, Seb n’achète pas le droit de savoir quand on l’utilise ! Pourquoi en est-il différemment des produits électroniques – sans contrepartie pour l’utilisateur ? Qui régulera les sociétés qui vont fouiller le web pour affiner nos profils de recrutement ? La responsabilisation semble une réponse un peu courte aux croisements et aux traitements sans limites ! Que signifie réguler les acteurs, quand demain, tout à chacun sera capable de lancer ses propres fouilles et extractions de données en ligne ? Quand les systèmes seront capables de récupérer les données de n’importe qui en ligne pour en construire un profil ?

Bien sûr, l’innovation proviendra certainement de croisements et de traitements qui n’ont pas été pensés à l’origine et pour lesquels l’utilisateur ne donnerait pas nécessairement son accord, mais est-ce pour autant que la responsabilisation peut-être un garde-fou ? Le croisement de nos relations avec un service de musique peut donner lieu à de nouveaux services amusants. Mais la liste des musiques que l’on écoute peut permettre d’imaginer un service qui indiquerait notre humeur, voir, demain, notre capacité à travailler et après-demain, notre rémunération en fonction… Il n’y a pas besoin d’interconnecter nos relations avec une base de données de criminels pour criminaliser nos comportements.

On pourrait vouloir limiter les appariements à un contexte proche, comme le suggérait les travaux d’Helen Nissenbaum, mais se serait limiter trop fortement leur potentiel. Quand Google croise les requêtes des utilisateurs avec les statistiques grippales pour en trouver les corrélations appropriées, on voit bien que le contexte n’est pas un élément d’appariement des données.

Mayer-Schönberger et Cukier estiment aussi qu’une solution pourrait reposer sur le brouillage des données, leur altération (une forme d’obfuscation voir d’anonymisation, mais l’on sait maintenant que celle-ci n’est pas sûre, puisque le croisement permet justement de les lever). Ils prennent pour exemple le fonctionnement de Facebook lui-même. Quand Facebook fournit des informations sur ses utilisateurs à des annonceurs potentiels, ceux-ci ne peuvent identifier précisément les individus à qui ils s’adressent. Ils vont pouvoir par exemple adresser leur publicité aux “femmes asiatiques d’Atlanta intéressées par le yoga” et sauront seulement que la requête devrait leur permettre de toucher 400 personnes, sans être capables de les atteindre directement, uniquement. C’est ce que Mayer-Schönberger et Cukier appellent “la vie privée différentielle”. Reste qu’ici, les utilisateurs ne sont maîtres de rien. Si Facebook pour l’instant protège les utilisateurs uniques, ce n’est pas le cas de Linked-in, qui lui permet aux recruteurs de surveiller et d’atteindre les profils exacts qu’ils recherchent. Peut-être faut-il néanmoins voir une piste de régulation dans cette idée que l’usage secondaire ne puisse pas permettre de joindre directement un utilisateur (à tout le moins sans son consentement lui présentant le service) ?

Une autre solution, est peut-être de renforcer le caractère sacré de la vie privée : la porter à son paroxysme, renforcer le pouvoir des individus dont les données sont exploitées. Faut-il faire du numérique un état de non-droit en interdisant toute recherche d’IP même par la justice ou la police, afin que nul n’y soit inquiété pour ses activités ? Faut-il interdire tout regroupement de données sans le consentement explicite de l’utilisateur, rendant par la même impossible tout croisement et traitement… Ce ne sont pas des solutions qu’esquissent les auteurs, bien sûr. Mais face aux risques et menaces des Big Data, on comprend que certains puissent imaginer que la solution passe par le renforcement absolu du pouvoir du plus faible dans les termes de l’échange : l’usager, celui dont les données sont utilisées.

Les bons sentiments suffiront-ils à réguler les Big Data ?

Les auteurs n’en sont pas moins lucides sur le rôle central joué aujourd’hui par les grands acteurs des données. “Nous devons empêcher la montée des barons de données du XXIe siècle, l’équivalent moderne des barons voleurs du XIXe siècle qui ont dominé les chemins de fer, la fabrication de l’acier et le développement des réseaux télégraphiques de l’Amérique.” Pour contrôler ces industriels, l’Amérique a établi des règles favorisant la concurrence et empêchant le monopole. Des règles qui se sont largement adaptées dans le temps et qu’on pourrait solliciter pour limiter les monopoles des grands stokeurs de données. Pourrait-on ainsi imaginer un droit d’exclusion au bénéfice des utilisateurs, leur permettant de retirer leurs données de ces baronnies ? Trop souvent, rappellent les auteurs, “en ce qui concerne la technologie (que ce soit le nucléaire ou la bio-ingénierie par exemple), nous avons d’abord construit les outils avant de mettre au point des mécanismes de sécurité pour nous en protéger.”

Assurément, les Big data nécessitent un nouveau débat sur la nature de la prise de décision, le destin, la justice, notamment parce qu’ils mettent à mal les mécanismes techniques et juridiques qui, jusqu’à présent, étaient le fondement de notre façon de protéger la vie privée. Force est de constater que Mayer-Schönberger et Cukier esquissent dans leur ouvrage des premières pistes de réponses, encore bien fragiles.

Désormais toutes les données sont devenues personnelles. Même la plus anodine des données peut révéler l’identité de quelqu’un si elle est croisée avec une multitude d’autres données comme le permet l’accès à la toile. Surveiller une personne permet désormais d’obtenir bien plus de renseignements sur elle (et bien plus facilement) qu’on n’en a jamais eu. Mais le principal risque des Big Data ne porte pas tant sur la vie privée que sur le risque que nous soyons amené à juger les gens non pas sur leur comportement réel, mais sur leur propension à avoir le comportement que les données leur prêtent. Le monde social n’est pas né avec les Big Data, mais celles-ci pourraient bien nous y enfermer.

Certes, concèdent les auteurs, le Prométhé moderne, l’homme capable de gérer son destin est une profonde illusion. Si nous ne croyons plus au déterminisme de nos ancêtres, notre capacité à façonner notre destin pourrait bien être altéré par la technologie. Car notre potentialité risque d’être demain abattu sur l’autel de la probabilité. Selon votre milieu social, vos résultats scolaires, votre cercle de relations… votre avenir pourra être tracé par les algorithmes. Ce savoir nous permettra peut-être de prendre des mesures correctives pour prévenir les problèmes ou améliorer les résultats, mais s’il est facile de discriminer, il est plus difficile de trouver les solutions pour nous faire passer d’une catégorie à une autre. Demain nous saurons repérer les élèves qui décrochent avant leur examen final, nous pourrons repérer les cellules cancéreuses et les traiter avant que la maladie ne se déclare. Nous connaîtrons les risque de grossesses des adolescentes ou le risque criminel des enfants avant qu’ils ne commettent le moindre crime. Nous pourrons donc prédire, ficher et juger. Pas sûr que les Big Data nous aident aussi facilement à résoudre…

“Les prédictions de gros volumes de données ne sont pas gravées dans la pierre, ils ne sont que les résultats probables, ce qui signifie que si nous voulons changer, nous pouvons le faire”, concluent les auteurs, ravivant le mythe du self-made man, si cher à l’Amérique. Si demain, tout le monde fait appel aux données, ce qui nous différenciera reposera peut-être plus qu’aujourd’hui sur l’imprévisible, l’instinct, la prise de risque, l’accident, l’erreur…

“Dans un monde de grands volumes de données, ce sont nos traits les plus humains (les moins rationnels) qui doivent être encouragés : notre créativité, l’intuition, l’ambition et notre ingéniosité. Comme aurait pu le dire Henry Ford, si on avait interrogé les algorithmes et les données pour savoir ce que les clients voulaient, les Big Data auraient répondu “un cheval plus rapide” : elles n’auraient pas inventé la voiture !”

“Les Big Data sont une ressource et un outil. Elles sont destiné à informer plutôt qu’expliquer. (…) Tout éblouissantes soient-elles, toutes puissantes soient-elles, nous ne devons jamais nous laisser séduire par leur lumière et en oublier leurs imperfections inhérentes.”

Et de nous inviter à utiliser les Big Data avec générosité, humanité et humilité. On aimerait bien. Mais nous ne sommes pas sûr de toujours vivre dans ce monde là. En tout cas, les bons sentiments ne seront pas un moyen de régulation suffisant.

Hubert Guillaud

Rétroliens

  1. Prospectibles » L’exploitation des données : un secteur très prometteur ….
  2. l’improbable contre-utopie du big data - 100futurs
  3. Big Data : nouvelle étape de l’inf...
  4. Big Data bullshit
  5. La prédiction comme religion : Big Data, algorithmes et numérique | gyomson
  6. Big Data : nouvelle étape de l'informati...

7 commentaires

  1. par gv

    Parmi toutes les dimensions ideologiques du Big Data – et il y en a – aussi bien pour ceux qui les utilisent que pour ceux qui en ont peur (… et à juste titre) je voudrais en citer une.
    N’admettons-nous pas un peu trop facilement que nous, en tant qu’individus, avons une vérité propre qu’une accumulation de données permettrait d’identifier de façon de plus en plus précise ?
    Posons la question autrement: Pourquoi toutes ces corrélations touchant à l’individu serait-elles convergentes ? Pourquoi ne développerais-je pas un risque critique de cancer à partir de mes données d’alimentation et un risque très faible à partir de mes goûts musicaux ? Et que ferait l’algorithme dans ce cas là ?
    Notre propre incohérence et notre propre instabilité n’est-elle pas la meilleure des protection quand elle nous amène à des relations variables face au même stimuli selon l’air du temps?
    La suraccumulation de données n’est-elle finalement à elle-même son propre antidote en produisant suffisamment de corrélations contradictoires pour atténuer ce qui est vraiment dangereux, à savoir une trop grande confiance dans les corrélations prédictives ?

  2. @Gérard, oui. Les corrélations prédictives nous dirons certainement tout et leur contraire. Individuellement, nous aurons l’impression d’être pris dans une nasse algorithmique où nous ne nous reconnaîtrons jamais. Nous aurons plus de chance d’être toujours un faux positif qu’autre chose. Encore une fois, les corrélations ne dirons pas la vérité, elles en diront une et qui ne le sera peut-être pas du tout.

    Mais quand vous serez sur la liste des X.000 personnes qui prennent certainement de la coke selon une analyse sémantique et relationnelle de Facebook… même si d’autres données apportent des résultats totalement contradictoires, nous ferons quoi ? Bienvenue dans l’ère de la vérité différentielle ;-)

  3. par gv

    Je suis d’accord avec vous concernant le risque de se retrouver parmi les X000 personnes soupçonnées de prendre de la coke et je crains fort que nous soyons partis pour passer par là.
    Cependant, je crois qu’il y a deux dimensions du problème qui nous mènent dans des directions différentes.
    1/ la recherche des corrélations de données qui voudrait créer des typologies d’individus
    2/ la préfinalisation de ces recherches qui les arrêtent au premier signe
    Je m’explique.
    Si mes goûts musicaux me font ficher comme terroriste et que mes goûts alimentaires ne le font pas, seul le premier sera pris en compte. Le second sera ignoré… aujourd’hui… parce que le ficheur préférera se tromper dans ce sens là que dans l’autre et s’arrêtera au premier signe.
    Mais, en régime démocratique, si les bavures s’accumulent, l’obligation de consolider les corrélations apparaitra et il est probable que l’ensemble du système de collecte n’y resistera pas, car les divergences de sous-ensembles corrélés seront telles que plus aucune prédiction ne sera possible.
    Seul un régime totalitaire s’arrêtera au premier signe.
    Ce qui pourrait signifier que ce ne serait pas les données qui ferait le totalitarisme, mais le totalitarisme qui donnerait du pouvoir aux données. Staline a été un précurseur remarquable de ce principe surtout si l’on tiend compte des faibles moyens techniques de l’époque :-).
    Ce qui nous mène finalement aux questions: Sommes-nous toujours dans un système démocratique ? Et sommes-nous appelés à y demeurer ?
    L’avenir du Big Data va beaucoup dépendre de ces questions-là.

  4. Plutôt d’accord, pour autant que la divergence des sous-ensembles soient fortes, or les algorithmes ont tendance à produire de la moyenne de la même façon, puisqu’ils se basent sur des technos similaires. Il y aura bien des écarts et des faux positifs différents bien sûr, mais je ne suis pas sûr – hélas – qu’elles ne se recoupent pas du moins en grande partie (notamment parce que, quoiqu’il en soit, le but n’est pas de discrétiser les données, mais de les agencer toutes et que l’autorité sera toujours à celui qui en agence le plus).

    Mais oui, bien sûr cela pose une question de fonds sur nos systèmes démocratiques – pour autant qu’ils le soient encore, comme le souligne Etienne Chouard : http://vimeo.com/60549492 – et notre volonté à le demeurer.

  5. Merci pour ces commentaires. L’ère de l’informatique amène beaucoup d’innovations en terme de partage d’information, de communication…mais elle apporte aussi son lot de problèmes: cyber-attaque, problème de protection de la vie privée….Pour ma part, je pense que toutes ces dérives ont leur solution, c’est à nous de savoir jongler entre l’évolution technologique et ses dérives.

  6. par François

    Je reviens sur le fichage à partir des probabilités et rappellerai qu’au niveau de l’individu, un choix, une action, c’est à 100% qu’on les fait. Si d’après mon profil, je suis censé faire ceci à 70% contre celà à 30%, si je fais celà, pour moi, c’est à 100%.

    Donc, si l’analyse de données indique une propension pour une population, cela peut être utile pour la “puissance publique” en termes de prévention, mais cela ne dit absolument rien sur chacun des individus. Si la “puissance publique” intervient directement sur les individus en matière de fichage à partir de cette analyse, alors c’est admettre qu’elle considère les individus comme des fourmis et s’adresse à eux en moyenne … en anticipant et assumant les injustices faites à la population non concernée!

  7. Je ne suis pas d’accord avec le fait que la causalité est oubliée au profit de la seule corrélation.

    Lorsqu’on parle aujourd’hui de Data Scientist, ces spécialistes de l’analyse de donnée, on parle d’un mélange de compétences comprenant Programmation, Statistiques et Analyse Business. Certes sans ces 3 compétences on peut arriver à des dérives purement mathématiques sans bien fondé en termes de causalité, mais l’analyse Big Data est un domaine récent et les critères de qualité se durcissent. On ne peut plus annoncer une corrélation sans analyser les causalités!