Nous défaire de nos imaginaires statistiques

331 449 281, telle est la population totale des États-Unis au 1er avril 2020 selon le bureau du recensement américain. Le recensement de la population produit depuis longtemps un chiffre, toujours précis. Précis, mais par nature inexact. C’est pour la chercheuse danah boyd (@zephoria), chercheuse associée chez Microsoft et fondatrice de Data & Society (@datasociety) un symbole du grand « théâtre des données » qui se joue chaque jour sous nos yeux, expliquait-elle lors du dernier Microsoft Research Summit (voir la vidéo de sa présentation et la transcription de son intervention dans sa newsletter).

Les statistiques sont la grande science de l’État, rappelle boyd (on parlait même d’arithmétique politique). L’État produit des statistiques « données » au public qui deviennent ainsi des évidences, des faits (littéralement des « statistiques officielles »). Et lorsque les statistiques sont comprises comme des faits, le public s’attend alors à une forme d’exactitude, de précision. D’où les chiffres précis que produit le Bureau du recensement par exemple, alors qu’il sait très bien qu’un tel chiffre n’est qu’une approximation d’une réalité mouvante, tout en étant le meilleur que l’on puisse produire compte tenu des procédures utilisées. Le Bureau du recensement pourrait pourtant dire, très légitimement, que la population américaine est d’environ 331,5 millions de personnes. L’arrondi communiquerait d’ailleurs une forme d’incertitude. Ou ils pourraient produire un nombre avec des chiffres après la virgule, indiquant par là que des modèles sous-tendent les données. Mais les statisticiens ne le font pas. « Ils produisent la précision parce que la précision signale l’autorité. Parce que la précision est une norme et une attente. Parce qu’il y a une pression à la précision. »

La précision en ses limites

Le recensement est l’épine dorsale d’innombrables pratiques de création de données. Toute donnée représentative au niveau national est liée au recensement d’un pays. Le PIB, le taux d’emploi, de logement… intègrent les données de recensement. Les taux d’infection au Covid ou vaccination sont également reliés au dénombrement de la population.

Les agences statistiques sont chargées de produire des statistiques officielles destinées à être utilisées dans les décisions de politique publique et la recherche. Aux États-Unis, les données de recensement sont utilisées pour répartir les représentants politiques sur le territoire et distribuer les financements fédéraux. En d’autres termes, les données de recensement constituent « explicitement et constitutionnellement l’infrastructure de données de la démocratie ». Mais même lorsque la représentation politique n’est pas directement liée aux données de recensement, ces données sont hautement politiques et profondément contestées. C’est le cas dans de nombreux pays où la connaissance des informations sur la population relève autant de la politique que de la comptabilité. C’est ce qui a poussé les Nations Unies à créer une commission statistique en 1947 pour formaliser les normes internationales en matière de statistiques officielles, pour promouvoir la professionnalisation des statistiques nationales afin d’aider les agences statistiques à résister aux interférences politiques.

Mais la professionnalisation des statistiques nationales a également suscité une question importante : que sont les statistiques lorsqu’elles ne sont plus de l’arithmétique politique ? Qu’est-ce que tous ceux qui sont investis dans les données imaginent que les statistiques sont ?

Dans la plupart des communautés techniques, explique boyd, il est facile de considérer les statistiques comme un travail objectif, scientifique et mathématique. L’idéal de l’information objective existe parce que les décideurs apprécient de pouvoir rejeter la responsabilité sur les données. Cela permet d’éviter de questionner la politique ou la prise de décision. Cela permet de prétendre que l’utilisation des données rend les choses neutres. « C’est un raisonnement dangereux. C’est ainsi que les données deviennent des armes ».

Ce cadrage objectif masque également les origines profondément politiques de nombreuses techniques que nous considérons aujourd’hui comme acquises… La régression statistique a été inventée par Francis Galton, le père de l’eugénisme, et son intérêt pour cette technique n’était pas anodin, rappelle la chercheuse. Malgré les racines douteuses de nombreuses méthodes et pratiques statistiques, le développement de la statistique mathématique a également permis de mieux comprendre les limites et les biais des analyses. Par exemple, dans les années 1910, un groupe d’employés noirs du Bureau du recensement des États-Unis a commencé à calculer le sous-dénombrement des Noirs dans les recensements précédents. Cela a ouvert de nouvelles possibilités pour corriger les données. Au fur et à mesure que les techniques statistiques se perfectionnaient, les scientifiques ont également commencé à imaginer comment les interventions mathématiques pouvaient réparer les faiblesses intrinsèques des données.

Mais améliorer la qualité des données en les corrigeant n’allait pas de soi. Aux États-Unis, ces travaux se sont souvent heurtés à des résistances politiques. En 1957, le Congrès américain a interdit au Bureau du recensement d’utiliser l’échantillonnage dans ses principaux produits de données, alors que celui-ci permettait notamment de réduire la charge du recensement. Conscient de l’importance des personnes manquantes dans le recensement, le Bureau du recensement a tenté d’exploiter des données provenant d’autres sources et d’élaborer des modèles pour combler les lacunes dans ses propres données à l’aide d’une technique connue sous le nom d’imputation. Cette technique a également été contestée devant les tribunaux lorsque l’État de l’Utah a fait valoir que le Census Bureau n’avait pas le droit d’imputer des données, à la fois parce que l’échantillonnage était interdit par la loi et parce que l’imputation violerait l’exigence constitutionnelle d’un « dénombrement réel ». La Cour suprême a rejeté ces revendications, arguant que l’imputation n’était pas une méthode statistique, mais une technique permettant d’améliorer le comptage… elle est devenue par cette décision un arbitre des méthodes statistiques.

La donnée est politique

Les organismes statistiques sont tenus de produire des connaissances statistiques de haute qualité, mais qui décide de ce qui constitue des connaissances statistiques ? Ceux qui sont investis dans les statistiques modernes et l’avancement de la science présument que le but d’un organisme statistique est de créer des connaissances statistiques mathématiquement valides et que le résultat d’un recensement doit être la meilleure représentation quantitative possible. Mais tout le monde ne voit pas le concept de statistique sous cet angle, rappelle boyd. Pour ceux qui considèrent un recensement comme un dénombrement de toutes les personnes, alors le travail du Bureau du recensement consiste à se concentrer sur l’acte de compter et de rapporter ce qui est compté. On le voit, il y a une distinction nécessaire entre le meilleur comptage et les meilleures données.

Dès qu’on donne de l’importance aux données, elles ne peuvent jamais être neutres. « Plus les enjeux sont importants, moins ces données peuvent être objectives. Le choix même des données à collecter, la manière de les catégoriser et de les présenter révèlent des engagements idéologiques, sociaux et politiques », rappelle boyd en évoquant notamment la collecte de données sur l’origine ethnique dans le recensement américain. Si cette collecte a toujours lieu, c’est parce que les lois adoptées pendant les années 60 pour lutter contre les discriminations ont utilisé ces données pour asseoir leurs revendications et montrer les inégalités raciales qui fracturaient la société américaine. À l’inverse, la France ne collecte pas de données sur l’origine ethnique ni sur la religion. Les partisans de cette interdiction considèrent qu’elle est essentielle à la mise en place d’une société laïque sans distinction de race, mais ses détracteurs affirment que le fait de ne pas collecter ces données signifie que la France est mal équipée pour lutter contre les inégalités et le racisme. Le Liban, quant à lui, a effectué son dernier recensement en 1932. À l’époque, on a constaté qu’environ la moitié de la population était chrétienne et l’autre moitié musulmane, répartie équitablement entre sunnites et chiites. Les politiciens libanais ont rejeté à plusieurs reprises les propositions visant à effectuer un nouveau recensement. Un exemple qui illustre très bien combien la connaissance statistique est politique.

Les statistiques nous aident à connaître différents aspects de nos nations, mais ce que nous sommes en mesure de demander dépend d’une série d’engagements politiques, idéologiques et économiques, rappelle danah boyd.

Or, les recensements ne sont jamais parfaits. Les recensements oublient des gens. Il manque des gens parce qu’ils sont ailleurs et il manque des gens parce que tout le monde ne veut pas être compté. Et il manque des personnes parce que toutes les personnes ne sont pas considérées comme suffisamment légitimes pour être comptées par l’État. En d’autres termes, ils omettent des personnes pour des raisons opérationnelles, sociales et politiques.

Pour des données qui révèlent leurs défauts et leurs limites !

Lorsque les statistiques officielles sont considérées comme des données objectives fournies par l’État, on suppose qu’elles sont capables de parler d’elles-mêmes, de raconter leur propre histoire. « Mais les données ne parlent pas d’elles-mêmes. Elles ne le peuvent pas. Elles parlent au nom d’autres personnes. Et ce qu’elles disent dépend des objectifs et des intérêts de ceux qui essaient de les convaincre de parler. »

De nombreuses personnes puissantes utilisent les données pour justifier leurs décisions. Pourtant, lorsque les décideurs et les dirigeants s’appuient sur des données pour justifier leurs actions, ils veulent que les données restent conformes au message. « Pour que les données restent conformes au message, elles doivent communiquer avec précision et en toute confiance. Ces données ne peuvent pas révéler leurs propres défauts et limites, soulever des questions ou proposer des interprétations alternatives. Les données ne doivent pas être considérées comme faibles, car les données considérées comme faibles menacent la légitimité du travail statistique. » Personne ne veut de données entachées d’incertitudes, explique boyd en rapportant le travail d’une démographe qui avait tenté de communiquer des intervalles de confiance dans les données qu’elle présentait à une municipalité. La municipalité lui a demandé de revoir son travail pour revenir avec des faits !

« Tous ceux qui ont travaillé avec des données ont, à un moment ou à un autre, demandé aux données de parler pour elles-mêmes ». « Regardez les données ! » est la déclaration d’exaspération – ou d’assurance – la plus commune.

Le problème, estime boyd, est qu’il n’y a pas vraiment de place pour communiquer sur les limites des données. Trop souvent, les praticiens préfèrent ignorer l’incertitude et l’erreur, sachant que ces informations-là sèment surtout de la confusion si ce n’est de la colère. Pourtant, ceux qui sont dans les méandres de la technique et des chiffres ne peuvent pas comprendre comment quelqu’un peut éthiquement travailler avec des données et ignorer de tels signaux. Bien sûr, il y a aussi un art de présenter l’incertitude en sachant que la personne qui reçoit les données peut soit ignorer l’incertitude, soit la déformer pour simplifier le message. C’est le cas des sondages politiques notamment. Les sondeurs peuvent souligner consciencieusement que leurs résultats sont dans une marge d’erreur lorsque leurs prédictions se révèlent fausses, même s’ils savent pertinemment que leurs données ont été présentées pour suggérer un résultat définitif. À l’inverse, les climatologues tentent de communiquer de manière responsable l’incertitude de leurs modèles complexes, quand bien même leur travail risque d’être miné par l’absence de certitude qu’ils présentent.

Le Census Bureau est censé produire des faits et faire preuve de précision à la fois pour faire autorité et parce que toute communication scientifique responsable impliquant une incertitude peut être politisée. Les scientifiques et les statisticiens savent que les données ont des limites et communiquent dessus entre eux. Mais, dans l’ensemble, ceux qui s’appuient sur l’infrastructure de données de la démocratie ont tendance à ignorer les signaux d’incertitude, d’erreur ou de bruit lorsqu’ils utilisent les données. « Certains les ignorent parce qu’ils ne savent pas comment travailler avec de telles informations. D’autres les ignorent parce que leurs clients veulent entendre des faits et de la précision. D’autres encore considèrent que la discussion même de l’incertitude crée un risque de délégitimation des données. »

Pourtant, souligne danah boyd, l’illusion de données de recensement parfaites est devenue plus coûteuse que les gens ne le pensent. S’il n’est pas capable de faire face aux limites des données, le Census Bureau ne peut pas obtenir le soutien social et politique nécessaire pour introduire de nouvelles techniques susceptibles d’améliorer systématiquement les statistiques fédérales. Cela est particulièrement coûteux dans un contexte social où il est de plus en plus difficile d’inciter les gens à répondre eux-mêmes ou à partager des informations avec les représentants du gouvernement. La communauté scientifique a mis au point une série de techniques permettant d’améliorer la qualité des données malgré les limites de leur collecte, mais pour les adopter, il faut que les parties prenantes comprennent les limites et les vulnérabilités des données.

La confidentialité des données est toujours essentielle

L’une des raisons pour lesquelles les données de recensement sont imparfaites est que le public ne fait pas toujours confiance au gouvernement pour prendre soin des données. Depuis 1840, les personnes chargées du recensement aux États-Unis savent que la confidentialité est essentielle pour inciter les gens à participer au recensement. Pour le Census Bureau, la confidentialité des statistiques est une condition essentielle pour des raisons procédurales, juridiques et morales. L’impératif procédural n’a fait que croître depuis 1840, de nombreuses études ayant montré à plusieurs reprises que les gens sont réticents à répondre, notamment quand les données permettent de les identifier. Depuis plus d’un siècle, il existe des exigences légales qui empêchent l’accès aux données de recensement à des fins non statistiques. Plus récemment, lorsque des chercheurs ont découvert comment les données de recensement étaient utilisées aux États-Unis et en Europe pendant la Seconde Guerre mondiale, la communauté des statisticiens s’est engagée plus généralement à assurer une meilleure confidentialité des données.

Pour assurer la confidentialité des statistiques, le Census Bureau a fait évoluer ses procédures. Longtemps, il a choisi de ne pas publier certaines statistiques, mais, dans les années 1980, le Census Bureau a été soumis à une forte pression pour publier des données plus détaillées. Ainsi, lors du recensement de 1990, le Census Bureau a commencé à injecter du bruit dans les données publiées afin de lui permettre de publier des données sur de petites zones géographiques. Le bruit qui a été injecté n’était pas systématique, mais consistait en des modifications destinées à atténuer la visibilité des valeurs aberrantes.

Les informaticiens ont montré que ces modifications n’offraient que peu de protection et ils ont commencé à développer la « confidentialité différentielle » comme une intervention possible (voire les très bonnes explications de David Larousserie dans un article du Monde sur les avantages et limites de ces techniques). Le but est de maximiser la confidentialité et la qualité des résultats statistiques en introduisant du bruit dans les données pour éviter qu’elles ne permettent de réidentifier des personnes.

Il existe de nombreuses façons de mettre en œuvre la confidentialité différentielle, explique pédagogiquement danah boyd, mais toutes impliquent des lettres grecques servant de variables qui régissent des aspects clés du système. L’une de ces lettres – epsilon – représente le risque de perte de confidentialité dans un système de confidentialité différentielle. « Pensez-y comme à un bouton. Tournez le bouton dans un sens et les données sont plus bruyantes, mais bénéficient d’une meilleure protection de la vie privée. Si vous le tournez dans l’autre sens, le bruit diminue », mais les données deviennent plus vulnérables à la réidentification.

« La confidentialité différentielle tient 4 choses pour acquises. Premièrement, elle présume qu’il est impératif de publier des statistiques utilisables tout en protégeant la confidentialité des données sous-jacentes. Deuxièmement, elle suppose que les statistiques utilisables peuvent être comprises en termes mathématiques. Troisièmement, elle suppose que les utilisateurs de données trouvent un intérêt à connaître, comprendre et mesurer le bruit, l’erreur et l’incertitude. Quatrièmement, la confidentialité différentielle suppose que la transparence est souhaitable. »

Le Census Bureau a commencé à intégrer la confidentialité différentielle dans ses produits scientifiques en 2006, rendant ainsi disponibles pour la première fois des données auparavant inaccessibles. La communauté scientifique a applaudi. Mais le recensement décennal est différent des autres produits de données produits par le Census Bureau. Aussi, lorsque le bureau a décidé de moderniser le système de divulgation statistique utilisé pour son produit canonique, il n’a pas mesuré l’ampleur de la réaction négative qu’il recevrait. Le bureau a apprécié la possibilité d’être franc au sujet de ses procédures. Les scientifiques imaginaient que cela permettrait une meilleure gouvernance du système statistique et une meilleure prise en compte de l’incertitude. Ils pensaient que les utilisateurs seraient satisfaits. Ils ont eu tort.

Les poursuites judiciaires ont commencé avant même la publication des données du recensement. D’autres sont encore attendus. Une fois de plus, nous pouvons nous attendre à ce que la Cour suprême doive s’interroger prochainement sur ce que sont les statistiques, explique boyd. Certains opposants à la protection différentielle de la vie privée ont des préoccupations d’ordre scientifique, mais bon nombre de ceux qui contestent le droit du bureau de moderniser son système de prévention de la divulgation ne voient pas les données du recensement à travers le prisme des mathématiques. « Ils veulent que les données soient des faits, qu’elles parlent d’elles-mêmes ». Et ils considèrent que la protection de la vie privée via la confidentialité différentielle est une abomination pour avoir osé modifier les données en premier lieu. Pour compliquer encore les choses, il y a aussi des gens qui voient des opportunités politiques à combattre le bureau, quelles que soient les ramifications pour le travail statistique.

La transparence est un idéal courant en informatique, en particulier dans les domaines issus de la cryptographie, qui ont un profond engagement moral envers la transparence. De même, les mathématiciens et les informaticiens ne considèrent pas l’incertitude comme une chose à éviter, mais comme une chose à embrasser activement. Dans le cadre de cette façon de voir le monde, les progrès de la méthode scientifique visant à améliorer la qualité des données et à négocier la confidentialité des statistiques sont une aubaine pour les statistiques. Mais elles sont aussi un cauchemar politique.

Nous n’échapperons pas à la politisation des données !

L’épistémologie est l’étude de la connaissance, elle consiste à comprendre « comment nous savons ce que nous savons ». La science est la poursuite de la connaissance par le biais de méthodes et de pratiques rigoureusement définies. Historiquement, les scientifiques ont été condamnés pour hérésie et brûlés sur le bûcher, mais au 20e siècle, les scientifiques ont acquis une grande importance dans de nombreuses sociétés. Malheureusement, leur ascension n’est pas toujours bien accueillie, surtout lorsque les découvertes scientifiques sont considérées comme une menace économique ou idéologique. Dans les années 1980 et 1990, les scientifiques n’ont pas été physiquement torturés, mais leurs pratiques ont été régulièrement détournées, souvent sous le couvert d’une « science solide ».

L’abus le plus flagrant du processus scientifique s’est produit dans les domaines de la science du climat et de la santé publique, alors que l’industrie pétrolière et l’industrie du tabac s’efforçaient de semer le doute sur le consensus scientifique concernant le changement climatique et le cancer lié au tabagisme. Plus que tout, ces efforts ont perverti l’incertitude scientifique encourageant sa paralysie. Dans les années 1990, un groupe d’universitaires s’est réuni pour donner un sens à ce phénomène. Ils ont inventé le terme « agnotologie » pour décrire l’étude de l’ignorance. L’ignorance n’est pas simplement ce que nous ne savons pas encore ; elle fait également référence à la connaissance qui a été perdue et à celle qui a été volontairement polluée.

L’incertitude est au cœur du processus scientifique. Mais dans un contexte de politique publique, l’incertitude est considérée comme toxique et dangereuse. La politisation de l’incertitude pour saper le consensus scientifique au cours de cette période explique en partie pourquoi ceux qui cherchent à garantir la légitimité des statistiques fédérales rejettent souvent par défaut toute information susceptible d’ébranler la confiance dans les données. Aujourd’hui, les personnes qui s’intéressent aux données rechignent à parler d’incertitude parce que, pendant 20 ans, elles ont vu comment l’incertitude était utilisée pour saper les connaissances scientifiques et l’élaboration de politiques fondées sur des preuves.

Les données de recensement sont le produit d’un travail scientifique. Elles sont également l’infrastructure de notre société, au cœur d’innombrables politiques et pratiques. « Des vies dépendent de ces données. Des économies dépendent de ces données. La santé publique dépend de ces données. » Ceux qui utilisent les données de recensement veulent savoir qu’ils peuvent avoir confiance en ces données, qu’ils peuvent s’appuyer sur ces données dans leurs calculs. Les scientifiques qui travaillent sur ces données sont obsédés par la qualité, mais ils n’ont jamais été en mesure de produire des données parfaites. « Pourtant, plus ces données sont politisées, plus on attend d’elles qu’elles soient parfaites. Et plus on s’attend à ce qu’elles soient parfaites, plus les personnes investies dans la légitimité des données sont censées supprimer toute discussion sur l’incertitude, le bruit et l’erreur. » Ce faisant, une illusion est née.

L’illusion de la perfection, cet imaginaire statistique

« En m’appuyant sur les travaux d’autres chercheurs, je ne peux m’empêcher de considérer cette illusion comme un type d’imaginaire statistique. Dans mon esprit, un imaginaire statistique se forme lorsque des personnes construisent collectivement une vision de ce que sont les données et de ce qu’elles pourraient être. Par exemple, lorsque les auteurs de la Constitution ont imaginé de procéder à un recensement pour ancrer une démocratie et sa représentation, ils ont créé un imaginaire statistique. Les entreprises produisent également des imaginaires statistiques. Par exemple, lorsque les entreprises créent des discours parlant de tous les avantages du « big data » et de l’IA, elles produisent un imaginaire. »

Les imaginaires statistiques n’ont pourtant pas besoin d’être des fantasmes farfelus. Ils ne doivent même pas être des illusions ; ils peuvent être profondément ancrés dans la pratique, enracinés dans des objectifs pragmatiques et réalisés par des systèmes techniques. Mais ils peuvent aussi se détacher de la pratique lorsque l’illusion de ce que les statistiques devraient être est plus attrayante que la réalité de ce qu’elles sont. L’apprentissage automatique est un outil puissant, mais le fantasme selon lequel l’apprentissage automatique peut résoudre tous les problèmes de société est déconnecté de la réalité.

« La clé d’une science des données responsable est de garder l’imaginaire statistique sous contrôle ». De nombreuses personnes célèbres ont parlé des dangers de mentir à travers les statistiques, de contorsionner les statistiques pour dire des choses inappropriées. Il existe également un danger de produire un imaginaire statistique qui ne peut être réalisé. Une science des données responsable nous oblige à fonder ces conversations. Oui, les données doivent être solides. Mais les logiques techniques, culturelles et politiques qui entourent l’analyse et l’utilisation des données doivent l’être tout autant.

« Toutes les données sont fabriquées ». Elles ne sont ni immanentes, ni trouvées. L’idée que les données puissent être le produit d’un acte de comptage apolitique est chaleureuse et floue. Mais il s’agit d’une illusion. Et cette illusion masque la manière dont les catégories de données sont politiquement contestées, dont les choix en matière de collecte et de traitement nécessitent des décisions humaines. « ,Mais le plus grand problème de cette illusion est qu’elle encourage les personnes impliquées dans le travail sur les données à ignorer les limites des données afin d’apaiser un idéal de faits objectifs. Les données ne peuvent pas être traitées comme des acquis. Leurs imperfections et leur contexte doivent être pris en compte ».

Pour des données incertaines et des usages responsables !

S’engager dans l’incertitude est une entreprise risquée. Les gens ont peur de s’engager dans l’incertitude. Ils ne savent pas comment s’y prendre. Et ils s’inquiètent de la politisation de l’incertitude. Mais nous atteignons un point de bascule. En ne s’engageant pas dans l’incertitude, les imaginaires statistiques sont de plus en plus déconnectés de la pratique statistique, ce qui sape de plus en plus la pratique statistique. Et cela menace la capacité de faire du travail statistique en premier lieu. Si nous voulons que les données aient de l’importance, la communauté scientifique doit contribuer à dépasser la politisation des données et de l’incertitude pour créer un imaginaire statistique capable de prendre en compte les limites des données.

« En tant que chercheurs techniques et scientifiques du monde entier, vous avez tous un rôle à jouer », exhorte danah boyd. « Nous devons tous à nos communautés respectives de garantir un avenir plus responsable en matière de données ». « Beaucoup d’entre vous se sont déjà engagés à produire des métadonnées sur des ensembles de données afin de rendre visibles les caractéristiques de ces données. Cela devrait être une pratique courante. Mais allez un peu plus loin… Comment faites-vous pour comprendre comment les données sont utilisées ? Et que faites-vous pour vous assurer que les données sont utilisées de manière responsable ? »

La politisation des données climatiques et des données sur le cancer il y a 20 ans aurait dû être un avertissement, rappelle boyd. La politisation des données est désormais omniprésente. Elle menace la légitimité de l’infrastructure de données de la démocratie. Elle menace la capacité à comprendre les crises de santé publique. Elle menace la capacité des individus, des entreprises et des gouvernements à prendre des décisions éclairées.

Beaucoup d’entre vous ici aujourd’hui sont des constructeurs d’outils qui aident les gens à travailler avec des données. « Plutôt que de présumer que ceux qui utilisent vos outils ont une vision claire de leurs données, comment pouvez-vous créer des fonctionnalités et des méthodes qui garantissent que les gens connaissent les limites de leurs données et les utilisent de manière responsable ? Vos outils ne sont pas neutres. Les données que vos outils aident à analyser ne le sont pas non plus. Comment pouvez-vous créer des outils qui invitent à une utilisation responsable des données et qui permettent de voir quand les données sont manipulées ? Comment pouvez-vous contribuer à la création d’outils de gouvernance responsable ? »

« Certains d’entre vous ici aujourd’hui sont des chercheurs critiques, qui regardent tout cela se dérouler. Nous avons tous vu des technologies être utilisées pour mettre en œuvre des abus et réifier des inégalités structurelles. Mais soyons également prudents. Dans certains contextes, nos critiques sont détournées pour saper les infrastructures de données qui défendent la démocratie et les droits civils. Le contexte est important. Oui, nous devons examiner d’un œil critique la façon dont la technologie soutient les systèmes de pouvoir. Mais nous devons également être conscients de ceux qui profitent du doute et de l’affaiblissement de la science et des statistiques. »

Les données de recensement sont un canari dans la mine de charbon. Les controverses entourant le recensement de 2020 ne vont pas disparaître à court terme. L’imaginaire statistique des données précises, parfaites et neutres a été rompu. Et il n’y a aucun moyen de remettre le proverbial génie dans la bouteille. Rien de bon ne sortira de la tentative de trouver une nouvelle façon d’ignorer l’incertitude, le bruit et l’erreur. La réponse à l’utilisation responsable des données ne consiste pas à réparer une illusion. Il s’agit d’envisager et de projeter de manière constructive un nouvel imaginaire statistique, les yeux grands ouverts. Cela signifie que tous ceux qui s’intéressent à l’avenir des données doivent contribuer à ancrer notre imaginaire statistique dans la pratique, dans les outils et dans les connaissances. « La science responsable des données ne concerne pas seulement ce que vous faites, mais aussi ce que vous faites faire à tous ceux qui travaillent avec des données ».

Les données sont des artefacts politiques comme les autres

Derrière cette invitation puissante à interroger notre conception des données, danah boyd pointe d’autres. Dans l’édition précédente de sa newsletter, danah boyd interrogeait plus avant les limites de la visualisation des données par exemple. Elle expliquait notamment que la visualisation est profondément une question de communication. « Les choix que vous faites pour produire une visualisation déterminent la façon dont elles seront perçues. Le spécialiste en visualisation de données a le pouvoir de façonner nos perceptions. Ce qui signifie qu’il n’y a pas de visualisation neutre, pas plus qu’il n’y a de données neutres. La question pour le spécialiste en visualisation de données consiste donc à savoir ce qu’il souhaite transmettre. » Le journalisme aimerait lui aussi s’imaginer en reporter neutre, alors qu’il ne cesse de devoir prendre des décisions sur les priorités qu’il donne à certaines informations sur d’autres et sur la manière dont il va communiquer ces informations. Shannon dans sa théorie de l’information le disait d’une autre manière. L’enjeu n’est pas tant ce que le communicateur essaie de dire que ce que le destinataire est capable d’entendre. « La perte de paquets est inévitable. Le communicateur doit donc organiser l’information de manière à ce que, même avec du bruit dans le système, le destinataire puisse recevoir le message voulu. » Pour danah boyd, se concentrer sur la parole ou l’écoute forme les deux extrémités d’un spectre. Si la presse a toujours été attentive au contexte, c’est-à-dire à la manière dont les gens peuvent recevoir une histoire, aujourd’hui, elle a de moins en moins de contrôle sur celui-ci, puisque nombre de contenus ne sont plus reliés à une hiérarchie de l’information, mais deviennent de plus en plus indépendants les uns des autres.

« Les données ne parlent pas d’elles-mêmes. Elles ne sont jamais neutres. Elles ont des biais et des limites, des vulnérabilités et des incertitudes. Lorsqu’elles sont placées en position de pouvoir, elles sont souvent déformées et déformées d’innombrables façons. » Apprendre à voir véritablement les données est difficile, notamment parce que leurs faiblesses ne sont pas toujours évidentes à décoder. La visualisation peut contribuer à révéler leurs faiblesses ou les masquer.

Il y a quelques années, alors qu’elle donnait un cours d’introduction à la science des données, elle faisait travailler ses étudiants sur des données de police de la ville de New York et leur posait une question simple : quel est l’âge moyen des personnes arrêtées. Très vite la réponse fusait (27 ans) et quand elle leur demandait si c’était exact, ceux-ci émettaient mille hypothèses sociales pour en tirer du sens. Mais en leur demandant de faire une distribution des données, ils se sont rendu compte que la grande majorité des gens dans les données n’avaient pas d’âge. En comparant cette variable à celle de la date de naissance, ils se sont rendu compte que les deux variables ne correspondaient pas. L’âge est une très mauvaise clef d’entrée dans ces données. La première leçon était apprise : il est essentiel de saisir la faiblesse des données avant de leur poser des questions. « Lorsque vous construisez vos outils, quelles hypothèses faites-vous sur vos données ? Comment aidez-vous ceux qui cherchent à donner un sens aux données à en voir les limites ? Comment amadouer les données pour qu’elles montrent leurs faiblesses ? Comment encouragez-vous les utilisateurs de données à voir l’incertitude ? Ce sont des choix. »

Les données démographiques américaines sont ainsi classées géographiquement, par sexe et race. Autant de classements bien souvent difficiles. Elles ne sont pas les seules à être problématiques dès qu’on les distribue en catégories. Si nos manières de segmenter les données peuvent être guidées par des formules mathématiques, le choix de créer des segments est très directement déterminé par des considérations sociales. Une fois les catégories créées, il faut traiter les données qui ne correspondent pas aux catégories et également traiter les données qui sont déformées par les catégories, notamment à des fins politiques. Nos sociétés sont pleines d’inégalités. Or, souligne boyd, « bien que les gens imaginent l’informatique comme un grand perturbateur, l’ironie veut que nombre de nos pratiques informatiques soient davantage obsédées par la réification des catégories créées par les humains que par leur perturbation ».

L’apprentissage automatique n’est rien d’autre qu’un moyen pour identifier des catégories socialement construites et il consiste à les identifier informatiquement dans des systèmes qui, généralement, les amplifient. D’où le fait que l’IA soit si controversée. Ainsi, les systèmes apprennent rapidement que les infirmières sont des femmes et les médecins des hommes. Ils n’ont pas appris ici un fait intrinsèque, mais un fait socialement construit. Lorsqu’un modèle présentant ce biais est ensuite placé dans un système qui l’utilise, alors il a tendance surtout à renforcer ce biais. Que se passe-t-il alors ? Quand vous visualisez des données contenant des préjugés, faut-il alors concevoir un outil pour les révéler ou pour les réifier ?

Pour boyd, quand on crée une visualisation, nous devons tenir compte de la façon dont ce travail peut-être déformé pour favoriser l’ignorance, pour favoriser des perceptions erronées… « La désinformation et l’information erronée ne sont pas simplement des attaques contre le discours politique ; ce sont des attaques épistémiques conçues pour saper toutes les formes de preuves », rappelle-t-elle (« L’objectif principal de la désinformation n’est pas de nous persuader que des choses fausses sont vraies. Elle vise à nous faire nous sentir impuissants », rappellait Ethan Zuckerman – @EthanZ – récemment, nous invitant à nous maintenir dans l’impuissance en nous battant pour la vérité plutôt que contre le pouvoir). Pour danah boyd, ceux qui produisent des visualisations de données doivent penser comme un pirate et réfléchir à la manière de sécuriser leur travail de visualisation pour qu’il ne devienne pas un outil de désinformation.

boyd explique qu’elle est tombée amoureuse de la visualisation de données quand elle a réalisé qu’elle pouvait aider à voir des informations complexes sous un meilleur jour, comme c’est le cas notamment des visualisations interactives. « Les visualisations sont des outils puissants. Elles nous permettent d’explorer les données, de donner un sens à ce que nos données peuvent cacher sur elles-mêmes. Elles nous permettent de communiquer des données, en révélant des aspects des données qui sont difficiles à saisir. Elles peuvent également être utilisées pour affirmer l’autorité, de manière à la fois productive et dangereuse. »

Les entreprises sont dans leur pire état lorsque la conscience interne qu’elles ont d’elles-mêmes est en désaccord maximal avec la perception externe de l’entreprise. C’est par exemple le cas actuellement de Facebook. Une bonne communication consiste à aligner ces perceptions internes et externes. Le soir de l’élection de 2016, le New York Times a présenté une visualisation absurde de la probabilité de victoire de chaque candidat. Elle était binaire et montrait que Hillary Clinton allait gagner. La victoire de Trump était dans la marge d’erreur pourtant, mais ce n’est pas ce qu’a montré la visualisation. Lorsqu’on construit un outil de visualisation, trop souvent, on souhaite le montrer dans toute sa splendeur. C’est oublier que les visualisations ont du pouvoir. Elles savent transmettre des informations et amplifier certaines interprétations. Elles sont des artefacts politiques comme les autres, conclut-elle en encourageant les concepteurs à une grande humilité et à une grande responsabilité.

L'outil de prévision du New York Times quelques heures avant les résultats
Image : Quelques heures avant les résultats de l’élection de 2016, les prévisions en direct du New York Times annoncent que Hillary Clinton a 82 % de chance de devenir présidente des Etats-Unis.

Les données ou la démocratie ?

Prenons encore un peu plus de hauteur, sur les enjeux de la production de données et leurs limites.

Le contrôle, la circulation et le traitement des données sont au cœur des pratiques de nos sociétés. Mais elles restent profondément opaques : nous en savons bien moins sur ceux qui recueillent les données (et comment) qu’ils n’en savent sur nous, rappelle la professeure de droit de Yale, Amy Kapczynski (@akapczynski) en introduction d’un imposant dossier sur les données et la démocratie publié par l’Institut Knight de l’université de Columbia (@knightcolumbia). Reste que ces techniques mobilisées ne sont pas sans biais et erreurs qui reproduisent et ancrent des réalités sociales plus discriminantes qu’autre chose. « Notre position dans les réseaux numériques façonne profondément nos chances dans la vie, d’une manière que nous ne comprenons que très peu et qui soulève des préoccupations importantes pour nous tous. Les pratiques de notation et de tri ne constituent pas seulement nos identités et notre accès aux médias sociaux, mais façonnent également notre capacité à accéder au crédit, à l’emploi, au logement et aux soins médicaux. Les implications sont également structurelles. Une nouvelle « fracture du big data » est apparue : « Ceux qui ont accès aux données, à l’expertise et à la puissance de traitement sont positionnés pour s’engager dans des formes de tri de plus en plus sophistiquées qui peuvent être « de puissants moyens de créer et de renforcer des différences sociales à long terme [ou nouvellement générées]. » Les défis des technologies et des formes de pouvoir qu’elles encapsulent est un nouveau défi à nos démocraties qui reposent sur des formes de partage de pouvoir, qui semble moins évident quand celui-ci, structurellement, ne le permet pas, estime Kapczynski. La datafication de nos sociétés adresse de nouveaux défis à nos démocraties.

l'article introductif de Amy Kapczynski pour le Knight Institute
Image : l’article introductif de Amy Kapczynski pour le Knight Institute.

Tout d’abord, les données ne sont pas seulement un matériel à traiter, mais jouent un rôle dans le rapport au peuple qui est censé gouverner. Si les données alimentent depuis longtemps les démocraties modernes, la collecte et les traitements sont désormais au cœur de nos fonctionnements démocratiques, rappelle la professeure de droit. Reste à comprendre comment ces pratiques peuvent incarner et intégrer des valeurs démocratiques, alors qu’elles sont fondamentalement opaques et techniques. Elle évoque justement l’exemple du recensement – danah boyd signe d’ailleurs avec l’historien Dan Bouk (danbouk qui tient un blog sur la question du rencensement) un autre article sur la question du bureau du recensement -, et souligne que les arbitrages sur qui compter, qui peut utiliser les données… ont toujours fait l’objet de conflits. L’évolution des choix opérés est clairement liée à des contextes politiques et idéologiques rappelant qu’il n’y a pas de neutralité technique, même dans les chiffres. Même constat quand on regarde les questions électorales et leurs implications, qui vont du découpage des circonscriptions aux modalités de vote, jusqu’aux formes les plus sophistiquées de ciblages politiques… L’exploitation des données semble transformer et accélérer « la politique comme marché », amplifiant les hiérarchies sociales existantes. Pour les professeurs de droit Bertrall Ross (@bertrall_ross) et Douglas Spencer – dans un article qui n’a pas encore été publié par le Knight -, l’accès à des données de plus en plus granulaires sur les électeurs est corrélé à un moindre investissement politique dans la mobilisation des électeurs à faible revenu, parce que ces derniers ont des taux de vote plus faibles et sont donc considérés comme de mauvais investissements, explique Kapczynski. Pour Ross et Spencer, le risque est que la baisse de la participation électorale des plus pauvres s’autorenforce. Pire, soulignent-ils, à l’ère du microciblage et de l’accès différencié aux données, l’accès et l’ouverture aux données pourraient renforcer l’exclusion plus que la limiter, défaire les projets politiques solidaires… Un plus grand accès aux données ne se traduira pas automatiquement par un élargissement de la démocratie ou par un gouvernement plus fiable ou plus digne de confiance, expliquent-ils avec inquiétude.

Le second enjeu repose sur le défi qu’adresse le secret des calculs au projet démocratique. « Nous ne pouvons pas obtenir les informations dont nous avons besoin sur les données et les systèmes d’IA en insistant simplement sur une « transparence » passive et sans médiation. Si l’accès aux données doit servir des objectifs publics, il devra être actif, sensible aux structures de pouvoir sous-jacentes et, dans de nombreux cas, conditionnel. » L’optimisme sur le potentiel libérateur qu’on a connu sur l’open access et la transparence sans limites, est derrière nous. La transparence et l’ouverture ne peuvent pas, à elles seules, créer la responsabilité et l’équité !

L’accès aux données ne signifie pas non plus accéder à des informations fiables. La transparence relève d’une forme d’idéologie, comme l’expliquait David Pozen dans un article sur la dérive idéologique de la transparence (.pdf). L’utilisation des données qui relève de l’ouverture est profondément intriquée dans des structures de pouvoir, notamment au profit de ceux qui disposent d’accès à ces données et des capacités de traitement pour les faire parler et agir. L’ère algorithmique génère surtout de nouveaux obstacles à l’accès à l’information, notamment, à nouveau, pour ceux qui sont le plus démunis, rappelle très justement Amy Kapczynski. Face à la complexité des processus et systèmes à forte intensité de données, les profanes sont laissés sur le bord de la route. « La complexité et le secret de conception ne sont qu’un aspect du problème. À mesure que les processus technologiques et de gouvernance sont devenus plus complexes, les données ont fait l’objet d’une protection juridique plus forte. » L’accès aux processus est plus compliqué que jamais du fait des secrets sur les techniques de calcul et impacte jusqu’au secteur public qui utilise des systèmes privés. La protection de la vie privée et celles relatives à la liberté d’expression sont trop souvent mobilisées pour rejeter les demandes d’information et rendent souvent impossible ou difficile la régulation publique sur les décisions de filtrage qu’opèrent les plateformes. Pour John Bowers (@john_bowers_), Elaine Sedenberg (@Elaine_Said) et Jonathan Zittrain (@zittrain), il est essentiel que les plateformes ouvrent des accès aux chercheurs, expliquent-ils dans un article sur la responsabilité des plateformes. Dans un article sur les limitations de l’accès aux données introduites par le RGPD en Europe, Mathias Vermeulen (@mathver) montre que là aussi, les chercheurs peinent à accéder aux données. Hannah Bloch-Wehba (@HBWHBWHBW) souligne quant à elle les risques que les fournisseurs privés d’outils d’analyses risquent de renforcer l’opacité des services publics et préconise des réformes sur les pratiques de passation de marchés publics qui obligeraient les contractants à l’ouverture.

Enfin, la série s’interroge également sur la gouvernance des données. Pour l’instant, les données ont été « légalement construites comme faisant partie d’un « domaine public » ouvert à la capture » par ceux qui peuvent les capturer, comme l’explique Amy Kapczynski dans The law of informational Capitalism. Au final, cette conception des données produit une forme de consentement automatisé et des conditions d’utilisation qui ne protègent pas vraiment la vie privée. D’autres contributeurs encore, comme Julie Cohen (@julie17usc), Frank Pasquale (@FrankPasquale), Aziz Huq (@aziz_huq) et Mariano-Florentino Cuéllar avancent de nombreux arguments pour démontrer l’incapacité des approches individualisées et fondées sur le consentement à permettre aux utilisateurs de comprendre ce qu’il sera fait des données qu’ils consentent à partager. « Organiser un régime réglementaire autour des droits de contrôle individuels », note Julie Cohen, « implique une structure de gouvernance atomistique et post hoc. Les utilisateurs individuels qui affirment leurs préférences pour des options prédéfinies sur des tableaux de bord modulaires n’ont ni le pouvoir ni la capacité de modifier les réseaux invisibles et préconçus d’arrangements techniques et économiques dans le cadre desquels leurs données circulent entre de multiples parties. » « Les approches structurelles, qui ne sont pas basées sur le consentement ou organisées par des logiques de choix individuels, et les approches qui sont capables d’affirmer et de s’occuper des formes structurées du pouvoir du réseau, sont essentielles pour démocratiser notre ère de données intensives. » Pasquale et Cohen préconisent donc de s’écarter radicalement des modèles réglementaires existants.

Kiel Brennan-Marquez et Daniel Susser (@internetdaniel) soutiennent que l’émergence de la phase « plateforme » du capitalisme remet en question l’existence même des marchés tels que nous les connaissons, ainsi que leur relation avec la liberté et l’efficacité. La surveillance et l’influence comportementale rendues possibles par la techno soulignent qu’il est peu probable que les marchés améliorent la liberté.

Concrètement, les enjeux que pose l’imposant dossier coordonné par Amy Kapczynski souligne que les données vont transformer en profondeur nos démocraties. Quel type de démocratie créons-nous depuis les nouvelles technologies ? Est-ce vraiment celle que nous voulons ? Ce qui est sûr, c’est que nous ne répondrons pas à ces questions sans interroger profondément et précisément ce que modifie notre rapport aux données et aux traitements quand ils sont partout autour de nous.

Hubert Guillaud

À lire aussi sur internetactu.net

0 commentaires

  1. La lecture de cet article m’a beaucoup rappelé ce petit ouvrage de 2013 que tu dois connaître : « Raw data is an oxymoron », https://mitpress.mit.edu/books/raw-data-oxymoron mais aussi l’ouvrage de Jérôme Denis de 2018, « Le travail invisible des données. Eléments pour une sociologie des infrastructures scripturales »