Il est plus que temps que le Big data évalue ses impacts

Cathy O’Neil est data scientist (blog, @mathbabedotorg). Docteur en mathématique de Harvard, elle vient de publier un livre intitulé Armes de destruction matheuses expliquant comment les Big Data augmentent les inégalités et menacent la démocratie, comme le soulignait une récente interview d’elle dans Rue89. Elle a beau être une spécialiste des données et de leurs traitements, elle n’en est pas moins très sceptique et critique sur l’utilisation que nous en faisons.

Sur la scène de la conférence USI, elle revenait d’une manière simple et pédagogique sur ce qu’est un modèle (voir notre article « Ouvrir les modèles ! », pas seulement les données). Quand on va faire ses courses, on a plein de modèles en tête qui tentent de cerner ce dont on a besoin, les prix des produits, les niveaux d’informations sur ceux-ci dont nous disposons pour les choisir… Nous avons des modèles pour tout et nombre d’entre eux sont cassés, ne fonctionnent pas très bien : c’est ce qui explique bien de nos erreurs quand nous pensons gérer notre carrière, trouver un mari, faire un pari…

Contrairement à ce que l’on pourrait croire, les mathématiciens ne font pas toujours bien mieux. Ils tentent de construire des modèles depuis des informations en entrée et/ou en sortie, en construisant au milieu une « boîte noire » qui réalise les traitements… Le problème, souligne-t-elle est que, comme l’évoque Frank Pasquale dans Black Box Society, les mathématiciens construisent des traitements non pas pour clarifier les choses, mais pour les rendre plus obscures. Le Big Data est un monde de boîtes noires.

Cathy
Image : Cathy O’Neil sur la scène d’USI.

Le premier problème, outre la difficulté que peut représenter parfois la collecte, est de décider quelles données utiliser. Quand on utilise les données de l’évolution du cours de l’action d’Apple, parle-t-on de données en temps réel, de données quotidiennes, de données moyennes sur 10 ou 40 jours… ? Quand on parle de données, on est souvent imprécis, alors qu’il faut être précis, très précis. Utilise-t-on les bonnes données ? Utilise-t-on de bons modèles ? Permettent-elles d’obtenir de bons retours ou de corriger les problèmes ? Rendent-elles aveugles aux externalités ?… Comme le souligne la loi de Goodhart, quand une mesure devient un enjeu, elle cesse assez souvent d’être une bonne mesure. On peut minimiser les coûts d’une usine chimique par exemple, mais les données mesurent-elles les externalités, comme la pollution que cette réduction peut générer ? Cathy O’Neil évoque ainsi plusieurs exemples, comme le très compétitif classement national des universités américaines qui ne prend pas en compte les coûts de scolarité pour pondérer leur calcul… Ou encore les données d’arrestation de la police de New York entre 2003 et 2013 qui montraient que dans les quartiers pauvres les arrestations concernaient essentiellement les noirs et les latinos et que les données montraient qu’il y avait plus d’arrestations de gens des minorités que de personnes dans ces minorités – voir par exemple le terrible rapport (.pdf) de l’Union des libertés civiles de New York ! Beaucoup de choses posent donc problème, souligne la mathématicienne : le choix des modèles, le choix et la mise à jour des données, les algorithmes, le déploiement des traitements… Tout cela est enfermé dans les boîtes noires.

Pour Cathy O’Neil, si les résultats sont opaques, inexplicables, cela tient beaucoup au fait que les gens sont impressionnés par les mathématiques. Ils pensent qu’ils n’ont pas l’autorité, les connaissances pour comprendre. « Notre analphabétisme en mathématique donne de l’autorité aux traitements impénétrables ». Pour les gens, les maths sont intimidants. Ils sont comme un autre langage dont on n’aurait pas les connaissances pour les comprendre. Pourtant, les mathématiciens eux-mêmes n’accepteraient pas d’utiliser des choses qu’ils ne comprendraient pas.

Cathy O’Neil revient sur nombre d’exemples sur lesquels elle s’est déjà souvent énervée sur son blog. Sur la scène d’USI, elle s’en prend à la méthode d’évaluation des professeurs aux Etats-Unis. Le problème est que cette évaluation n’est absolument pas pertinente, ce qui n’a pas empêché des journaux de publier la liste des professeurs qui avaient les plus mauvais scores pour les humilier publiquement. Cathy O’Neil s’est beaucoup démenée autour de cette question. Elle a tenté d’obtenir le mode de calcul de ce score, mais le département éducatif de la ville de New York lui a répondu qu’il était secret. Elle s’est amusé à regarder les données et notamment celles des enseignants qui avaient plusieurs résultats, montrant qu’ils pouvaient avoir pour une classe une très mauvaise note et pour une autre une très bonne note. Ses analyses montrent que ces méthodes d’évaluation sont très contestables et que si un enseignant se retrouve avec une mauvaise note, cela ne dit rien du tout de sa qualité. Reste que ce calcul est utilisé. Que des professeurs ont été virés parce qu’ils ont eu de mauvais résultats. « Comment peut-on protéger les gens de processus injustes qui les impactent directement ? »

Cathy O’Neil a plein d’exemples de ce type. Elle évoque ainsi les tests de personnalité qu’utilisent les entreprises pour recruter des gens, dont un terrible article du Wall Street Journal montrait la vacuité. Et ce alors que les principes entreprises privées américaines y ont de plus en plus recours, soi disant pour limiter le turn-over, sans voir que le développement de la précarité a certainement plus d’impact que la qualité de ces tests, ce « management vaudou ». Comme elle le soulignait sur son blog, trop souvent, les Big Data ne sont rien d’autre qu’une nouvelle phrénologie, cette pseudoscience qui a tenté de trouver une association statistique entre le faciès et les moeurs et qui, dans ses pires dérives, a justifié le racisme et la criminalité. Or, ces tests dits « psychologiques » sont utilisés par de plus en plus d’entreprises et au final, des gens n’obtiennent pas le travail pour lequel ils postulaient. « Opaque, inexplicable et injuste », c’est ainsi que le monde risque de devenir si nous continuons à utiliser ces méthodes.

Le livre de Cathy O'NeilCes évaluations commencent souvent avec de bonnes intentions. Mais les méthodes échouent à produire des résultats fiables. Et le fait que ces résultats ne soient pas fiables ne sape pas le but originel. L’opacité des calculs empire les choses et leur passage à l’échelle démultiplie encore leur effet destructeur. Nous sommes confrontés au pire scientisme social, indifférent à ses effets. Bien sûr, elle évoque l’évaluation automatisée des risques de récidive criminelle aux Etats-Unis dont Propublica a récemment montré les limites. Ils reposent sur des tests, des ensembles de questions qui demandent aux gens s’ils vivent dans un quartier à la criminalité élevée, s’ils ont fini le lycée, si leur père a déjà été arrêté… Comme elle le soulignait sur Rue89 : « Ce sont des éléments qui ne seraient pas recevables au tribunal, mais ils sont cachés dans le code ». Pour Cathy O’Neil, ces outils proposent de mettre les gens en prison plus longtemps uniquement parce qu’ils sont pauvres, ont peu de connexion sociale et sont noirs. Pour elle, tous ces systèmes rendent les choses pires qu’elles sont parce qu’ils reposent sur des critères défaillants, parce qu’on les mesure mal, parce qu’on les bricole plus qu’on les construit. Et l’opacité qui couvre leurs fonctionnements les rendent encore pires, puisque que non seulement ils sont défaillants, mais qu’ils deviennent inexplicables et injustes… et qu’ils ne permettent plus le moindre recours à leur encontre. Une arme de destruction mathématique est quelque chose d’opaque, de destructeur, et qui a un impact fort. Or, ces 3 caractéristiques combinées sont éminemment toxiques. Elles effritent les modèles eux-mêmes. Et ces systèmes prennent des gens comme cibles. Qu’est-ce qui détermine votre score de crédit ? Votre historique de paiement réellement ? Ou le fait que vous viviez dans un quartier où le score de crédit moyen des gens est mauvais ? Pour Cathy O’Neil ces outils font peser un risque contre la démocratie, un risque pour les modèles d’affaires. Et la jeune femme de nous inviter à ne pas utiliser d’algorithmes destructeurs et avant tout, à mesurer leurs impacts.

Dans les questions qui ont suivi sa présentation, Cathy O’Neil a expliqué qu’elle voudrait être fière de ce que font les data scientists. Qu’ils doivent travailler à développer des algorithmes loyaux. Ils ne sont pas éthiques par nature, c’est à ceux qui les développent de les rendre équitables. Pour elle, cela nécessite de le faire de manière ouverte, transparente. Comme le soulignait son collègue Kareem Carr sur son blog, cela nécessite de concevoir des systèmes open source pour qu’ils puissent être audités. Si ce n’est pas le cas, il faut que les jeux de données ou que des extraits de ces jeux soient ouverts pour permettre aux gens de regarder ce qu’il s’y cache, afin de pouvoir comprendre les traitements, les modifier et les améliorer. Enfin, les systèmes doivent produire des résultats explicables. « La bonne science de données créée des algorithmes intelligibles. Elle nous permet de comprendre pourquoi ils échouent et comment remédier à leurs échecs. Elle nous permet d’interpréter intelligemment les résultats qu’ils produisent. Elle conduit à une meilleure prise de décision », pas à une pire. Comme le clamait déjà Cathy O’Neil : « Quand un modèle est aussi important dans la vie de chacun, je ne vois aucun argument pour favoriser son opacité ». Comme elle le disait encore à Rue89, les citoyens ne doivent pas être impressionnés par ces systèmes. Ils doivent poser les bonnes questions, exiger des réponses concrètes. Demander à ceux qui conçoivent ces systèmes de prouver qu’ils sont équitables.

Hubert Guillaud

À lire aussi sur internetactu.net

0 commentaires

  1. Nous avons vu le même principe en France, avec les boîtes noires censées surveiller le web pour trouver les pédo-nazis.
    Impossible de savir comment ça marche. on sait juste qu’il y a un algorithme qui fait le travail et qu’il faut lui faire confiance.

  2. Je me demande s’il n’y a pas un risque que les divers pouvoirs ne cherchent à remplacer la science par la « Data science ». Cela aurait tous les airs de la modernité sans aucun des désagréments de la vraie science, comme la confrontation au réel qui casse les rêves de puissance. Par exemple, les économistes, depuis 2008, deviennent indociles: les critiques vis-à-vis de la doxa néo-libérale et ses appuis théoriques se multiplient. Autre exemple: les climatologues du GIEC. Il pourrait être tentant pour un pouvoir de ringardiser ces emmerdeurs en leur opposant moult études de big data incompréhensibles avec de jolis graphiques animés en couleur dont les seules conclusions compréhensibles iraient dans le « bon sens » – d’autant que 1° les « bonnes » données leurs seraient obligeamment fournies (et leur source dûment escamotée) 2° les data scientists seraient bien tenus par (a) des salaires mirobolants et (b) leur besoin de bêtes de calcul ultra-coûteuses. Paranoïa ? Je l’espère pour nous…

  3. Si les entreprises et les managers les moins moraux imaginent que le big data sera la caution religieuse qui va leur donner une légitimité dans leur courte vue ils se trompent et ça pourrait bien démarrer de vrais croisades pour le coup ! Il n’est pas étonnant que des psychopathes cherchent à en abuser et à le détourner mais ce n’est pas pour cela que cela donnera une légitimité religieuse en quoi que ce soit. Ce n’est pas cela qui poussera les gens a aimer leur travail et donner le meilleur d’eux mêmes. Une fuite en avant vers un mur mais avec l’ornement religieux qui va bien.