Ouvrir les données ne suffit pas. Permettre aux utilisateurs de récupérer leurs données non plus. « La restitution des données à l’utilisateur ne suffira pas à les armer, s’ils ne peuvent être conscients des traitements que leurs données subissent ». Les utilisateurs, même s’ils récupéraient leurs données ne seraient pas à égalité avec les services qui les utilisent, « car ceux-ci savent les traiter ». Mais pas les utilisateurs ! Eux n’ont aucun moyen pour l’instant de connaître les traitements qui sont appliqués à leurs données ! Ils n’en connaissent que les résultats.
A mesure que nous devenons dépendants de la modélisation, le monde nous devient impénétrable
A l’ère des traitements, des algorithmes, des Big Data, l’important n’est pas tant l’or noir des données que les traitements qui peuvent en être fait, que l’interprétation que les systèmes en tirent.
Mike Loukides (@mikeloukides) pour O’Reilly Radar (@radar) explique très bien ce qui bloque. « Il n’y pas que les données qui doivent être ouvertes : il y a aussi les modèles ! (…) Vous pouvez avoir toutes les données sur la criminalité que vous voulez, toutes les données de l’immobilier que vous voulez, toutes les données sur les performances des élèves que vous voulez, toutes les données médicales que vous voulez, mais si vous ne savez pas quels modèles sont utilisés pour générer des résultats, vous n’aurez pas beaucoup de réponses. » Sans modèles, les données risquent seulement d’être auto-réalisatrices. Mais si les modèles ne sont pas ouverts comment pourrons-nous savoir si ce qu’ils nous disent dépend d’un biais du modèle ? A mesure que nous devenons dépendants de la modélisation, le monde nous devient impénétrable. Sans modèles, nous ne comprendrons jamais la façon dont les traitements nous manipulent. « L’ouverture des données permet la démocratisation de données. (…) Mais si voulez vraiment comprendre les effets que les données peuvent avoir sur l’application de la loi, sur l’assurance, sur l’éducation, sur l’économie, vous avez besoin d’avoir accès aux modèles. »
Dans son billet, Mike Loukides se réfère à d’anciens billets de la mathématicienne Cathy O’Neil qui tient le blog MathBabe (@mathbabedotorg). Dans un premier article sur les modèles ouverts, Cathy O’Neil rappelle que bien souvent les données liées à la recherche ne sont pas accessibles. Or, les modèles utilisés pour les traiter le sont encore moins. Pour la mathématicienne, nous devrions exiger plus d’information notamment quand des décisions politiques sont prises en fonction d’eux explique-t-elle en plaidant pour des modèles open source (dont elle détaille le fonctionnement optimal ici).
« Concrètement, cela signifie que nous devrions pouvoir jouer avec les paramètres et voir comment le modèle change. Nous devrions pouvoir entrer de nouvelles données et voir ce que le modèle crache. Nous devrions pouvoir recycler le modèle avec une hypothèse légèrement différente, ou avec de nouvelles données, ou avec un autre ensemble de validation croisée. »
Ouvrir les modèles
Se référant à l’appel de Victoria Stodden et Samuel Arbesman pour la libération de données liées aux recherches pour pouvoir les reproduire et donc les confirmer ou les infirmer, Cathy O’Neil souligne que la vérification des résultats scientifiques aujourd’hui est quasiment impossible (et de nombreuses tribunes, récentes, comme celle de John Ioannidis du Centre de recherche sur l’innovation de Stanford insistent sur l’importance d’inciter la recherche à valider ses travaux en facilitant leur reproduction et donc le partage plus documenté des protocoles, données et modèles des études). Le problème ne se limite pas à la recherche scientifique, insiste Cathy O’Neil. Les banques et les fonds d’investissement publient rarement leurs recherches, pour des raisons de confidentialité, ce qui ne favorise pas leur vérifiabilité. Pour Cathy O’Neil, pourtant, bien souvent les modèles utilisés posent problèmes et s’ils étaient mieux discutés, ils montreraient bien mieux leurs limites. Or ces modèles tirent des conclusions chaque jour sur chacun d’entre nous en nous accordant ou nous refusant un crédit, un prêt…
Selon elle, insiste-t-elle dans un autre article : « vous ne savez pas vraiment ce que fait un modèle tant que vous ne pouvez pas interagir avec lui. Vous ne savez pas si un modèle est robuste tant que vous ne pouvez pas jouer avec ses paramètres. Enfin, vous ne savez pas si un modèle est le meilleur possible tant que vous n’avez pas laissé les gens essayer de l’améliorer. »
Les modèles sont des opinions
Dans un autre billet encore, elle rappelle que tous les modèles ne doivent peut-être pas être ouverts, mais que certains devraient l’être plus que d’autres, notamment ceux qui ont un impact sur le grand public, comme les modèles d’évaluation des risques clients, les modèles de notation des enseignants américains… Demander aux agences de classements éducatives des Nations Unies ou américaines d’ouvrir leurs modèles (à l’image du fameux classement PISA par exemple). Cela permettrait à beaucoup de gens de mieux les relativiser, de mieux comprendre que les modèles sont bien souvent des opinions, « et permettre aux gens d’arrêter de leur faire confiance simplement parce qu’ils sont présentés sous forme mathématique »
« Si je suis jugé, mesurée et tenue responsable par certains modèles dans ma vie quotidienne de citoyen, cela a un réel impact sur la façon dont va se dérouler mon avenir, alors je devrais savoir comment ce processus fonctionne. »
Luis Daniel (@luisdaniel12), chercheur au GovLab de la New York University (@thegovlab) revient dans une tribune sur un exemple très éclairant de l’impact des modèles : celui de la condamnation basée sur des preuves (EBS pour evidence-based sentencing), c’est-à-dire l’utilisation d’outils automatisés pour déterminer les peines d’emprisonnement. Une vingtaine d’Etats américains ont recours à ces outils pour déterminer les peines des criminels selon différents paramètres qui varient d’un Etat l’autre. Nombre d’entre eux utilisent des facteurs statistiques comme l’âge, le sexe, l’état matrimonial, le niveau d’éducation, l’emploi du criminel pour déterminer les risques de récidive et la lourdeur de la peine, sans prendre en compte le cas particulier du délinquant. Une pratique qui connaît de vives critiques aux Etats-Unis notamment du procureur général Eric Holder qui souligne que « utiliser des facteurs statistiques d’antécédents criminels pourrait perpétuer les préjugés raciaux d’un système qui offre déjà une peine de 20 % plus longues pour les jeunes hommes noirs que pour les autres délinquants ». Le New York Times évoquait même la probabilité d’inconstitutionnalité de ces systèmes automatisés.
La professeur de droit de l’université du Michigan, Sonja Starr, qui signait cette tribune dans le New York Times, donnait des exemples sur le fonctionnement de ces systèmes dans un article à paraître pour la Stanford Law Review. Dans le Missouri, chaque accusé se voit attribué un score allant de -8 à +7. Un chômeur en décrochage scolaire va se voir attribuer 3 points de moins qu’un employé titulaire du Bac. Un délinquant de 22 ans aura aussi en moyenne 3 points de moins qu’un autre de 45 ans. Par comparaison, avoir déjà fait de la prison n’ajoute qu’1 point. Avoir eut 4 ou plus condamnations antérieures pour des infractions mineures n’ayant pas donné lieu à emprisonnement ajoute 1 point (aucun point si le nombre de condamnation est inférieure à 3). Avoir déjà eu une libération conditionnelle ou une probation révoquée vaut 1 point, tout comme une évasion de prison. Par contre, le type de crime ou sa gravité n’ajoutent ni ne retranchent aucun points. Sonja Starr montre ainsi que les facteurs qui déterminent le modèle ne traduisent pas toujours des probabilité de récidive, mais qu’ils sont traités comme tels et que ces prévisions ne sont pas individuelles, mais fondées sur des moyennes des différents groupes auquel chacun peut être rattaché. Pour autant que l’EBS sache prédire avec précision le risque de récidive (et rien n’est plus incertain), les peines de prison supérieures se traduiront-elles par des infractions futures moindre une fois que les délinquants seront libérés ? Comment cela rétroagira sur l’EBS ? Le problème, conclut Luis Daniel, c’est que parce qu’ils sont considérés comme scientifiques, ces outils reçoivent un important soutien, quand bien même ils risquent avant tout d’aggraver encore un système pénal inégalitaire. Tout le problème de ces outils est que la condamnation ne repose pas sur ce que la personne a fait, mais sur qui elle est !
Des modèles comme des jeux
Pour Cathy O’Neil, il est nécessaire que les modèles soient des jeux. « Une des raisons les plus courantes que j’entends pour ne pas ouvrir les modèles est que si on le fait, les gens vont jouer avec. Mais c’est exactement ce qu’ils doivent faire et ce n’est pas un argument valable contre la transparence ! »
Et Cathy de reprendre l’exemple du modèle d’évaluation des professeurs américains… Il n’y a aucune raison qu’il soit opaque. Oui, s’il ne l’est plus, les professeurs vont le tester pour tenter de mieux comprendre ce qu’il mesure et ce qu’il ne mesure pas. Mais c’est le meilleur moyen d’améliorer cette mesure, de faire qu’elle permette vraiment de mesurer la qualité de l’enseignant et pas autre chose. S’ils trouvent des failles dans le modèle, c’est que celui-ci doit être amélioré, c’est qu’il ne mesure pas la bonne chose. « Au moins, quand le modèle est transparent, les problèmes sont plus évidents et les modéliseurs sont plus motivés pour faire que leur modèle mesure bel et bien la bonne chose ». Et Cathy O’Neil de s’énerver à nouveau contre les modèles fermés d’évaluation de crédit. « Comment Visa ou Mastercard peuvent-ils gagner s’ils ne nous disent pas ce que nous devons faire pour avoir un bon taux d’intérêt de carte de crédit ? » Pourquoi ne nous disent-ils pas explicitement ce que nous devons faire pour payer nos factures à temps ? A moins que les modèles utilisent en cachette des éléments sur le sexe ou la race des gens. Quand un modèle est aussi important dans la vie de chacun, je ne vois aucun argument pour favoriser son opacité, conclut la mathématicienne.
Revigorant !
Hubert Guillaud
A défaut de pousser à l’ouverture, il est possible de tenter d’en faire une ingénierie inversée, comme le propose Floodwatch sur les modèles publicitaires en ligne. C’est plus long. C’est plus lent. Plus incertain. Mais il suffit d’être nombreux…
0 commentaires
Une remarque pour commencer : les chercheurs scientifiques sont probablement ceux qui ouvrent le plus leurs modèles, sinon leurs travaux ne seraient pas reproductibles et théoriquement pas admissibles pour la publication. Mais il faut s’entendre sur ce que signifie ouvrir un modèle. Si c’est fournir le logiciel prêt à l’emploi, alors effectivement non, c’est assez rare, mais la recherche scientifique n’est pas loin de ce degré d’ouverture malgré quelques obstacles (http://passeurdesciences.blog.lemonde.fr/2013/11/13/une-etude-ebranle-un-pan-de-la-methode-scientifique/ )
Je suis d’accord sur la faisabilité et la nécessité de rendre publics les modes de calculs quand il s’agit de modèles dont la forme générale est construite à la main, comme le classement PISA ou l’évaluation des professeurs américains. Ça se complique pour les banques, les assurances, les Amazon et les Facebook.
– Les modèles générés par ordinateur ne sont pas forcement compréhensibles. C’est comme comprendre le cerveau : connaître l’agencement exacte des neurones et des synapses n’est pas suffisant.
– Un modèle peut dépasser les dimensions d’un contenu facilement partageable.
– Jouer avec le modèle peut requérir 3 mainframes ou un datacenter Google, d’autant plus qu’il est vain de changer des paramètres au hasard.
– On ne peut pas tester la robustesse d’un modèle sans un gros échantillon de données qui n’ont pas été utilisées pour construire le modèle. Ce dont on ne dispose pas forcement. Ce qu’il faudrait au minimum c’est de savoir précisément quel sous-ensemble de données a été utilisé pour construire le modèle, et dans l’idéal ce n’est pas uniquement le modèle dont on aurait besoin, mais l’algorithme qui a été utilisé pour le construire. Et là c’est un peu la jungle pour Mr. Tout-le-monde et même pour un journaliste ou un juriste.
Bref, dans les faits, « ouvrir un modèle » reste quelque chose d’assez flou.
En France, comme le précisait Henri Verdier, directeur d’Etalab et administrateur général des données, sur son blog, il existe depuis quelques mois Openfisca, un moteur de simulation du système socio-fiscal français, qui permet à la fois de simuler sa déclaration d’impôt, mais aussi de tester les conséquences de réformes fiscales annoncées ou envisageables. Cet outil a donné naissance à Mes Aides, permettant à chaque citoyen de vérifier l’ensemble de ses droits, d’obtenir le montant mensuel des prestations auxquelles ont peut avoir droit et de faire les démarches nécessaires en regard.
Un bel exemple de modèle développé en logiciel, qui permet de mieux en appréhender le fonctionnement…
J’ai aussi évoqué cette question dans un commentaire à la fin de cet article, sans savoir qu’H. Guillaud l’avait déjà abordée : http://www.decideo.fr/Introduction-de-la-7eme-edition-de-l-Universite-d-ete-GS1-Big-Data-et-GS1_a5429.html (Clicsteam/M2H).
Cet autre commentaire, au bas de celui-ci, met aussi l’accent sur les algorithmes (ou les modèles) : http://itsocial.fr/actualites/information/tout-le-monde-investit-dans-le-big-data-ou-presque-selon-gartner