France Stratégie organisait la semaine dernière une rencontre entre Daniel Le Métayer, directeur de recherche à l’INRIA, coordinateur notamment du projet Capris sur la vie privée (et qui avait été très critique sur la Loi renseignement) et Antoinette Rouvroy, chercheuse au Centre de recherche en information, droit et société (CRIDS), à l’université de Namur, pour discuter des algorithmes et de leurs impacts.
Comme souvent, l’enjeu a d’abord été de tenter de cerner de ce dont on parle et ce n’est pas si simple, tant le terme d’algorithme caractérise désormais les boites à tout faire des traitements logiciels. Pour Daniel Le Métayer, les algorithmes sont des procédés de calcul qui recouvrent une grande variété de procédés techniques. Mais plus que les procédés techniques, ce sont leurs effets qui sont importants à comprendre, du fait de leurs impacts sur nos décisions, nos comportements, notre vie quotidienne… et plus encore de leurs effets normatifs.
Qu’est-ce que les algorithmes normalisent ?
Il existe plusieurs types d’algorithmes comme les algorithmes de classement qui gèrent des priorités, à l’image des algorithmes de recommandations, ceux des moteurs de recherche, des logiciels d’affectation de candidats ou d’employés, d’inspection des restaurants ou des bâtiments… D’autres algorithmes catégorisent comme ceux utilisés dans le commerce ou le ciblage publicitaire, comme ceux censés trouver les terroristes dans les boites noires de la loi renseignement, ceux utilisés pour détecter les fraudes dans le milieu bancaire…
Image : Daniel Le Métayer, photographié par Thierry Marro pour France Stratégie.
Le point commun de ces différents usages des algorithmes est d’influencer nos vies. Ils ont un impact sur nos achats, nos capacités à obtenir un prêt, nos candidatures à un emploi ou à un poste… « Ils ne sont pas neutres, ils incorporent des critères explicites et surtout des critères qui ne le sont pas. Quand on classe ou qu’on catégorise, il y a des critères cachés, qui ne sont ni neutres, ni corrects. » Leurs effets sont directs : ils peuvent nous suspecter sans qu’on le soit. Ils génèrent des faux positifs et des faux négatifs. « Leur fonctionnement n’est pas du tout transparent. Au contraire, il est souvent opaque, au point que les personnes qui les utilisent ou qui y sont confrontées ne se rendent pas même compte de leur existence. »
Pour l’informaticien, ces problèmes nécessitent de se poser des questions. Doit-on introduire des limites à leur usage ? Y’a-t-il des circonstances ou des contextes, notamment dans le cadre des traitements individualisés, qu’on doit encadrer, limiter ? Jusqu’où souhaitons-nous aller dans la personnalisation ? On accepte déjà de payer des prix différents dans le domaine des transports, voulons-nous qu’il en soit de même dans l’assurance par exemple, au détriment du principe de mutualisation ? Voulons-nous demain payer la baguette de pain différemment selon notre localisation ou les profils de nos smartphones ?
L’ouverture ne suffit pas
Quelle limite voulons-nous tracer à l’opacité ? Si les algorithmes sont opaques, qui sera responsable de leurs décisions ?
Pour Daniel Le Métayer, les informaticiens doivent s’interroger pour améliorer cette situation. La transparence ne peut se résoudre par la publication du code source d’un programme. Ça serait utile, mais ça n’aiderait pas grand monde. Expliciter le mode opératoire détaillé d’un logiciel également. L’important est de documenter les données qu’il exploite en entrée. Quelles données sont prises en compte, et quels sont leur incidence, leur impact ? Quels sont les critères qui jouent favorablement ou défavorablement lors d’une demande de prêt par exemple ? Il est nécessaire d’extraire les traits distinctifs de leurs fonctionnements pour permettre à tous de mieux les apprécier.
Pour répondre à ces enjeux, il y a déjà des travaux et des techniques dont on peut s’inspirer, explique Daniel Le Métayer. En matière de logiciel, on produit des systèmes complexes depuis longtemps. Il existe par exemple des techniques d’analyse de programmes permettant d’extraire des propriétés et des caractéristiques essentielles des programmes dont on a accès au code. Quand on n’a pas accès au code, il existe des solutions visant à l’exercer, consistant à fournir des données en entrée pour en observer les résultats. Et parfois, on ne peut pas toujours actionner les entrées d’un programme et il faut se contenter d’analyser les sorties… Ces travaux ont permis par exemple de comprendre le fonctionnement des algorithmes d’autocomplétion des moteurs de recherche pour trouver les mots censurés par ces programmes, de comprendre les limites du système d’autocorrection de l’iPhone, ou de comprendre certaines règles de la tarification individualisée… Ces méthodes s’apparentent à des formes de rétro-ingénierie consistant à retrouver les modalités d’un programme. Elles ne sont pas sans limites, notamment du fait de la complexité des algorithmes : elles ont plus de mal à s’exercer sur les programmes qui reposent sur l’apprentissage automatisé, ceux qui apprennent leurs propres règles par eux-mêmes. A ce stade, il faudrait arriver à passer de l’analyse a posteriori (rétro-ingénierie), à une démarche a priori qui responsabilise les producteurs d’algorithmes (on parle d’accountability by design). Pour l’instant, dans ce dernier domaine, les travaux de recherche sont encore rares.
Le développement de la prédiction contre la prévention mène à la crise de la représentation
La philosophe du droit, Antoinette Rouvroy, rappelle qu’elle a beaucoup travaillé sur le concept de « gouvernementalité algorithmique » (voir notamment « Big data : l’individu au détriment des catégories »). La récolte de données est moins le symptôme d’une disparition de la sphère privée que celui d’une nouvelle manière de gouverner les conduites et d’optimiser les processus décisionnels. Ce nouveau mode de gouvernement auquel nous sommes confrontés se nourrit de données brutes, c’est-à-dire de données expurgées de ce qui les relie à un contexte signifiant pour les humains, qu’on va alors pouvoir calculer. Ce sont des signaux plus que des signes signifiants. Et un signal est d’autant plus calculable qu’il est insignifiant. Pour la philosophe, nous sommes là face « à un abandon de la rationalité moderne qui liait les effets à leur cause, pour une rationalité postmoderne, qui ne cherche plus qu’à les prédire ».
Ce changement de paradigme induit une transformation radicale de la manière de gouverner. Désormais, on se désintéresse des causes. Et en se désintéressant des causes, on se désintéresse de la prévention au profit de la prédiction. On ne cherche plus à prévenir, mais seulement à prédire. Appliqué aux comportements humains, ce mode de gouvernement vise à anticiper sur le mode de l’alerte pour générer du réflexe, plutôt qu’à interdire, un mode qui lui, génère de la réflexivité. Et pour la philosophe du droit, cette transformation est appelée a avoir un impact radical sur la normativité juridique elle-même.
La particularité de cette idéologie technique que sont les Big Data, est de confondre les signaux et les choses et nous dispense de nous interroger sur le monde. Le numérique nous donne un accès immédiat au monde lui-même… L’accès au monde s’émancipe du langage au profit de seuls signaux constitués de 1 et de 0. La modélisation du social se fait désormais à même le social et nous émancipe de tous les biais : idéologiques, institutionnels, etc. Le réel se gouverne par lui-même. Et l’une des conséquences de cela est bien sûr la crise de la représentation : politique, juridique, économique, etc. La représentation, dans toutes ses formes, semble ne plus servir à rien à l’heure où les chiffres parlent d’eux-mêmes…
Image : Antoinette Rouvroy, photographiée par Thierry Marro pour France Stratégie.
Quelles typologies pour comprendre ?
On parle beaucoup du remplacement des hommes par les machines ou l’intelligence artificielle, avec des prévisions parfois apocalyptiques sur l’emploi… L’opinion semble assez opposée au développement de systèmes informatiques opaques, capables de prendre des décisions de vie ou de mort sur nous… capables de détecter les menaces, les comportements anormaux… Mais que ce soit des systèmes de recommandations au trading haute fréquence, les multiples applications qui se profilent posent des questions et des enjeux partout différents. D’où la difficulté d’en parler dans l’absolu. Nous avons besoin de typologies des classes d’algorithmes et de leurs applications.
Et même là, ce n’est pas si simple, tant les champs d’applications sont vastes, rappelle Antoinette Rouvroy. Les algorithmes qui font de la reconnaissance de modèles permettent à la fois d’identifier l’ADN d’une personne ou de cibler des personnes via des programmes de drones. Les algorithmes d’appariements, de ranking ou de hiérarchisation des résultats n’ont pas les mêmes effets que les algorithmes de catégorisation (utilisés dans le scoring, l’assurance ou la prévention des fraudes…). Les évaluations anticipatrices des performances d’un candidat à un emploi ont peu à voir avec les réponses de détection utilisées dans la médecine de précision ou le traitement algorithmique de grandes masses d’information par Watson par exemple.
Leur complexité est différente. Certains ont des règles dès leur création et n’évoluent pas. D’autres sont auto-apprenants. Ils apprennent eux-mêmes de leurs propres expériences et leur fonctionnement pose d’une manière plus cruciale encore la question du contrôle et de l’intelligibilité de ce qu’ils font. « Ces machines ne sont plus des machines. Elles ne font plus ce qu’on leur dit de faire. Elles nous font faire des choses », et ce avec une force normative qu’il faudrait typologiser, et ce d’autant que cette force normative nous dispense d’évaluer les situations par nous-mêmes…
La motivation des décisions à l’heure des décisions sans motivation
Les traitements qui nous calculent nous réduisent à ce que nous ne sommes pas. Les systèmes de recrutement pour les centres d’appels par exemple, ne regardent ni les CV, ni les personnalités des candidats, mais cherchent à repérer désormais des profils particuliers capables de résister au travail ennuyeux pour limiter le turn-over. Dans le domaine de la justice, des algorithmes évaluent désormais les risques de récidive pour une personne qui peut être libérée… mais ils le font depuis des informations sans rapport causal, déclarant par exemple que le récidiviste type mange plus volontiers du pain que de la soupe !
Ces recommandations sans causalités nous posent un problème d’interprétation. Comment réagira le fonctionnaire qui reçoit une recommandation de non libération d’un détenu, sans savoir pourquoi ou sur des critères qui vont lui sembler aberrants ou abscons ? « Peut-il décider de s’opposer à cette recommandation ? Comment pourra-t-il assumer le surcroit de responsabilité d’une opposition ? » Pour Antoinette Rouvroy cet exemple montre qui si l’algorithme n’est pas responsable, c’est tout l’environnement managérial qui le devient, car cela nécessite en contrepartie d’encourager les gens à prendre des décisions motivées. Nous en sommes loin. Le risque auquel nous sommes confrontés est de n’être plus capables de nous écarter des systèmes de recommandation. Et c’est encore plus vrai quand ils prennent des décisions, quand leur normativité est constitutive, à l’image d’algorithmes capables de détecter des comportements anormaux dans des aéroports et capables de bloquer portes et ascenseurs quand c’est le cas. Dans ce cas, nous ne pouvons même plus aller à l’encontre des décisions des algorithmes !
Trop souvent, l’opacité est considérée comme une condition même de l’efficacité de l’algorithme. L’opacité est une condition de fiabilité, à l’image du fameux Page Rank de Google qui se doit d’être opaque pour ne pas être détourné par les techniques d’optimisation des résultats… Outre la question de la propriété intellectuelle qui la justifie, l’opacité a donc le plus souvent une fonction dans la gouvernementalité algorithmique.
Pour Antoinette Rouvroy, l’enjeu n’est pas d’exiger la transparence du code, mais celle des finalités, pour autant qu’elles ne se réduisent pas à de la communication commerciale. Ainsi nombre d’algorithmes ont pour finalité d’améliorer l’expérience utilisateur d’un site. Mais cette raison n’est pas une explication suffisante : améliorer l’expérience utilisateur signifie le plus souvent chercher à vous faire rester plus longtemps sur le site ou vous pousser à consommer. Pour bien des sites de commerce en ligne, l’enjeu n’est pas d’améliorer l’expérience, mais de faire du datapricing, c’est-à-dire de la tarification algorithmique.
Comme pour Daniel Le Métayer, il est nécessaire d’être clair sur les données qui sont utilisées par ces systèmes, insiste la chercheuse. Et c’est certainement là qu’il peut exister des formes régulatrices, explique-t-elle. On peut ainsi exclure certaines données de certains traitements, comme exclure les données de santé pour évaluer le risque de crédit par exemple. On peut réaffirmer le principe de la minimisation des données. On peut également confiner la rationalité algorithmique à certains secteurs : comme interdire l’utilisation d’algorithmes dans la justice par exemple. Pour Antoinette Rouvroy, il faut limiter l’usage des systèmes algorithmiques de recommandation lorsqu’ils aboutissent à des décisions dont les auteurs ne sont plus capables d’expliquer les motivations ni de les communiquer dans une forme intelligible. Enfin, il faut certainement réfléchir à interdire les algorithmes qui aboutissent à des distinctions de traitements lorsqu’elles se fondent sur l’appartenance des personnes à certaines catégories énumérées par la loi (le genre, l’origine ethnique, les opinions politiques, les convictions religieuses, etc. ce qu’on appelle la discrimination directe) soit parce que, sans être fondées directement sur l’appartenance des personnes à certaines catégories « vulnérables », elles ont néanmoins pour effet de désavantager tout particulièrement des personnes relevant de l’une de ces catégories vulnérables (ce qu’on appelle la discrimination indirecte)…
De la responsabilité des producteurs de traitements : inverser la charge de la preuve
Dans les échanges qui ont suivi les présentations des deux intervenants, Antoinette Rouvroy est notamment revenue sur le fait que la rationalité algorithmique mettait en crise les objets du droit, car celui-ci fonctionne sur des catégories légalement établies, à l’image des données sensibles ou de l’interdiction de distinction de traitement. Pour elle, les décisions d’embauche reposant sur des traitements de données par exemple doivent être justifiées, doivent expliciter leurs motivations par rapport à la situation singulière d’un individu calculé. Les données ne sont pas neutres : elles sont un enregistrement passif de faits. Les algorithmes de recommandation à l’embauche par exemple savent que les postes rémunérateurs et décisionnels sont souvent occupés par des hommes : quelle influence cela va-t-il avoir sur leurs recommandations ? « La naturalisation des normes sociales dominantes dans les algorithmes pose question ». Or la discrimination est difficile à prouver pour celui qui en est l’objet. Il faut inverser la charge de la preuve, avance la philosophe : « c’est aux personnes qui utilisent ces systèmes de prouver que les instruments qu’ils utilisent ne sont pas discriminatoires ». Certes, ces outils peuvent aussi nous permettre de dépasser nos propres préjugés, et ne pas tenir compte de critères de genres ou d’origine ethnique dans un recrutement. « Ils peuvent être libérateurs s’ils nous rendent plus attentifs à des éléments qu’on n’aurait pas pris en compte naturellement, mais ils peuvent être toxiques quand ils ne font qu’optimiser un état de fait non souhaitable ».
Pour Daniel Le Métayer, les données sont désormais dans un continuum. Distinguer les données personnelles des autres ou les données sensibles de celles qui ne le sont pas n’est plus si simple. Même la liste finie d’informations discriminantes ou les contextes de non-utilisation peuvent être désormais très facilement contournés…
Une personne dans la salle souligne que ces charges contre le Big Data sont certainement légitimes, mais que si nous sommes encore dans un Far West, tout n’est peut-être pas perdu. Watson par exemple, dans son utilisation pour l’exploration de données médicales, doit justifier ses résultats. Les informaticiens ne doivent-ils pas donner aux juristes des moyens pour leur permettre d’évaluer la loyauté des algorithmes ?
C’est justement l’enjeu de l’accountability, rappelle Le Métayer, de l’idée de rendre des comptes, de la responsabilité ou de la loyauté des algorithmes. Si on a du mal à effectuer des contrôles a priori, il est nécessaire d’exiger que ceux qui possèdent des données, qui procèdent à des traitements aient des comptes à rendre sur la manière dont ils utilisent les données. Nous avons besoin d’imposer des règles contraignantes, comme nous le faisons sur les données financières ou les fichiers de police…
Ce regard sur les Big Data n’est pas à charge, estime Antoinette Rouvroy, mais les changements sont si massifs que le droit ne peut apporter des solutions qu’en décalage. A l’image du travail des statactivistes pour prévenir les discriminations statistiques. Les algorithmes n’ont pas d’intention, pas même de prendre le pouvoir, mais ils ne doivent pas nous dispenser, nous, d’avoir des intentions. L’espace public consiste à être confronté à des choses qui ne sont pas prévues pour nous. Or, en décidant pour nous des critères de mérite, de besoin, de désir… nous ne serons plus confrontés à ce qui n’est pas prévu pour nous. A l’heure des algorithmes, c’est l’espace de délibération sur la chose publique qui s’assèche. On dit que le Big Data est incompatible avec les principes de limitation et de finalité, mais ce n’est pas vrai, estime Rouvroy. Aux États-Unis, on fait de la donnée un objet marchand pour que les entreprises puissent en traiter toujours plus et toujours plus facilement. Le modèle européen, lui, considère plutôt la gouvernance des données en fonction des pouvoirs relatifs qu’il donne aux uns et aux autres : on parle d’équilibrage entre les sujets des données et les responsables des traitements. Il n’est pas sûr que ces deux approches soient compatibles, mais nous savons déjà vers laquelle vont nos préférences.
« La transparence ne suffit pas. Rendre les algorithmes transparents ne dispense pas de comprendre. Rendre les algorithmes transparents est une volonté qui ratera toujours sa cible si elle ne se focalise pas aussi sur le contexte de production, c’est-à-dire sur la provenance des données… et surtout si cela doit dispenser les concepteurs de traitements de motiver leurs décisions », estime la philosophe.
La question de la transparence cache la question de la responsabilité. Les données sont nos signaux, à l’image de nos phéromones : ils sont ce qui émane de nous comme si c’était ce qui est le plus authentique de nous. Cette objectivité intrinsèque des données présuppose qu’il y aurait une « vérité » qu’il nous faudrait découvrir. Nous voici confrontés à une nouvelle forme du positivisme technique qu’il faut dénoncer. La justice pourtant exige que nous rendions compte de ce que nous faisons. Que nous justifions, que nous motivions, que nous énoncions les raisons qui nous font agir. Pour faire société, les Big Data doivent faire la même chose.
Hubert Guillaud