Les organismes de réglementation ont visiblement compris qu’ils doivent réglementer la manière dont les autorités utilisent les algorithmes et les technologies d’IA. Mais ce que les régulateurs oublient trop souvent quand ils élaborent des politiques, c’est de tenir compte de la manière dont les décideurs humains interagissent avec les systèmes, explique Ben Green (@benzevgreen) dans une tribune pour The Hill (@thehill). Chercheurs, journalistes, militants… n’ont cessé ces dernières années de révéler combien les systèmes algorithmiques utilisés par les tribunaux, la police, les services d’éducation, de protection sociale et autres, sont bourrés d’erreurs et de biais. Aux États-Unis, deux projets de loi proposent d’imposer aux administrations d’évaluer les algorithmes avant de pouvoir les utiliser. Le projet de loi sur l’IA de la commission européenne va dans le même sens. Mais, souligne Green, si examiner les systèmes est certes nécessaire, ces dispositions oublient la manière dont les prédictions affectent les décisions politiques.
Les outils d’aide à la décision améliorent-ils la décision ?
Bien souvent, les algorithmes sont proposés comme des outils d’aide à la décision aux personnes qui les prennent. Reste que leurs décisions doivent équilibrer les prédictions que les systèmes fourbissent avec d’autres objectifs concurrents qui ne sont, eux, pas pris en compte par les machines. Green prend l’exemple des systèmes d’évaluation des risques qu’un prévenu ne se présente pas à son procès, très utilisé par les tribunaux américains. Pour ceux en charge de juger les prévenus, ces prévisions, pour autant qu’elles soient précises et justes – ce dont doutent nombre de défenseurs des droits et de chercheurs qui les ont étudiés -, doivent s’équilibrer d’autres intérêts, comme la présomption d’innocence. Pour Green, la question centrale qui est très souvent oubliée n’est pas seulement de savoir si les prédictions sont justes, mais aussi et surtout, de savoir si ces systèmes améliorent la décision humaine. Or, même si ces systèmes proposent des prédictions, ils n’améliorent pas nécessairement la décision. Quand on leur présente ces évaluations, bien souvent, les humains ont tendance à être plus attentifs au fait de réduire le risque justement, au détriment d’autres valeurs, changeant la manière même dont ils prennent leurs décisions, explique Green à la suite d’une étude expérimentale. Dans la pratique, ces systèmes imposent leurs choix, leur angle, leur vision… d’une certaine manière, leur idéologie. Reste que trop souvent, leur premier effet est d’altérer les processus de prise de décision. Même si dans l’étude de Green, les effets de ces outils semblent assez faibles, ils n’en sont pas moins là (et ce d’autant que l’altération de la décision est difficile à apprécier). Dans le domaine judiciaire américain, plusieurs études ont montré que les juges ont tendance à passer outre les recommandations de remises en liberté que proposent ces outils ! En fait, les juges semblent devenir plus sévères que les systèmes, parce que les systèmes leur mettent sous les yeux le risque plutôt que l’esprit des lois, comme la présomption d’innocence. En fait, les systèmes aggravent la partialité des juges en les rendant sur-attentifs aux risques !
Dans un autre article de recherche, Green souligne un autre problème, celui de la surveillance humaine des décisions algorithmiques que de plus en plus de réglementations imposent. Or, explique le chercheur, derrière ces décisions, bien souvent, les personnes sont incapables de remplir les fonctions de surveillance qui leur sont attribuées. Green estime par exemple que nous devrions calculer le taux de dérogation c’est-à-dire quand la décision n’est pas conforme à la suggestion de l’algorithme pour savoir si le processus décisionnel est automatisé ou pas.
Cette surveillance des systèmes trop souvent légitime le recours à des algorithmes défectueux, sans aborder réellement les problèmes qu’ils génèrent. Pour le chercheur, la surveillance des algorithmes donne un faux sentiment de sécurité. Pour Green, il est essentiel de s’interroger d’abord sur la nécessité du déploiement et surtout d’évaluer l’efficacité du contrôle humain des traitements, explique-t-il en rappelant la nécessité d’une meilleure évaluation, non seulement technique, mais plus encore humaine. Les politiques se doivent d’être plus rigoureuses, estime-t-il, et surtout, elles ne doivent pas seulement étudier les biais techniques des systèmes, mais aussi prendre en compte la relation homme-algorithmes et les biais qu’elle génère.
Or, rappelle le chercheur, les réglementations sur l’éthique des systèmes se concentrent uniquement sur la façon dont le calcul fonctionne. Les systèmes d’évaluation de la responsabilité algorithmique ou d’impacts évaluent une responsabilité « technique » plus qu’humaine, sans tenir compte des relations tissées avec les systèmes.
Aussi précis ou juste que le calcul soit – et il ne l’est pas souvent -, il modifie la façon de décider. En fait, ces outils génèrent des changements qui déséquilibrent l’évaluation qui est au cœur même de la prise de décision. Pour Green, la question de l’évaluation de l’IA devrait nécessiter des preuves empiriques sur ses effets, c’est-à-dire qu’elle devrait également démontrer que ces systèmes sont susceptibles d’améliorer la prise de décision. Pour cela nous devrions réaliser des évaluations expérimentales sur la collaboration homme-algorithmes, en testant comment les gens interagissent avec le système pour s’assurer qu’il produit les résultats escomptés.
Evaluer les outils de la décision, mais également la décision
L’évaluation est trop souvent encore le parent pauvre de la réglementation. Au mieux, elle reste technique. Mais bien souvent, elle reste aveugle aux impacts concrets de ces outils sur ceux qui les utilisent, suggère Green qui invite à non seulement évaluer les outils de la décision, mais également leurs impacts sur la décision.
Le constat de Green souligne combien, alors que les systèmes techniques s’imposent, l’évaluation de leurs effets concrets, elle, n’est pas à la hauteur. Derrière les biais des calculs, nous devons nous préoccuper d’autres formes d’évaluation – comme le propose les méthodes développées pour que la politique fasse la preuve de son efficacité (on parle d’evidence-based policymaking). Le gouvernement britannique a initié en ce sens un réseau d’évaluation des politiques publiques, le « What Works Network », dont l’une des branches, par exemple, a évalué les systèmes d’identification automatisés des enfants à risque par les services à l’enfance, en pointant leur inefficacité manifeste. Les États-Unis viennent de lancer une plateforme dédiée à l’évaluation des politiques publiques, rapportait récemment Federal News Network. Malgé les recommandations émises par le Conseil d’État en septembre 2020 pour améliorer l’évaluation des politiques publiques, si l’on en croit l’état du site dédié à l’évaluation en France, la priorité donnée à l’évaluation n’est pas encore là ! Si des efforts ont été initiés pour l’évaluation par les usagers des services publics – via des indicateurs de performance et de satisfaction, à l’image de ceux disponibles sur resultats-services-publics.fr ou voxusagers.gouv.fr -, la question – bien plus importante, il me semble – d’une meilleure évaluation des politiques publiques selon leurs effets semble encore avoir des marges de progrès.
Hubert Guillaud
PS : Sur LPE, Frank Pasquale annonce la tenue prochaine aux Etats-Unis d’un symposium sur l’analyse coût/bénéfice. Les méthodes quantitatives promettent d’apporter la rigueur et l’objectivité à l’évaluation des politiques publiques, mais dans les faits, leurs applications accélèrent souvent les injustices et les discriminations. Dès janvier 2021, l’administration Biden a annoncé vouloir « moderniser les modalités d’évaluations réglementaires ». Les initiatives réglementaires importantes sont de plus en plus souvent sommées de produire une analyse comparative de leurs coûts et avantages. Si ces initiatives semblent rationnelles (les coûts d’une réglementation ne doivent pas dépasser ses avantages), ces outils ont souvent été utilisés pour limiter la réglementation plutôt que pour améliorer son efficacité. Enfin, souligne Pasquale, tout est-il quantifiable ? Quelle est la valeur monétaire d’une journée sans aucune pollution au Grand Canyon ou d’une ressource naturelle ? À nouveau, la quantification n’a rien de neutre et ne peut être le seul mode d’évaluation des politiques publiques.