Des chercheurs de Google AI (dont Andrew Smart, responsable de l’équité de l’apprentissage automatisé chez Google, Rebecca N. White et Timnit Gebru qui codirigent l’équipe chargée de l’éthique de l’IA chez Google, Margaret Mitchell et Ben Hutchinson chercheurs au groupe de recherche de Google sur l’intelligence des machines, et d’autres chercheurs de Google Research), et du Partenariat sur l’IA (Inioluwa Deborah Raji) ont créé un référentiel pour aider les entreprises et les ingénieurs à auditer les systèmes d’intelligence artificielle avant déploiement.
L’article de recherche intitulé « Combler l’écart de responsabilité de l’IA » (.pdf) vise à la fois à identifier les risques et à mesurer l’impact potentiel d’un système. Le document évalue plusieurs éléments : le cadrage, la cartographie, la collection d’objets, le test et la réflexion (en anglais SMACTR pour Scoping, Mapping, Artifact Collection, Testing, and Reflection). Cette méthode d’audit se présente sous la forme de plusieurs listes de contrôle, de cartes de modélisation et d’une analyse des modes de défaillance et de leurs effets… L’étape de cadrage consiste en une évaluation de l’impact social d’un système et à un examen éthique des cas d’utilisation. L’étape de cartographie vise à créer une carte des intervenants sur le système pour identifier les collaborateurs clés et les éventuels problèmes autour du système. L’étape de la collection consiste à créer une liste de contrôle de l’audit ainsi que des fiches de données ou de modèles pour documenter la manière dont le modèle a été construit ainsi que les hypothèses formulées. La phase de test évalue les performances en utilisant notamment les méthodes contradictoires pour créer un tableau d’analyse des risques selon leur probabilité et leur gravité. L’étape de réflexion vise à aider les équipes à évaluer les recommandations et créer un plan pour atténuer les risques.
Dans leur article, les auteurs insistent sur le fait que les cadres d’audit des systèmes sont trop souvent réalisés après le déploiement du modèle, alors que la méthode proposée par Google et Partnership on AI vise à déployer un audit interne en amont du développement et durant toute la phase de conception permettant de vérifier que le processus d’ingénierie répond aux valeurs et attentes éthiques déclarées. Ce processus de contrôle se veut méticuleux et méthodique. Pour les auteurs, l’enjeu critique est de « ralentir » le déploiement en anticipant les conséquences négatives potentielles par des mesures d’atténuation, de surveillance et d’anticipation, et permettre même d’abandonner un développement technique lorsque les risques l’emportent sur les avantages.
Ce cadre s’inspire de ceux qui existent déjà dans le domaine de l’aérospatiale ou des soins de santé, et surtout des études d’impact environnementales, qui les premières ont distingué l’audit de fiabilité d’un système de l’audit de son préjudice social (une centrale électrique peut être constamment productive tout en causant des dommages à l’environnement, tout comme un système algorithmique peut-être fonctionnel tout en reproduisant des discriminations). Pour les auteurs, il est donc nécessaire de distinguer la gouvernance technique, qui va mesurer la valeur du système selon sa fiabilité, sa précision ou le profit qu’il permet, d’une évaluation de l’éthique, qui va tenter d’évaluer son impact sur la société. Les auteurs défendent l’importance d’un cadre commun procédural solide et normé pour aider les entreprises dans leur travail d’évaluation, tout comme on trouve des modalités d’audit financier stables. Ils défendent également un cadre d’audit interne plus qu’externe, pour ne pas être contraints par les secrets commerciaux des systèmes. Autre avantage de l’audit interne : permettre de faire des recommandations organisationnelles. Ils rappellent l’importance du contrôle qualité dans l’aérospatiale (le logiciel du Boeing 787 comporte environ 13 millions de lignes de code, mais, comme l’a montré les défaillances du Boeing 737 Max, la sécurité n’est jamais terminée, elle demeure un processus dynamique) : « C’est la somme des minuscules probabilités d’événements individuels qui comptent dans les systèmes complexes ». « Nous ne pouvons jamais nous satisfaire de la sécurité des normes », rappellent-ils, d’autant qu’elles peuvent être facilement compromises dans le temps. Une surveillance active et continue est donc toujours nécessaire. Pour cela, l’aérospatiale utilise de nombreux outils allant des listes de contrôle, à une traçabilité exhaustive en passant par nombre de procédures comme l’analyse des modes de défaillance. Les auteurs rappellent que les audits sont également courant dans l’industrie pharmaceutique et chez les constructeurs de dispositifs médicaux, via des méthodes de contrôle de conception (Design Controls) qui permettent de s’assurer que le produit final correspond à l’utilisation prévue et que les risques ont été anticipés et atténués. La méthode prévoit également de documenter, à chaque étape du développement d’un dispositif les preuves de suivi des vérifications faites ainsi qu’une surveillance post-commercialisation.
Si ces méthodes sont utiles, les auteurs soulignent que l’IA présente des défis nouveaux, notamment du fait de leur caractère itératif, agile et complexe. La gestion de la gouvernance ne peut pourtant pas être uniquement fondée sur la gestion des risques, car nombre de problèmes peuvent n’apparaître qu’une fois les systèmes mis en service. Enfin, la maintenance pose des défis spécifiques, notamment liés à l’enchevêtrement des données, qui fait qu’un changement dans une des données collectée peut avoir des implications profondes sur le système. La faible normalisation et la personnalisation des systèmes accroissent les défis spécifiques.
Les phases de la méthode d’audit de Google
La phase de cadrage consiste à délimiter et clarifier l’objectif de l’audit en examinant à la fois les motivations et l’impact prévu du système et en confirmant les principes et valeurs choisies pour guider le développement de produit. L’enjeu est de cartographier les cas d’utilisation prévus et d’identifier les déploiements analogues. L’évaluation de l’impact social précisent-ils doit permettre d’évaluer la gravité des risques et identifier les préjudices sociaux.
La phase de cartographie n’est pas une étape de tests, mais d’examen de ce qui est mis en place et des perspectives impliquées dans le système contrôlé. C’est également une phase permettant de dresser la carte des parties prenantes, évaluant la nature de leur implication et contribution, et d’orchestration de leur adhésion pour l’exécution. L’enjeu également est de mesurer l’impact du système, ainsi dans le cadre d’un des exemples que prennent les chercheurs autour d’un photomaton détecteur de sourire, l’enjeu est de saisir que le système peut avoir un impact disproportionné sur ceux qui souffrent de difficulté d’expression ou sur les normes culturelles du sourire, qui peuvent être exclus du produit par conception. Cette étape recommande notamment d’accomplir des études ethnographiques de terrain et de prendre de la distance par rapport aux métriques du système pour évaluer leur risque d’erreur, comme la prise en compte des faux positifs ou des faux négatifs.
L’étape de la collection ressemble à une phase de tests, allant de la compréhension de la conception à des des schémas d’architecture du système, nécessitant notamment de produire de la documentation sur les résultats obtenus et les données utilisées (notamment vérifier leur homogénéité), via des fiches techniques pour les données et des cartes modèles (un concept imaginé par les ingénieurs de Google qui consiste à préciser et évaluer, succinctement les intentions d’usages, les facteurs, les métriques et à évaluer les données utilisées).
La phase de test consiste à démontrer la performance du système et à mesurer ses probabilités de défaillances, notamment en utilisant des exemples contradictoires ou en utilisant une sélection de profils d’utilisateurs très différents les uns des autres, notamment de profils vulnérables ou de profils qui posent des enjeux sur la confidentialité ou le respect de la vie privée. La phase de test permet souvent de montrer que la performance est disproportionnée pour certains groupes d’utilisateurs sous-représentés dans les données. Il vise aussi à évaluer le déni d’opportunité pour ces utilisateurs. Chaque risque se voit attribuer une indication de gravité en fonction de la combinaison des caractéristiques.
Enfin, la phase de réflexion permet de confronter les attentes éthiques aux résultats obtenus afin de produire une cartographie des risques et des recommandations d’atténuation, par exemple en recommandant de recourir à un élargissement des données ou à des décisions de conception nouvelles, comme de permettre à l’utilisateur de supprimer la fonction de détection de sourire du logiciel de photomaton. Dans d’autres cas, cette phase doit pouvoir permettre de bloquer ou d’annuler un projet qui montre des défaillances sévères. Une attention particulière ici doit être portée sur la distinction entre les modèles mentaux des concepteurs et ceux des utilisateurs, insistent les chercheurs. L’enjeu également consiste à définir un seuil de risque tolérable d’un niveau de risque qui ne le serait pas.
Le document insiste enfin sur ses propres lacunes, notamment le fait que certaines phases de l’audit reposent sur le jugement humain ou y sont vulnérables. Il invite les auditeurs à être attentifs à leurs propres préjugés et au point de vue de leur entreprise, afin d’éviter de faire de ce processus un simple acte de gestion de la réputation, souligne VentureBeat. En conclusion, les chercheurs soulignent qu’avec l’IA, le risque demeure inéquitablement réparti : ceux qui sont déjà confrontés à des schémas de vulnérabilité ou de partialité supportent de manière disproportionnée les coûts et préjudices des systèmes.
Le fossé entre les principes et les applications pratiques
En complément de l’article de recherche lui-même, il est nécessaire de s’intéresser aux documents annexes, qui consistent en une étude de cas autour d’un cas fictif de photomaton détecteur de sourire. Par rapport aux principes de l’article de recherche, ces documents révèlent pourtant leurs limites. Ils tiennent souvent de fiches définissant des principes généraux, de listes de questions insuffisamment structurées… de modèles qui parleront plus aux ingénieurs qu’au public… Nous sommes bien loin du modèle d’évaluation concret et accessible de la boîte à outils Ethique et algorithme que nous avions déjà évoqué. Entre les principes vertueux et les réalisations concrètes, même pour le grand Google, il y a parfois un fossé.
Google finalement ne fait pas bien mieux que plein d’autres solutions, comme s’en émouvait en avril une synthèse de l’association Algorithm Watch, qui souligne que sur quelques 160 outils d’évaluation éthique des systèmes que l’association a répertorié, seule une dizaine sont assortis de mécanismes d’application pratique. Comme quoi, il n’est pas si simple de faire simple !
Quoique ? L’Association américaine des libertés civiles (ACLU) et le Groupe d’études critiques de plateformes ont publié une boîte à outils pour l’équité algorithmique (AEKit) conçue pour aider les individus et les collectifs citoyens pour mieux identifier les technologies de surveillance gouvernementales et les technologies de prise de décision automatisée, explique un communiqué de presse. L’enjeu : aider les collectifs et associations à identifier, comprendre et évaluer les technologies auxquelles ils sont de plus en plus confrontés. La boîte à outils comporte 4 composants très basiques : un arbre décisionnel pour aider à déterminer la nature du système, à savoir s’il est un système de décision automatisé ou un outil de surveillance ; une carte définissant très simplement les termes techniques et leurs relations dans le cadre d’un système automatisé ; une fiche de questions ouvertes pour comprendre les impacts potentiels des systèmes et surtout un questionnaire à poser aux administrations, élus et fournisseurs de technologie pour aider les citoyens à comprendre leur impact, leur efficacité et leur contrôle.
Ce questionnaire très simple et synthétique propose de poser des questions sur la précision et les erreurs du système, notamment en demandant s’il a été évalué d’une manière indépendante… ou des questions sur la façon dont il réagit quand il est alimenté de données plus diverses ou aléatoires. Il propose également de poser des questions sur les garanties et les procédures mises en place si le système défaille (Comment les utilisateurs du système sont-ils formés à reconnaître et résoudre les erreurs ? Comment le système rapporte-t-il publiquement les erreurs qu’il fait ? Quels mécanismes d’audits ont été mis en place ? Quelles pénalités ou garanties existent en cas de résultats inadaptés ou d’évaluations inexactes ? Quelles protections ont été mises en place pour les lanceurs d’alerte ?…).
Une autre série de questions consiste à se faire expliquer comment le système déjoue les biais culturels et historiques, comme le racisme ou le sexisme. En demandant : d’où viennent les données ? Qui les produits depuis quels outils et dans quel but ? Sont-elles auditées pour s’assurer qu’elles ne reflètent pas de pratiques discriminatoires ? Est-ce que les données sont réaffectées à un autre but que celui de leur collecte originelle et comment ? Enfin, une dernière batterie de question vise à comprendre si les citoyens peuvent s’opposer au système et comment ? Si le public peut accéder et rectifier les enregistrements ? Quel est l’usage attendu du système ? Par quels mécanismes s’assure-t-on qu’il est utilisé seulement dans le but annoncé ? Quelles sont les pénalités et les garanties en cas d’usage inapproprié du système ?…
Des questions certes basiques, mais qui permettent certainement d’obtenir des réponses bien plus claires et accessibles que les tergiversations de Google ! Comme quoi, dans la question de l’éthique des systèmes, il est surtout nécessaire de quitter la position des experts qui parlent aux experts, des ingénieurs entre eux, pour reconnecter la responsabilité des technologies à ceux qui sont directement impactés par ces systèmes. C’est certainement à cette condition qu’on passe des principes aux modalités d’action !
Hubert Guillaud