Vers des algorithmes exemplaires ?

Comprendre ce qu’il se passe à l’intérieur des boîtes noires algorithmiques n’est pas si simple. Notamment, parce que les agencements de codes, de traitements, de classements, d’appariements se construisent souvent d’eux-mêmes, à partir de données que nous ne sommes pas conviés à regarder et de code que nous ne sommes pas conviés à inspecter. Comment, dans ce cadre d’imbrication algorithmique, rendre les algorithmes exemplaires dans leurs modalités de traitement afin qu’ils s’expliquent à ceux qu’ils calculent et qu’on s’assure qu’ils fonctionnent loyalement, c’est-à-dire comme ils sont censés fonctionner ?

C’est là quelques-uns des enjeux que pose le groupe de travail Nos Systèmes de la Fing, dans sa deuxième année de travail. Dans le cadre de plusieurs jours d’ateliers avec les étudiants en design de l’ENS Cachan et de l’école Boulle, nous nous sommes intéressés à cette question de l’impact social des algorithmes publics, en invitant des projets portés et soutenus par Etalab, à questionner avec nous ces enjeux, en partant de la grille d’analyse que nous avions construite, qui souligne que la responsabilité sociale des systèmes nécessite de la médiation, de l’explication, de la jouabilité, de la symétrie et de l’ouverture.

La visualisation de données pour comprendre les traitements ?

Caroline Goulard du studio Dataveyes ne développe pas des systèmes algorithmiques publics. Dataveyes développe des outils pour comprendre les systèmes complexes via la visualisation de données. Une approche résolument inspirante, et pas seulement pour les étudiants en design que nous avons fait travailler, explique-t-elle aux étudiants auprès desquels nous l’avons fait intervenir.

la Carte de Minard« La datavisualisation consiste à représenter visuellement les données. C’est une discipline qui vise à traduire visuellement l’information ». L’histoire de la datavisualisation est plus ancienne que la naissance de l’informatique, rappelle Caroline Goulard. Bien avant le remarquable travail Edward Tufte, l’une des premières « dataviz » qui fait référence, est la carte de Minard, qui représente la campagne de Russie de Napoléon. La carte de Minard consiste à représenter le nombre de soldats composant les troupes en fonction de leur avancée, dans le temps, par ville étape et selon la température… Elle raconte visuellement la catastrophe qu’a été la campagne de Russie.

Exemple de différenciation entre une datavisualisation à gauche et une infographie à droite« Une infographie n’est pas la même chose qu’une dataviz », pose encore pédagogiquement Caroline Goulard. Dans une infographie, le principe consiste à éditorialiser les principales informations et chiffres clés d’un jeu de données, alors que la visualisation de données consiste à trouver une forme visuelle qui facilite la lecture des données elles-mêmes. Entre les deux, la démarche est différente, précise-t-elle.

Dataveyes développe d’autres formes de dispositifs encore. Ses fondateurs parlent d’Interactions Humains Données pour désigner des dispositifs visant à améliorer la façon dont on comprend et utilise les données (voir notre dossier : Vers un design de la médiation). Le terme fait clairement référence au champ de l’interaction homme-machine et désigne les modalités de médiation et d’interaction avec les données, plus qu’avec les seules interfaces.

Après en avoir expliqué en détail le fonctionnement du studio, la cofondatrice de dataveyes illustre son propos de réalisations qui permettent de mieux comprendre ce que produit son agence. « La visualisation de données ne concerne plus seulement les scientifiques qui l’ont longtemps utilisé comme support de leurs recherches. Elle a d’abord été très mobilisée dans la business intelligence pour produire des tableaux de bords d’activité notamment, mais aussi chez les artistes numériques ». L’un des premiers projets du studio était une application pour la Cité des sciences (vidéo) destinée à visualiser en temps réel l’actualité des jeux vidéos. L’application analysait les contenus de sites d’actualités sur les jeux afin de les regrouper en thématiques pour restituer leurs volumes et les discussions qu’ils initiaient sur les réseaux sociaux. Metropolitain (accéder à l’application) est une autre application de visualisation de données qui permet de montrer le temps de trajet et l’affluence du métro parisien en temps réel selon une représentation isochrone. Une représentation qui rend accessible une autre façon de voir le territoire.

La visualisation de données s’est développée avec la massification des données et le besoin de les traiter. Par exemple dans le domaine des ressources humaines, qui produit des outils de prédiction et de gestion (dataveyes a réalisé ainsi un outil de cartographie des compétences pour une direction RH d’un grand groupe français), ou dans celui du marketing pour suivre les ventes… Le Big Data a apporté avec lui des problématiques statistiques et techniques nouvelles ainsi qu’une nouvelle logique de produits, avec des services centrés sur la donnée, comme c’est le cas d’Uber ou de Spotify, où la donnée est à la fois au coeur du design du produit et au coeur du fonctionnement même de l’entreprise. En cela, la visualisation de données a largement dépassé son champ originel de représentation.

La datavisualisation permet aussi de mobiliser et de donner à voir les données ouvertes. Dans un projet réalisé pour la métropole de Rennes (accessible ici), l’enjeu était d’utiliser les données du recensement pour créer une application grand public afin de mieux appréhender la matérialité même des statistiques et les caractéristiques sociodémographiques du territoire.

Caroline Goulard évoque un autre projet de son agence, réalisé avec Outbrain, l’une des grandes agences spécialisées dans la recommandation de contenus sponsorisés – souvent très critiquée du fait des suggestions automatisées que ces plateformes produisent. Le principe de ce type d’agence de placements de contenus fonctionne complètement algorithmiquement : les marques payent pour avoir des emplacements publicitaires sous des contenus qui sont déterminés automatiquement par les outils de Outbrain afin de maximiser le taux de clic. Le problème pour Outbrain, c’est que le fonctionnement de leurs algorithmes est complexe. Ce sont des boîtes noires et il est difficile pour les équipes marketing d’Outbrain qui travaillent avec les marques d’expliquer à leurs clients leur fonctionnement et où vont se placer leurs publicités. Les équipes d’Outbrain avaient donc besoin d’un outil pour permettre à leurs clients de comprendre comment le placement automatique se réalise et d’où viennent les gens qui cliquent sur leurs contenus. Dataveyes a donc réalisé un outil permettant de comprendre par exemple que les clients qui cliquent sur des contenus sponsorisés sur la santé sont plutôt des profils en train de lire des articles sur le fitness ou la prise de poids et qu’il y a très peu de chance qu’ils soient en train de lire un article sur le jeu ou l’environnement. « L’enjeu, n’est pas d’expliquer l’algorithme, mais de fournir une application pour voir ce que cet algorithme produit, de le rendre plus explicable et de permettre aux clients d’Outbrain de comprendre quels types de profil ils touchent ». Un exemple qui montre combien l’enjeu de l’explicabilité n’est absolument pas réductible au code de l’algorithme et combien les dispositifs permettant de jouer avec l’information font preuve d’une réelle efficacité pour permettre d’en comprendre le fonctionnement.


Image : capture d’écran de Outbrain Affinity Index.

En matière d’interface, les défis à venir sont notamment liés à l’Intelligence artificielle, explique encore Caroline Goulard. « L’enjeu consiste à produire des outils de visualisation depuis des dispositifs techniques dont on ne sait pas expliquer les résultats ». Cela nécessite de concevoir des interfaces qui soient à la fois accessibles au plus grand nombre, parce que les dispositifs d’automatisation arrivent jusqu’au quotidien de tout à chacun, comme ce peut être le cas quand il faut concevoir l’interface d’un véhicule autonome, et à la fois de concevoir des interfaces permettant d’expliquer ou d’auditer les traitements que réalisent les systèmes d’intelligence artificielle. Des enjeux qui croisent également ceux de la culture des données de tout à chacun, consistant à améliorer la compréhension par tous de ce que sont et de comment fonctionnent les données et leurs traitements. Dataveyes travaille actuellement par exemple à une application pour aider les gens à comprendre leur consommation électrique domestique. En fait, les gens utilisent peu les fonctions intelligentes qui régulent leur chauffage, par peur de tout dérégler, raconte Caroline Goulard. Cela tient également beaucoup aux interfaces, souvent trop compliquées. Dataveyes travaille à une interface plus accessible et qui serait capable de proposer aux utilisateurs d’opter pour des améliorations de manière incitative et progressive…

Assurément, l’équipe de Dataveyes a plein de solutions dans sa besace qui permettent de regarder autrement les questions de rapport des utilisateurs aux calculs, en améliorant la relation et en impliquant les utilisateurs.

De la responsabilité des algorithmes publics

« A quoi servent les systèmes algorithmiques dans le secteur public ? », questionne Simon Chignard, conseiller stratégique au sein de la mission Etalab. Pour lui, il y a 4 grands types d’utilisation des systèmes de traitements automatisés par l’acteur public. La plus courante consiste à utiliser des algorithmes, souvent assez simples, pour automatiser des calculs, du type attribution de droits, calcul de montants comme ceux qui calculent les impôts ou les prestations sociales. Une autre utilisation consiste à relier l’offre à la demande, à réaliser un appariement, comme le font APB ou Parcoursup, mais également les systèmes qui gèrent la mobilité des agents ou des enseignants. Un troisième usage consiste à construire des solutions de prédiction à l’image des outils que développent la gendarmerie dans le domaine de la police prédictive, de ceux qui tentent de prédire la défaillance d’entreprise ou le risque de fraude comme l’envisage l’administration fiscale. Ces outils d’aide à la décision visent à repérer des dossiers, des cas, qui méritent un regard. Un dernier type d’outils d’aide à la décision vise les administrés eux-mêmes, comme la bonne boîte, qui aide les demandeurs d’emploi à mieux cibler leurs candidatures spontanées.

« Les algorithmes publics ont des spécificités par rapport à ceux développés par des entreprises privées, en terme de transparence, de responsabilité et de loyauté ». Ils sont censés opérer au service de l’intérêt général. Ils aident à appliquer le droit, à exécuter la loi : ils doivent respecter et appliquer les textes juridiques. Enfin, ils sont incontournables ! Un moteur de recherche, vous pouvez en choisir un autre si celui que vous utilisez ne vous convient plus. Ce n’est pas le cas du système de calcul des impôts, de l’outil de gestion des greffes et dons d’organe que gère l’agence de biomédecine ou de l’essentiel de l’offre de l’enseignement supérieur que gère Parcoursup. Comme toute autre forme d’action publique, les algorithmes publics ont donc une exigence de redevabilité. Participants de l’action publique, ils doivent donc, comme le souligne l’article 15 de la Déclaration des droits de l’homme et du citoyen, rendre des comptes ! Reste à savoir qui rend des comptes et comment ? Cela peut vouloir dire bien des choses différentes, rappelle Simon Chignard : signaler qu’on procède à un calcul, expliquer et décrire son fonctionnement, ses effets… mais également se justifier, c’est-à-dire expliquer les objectifs poursuivis par le calcul. Cela signifie également rendre accessibles les modalités du calcul en publiant le code source par exemple ou les données qu’il utilise. C’est aussi permettre la contestation en indiquant les voies de recours pour ceux qui souhaitent contester le résultat d’un calcul.

L’enjeu des algorithmes publics est donc de rendre des décisions « justes ». Mais comment faire ? « Quand vous faites une demande d’attribution de place en crèche, il vous faut remplir un dossier… À la fin d’une procédure, vous obtenez une réponse : celle d’avoir une place en crèche ou pas. Mais qu’est-ce qui fait que moi, en tant que parent, je vais considérer que la décision rendue est juste et équitable ? »

Les personnes concernées considèrent une décision juste quand elle respecte quatre critères : la transparence (c’est-à-dire quand la procédure de décision est clairement décrite, en expliquant les critères de priorités par exemple) ; l’intelligibilité (c’est-à-dire que la procédure est comprise par les personnes concernées) ; la loyauté (c’est-à-dire quand la procédure a été appliquée conformément à la description) ; l’égalité de traitement (c’est-à-dire quand la procédure appliquée est la même pour tous). C’est seulement quand ces quatre critères sont présents qu’une décision, même négative, peut-être perçut comme « juste » par les individus concernés. Pour Simon Chignard, l’enjeu des algorithmes publics est de déployer ces quatre critères jusque dans les interfaces des services qu’ils mettent en oeuvre.

Enfin, souligne-t-il, les administrations publiques ont également des obligations légales, qui (pour faire vite), obligent à faire figurer une mention explicite (sur les finalités du traitement, le droit de communication et les modalités d’exercice de ce droit), à fournir une information individuelle à la demande des calculés sur le degré et le mode de contribution du traitement algorithmique à la prise de décision, les données traitées et leurs sources, les paramètres de traitement et leur pondération, appliqués à la situation de l’intéressé, et les opérations effectuées par le traitement. Enfin, pour certaines administrations, il est nécessaire de fournir également une information générale définissant les règles des principaux traitements utilisés lorsqu’ils fondent des décisions individuelles.


Image : les obligations légales des algorithmes publics synthétisés en une image par Simon Chignard et Loup Cellard.

Vers des services publics exemplaires ?

L’enjeu de l’atelier que nous avons animé avec les étudiants en design de l’école Boulle et de l’ENS Cachan a consisté à proposer à leur sagacité des services publics qui procèdent à des calculs pour qu’ils les réinventent afin qu’ils soient plus exemplaires qu’ils ne sont. Comment, depuis les leviers que nous avons identifiés via notre travail sur les systèmes techniques, interroger les systèmes de calculs pour qu’ils offrent de meilleures modalités de médiation, d’explicabilité et qu’ils améliorent la symétrie des traitements, la jouabilité et l’ouverture des systèmes ?

Une taxe d’habitation adaptée à la transition écologique

L’un des premiers sujets qui leur étaient proposés consistait à travailler sur la Taxe d’habitation. Comment la rendre plus compréhensible, à la fois pour qu’elle puisse mieux répondre aux nouvelles obligations légales qui s’appliquent et au fait que les citoyens peuvent désormais demander une explication sur le calcul qui est produit ? La taxe d’habitation repose sur un calcul compliqué qui n’a pas été révisé depuis longtemps et qui dépend des déclarations initiales du propriétaire. Comment améliorer l’explication et la compréhension du calcul que la feuille d’imposition propose ? Les étudiants ont passé beaucoup de temps à entrer dans le calcul, à tenter de le comprendre. Quelle explication, quelle pédagogie mettre en oeuvre pour faire comprendre ce qui est calculé ? Les étudiants étaient confrontés à des questions de design, visant à contextualiser les informations, pour offrir au public des moyens de comparaison par exemple. Pourrait-on proposer une nouvelle feuille d’imposition en redonnant aux citoyens un peu plus d’information que l’administration fiscale a sur eux ?

Après quelques jours de travail, à tenter de comprendre le calcul de la valeur locative (qui repose sur une catégorisation des immeubles en fonction de leur qualité et selon chaque commune, ainsi que sur sa surface pondérée selon plusieurs critères comme un certain niveau de confort dépendant d’une grille qui date des années 70), les étudiants ont fait plusieurs propositions spéculatives d’amélioration, consistant à personnaliser la feuille d’imposition, à proposer une chaîne d’explication graphique permettant d’interagir – de zoomer et dézoomer – avec sa compréhension et de voir l’impact de son logement, de son foyer et du territoire sur le calcul de ses impôts locaux. Les étudiants ont également imaginé un simulateur permettant de jouer sur la surface pondérée du calcul de la valeur locative en fonction des équipements. Un simulateur permettant de réactualiser les critères de calcul en imaginant y intégrer de nouveaux paramètres (notamment écologiques) permettant de faire diminuer la valeur locative selon des critères écologiques. L’enjeu : favoriser la transition écologique et permettre aussi aux communes et intercommunalités de valoriser des critères environnementaux qui leur sont spécifiques ! Une proposition où simulation, explication et jouabilité fonctionnent de concert pour créer à la fois de la responsabilité et une nouvelle grille d’enjeux pour les impôts locaux.



Images : En haut, le schéma de la personnalisation de la taxe d’habitation. En bas, la proposition de simulateur de la taxe d’habitation prenant en compte des modalités écologiques pour agir sur la surface pondérée du logement depuis lequel est calculé la taxe. Voir la présentation réalisée par les étudiants.

De la prédiction du risque de défaillance d’entreprise à un outil de surveillance de sa santé économique

Signaux faibles est l’un des projets 2018 du programme Entrepreneur d’intérêt général d’Etalab. Initié par la Direccte (Directions régionales des entreprises, de la concurrence, de la consommation, du travail et de l’emploi) Bourgogne-France-Comté (BFC), c’est un service qui vise à mieux anticiper les difficultés des entreprises, notamment des PME et ETI. Le projet consiste à utiliser des données provenant d’administrations publiques sur la situation économique et sociale des entreprises pour créer un algorithme capable de détecter et prédire les entreprises fragiles afin que l’Etat puisse intervenir et les accompagner quand l’entreprise a encore des moyens d’action. Cette startup d’État portée Pierre Camilleri et Christophe Ninucci a développé un outil opérationnel intégré aux services de développement économique de la Direccte qui calcule un risque de défaillance depuis des informations provenant de l’Urssaf, de la Direccte, de la Banque de France et de la Direction générale des Finances publiques.

L’expérimentation est en cours dans la région BFC, mais le service projette de se développer prochainement dans d’autres régions voire sur toute la France. Depuis son lancement, l’algorithme utilisé a détecté 45 entreprises en difficultés. 19 accompagnements ont été réalisés.

Pour l’instant, les résultats du calcul sont analysés en petit comité, notamment du fait de la confidentialité des informations. Les résultats obtenus nécessitent en effet d’être interprétés : d’abord parce qu’ils ne sont pas infaillibles (à l’image d’une entreprise détectée dont la trésorerie semblait très tendue, alors qu’elle était gérée par une société mère en flux tendu). Ensuite parce que la difficulté ne repose pourtant pas dans le calcul lui-même, mais sur la confidentialité des informations (les difficultés de paiements ou de trésorerie) et leur caractère sensible : il est difficile pour les chargés de mission de la Direccte d’arriver dans une entreprise en expliquant qu’ils en savent plus que l’entreprise elle-même sur ses difficultés. Sans compter que les entreprises en difficulté peuvent être facilement stigmatisées par leurs sous-traitants, leurs donneurs d’ordres ou leurs partenaires financiers : d’où la nécessité d’une grande prudence dans l’information que Signaux faibles calcule et renvoie aux entreprises. En fait, le problème ne repose pas tant sur le calcul d’une prédiction de défaillance, que de savoir comment utiliser ce résultat. Tout l’enjeu est d’établir une relation de confiance, qui est d’autant plus difficile à établir qu’elle est initiée par une relation d’information fortement asymétrique.

On comprend vite ici que l’enjeu n’est pas tant d’inspecter le calcul ou de le rendre transparent, qu’il n’est pas d’interroger la qualité du calcul, mais de regarder son impact et la relation qu’il instaure. Les étudiants se sont donc attachés à réinventer cette relation, notamment dans la perspective d’un déploiement national de Signaux faibles, en imaginant un dossier pédagogique pour les chargés de mission, en insistant sur l’aide qu’ils peuvent apporter plus que sur le problème à traiter. L’autre idée qu’ils ont exploré consiste à transformer le service d’alerte en un service d’auto-évaluation. Alors que les grandes entreprises disposent d’outils de monitoring et de prédiction, ce n’est effectivement pas le cas de nombres de PME ou d’ETI. Un simulateur pourrait permettre aux entrepreneurs de faire régulièrement le check-up de leur entreprise (avec des données plus à jour que celles dont dispose actuellement Signaux faibles, permettant donc aussi d’améliorer le système). L’outil permettrait aux petites et moyennes entreprises d’avoir accès à un outil de monitoring, de mieux comprendre leur situation, d’accéder à des alertes et remèdes possibles. Un simulateur permettrait également d’intégrer des modalités de prédiction permettant au chef d’entreprise de mieux cerner les conséquences de ses options selon différents curseurs à sa disposition, afin qu’il puisse jouer de la prédiction réalisée et mieux la comprendre. La proposition des étudiants visait à créer une relation plus optimiste, en mettant l’accent sur les points positifs et pas seulement négatifs, pour imaginer une relation plus fluide, moins frontale. Chaque entreprise une fois qu’elle a fait son check-up peut ensuite accéder aux aides et actions possibles et être mise en relation, si elle le souhaite, avec des chargés de mission pour obtenir un accompagnement adapté. Dans leur proposition, les étudiants ont joué de l’asymétrie actuelle de Signaux faibles pour la renverser et redynamiser la relation entre services publics et entreprises, en imaginant une transformation radicale du service dans la perspective de sa généralisation. La proposition apporte une perspective plus large au projet, sous la forme d’un tableau de bord qui s’adresse à toutes les entreprises et pas seulement à celles en difficultés. En améliorant la symétrie et la pédagogie, elle rend le dispositif moins anxiogène aux entreprises comme aux acteurs publics.




Images : Le simulateur Signaux Faibles propose d’abord un outil pour réaliser son bilan. Il permet ensuite à l’entrepreneur de jouer des critères d’auto-évaluation. Et enfin propose un bilan qui montre les points de forces et de faiblesses. Voir la présentation réalisée par les étudiants ainsi que l’outil de simulation factice mis en place.

Vers un kit d’auto-évaluation de la responsabilité

Le dernier projet sur lequel ont travaillé les étudiants de Boule et de l’ENS Cachan consistait à réfléchir à un outil d’auto-évaluation du risque algorithmique, inspiré de ceux existants. C’est l’une des promesses sur laquelle nous travaillons dans le cadre du programme NosSystèmes de la Fing : offrir un outil d’auto-évaluation de projets pour améliorer leur responsabilité. Les étudiants ont réfléchi à comment simplifier le questionnaire d’EthicsToolkit.ai, selon 3 pôles : les algorithmes, les données et les usagers (ou les impacts de leurs usages), afin de donner corps à la grille que nous avons établie. Leur proposition se décompose sous deux formes : une interface numérique qui évolue au gré des réponses pour montrer visuellement les faiblesses des projets et faire des recommandations adaptées. Et une interface physique, qui dessine, selon les réponses aux questions la silhouette d’un algorithme, rendant concret son équilibre, sa stabilité… à la manière d’un jeu de construction. L’objet permet de rendre concret l’analyse d’impact algorithmique en en faisant un outil de négociation et de débat pour les équipes qui envisagent le développement d’outils algorithmiques.



Images : En haut, représentation du kit d’auto-évaluation de projets algorithmiques, qui permet selon chaque grande catégorie d’impact de comprendre visuellement les lacunes du projet. En bas, trois exemples de silhouette algorithmique permettant de visualiser l’amélioration de sa construction. Voir la présentation réalisée par les étudiants.

*

Au final, les propositions des étudiants ont joué des pistes d’innovation que nous avions pointées, afin d’améliorer le dialogue non technique avec la technique. Un travail qui nous a montré que la responsabilité du calcul, son impact, n’est pas que dans le calcul, mais bien dans les modalités de discussion qui l’accompagne (et qui font trop souvent défaut comme le rappelait l’exemple de la ville de Boston que nous évoquions récemment). La médiation, l’explicabilité, la jouabilité, la symétrie et l’ouverture sont bien des moyens pour faire dialoguer les calculs avec les calculés. L’exemplarité des dispositifs algorithmiques n’est pas que technique ! Elle est assurément sociale !

Hubert Guillaud

Avec un grand merci à tous les étudiants pour leur travail !

À lire aussi sur internetactu.net

0 commentaires

  1. Je n’ai pas bien compris la définition que vous donnez à la notion de « symétrie » ?
    Par ailleurs, cela me rappelle des choses… overcrowded, anoptique, datapainting … vers 2004, comme quoi le numérique avance plus lentement qu’on ne le croit.

    1. Dans NosSystèmes, on prône une symétrie des traitements pour répondre à l’opacité. L’idée, simple, est de dire que quand on calcule quelque chose sur quelqu’un, on doit lui rendre ce calcul et pas seulement sa donnée. Si on infère d’une adresse une information (niveau de revenu par exemple), alors cette information doit être retournée au calculé. Et pas seulement son adresse, sa donnée. http://fing.org/?Nos-Systemes-les-pistes-d&lang=fr