Surveiller les algorithmes…

De plus en plus souvent, des algorithmes décident de notre rapport au monde. Que ce soit pour nous mettre en relation avec d’autres sur des sites de rencontres ou pour estimer notre capacité de crédit, pour nous diriger dans la ville via nos GPS voir même pour nous autoriser à retirer de l’argent à un distributeur automatique… les algorithmes se sont infiltrés dans notre vie quotidienne sans notre consentement et modulent notre rapport au monde sans que nous soyons vraiment au courant de leur existence, de l’ampleur de leur action, de leur pouvoir et des critères qu’ils utilisent pour décider de nos existences à notre place. Sans que nous ayons non plus beaucoup de possibilités pour réfuter ou intervenir sur ces critères. « Trop souvent, c’est l’ordinateur qui décide ! »

Comprendre comment fonctionnent les algorithmes qui nous gouvernent n’est pourtant pas du recours des seuls spécialistes, estime le journaliste Frank Swain (@SciencePunk). Dans l’un des derniers billets de son blog Future Exchange sur Medium, il revient très concrètement sur la façon dont les algorithmes nous gouvernent, en montrant, comment, nous pouvons essayer de comprendre les traitements dont nous sommes l’objet.

Frank voyage dans le monde entier… Et autant le dire, l’algorithme chargé de surveiller les mouvements de son compte en banque n’aime pas trop cela. Sa carte de retrait a encore été refusée. Il ne sait pas pourquoi… et il ne peut pas savoir pourquoi. Tout le problème est là !

Danser avec les algorithmes silencieux

A chaque fois qu’on retire de l’argent, l’automate de la banque doit décider si ce retrait est autorisé, s’il est « normal ». Il doit décider si c’est vraiment nous qui retirons de l’argent. Notre carte, notre code bancaire ne sont que des talismans pour en appeler à un complexe cerveau électronique résidant quelque part dans un datacenter climatisé. C’est lui le véritable gérant du guichet et c’est lui qui doit approuver ma transaction pour qu’elle soit autorisée. En fait, notre carte et notre code ne sont pas si importants que cela pour ce cerveau électronique. « Ce qu’il consulte avant tout c’est une vaste base de données d’enregistrements qui inclue ma localisation présumée, mes transactions récentes, le type de transaction que je demande, le temps qui s’est écoulé depuis ma précédente transaction, le montant que je demande, la date de cette transaction et quelques dizaines d’autres mesures dont je n’ai pas conscience. Il soupèse chacun de ces facteurs et décide si je suis vraiment celui que je prétends être. Il les soupèse et décide de me donner ou pas mon argent. » En fait, ces enregistrements, aussi factuels et minimaux soient-ils, par leur accumulation, dessinent une base de données de comportements, basée sur l’analyse de ces enregistrements. L’activité est une alternative à l’identité.


Image : Dancing in the street par John Henderson.

Le problème est que quand l’algorithme refuse la transaction, la machine ne nous dit jamais pourquoi. « Cela signifie que nous sommes constamment engagés dans une sorte de danse avec l’algorithme, une danse où je ne peux entendre la musique et où la seule réaction que je reçois est quand je marche sur les pieds de mon partenaire. » Nous ne connaissons ni les règles des algorithmes ni quand elles sont modifiées… Notre seul repère consiste à observer par essai/erreur, afin d’apprendre ce qui ne lui convient pas. Nous apprenons en dansant !

Et Frank Swain de faire référence aux travaux de Timo Arnall (notamment via le monde visible par des robots) et James Bridle (voir sa présentation à Lift sur comment nous écrivons avec les machines) nous expliquant combien nos vies sont désormais influencées par les technologies, non seulement par les objets que nous utilisons tous les jours, mais également par les systèmes invisibles qui nous entourent et ces architectures qui façonnent nos modes de nos vies. « Nous vivons à l’intérieur de systèmes invisibles aussi courants que des formulaires d’assurance, des demandes de prêts, d’emplois, de rencontres… et nous tentons de nous y ajuster consciemment en fournissant les informations que nous pensons être les plus appropriées ou les moins mal interprétées par ces systèmes. » Mais les machines ne comprennent pas très bien la normalité, au-delà d’une courbe statistique à laquelle mon comportement doit se conformer. Notre travail consiste donc à deviner la forme de cette courbe, estime Frank Swain. Les algorithmes bancaires sont conçus pour détecter les transactions frauduleuses et ils ne partagent pas les secrets de leurs alarmes de peur qu’on puisse les contourner. Pourtant, les criminels, finalement, n’en savent-ils pas beaucoup plus sur ces algorithmes que le public ? Ne savent-ils pas mieux naviguer que nous dans le cerveau de ces machines pour vider nos comptes en banque ?

Frank Swain a ainsi découvert qu’il avait annulé une transaction sur un distributeur à Barcelone, alors que sa banque l’avait accepté, ce qui explique que ses retraits ultérieurs aient été refusés… Visiblement, ce comportement-là semble répréhensible pour la machine. Ce n’est certes pas beaucoup, mais Frank a appris un pas de danse de plus avec l’algorithme. Certes, ce pas de danse est bien incertain et montre peut-être aussi les limites de cette technique par essai-erreur. A-t-on pris en compte le bon paramètre ? Est-ce vraiment cette suite logique que la machine a détecté ? En faisant ces rapports de manière solitaire et isolé, il n’est pas sûr que nous parvenions à circonvenir les algorithmes, mais allez savoir, peut-être qu’en s’y mettant à plusieurs…

L’ingénierie inversée

Force est de constater que nous ne sommes peut-être pas si démunis que cela pour comprendre les algorithmes. Pour connaître leurs biais, il y a une méthode simple, estime Nicholas Diakopoulos (@ndiakopoulos) pour The Atlantic : l’ingénierie inversée ! C’est-à-dire de déterminer le fonctionnement d’un système en étudiant ses réponses en faisant varier les signaux d’entrée. Faisons des algorithmes notre terrain d’analyse, nous invite le journaliste. Et de nous rappeler que cela est déjà le cas. Au Wall Street Journal, une équipe de journaliste a sondé des plateformes de commerce électronique pour identifier des cas de tarification dynamiques (voir notre article : « De quels traitements sommes-nous les proies ?). Pour le Daily Beast, Michael Keller a regardé la fonction de correction d’orthographe de l’iPhone pour voir les mots qui n’étaient pas dans le correcteur, ceux qu’Apple ne veut pas que vous employez, comme les mots « avortement » ou « suicide ». Pour Slate, Nicholas Diakopoulos a observé les critères éditoriaux embarqués dans les algorithmes d’autocomplétion des moteurs de recherches Bing et Google, permettant de déterminer les termes censurés et les marges d’erreur des systèmes de filtrage. A Harvard, Latanya Sweeney du Data Privacy Lab, a mis en avant la discrimination raciale dans la publicité en ligne.

« Toutes ces histoires partagent plus ou moins la même méthode. Les algorithmes sont des boîtes noires exposant des entrées et des sorties sans trahir le moindre de leurs organes internes. Vous ne pouvez pas voir ce qu’il se passe à l’intérieur directement, mais si vous pouvez faire varier les entrées de différentes façons et porter attention aux sorties, vous pouvez commencer à assembler quelques conclusions pour comprendre comment l’algorithme transforme chaque entrée en sortie. La boîte noire commence à divulguer certains secrets. »

Certes, les corrélations trouvées ne signifient pas nécessairement intention. Encore faut-il creuser plus profondément les motifs et les intentions de conception derrière les algorithmes. Compte tenu de la montée en puissance des algorithmes sur la société, il est essentiel de continuer à mettre la lumière sur ces systèmes qui n’offrent pas beaucoup de transparence ni de clarté…

L’opacité : le poison

Nos systèmes sociotechniques ne sont pas très transparents. C’est ce que pointe James Bridle (@jamesbridle) dans son très stimulant petit essai sur la vidéosurveillance publié par Matter, Ring of Steel où il évoque les systèmes de caméras de surveillances dédiées à la lecture automatisée de plaques d’immatriculation (LAPI) mises en place en Grande-Bretagne et aux Etats-Unis, et dont le plus connu est celui qui fait fonctionner le péage urbain de Londres (surveillé par près de 700 caméras).

Ces réseaux de vidéosurveillance sont très peu documentés. « Cette opacité est délibérée », rappelle Bridle, la police refusant de livrer la magnitude de son réseau de surveillance routier. Même si on compte certaines initiatives citoyennes pour documenter l’emplacement des caméras, la plupart des citoyens ne savent pas précisément comment la technologie est utilisée. Mis en place pour détecter des voitures volées, réguler voire facturer le trafic, ces LAPI mettent en place une discrète surveillance de masse où toute voiture devient suspecte. En fait, la loi britannique ne considère pas ces enregistrements de numéros de plaque minéralogiques comme des données personnelles. Les données d’enregistrement (des photos de véhicules auxquels sont associés des numéros de plaques) sont accessibles 90 jours à tous ceux qui sont accrédités pour cela, sans qu’une décision de justice soit nécessaire pour y accéder.


Image : le tableau de bord d’un système de surveillance de plaque minéralogiques dans une voiture de police via la West Midlands Police.

Pour l’instant, aucune étude n’a chiffré leur efficacité ni mesuré le niveau de surveillance qu’elles engendrent. Pourtant, contrairement à ce que l’on croit, le système mis en place n’est pas qu’un système de surveillance temps réel. L’historique des enregistrements est plus utilisé que les alertes temps réels et de nombreuses autres techniques ont été imaginées pour faire parler les données. L’analyse de convois permet ainsi de regarder dans la base de données si un autre véhicule a fait le même trajet que vous. Le système génère également un rapport de trajets impossibles pour détecter les plaques minéralogiques qui posent problèmes et générer des alertes… D’autres enquêtes algorithmiques sont également possibles comme la prédiction permettant de rétablir une surveillance humaine sur une cible qui a disparu ou analyser où une voiture en infraction risque de se rendre pour l’intercepter… A Londres, le système génère plus d’alertes que ce que la police peut traiter. Les données recueillies par ces systèmes sont pauvres de prime abord : un numéro de plaque, un lieu et une heure, et une image qui n’est pas passionnante. Mais leur analyse et leur agrégation permettent de détecter des corrélations bien supérieures à leur effet premier.

Bref « ce réseau n’est pas qu’un réseau d’identification en temps réel, mais il est bien un système pervasifs de surveillance algorithmique », conclut Bridle. Récemment une société d’enquête privée américaine, TLO, a ouvert un service permettant à quiconque d’avoir accès aux enregistrements concernant un numéro d’immatriculation en échange de quelques dollars (voir NBCNews). En 2010, Mike Katz-Lacabe, un consultant de San Leandro en Californie, a demandé ses données à la police et a reçu un rapport contenant 112 images de son véhicule permettant le plus souvent d’identifier ses occupants (voir le très complet reportage du Wall Street Journal sur le sujet).

Le problème de ces systèmes est qu’ils enregistrent des données sans raison prédéterminée, estime Bridle. Ces technologies d’analyses font de la rétention d’information l’option par défaut… Et James Bridle de rappeler que la loi britannique sur les données personnelles a été imaginée à une époque où on se concentrait sur l’accès aux données, pas à celle des requêtes algorithmiques. Bien sûr, le système connaît des dérives. Bridle rapporte par exemple l’histoire d’un homme arrêté 25 fois sous divers prétexte. En fait, à l’origine, c’était parce que sa plaque minéralogique avait été repérée aux alentours d’une manifestation contre la chasse ! Voilà un usage supplémentaire de ce réseau. En fait, estime Bridle en se basant sur des directives internes à la police, la surveillance et le traçage de véhicules associés à des manifestations publiques ne sont pas une routine, mais sont activement encouragés par la police. Or tout cela n’a pu être documenté que parce que les gens blessés par ces systèmes techniques en rapportent… Les criminels savent mieux que d’autres contourner ces systèmes : en modifiant leurs plaques afin qu’elles soient moins lisibles par les capteurs infrarouges, en utilisant des cartographies de ces caméras pour modifier leurs itinéraires de conduites ou en endommageant les systèmes, notamment en certains points.

« Ce sont les lois qui exemptent les données de véhicules de la protection à la confidentialité nécessaire, et ce sont ces mêmes lois qui ne mentionnent pas les possibilités très réelles de harcèlement, d’intrusion dans la vie privée et d’arrestation illégale rendue possibles par ces systèmes, qui sont des risques inhérents à une couverture en systèmes de surveillance automatisés », s’alarme Bridle. La compréhension de ce qu’il se passe dans ces systèmes de surveillance est impossible sans visibilité. « Quand il ya une pression à obscurcir une infrastructure – camoufler les caméras, fermer les réseaux, ou restreindre la liberté de demandes d’informations – une pression correspondante est exercée sur la démocratie qu’elle prétend défendre. »

Forbes rapportait récemment qu’un hacker, @PukingMonkey, avait démontré que les badges de péages électroniques sans contact utilisés à New York, les e-Zpass, n’étaient pas lus seulement aux barrières de péage… soi-disant pour aider l’autorité de transport à mieux connaître l’état du trafic (sans que cela ait été précisé dans les conditions d’accès au service). En bricolant un capteur lumineux à son pass pour savoir quand son badge était lu, Puking Monkey a fait une démonstration très visuelle (vidéo) de la manière dont nous sommes lus par-devers nous…

A nouveau, à défaut de transparence de la part des services qui les conçoivent, la rétro-ingénierie semble effectivement l’une de nos rares armes pour lutter contre les algorithmes et les systèmes techniques opaques. Reste que pour être efficace, il va falloir qu’elle soit plus collaborative que celle qu’esquissent les lanceurs d’alertes…

Hubert Guillaud

À lire aussi sur internetactu.net

0 commentaires

  1. Bravo pour cet angle très intéressant et judicieux.

    De nombreuses entreprises vendent des services de « prédiction » (de rupture de stock, d’évolution des prix, etc.) dont non seulement l’alimentation et le calcul, mais aussi l’utilisation, sont automatisés. Des masses de « décisions » non humaines sont prises par ces algorithmes et influencent les vies des humains. J’enfonce des portes ouvertes, mais ceci est très différent du rôle des modèles tel que l’on a enseigné dans les écoles de statistique (un humain fait une hypothèse, la machine fait un calcul, sur la base de laquelle l’humain va accepter ou rejeter l’hypothèse…).

    Comment un humain va-t-il prendre la décision d’accepter ou de rejeter les résultats qu’a l’algorithme (de valider son utilisation, acheter ce service, en dénoncer les conséquences…) : comment évaluer ce qu’une marque gagne à utiliser un service type Criteo, vs un achat d’espace « classique » ? comment évaluer le coût pour les investisseurs du trading microseconde ?

    J’ai l’impression qu’il reste pas mal de méthodes à élaborer pour répondre à ce type de questions. Et je ne compte pas sur les auteurs des algorithmes pour en ouvrir les codes sources 😉