Contourner les algorithmes

La lecture de la semaine nous vient de The Atlantic et du toujours pertinent Alexis Madrigal (@alexismadrigal), le titre de son article « Contre l’idée que les algorithmes sont objectifs ».

« Quand un résultat provient d’un ordinateur sur la base de statistiques, cela doit être objectif, non ? Pas de biais possible, à la différence de notre jugement, nous Homo Sapiens défectueux.

Image : Google News et les facteurs de classements de l’actualité.

Mais, dans les faits, ce n’est pas vrai. Nick Diakopoulos (@ndiakopoulos), du Nieman Journalism Lab, a publié un article intéressant sur la manière dont certains algorithmes introduisaient des bais différents de ceux des humains, mais non moins réels. En regardant Google News, Circa, IBM Research et d’autres outils automatisés, il en a conclu : « Il est facile de succomber à l’idée fausse que, parce que les algorithmes des ordinateurs sont systématiques, ils feraient preuve d’une plus grande objectivité. Mais dans les faits, ces biais systématiques sont plus insidieux parce qu’ils passent inaperçus et ne sont pas interrogés ».

Même les robots ont des biais, reprend Madrigal. Ces algorithmes étant en jeu dans l’écosystème de l’information, ils ont le pouvoir d’infléchir la manière dont l’information arrive aux gens. Mais, dit Madrigal, ce qui m’intéresse, c’est la manière dont la simple application d’une série de procédures rigides peut produire des comportements nouveaux, et néfastes, chez une partie des acteurs humains qui comprennent comment ils peuvent exploiter le système. Toute une nouvelle catégorie de bruits bizarres résonne dans le monde de l’actualité à cause de l’algorithme de Google, quelles que soient ses qualités.

Parce que les règles sont assez rigides, – par exemple l’idée que plus c’est nouveau, mieux c’est – différents acteurs essaient d’avoir les articles les plus récents sur les événements considérés comme populaires. A l’approche de la tempête de neige en Californie début décembre, le site internet de la chaine météo Weather Channel a publié un bon avant papier, c’est le 29 ou le 30 novembre. Je l’ai lu quand il est paru. Après la tempête du 3 décembre, je suis allé voir quelles anticipations sur la tempête s’étaient révélées exactes. J’ai fait quelques recherches par mot-clé sur Google News et voilà qu’apparaît un papier de Weather Channel daté du 3 décembre. Tout content je clique, et je tombe sur le même papier exactement que celui que j’avais lui, mais daté du 3 décembre. Ce qui rendait ce papier complètement absurde : un avant papier daté d’après l’événement. Une folie pour un humain. Mais pour une machine, ça ressemble à un contenu frais, rempli de mots-clés qui renvoient l’événement. La machine ne peut pas savoir que l’article est écrit au futur et qu’il est complètement caduc. Ce type de chose dégrade beaucoup l’écosystème de l’actualité et se produit uniquement parce que l’algorithme de Google fonctionne bien.

Soit, il s’agit là d’une optimisation sans foi ni loi de Google News. Mais il existe beaucoup d’autres exemples et techniques qui ont été développés à partir de la manière dont l’algorithme fonctionne. Certaines nous sont bénéfiques dit Madrigal : les titres pleins de jeux de mots disparaissent peu à peu, pourquoi pas. Mais d’autres facteurs pris en compte par Google – comme la densité en mot-clé – obligent les journalistes à utiliser toujours les mêmes mots et à les répéter souvent. Google avantage le spécifique par rapport au généraliste. Si vous publiez un papier sur un seul sujet, vous êtes plus susceptibles d’apparaître en haut de page que si vous adoptez un point de vue plus horizontal. Enfin, regardez une première page de Google News, elle recense presque exclusivement des médias traditionnels. Il est choquant de n’y trouver presque aucun média créé récemment. L’apolitisme conservateur de l’algorithme de Google est stupéfiant.

Mon but en entrant dans tous ces détails est de renforcer l’idée de Diakopoulos sur le manque d’objectivité des opérations algorithmiques. Même si quelqu’un pouvait créer un système parfaitement équilibré sans aucun biais observable lors de sa mise en route, les gens qui entrent les données dans le système, et sont dépendants de la manière dont elles ressortent adapteront leur comportement au système. Ils feront les modifications nécessaires pour se rendre plus lisibles par la machine, et ceux qui y arriveront le mieux prospèreront.

Ce qui importe n’est pas simplement la manière dont fonctionne le logiciel, mais la manière dont il modifie la structure de la pensée et des actions humaines. A mes yeux, Google News a créé des boucles de rétroaction aux effets très délétères, pas parce que l’algorithme en lui-même est mauvais, mais parce que le service n’a pas assez considéré ses répercussions humaines. Ce n’est pas ce que voulait faire Krishna Bharat, le producteur de Google News. Mais c’est ce qui s’est passé. »

Xavier de la Porte

Xavier de la Porte (@xporte), producteur de l’émission Place de la Toile sur France Culture, réalise chaque semaine une intéressante lecture d’un article de l’actualité dans le cadre de son émission.

L’émission du 22 décembre 2012 était consacrée aux rapports entre la vie privée et la vie professionnelle en compagnie de Sylvie Hamon-Cholet, chercheuse au Centre d’études de l’emploi ; Cindy Felio, psychologue du travail qui prépare une thèse sur « les nouveaux comportements au travail et les risques psychosociaux liés à l’usage des technologies de l’information et de la communication chez les cadres intermédiaires et supérieurs » et qui participe également au projet de recherche Devotic, sur la déconnexion volontaire ; ainsi que l’anthropologue Stefana Broadbent auteur de L’intimité au travail.

0 commentaires

Une petite remarque qui vaut pour incompréhension du terme ‘objectif’.

Ce qui pose problème ici, me semble-t-il, n’est pas le manque d’objectivité des algorithmes, mais au contraire leur manque de subjectivité. Beaucoup trop objectifs, ils ne peuvent faire de jugements ni d’interpétation, seules opérations qui leur permettraient de faire un tri intelligent dans les articles utiles/pertinent, (i.e. sans passer par des critères mécaniques définis à l’avance).
Et par ailleur, l’idée même de biais est délicate à manipuler. Qu’est ce que serait par exemple un algorithme de recherche sans ‘biais’ ? Un outil dont les producteurs de contenu n’auraient pas conscience et sur lequel ils ne chercheraient pas à s’aligner ? Autrement dit un instrument de mesure ou de description d’un réel totalement naturalisé qui n’aurait aucun effet sur lui ? Je ne suis pas spécialiste, mais je crois que même les physiciens savent depuis un certain temps qu’une telle chose n’est pas possible…
Le problème vu sous cet angle résiderait moins dans le biais des algorithmes que dans la définition d’un réel passif que leur transparence cherche à imposer, d’une part, et notre quête sans fin de cette transparence, d’autre part.

Il me semble important de rappeler que de nombreux algorithmes, en particulier statistiques, mais aussi des plus anodins, sont supposés objectifs car ils fournissent une solution « unique », repétable, sensée, où il y a souvent, derrière, la minimisation d’une fonction mathématique. L’exemple le plus évident est la moyenne (statistique) d’une suite de valeurs v_i. C’est un exemple de valeur représentative de la tendance centrale d’une réalité fluctuante. Et ce n’est la somme divisée par le nombre de termes que par accident. C’est d’abord la solution unique m1 qui minimise les écarts quadratiques entre une quantité quelconque m et toutes les valeurs de la série. C’est-à-dire la valeur qui minimise la somme des (v_i – m)^2. On appelle ce genre de fonction « fonction objectif » (http://fr.wikipedia.org/wiki/Fonction_objectif). La moyenne est alors la « meilleure » réponse à cette fonction. De même, la médiane m2 minimise la fonction objectif d’écart en valeur absolue. On voit ainsi qu’on peut multiplier le choix de fonctions objectif, et que ce choix est lui subjectif : il dépend de goûts, d’a priori statistiques ou d’observation sur les données (par exemple le critère quadratique est assez lié aux distributions gaussiennes), de la facilité à résoudre numériquement l’optimisation de cette fonction objectif. Pour la moyenne ou la médiane, c’est assez facile, si bien qu’elles sont souvent prises en standard, mais ce n’est pas anodin. Il est important de se rappeler que ce choix naturel, de convention dissimule en fait des hypothèses cachées, qui vont souvent induire un biais de calcul. Pour certains problèmes, ni la moyenne, ni la médiane n’ont de sens clair, voire d’utilité. On peut préférer la valeur la plus fréquente. En pratique, quasiment tous les algorithmes de traitement de données (ou de fouillle de données, de data mining) contiennent (en quantité) ce genre de fonction objectif, et même des paramètres de réglage, consistant par exemple « éliminer » du calcul des valeurs extrèmes (la plus grande, la plus petite), à filtrer les résultats impropres. L’objectivité des algorithmes est donc une illusion assez répandue, même chez les praticiens.

Une attitude un peu plus fine, autour de l’aggrégation de modèles, consiste à multiplier les modèles, ou les fonctions de coûts, et combiner, si possible intelligemment, les résultats différents. Cette combinaison, à l’instar des moyennes, a souvent une fonction de coût cachée, mais l’on espère ainsi réduire les biais sous-jacents au choix d’une seule fonction objective et de quelques paramètres un peu arbitraires. C’est un peu ce que l’on fait à la Jourdain en utilisant des méta-moteurs de recherche.

L’important, c’est de rester conscient(e), informé(e) de ces mécanismes qui conduisent à choisir un chiffre. Et d’être conscient de son propre objectif.

Articles intéressant du point de vue des algorithmes de Google News.

Mais (ouverture oblige), il est très réducteur de ne s’attacher qu’a l’exemple de Google News (certes le plus « buzzé » du moment).

Bien que le test de Turing n’ai pris aucune ride, après un peu plus de cinquante ans, il n’en reste pas moins que le secteur d’application des algorithmes à exploser (et nous n’en sommes qu’au début selon moi).

J’aimerais donc renvoyer au chapitre « la politique de l’algorithme » de Matthieu Triclot, dans son livre « Philosophie des jeux vidéo ».

Bien cdlt.

Jérôme Denis dit :

24/12/2012 à 5:29

Une petite remarque qui vaut pour incompréhension du terme ‘objectif’.

Ce qui pose problème ici, me semble-t-il, n’est pas le manque d’objectivité des algorithmes, mais au contraire leur manque de subjectivité. Beaucoup trop objectifs, ils ne peuvent faire de jugements ni d’interpétation, seules opérations qui leur permettraient de faire un tri intelligent dans les articles utiles/pertinent, (i.e. sans passer par des critères mécaniques définis à l’avance).
Et par ailleur, l’idée même de biais est délicate à manipuler. Qu’est ce que serait par exemple un algorithme de recherche sans ‘biais’ ? Un outil dont les producteurs de contenu n’auraient pas conscience et sur lequel ils ne chercheraient pas à s’aligner ? Autrement dit un instrument de mesure ou de description d’un réel totalement naturalisé qui n’aurait aucun effet sur lui ? Je ne suis pas spécialiste, mais je crois que même les physiciens savent depuis un certain temps qu’une telle chose n’est pas possible…
Le problème vu sous cet angle résiderait moins dans le biais des algorithmes que dans la définition d’un réel passif que leur transparence cherche à imposer, d’une part, et notre quête sans fin de cette transparence, d’autre part.
Laurent Duval dit :

13/01/2013 à 6:40

Il me semble important de rappeler que de nombreux algorithmes, en particulier statistiques, mais aussi des plus anodins, sont supposés objectifs car ils fournissent une solution « unique », repétable, sensée, où il y a souvent, derrière, la minimisation d’une fonction mathématique. L’exemple le plus évident est la moyenne (statistique) d’une suite de valeurs v_i. C’est un exemple de valeur représentative de la tendance centrale d’une réalité fluctuante. Et ce n’est la somme divisée par le nombre de termes que par accident. C’est d’abord la solution unique m1 qui minimise les écarts quadratiques entre une quantité quelconque m et toutes les valeurs de la série. C’est-à-dire la valeur qui minimise la somme des (v_i – m)^2. On appelle ce genre de fonction « fonction objectif » (http://fr.wikipedia.org/wiki/Fonction_objectif). La moyenne est alors la « meilleure » réponse à cette fonction. De même, la médiane m2 minimise la fonction objectif d’écart en valeur absolue. On voit ainsi qu’on peut multiplier le choix de fonctions objectif, et que ce choix est lui subjectif : il dépend de goûts, d’a priori statistiques ou d’observation sur les données (par exemple le critère quadratique est assez lié aux distributions gaussiennes), de la facilité à résoudre numériquement l’optimisation de cette fonction objectif. Pour la moyenne ou la médiane, c’est assez facile, si bien qu’elles sont souvent prises en standard, mais ce n’est pas anodin. Il est important de se rappeler que ce choix naturel, de convention dissimule en fait des hypothèses cachées, qui vont souvent induire un biais de calcul. Pour certains problèmes, ni la moyenne, ni la médiane n’ont de sens clair, voire d’utilité. On peut préférer la valeur la plus fréquente. En pratique, quasiment tous les algorithmes de traitement de données (ou de fouillle de données, de data mining) contiennent (en quantité) ce genre de fonction objectif, et même des paramètres de réglage, consistant par exemple « éliminer » du calcul des valeurs extrèmes (la plus grande, la plus petite), à filtrer les résultats impropres. L’objectivité des algorithmes est donc une illusion assez répandue, même chez les praticiens.

Une attitude un peu plus fine, autour de l’aggrégation de modèles, consiste à multiplier les modèles, ou les fonctions de coûts, et combiner, si possible intelligemment, les résultats différents. Cette combinaison, à l’instar des moyennes, a souvent une fonction de coût cachée, mais l’on espère ainsi réduire les biais sous-jacents au choix d’une seule fonction objective et de quelques paramètres un peu arbitraires. C’est un peu ce que l’on fait à la Jourdain en utilisant des méta-moteurs de recherche.

L’important, c’est de rester conscient(e), informé(e) de ces mécanismes qui conduisent à choisir un chiffre. Et d’être conscient de son propre objectif.
ikario dit :

14/01/2013 à 5:12

Articles intéressant du point de vue des algorithmes de Google News.

Mais (ouverture oblige), il est très réducteur de ne s’attacher qu’a l’exemple de Google News (certes le plus « buzzé » du moment).

Bien que le test de Turing n’ai pris aucune ride, après un peu plus de cinquante ans, il n’en reste pas moins que le secteur d’application des algorithmes à exploser (et nous n’en sommes qu’au début selon moi).

J’aimerais donc renvoyer au chapitre « la politique de l’algorithme » de Matthieu Triclot, dans son livre « Philosophie des jeux vidéo ».

Bien cdlt.

Mobilité (807)
Territoires (639)
Interfaces (616)
Médias (574)
Confiance et sécurité (531)
Economie et marchés (472)
eDémocratie (440)
Education et formation (419)
Innovation, RD (333)
Jeu (306)

(...)

Toute l'actualité des TIC

Notre selection de livres

Contourner les algorithmes

À lire aussi sur internetactu.net

0 commentaires