Le langage en traitement

Markup, en langage technique, c’est une famille de langages comme XML ou HTML, utilisée pour enrichir un document d’indications relatives à sa présentation, à sa structure, à son sens. The Markup (@themarkup), c’est le titre du nouveau média d’investigation américain qui ambitionne d’utiliser les techniques statistiques pour mener ses enquêtes. Son slogan : « La Big Tech nous surveille. Nous surveillons la Big Tech ». Lancé par Julia Angwin (@juliaangwin, qui avait travaillé notamment sur les enquêtes numériques de ProPublica, comme celle qui s’intéressait aux biais des systèmes de calcul de récidive), le média vient de publier ses premières enquêtes.

Parmi celles-ci, The Markup s’est notamment intéressé à l’algorithme de classement des mails de Gmail, en regardant comment étaient classés les mails des candidats à l’investiture démocrate chez de nouveaux clients de Gmail qui s’abonnaient à leurs lettres d’information. Et là, surprise : 50 % de ces abonnements sont classés sous l’onglet promotions, 40 % comme Spam. « S’il est bien connu que Facebook et Twitter décident quelles publications nous voyons à travers leurs fils d’actualité, mettant en évidence certaines au détriment d’autres, la façon dont nos courriers électroniques sont devenus le produit d’une plateforme gérée et monétisée de façon algorithmique a reçu bien moins d’attention. Pourtant, nombre d’organisations et d’associations ont déclaré que cette curation algorithmique des boîtes de réception avait réduit les donations et les signatures à leurs pétitions. » Les tabulations que propose Gmail sont une fonction par défaut qui ne peut pas être enlevée et la plupart des études montrent que l’essentiel des utilisateurs ne les utilisent pas, alors que Gmail, lui, vend des emplacements publicitaires discrets dans les onglets Social et Promotions.

Malgré ses défauts, l’enquête de The Markup montre que Gmail classe rarement les mails des candidats dans la boîte principale… Mais, certains candidats obtiennent de meilleurs résultats que d’autres, dans ce classement, Bernie Sanders par exemple est majoritairement classé dans l’onglet promotions, alors que Pete Buttigieg est à 63 % dans la boîte primaire (et à 28 % classé dans le spam). Si Google se défend d’opérer une sélection politique… son mode de personnalisation affecte néanmoins la façon dont les mails sont délivrés. Le constat dressé par The Markup n’est pas pleinement convaincant, notamment parce qu’il ne pratique pas d’analyse sémiotique des traitements, permettant de regarder si certains mots utilisés par ces lettres d’information expliqueraient des classements différentiels. L’enquête pose néanmoins question, car, contrairement aux explications que délivre Gmail, la distribution des mails de Google par onglet paraît bien peu cohérente : ainsi des mails de confirmation d’inscription ont été envoyés dans l’onglet promotion sans qu’ils comportent, visiblement, de messages de promotions.

L’enquête de The Markup met le doigt sur l’opacité du traitement algorithmique que réalise Gmail, sur la manière dont sont analysés les contenus par Gmail pour opérer des distributions, en pointant leurs effets politiques concrets et directs. Si pour beaucoup d’utilisateurs l’outil semble d’une redoutable efficacité, cette efficacité rencontre de multiples limites quand on la regarde dans le détail. Ici, en tout cas, elle pose des questions sur l’analyse sémantique réalisée et comment certains termes activent des modalités de visibilité différente. Dans les multiples paramètres algorithmiques qui président aux classements qu’opèrent les outils, le traitement du langage n’est pas un élément aussi mineur qu’on pourrait le croire, même si bien souvent, il se perd dans les innombrables paramètres qu’utilisent les traitements algorithmiques pour classer l’information (privilégiant les gens avec qui nous sommes le plus en relation sur les autres par exemple). Sur Facebook ou Twitter, certains mots ou le ton des messages semblent avoir tendance à les faire remonter dans les fils d’information. C’est certainement là un des motifs de la toxicité des plateformes, qui permet aux algorithmes de donner de la visibilité à des messages qui ne devraient pas nécessairement dépasser le cadre relationnel qui est le leur, à l’image de Twitter ou Facebook qui « semblent » mettre en avant plus facilement des messages où s’expriment des formes de colère ou d’exaspération, parce qu’ils seront plus retweetés et qu’ils génèrent plus de réactions ; là où des messages plus froids, plus informatifs, semblent avoir bien plus de mal à se positionner dans les fils. Ce que souligne l’enquête, il me semble, c’est l’importance qu’il y a à s’intéresser au traitement du langage par les plateformes et aux inflexions que ces traitements opèrent en réinterprétant, réinvestissant et en reclassant nos propos. The Markup, nous invite, très concrètement, comme le souligne très bien le chercheur Olivier Ertzscheid sur son blog, à « s’interroger sur le « pouvoir symbolique » de ces plateformes dans les « rapports de production » linguistiques qu’elles installent et administrent ». Le problème reste de le faire pour les chercheurs comme pour les journalistes à travers des plateformes opaques, sans connaître les modalités qui président à ces classements.

Hubert Guillaud

Signalons que The Markup publie non seulement son enquête, mais détaille également sa méthode d’analyse et publie ses données, fait suffisamment rare pour être noté.

Une du site The Markup

MAJ : The Markup vient de prolonger sa première enquête d’une nouvelle qui montre que les mails que les Américains reçoivent relatifs à la justice raciale sur Gmail ont tendance à se ranger dans l’onglet marketing !

Mobilité (807)
Territoires (639)
Interfaces (616)
Médias (574)
Confiance et sécurité (531)
Economie et marchés (472)
eDémocratie (440)
Education et formation (419)
Innovation, RD (333)
Jeu (306)

(...)

Toute l'actualité des TIC

Notre selection de livres

Le langage en traitement

À lire aussi sur internetactu.net