Peut-on limiter l’extension de la « société de la notation » ?

Couverture du livre La nouvelle guerre des étoiles Vincent Coquaz (@vincentcoquaz) et Ismaël Halissat (@ismaelhat), journalistes à Libération livrent dans La nouvelle guerre des étoiles (Kero, 2020) une bonne enquête sur le sujet de la notation : simple, claire, accessible, grand public. Leur synthèse prend la forme d’un reportage informé et rythmé, proche du journalisme d’investigation télé auquel nous ont habitué des émissions comme Capital ou Cash Investigation. Reste que derrière les constats que délimitent leur enquête, notamment celui du manque de fiabilité de la notation, se pose une question de fond : comment border, limiter ou réguler cette « société de la notation » qui se met en place ?

La société de la notation

L’invention de la notation remonte au XVe siècle, sous l’impulsion des Jésuites et de la contre-réforme, qui, pour lutter contre l’expansion protestante, vont fonder des collèges dans toute l’Europe, et vont utiliser la notation pour évaluer leurs élèves, comme le pointe le spécialiste des pratiques pédagogiques Olivier Maulini. Pour distinguer et classer les élèves, la notation s’impose, et avec elle le tri et la compétition, appuie le sociologue spécialiste des politiques éducatives Pierre Merle dans Les pratiques d’évaluation scolaire (PUF, 2018). Il faudra attendre le début du XIXe siècle pour que se mette en place le barème sur 20 qui va se répandre dans tout le système scolaire à la fin du siècle. La généralisation d’une échelle plus précise va surtout permettre de renforcer la discrimination et l’individualisation, la différenciation et la hiérarchisation. La moyenne, quant à elle, apparaît au début du XXe siècle et consacre « le classement sur le savoir », puisque celle-ci va permettre d’additionner par exemple des notes en math avec des notes en sport… ce qui semble loin d’une quelconque rigueur mathématique ou scientifique. Plus omniprésente que jamais, la note va pourtant voir sa domination contestée. À la fin des années 90, de nouvelles formes d’évaluation alternatives, comme les niveaux de compétences (distinguant les notions acquises de celles qui ne le sont pas) se répandent, mais demeurent limitées et marginales par rapport à la gradation chiffrée.

Si la notation n’est pas née avec le numérique, celui-ci va être un incroyable accélérateur de « la société de la notation » et va favoriser son essor bien au-delà de la seule sphère scolaire où elle est longtemps restée limitée (la note s’étant peu imposée dans le monde du travail avant l’essor du numérique). Amazon, dès 1995, propose aux acheteurs de noter sur 5 étoiles les produits qu’ils commandent. TripAdvisor en 2000, Yelp en 2004 élargiront ces possibilités aux restaurants et hôtels. En 2008, ebay proposera aux utilisateurs de noter les vendeurs… avant que toutes les plateformes de l’économie collaborative n’emboîtent le pas à la fin des années 2000. En quelques années finalement, la note et le classement se sont imposés dans la société, tant et si bien qu’elles semblent désormais être partout. Comme si avec l’essor de la note et du classement, venait une forme de libération de l’efficacité de l’évaluation… Ce n’est pourtant pas le constat que dressent les journalistes.

En se répandant partout, la note semble avoir généré ses propres excès affirment-ils. Partout où leur enquête les pousse, des médecins aux restaurateurs en passant par les services de livraison, le succès des notations par les consommateurs laisse entrevoir combien la note est devenue à la fois un Graal et une guillotine, gangrénée par les avis bidon, par un marketing d’affiliation et de recommandation largement invisible aux utilisateurs quand ce n’est pas par une instrumentation pure et simple de ces nouvelles formes d’évaluation. Cette notation anarchique n’est pas sans conséquence, pas seulement sur les établissements, mais également, de plus en plus, sur chacun d’entre nous, qui sommes de plus en plus concernés par ces évaluations de plus en plus individualisées et individualisantes. Dans la plupart des secteurs où se répand la notation par les utilisateurs, la notation des clients a de plus en plus souvent un impact sur une part du salaire des employés ou sur les primes des gens ou secteurs évalués.

L’omerta à évaluer l’évaluation

Le principal problème que soulignent les auteurs, c’est que cette évaluation est bien souvent tributaire d’affects, de contexte ou d’appréciations qui n’ont rien à voir avec ce qui est sensé être évalué. Derrière son apparence de neutralité et d’objectivité, l’évaluation n’a rien de neutre ni d’objectif. Sur Ziosk par exemple, un outil d’évaluation des serveurs de restaurant, certaines des questions posées portent sur la nourriture ou la propreté, qui ne dépendent pas nécessairement des serveurs. Or, pour eux comme pour de plus en plus de ceux qui sont évalués, ces notes ont un impact réel sur une part de leur rémunération voir sur leur emploi. La mathématicienne Cathy O’Neil, auteure de Algorithmes, la bombe à retardement (Les arènes, 2018), le répète depuis longtemps : les évaluations naissent de de bonnes intentions, mais les méthodes échouent à produire des résultats fiables et robustes, ce qui sape leur but originel. L’opacité des calculs empire les choses. Et au final, de plus en plus de gens sont confrontés à des processus d’évaluation très contestables, mais qui les impactent directement, explique encore celle qui réclame la plus grande transparence sur ces systèmes d’évaluation et de notation. Nous en sommes pourtant très loin soulignent les deux journalistes qui constatent combien l’évaluation demeure opaque.

La notation par le consommateur a colonisé l’industrie des services. Désormais, les notes des clients affectent la rémunération des salariés et deviennent un outil de contrôle et de pression managériale. Nous sommes passé d’un outil censé produire de l’amélioration à un outil de contrôle. Et cela ne concerne pas que les enseignes du numérique comme Uber ou Deliveroo, mais également nombre de commerces en relation avec des clients. Le problème de cette notation, pointent Coquaz et Halissat, c’est l’omerta. Derrière les nouveaux standards que tous adoptent, aucune des entreprises qu’ils évoquent dans leur livre n’a accepté de leur répondre sur leurs méthodes. Des centres d’appels des opérateurs télécoms, aux grandes enseignes de livraison d’électroménager, en passant par les concessionnaires automobiles, aux sociétés de livraison ou aux chaînes de distribution…. Voir aux services publics qui le mobilisent de plus en plus, tout le monde se pare derrière le secret quand il est question de regarder concrètement les procédés d’évaluation. Or, le problème des évaluations consiste à toujours contrôler si elles évaluent bien ce qu’elles sont censées évaluer.

Le livreur qui n’aide pas à monter une livraison va se voir mal noté par le client, alors que cela ne fait pas partie de la prestation qu’il doit accomplir. Si le colis est abîmé, il va recevoir également une mauvaise note, alors que le colis a pu être abîmé ailleurs et par d’autres. Le ressenti client est partout, sans aucune transparence sur l’évaluation. Le coeur du problème, relève certainement du déport de l’évaluation sur l’utilisateur, plutôt que de se doter de services d’évaluation compétents. À l’heure où la question de l’évaluation semble partout devenir centrale, la question de l’évaluation peut-elle de plus en plus reposer sur des évaluations sans méthodes et sans science ?

Coquaz et Halissat ont raison de mettre en cause le fameux « Net Promoter Score » (NPS) inventé par le consultant américain Fred Reichheld (@fredreichheld) au début des années 2000 qui va optimiser les vieux questionnaires clients réalisés en papier ou par sondage, au goût du numérique. Le problème, c’est que là encore, le NPS est loin d’une quelconque rigueur mathématique, puisque seuls ceux qui donnent une note optimale (9 ou 10) sont considérés comme des clients qui vous recommanderaient. Pour le NPS, mettre un 0 ou un 6 équivaut dans le score à être un détracteur de la marque ! Malgré cette absence de scientificité, cette méthode à évaluer la loyauté des clients est pourtant très rapidement devenue un « indicateur clé de performance » pour nombre d’entreprises. Malgré les nombreuses critiques qui l’accablent, comme celles du chercheur Timothy Keiningham (@tkeiningham, qui montre que cet indicateur ne prédit aucune croissance pour les firmes qui l’utilisent), comme celles de son inventeur lui-même qui a pris quelques distances avec son indicateur, le NPS semble pourtant étrangement indétrônable.

Derrière l’omerta, le Far West

Cette absence de scientificité de l’évaluation donne lieu à nombre de pratiques délétères que les deux auteurs détaillent longuement… notamment bien sûr, la fabrique de fausses notes, consistant à rémunérer des personnes en échange de commentaires et de bonnes notes. Dans un monde où la note devient un indicateur sur-déterminant, qui préside à la visibilité ou à l’invisibilité et donc à des revenus corrélés à cette visibilité, la notation est devenue un enjeu majeur. Pour nombre de produits, les bonnes notes peuvent multiplier les ventes par 5 ou 10 ! L’enjeu financier autorise alors toutes les pratiques : contributions bidons, moyennes au calcul obscur, labellisation qui auto-alimente ce que l’on pourrait considérer comme une chaîne de Ponzi, une chaîne d’escroquerie où les fausses notes alimentent des chaînes automatisées de recommandation toujours plus défectueuses et opaques, à l’image du label « Amazon’s Choice », une appellation qui récompense les produits les plus vendus et les mieux notés pour les faire remonter dans les résultats, alors que ces notes et ces ventes sont souvent altérées par des pratiques plus que contestables. Coquaz et Halissat montre que si Amazon fait la chasse aux appréciations bidons, c’est visiblement sans grand empressement, tant finalement la tromperie entretient le marché. Amazon n’est pas le seul en cause : toutes les plateformes proposant des évaluations tirent finalement intérêt à laisser passer de fausses évaluations. Malgré l’existence d’outils plus efficaces que les leurs, comme ReviewMeta (dont on peut recommander le blog) ou FakeSpot ou Polygraphe en cours de développement par la DGCCRF, les fausses critiques pullulent et se répandent d’autant plus que la concurrence et la pression marketing s’accélèrent. Face au tonneau des Danaïdes des faux commentaires, beaucoup écopent bien sagement, ayant plus à gagner d’un système défaillant que de sa remise en question. Google My Business est certainement aujourd’hui le plus avancé dans ce Far West d’une notation sans modération, permettant à tout à chacun de noter le monde entier, sans aucun contrôle sur l’effectivité des déclarations ou des déclarants. La grande question du livre consiste à comprendre ce que note la note : derrière l’opacité généralisée, personne ne semble être capable de le dire précisément. On a surtout l’impression qu’on produit des classements imparfaits, voire frauduleux, pour nourrir une machinerie d’évaluation qui accélère et renforce l’iniquité.

Image : Les notations individuelles qu’on poste sur Google permettent au système d’évaluer des taux d’affinités avec d’autres lieux notés, mais sans savoir depuis quels critères et biais, comme s’en émouvait les désigners de l’agence Vraiment Vraiment.

Coquaz et Halissat dressent le même constat en ce qui concerne le développement de la notation des employés, pointant là encore combien ces systèmes d’évaluation des ressources humaines opaques ne sont pas des modèles de méritocratie, mais bien des outils orwelliens qui visent à rendre chacun plus attentif à ce qu’il fait ou dit. Là encore, sur ces systèmes, un même silence et la même opacité se posent sur leur fonctionnement, leurs critères de calculs, l’évaluation des interactions qu’ils génèrent. Nous sommes bien loin d’une quelconque cogouvernance des systèmes, comme le défendait récemment la syndicaliste britannique Christina Colclough.

Malgré les défaillances des mesures, l’évaluation par la satisfaction usager fait également son entrée dans le service public. Et les mêmes défauts semblent y reproduire les mêmes conséquences. L’évaluation par les usagers sert là encore de grille pour rendre compte de la qualité du service public, permettant à la fois de justifier toujours plus d’automatisation et de corréler une bien fragile « performance » à des financements supplémentaires. D’ici fin 2020, tous les services de l’État en relation avec les usagers doivent s’engager à rendre des comptes sur la qualité de services, via des indicateurs de performance et de satisfaction, à l’image de ceux disponibles sur resultats-services-publics.fr ou voxusagers.gouv.fr… Malgré les résistances, dans le monde de l’enseignement et de la médecine notamment, ces mesures se pérennisent, comme c’est le cas à Pôle emploi qui publie régulièrement un baromètre de satisfaction. Au final, ces outils participent d’un mouvement de déréglementation, une alternative au contrôle par les services de l’État ou les services internes aux entreprises. L’évaluation par le client permet finalement avant tout d’externaliser et déréguler l’évaluation. Faite à moindres coûts, elle se révèle surtout beaucoup moins rigoureuse. Au final, en faisant semblant de croire au client/usager/citoyen roi, la notation ne lui donne d’autre pouvoir que de juger les plus petits éléments des systèmes, ceux qui comme lui, ont le moins de pouvoir. L’usager note le livreur, l’agent, le vendeur… L’individu est renvoyé à noter l’individu, comme s’il n’avait plus aucune prise sur l’entreprise, l’institution, l’organisation, le système.

La démocratisation de l’évaluation n’est pas démocratique

En fait, le plus inquiétant finalement, n’est-il pas que la notation apparaît à beaucoup comme la forme la plus aboutie (ou la plus libérale) de la démocratisation ? La note du consommateur, de l’utilisateur, du citoyen… semble l’idéal ultime, ouvert à tous, parfaitement méritocratique et démocratique. L’avis ultime et leur somme semblent attester d’une réalité indépassable. Pourtant, les études sur les avis et commentaires en ligne montrent depuis longtemps que seule une minorité d’utilisateurs notent. Les commentateurs sont souvent très peu représentatifs de la population (voir notamment le numéro de 2014 de la revue Réseaux sur le sujet). Très peu d’utilisateurs notent ou commentent : la plupart se cachent voire résistent. Partout, des « super-commentateurs » (1 à 1,5 % bien souvent produisent de 25 à 80 % des contributions) fabriquent l’essentiel des notes et contenus, aidés par de rares commentateurs occasionnels. L’évaluation qui se présente comme méritocratique et démocratique est en fait parcouru de stratégies particulières et de publics spécifiques. La distribution des commentaires procède d’effets de contextes qui sont rarement mis en avant (comme le soulignait cette étude qui montre que les commentaires de satisfaction suite à des nuitées d’hôtels sont plus nourris et élevés chez ceux qui voyagent en couples que pour ceux qui voyagent seuls et pour le travail). La société de la notation et du commentariat n’est pas le lieu d’une démocratie parfaitement représentative et distribuée, au contraire. Les femmes y sont bien moins représentées que les hommes, les plus jeunes que les plus anciens, et c’est certainement la même chose concernant la distribution selon les catégories socioprofessionnelles (même si certaines études pointent plutôt une faible participation des catégories sociales les plus élevées). Sans compter l’impact fort des effets de cadrages qui favorisent les comportements moutonniers consistants à noter, quand les notes sont visibles, comme l’ont fait les autres. Ou encore, l’impact des modalités de participation elles-mêmes, qui ont bien souvent tendance à renforcer les inégalités de participation (améliorant la participation des plus motivés et décourageant les moins engagés).

La grande démocratisation égalitaire que promet la note, elle aussi repose sur une illusion.

De l’obsession à l’évaluation permanente

Les deux journalistes dressent finalement un constat ancien, celui d’une opacité continue des scores. Une opacité à la fois des méthodes pour établir ces notations comme de l’utilisation des scores, qui, par des chaînes de traitement obscures, se retrouvent être utilisées pour bien d’autres choses que ce pour quoi ils ont été prévus. Nombre de scores ont pour origine l’obsession à évaluer les risques et les capacités d’emprunts des utilisateurs. Les secteurs de la banque, de l’assurance et du marketing ont bâti sur l’internet des systèmes d’échange de données pour mettre en place des systèmes de calcul et de surveillance disproportionnés aux finalités.

Une opacité entretenue notamment par les systèmes de scoring de crédit et de marketing. À l’image de Sift, un algorithme qui attribue aux utilisateurs du net un score de fiabilité sur une échelle de 1 à 100 depuis plus de 16 000 signaux et données. Inconnu du grand public, ce courtier de données permet pourtant aux entreprises qui l’utilisent de bloquer certains profils, sans permettre aux utilisateurs de rectifier ou d’accéder aux raisons de ce blocage. Chaque site utilise le scoring à discrétion et décide de seuils de blocage librement, sans en informer leurs utilisateurs. Sift n’est pas le seul système. Experian propose également une catégorisation des internautes en grandes catégories de consommateurs (Expérian disposerait de données sur 95 % des foyers français). Aux États-Unis, le célèbre Fico Score, né à la fin des années 80 est un score censé prédire la capacité de chaque Américain à rembourser leur crédit… Complexe, obscur, les critiques à son égard sont nourries et ce d’autant plus que ce score peut être utilisé pour bien d’autres choses, comme d’évaluer des candidats qui postulent à un emploi. Un autre courtier, Lexis Nexis, propose aux assureurs par exemple de calculer une note de santé pour leurs clients potentiels, visant à prédire la détérioration de leur santé sur les 12 prochains mois, en prenant en compte des données aussi hétéroclites que leurs revenus, leur historique d’achat, leur casier judiciaire, leur niveau d’étude, leur inscription ou non sur les listes électorales… Autant de données utilisées pour produire des signaux et des inférences. L’un de ses concurrents, Optum, utilise également les interactions sur les réseaux sociaux.

Le problème, bien sûr, c’est la boucle de renforcement des inégalités et des discriminations que produisent ces scoring invisibles aux utilisateurs. « Les mals notés sont mals servis et leur note devient plus mauvaise encore », expliquait déjà le sociologue Dominique Cardon dans a quoi rêvent les algorithmes (Seuil, 2015). Chez Experian, la note la plus basse pour caractériser un foyer est le « S71 », une catégorie qui masque sous son intitulé abscons le bas de l’échelle socio-économique où les 2/3 de ceux qui sont classés ainsi sont célibataires, divorcés ou veufs, où 40 % sont afro-américains (soit 4 fois plus représentés que la moyenne nationale), majoritairement peu éduqués. Cette catégorie par exemple va pouvoir être utilisée pour proposer de la publicité ou des produits dédiés, comme des crédits à la consommation aux taux les plus élevés du marché !

Ces évaluations dénoncées depuis longtemps (la FTC américaine, appelait déjà en 2014 à une meilleure régulation du secteur (.pdf)…), perdurent dans un no man’s land législatif, comme si leur régulation était sans cesse repoussée. À croire que l’opacité est voulue, malgré ses conséquences et ses injustices.

Plutôt que d’ouvrir les discussions sur leur production, finalement, la note semble mettre fin à toute discussion. Comme à l’école !

En devenant un objectif plus qu’une mesure, la notation change de statut tout en perdant finalement le sens de ce qu’elle était censée représentée. Quant à l’opacité des systèmes, nous ne l’avons pas accepté comme le disent les journalistes, mais il nous a été imposé. Derrière la notation, on crée des mécanismes extralégaux, qui permettent de punir automatiquement, sans présomption d’innocence, sans levier ni appel sur ces notations. L’année dernière, le journaliste Mike Elgan (@mikeelgan) dénonçait pour Fast Company le fait que les entreprises de la technologie américaines, finalement, construisaient elles aussi un système de crédit social tout aussi inquiétant et panoptique que celui de la Chine. Si Coquaz et Halissat ont plutôt tendance à minimiser les enjeux du Crédit social chinois, rappelant qu’il relève surtout pour l’instant d’expérimentations locales très diverses (ce qui est exact, mais semble oublier les finalités et l’objectif assignés par la Chine à ces projets), au final, ils montrent que le « panoptique productif » de la note, lui, est déjà largement en place.

Reste à savoir comment remettre le mauvais génie de la notation dans sa bouteille ? En conclusion, les auteurs proposent, en convoquant l’écrivain Alain Damasio, le sabotage. Mais peut-on saboter un système trompeur qui repose déjà sur des données et méthodes largement contestables ?

On a souligné quelques pistes, plus structurantes que le sabotage. Faire revenir les services d’évaluation internes plutôt que les déporter sur les usagers. Les outiller de méthodes et de procédures ouvertes, transparentes, discutables afin qu’elles évaluent bien ce qu’elles sont censées évaluer. Minimiser leur portée et leur croisement pour qu’elles n’entretiennent pas des chaînes d’injustices… Réguler plutôt que déréguler en somme ! Pour sortir de l’hostilité généralisée provoquée par La nouvelle guerre des étoiles, il faut trouver les modalités d’un traité de paix.

Hubert Guillaud

Mobilité (807)
Territoires (639)
Interfaces (616)
Médias (574)
Confiance et sécurité (531)
Economie et marchés (472)
eDémocratie (440)
Education et formation (419)
Innovation, RD (333)
Jeu (306)

(...)

Toute l'actualité des TIC

Notre selection de livres