La réflexion d’Hubert Guillaud sur « l’intelligence des données » (qui est en fait celle des traitements qui en font quelque chose, les croisent, etc.) en appelle une autre, sur l’objectivité, la solidité de ces données.

Beaucoup de méthodes en informatique sont fondées sur la séparation entre les données et les traitements. Le web sémantique vise entre autres à les séparer de leur présentation (l’aspect d’une page web, par exemple, ou la manière dont elles seront présentées et lues par un logiciel, ou par une personne). Une fois cela établi, on les oublie un peu, ces données. On peut leur ajouter des informations, des « métadonnées » par exemple, mais les données « brutes », on les suppose connues, neutres, attendant sagement qu’on les traite. « Brutes », les données, un peu au sens de « stupides »… Une information, à la rigueur, ça se manipule. Mais à ce sous-ensemble réservé à la consommation machinique que constituent les données, on peut reprocher d’être parfois de piètre qualité, mais on ne s’attend pas à ce qu’il contienne, par exemple, de la subjectivité.

Et si c’était pourtant le cas ? Un bon web-communicant, ce que je ne suis pas, n’écrira pas seulement le texte d’une page pour qu’il convie à ses lecteurs le message voulu ; il y placera, de manière visible ou non, des éléments qui lui permettront, par exemple, de monter dans les classements de Google ou d’autres moteurs de recherche. En entrant son profil dans des « réseaux sociaux » tels que Viadeo (plutôt professionnel), Meetic (plutôt sentimental) ou Facebook (plutôt « generation-Y-ien »), il choisira les informations, les présentera, les organisera, en pensant à la fois à ceux qui liront ce profil, et à la manière dont, d’après ce qu’ils en savent, les outils automatiques du site l’exploiteront pour, par exemple, le rapprocher d’autres profils ou leur faire des offres commerciales.

Beaucoup d’utilisateurs avancés, ou parfois pas si avancés que ça, ont tendance à ajuster les données qu’ils fournissent à une application au résultat qu’ils s’attendent à en obtenir. Anne Mayère, chercheuse au Laboratoire d’études et de recherche appliquées en sciences sociales (Lerass, Toulouse), relate par exemple le cas d’opérateurs de terrain qui, devant les réactions déconcertantes du nouveau progiciel de gestion intégré de leur entreprise, avaient conçu des convertisseurs chargés de transformer les informations du terrain en données à entrer dans le « système », afin que celui-ci produise des décisions qui leur soient utiles.

On peut aller plus loin. Si j’écris « qdpogsfgkijghsfiuh » dans le champ d’un formulaire, il est probable qu’un logiciel devinera un jour qu’il peut sans dommage se débarrasser de ces données. Mais si pour m’amuser, me protéger, essayer d’être un(e) autre, je m’invente une identité et un profil fictif ? Cette personne pourra rapidement faire son chemin dans le cyberespace, acquérir une réputation, se faire des amis, gagner de l’argent dans Second Life, etc. Nul doute que quelqu’un en tirera le profil et l’intègrera dans quelque base de données marketing, ou policière, ou administrative.

Dans l’espace physique, que l’on imagine (à juste titre) de plus en plus surveillé, tracé, il pourra en aller de même. Si l’on souhaite obtenir un résultat précis, on placera une caméra là où l’on espère démontrer un problème (ou le contraire), un capteur de température à l’ombre ou au soleil ; si nous savons ce que regardent les caméras de vidéosurveillance, nous pourrons entrer dans leur champ quand nous le désirons, et y échapper quand cela nous arrange. Nos systèmes personnels nous fournissent souvent les moyens de désactiver les dispositifs de traçage (géolocalisation, « présence », passages), mais certains nous permettront certainement d’en modifier les données : dire à nos collègues, nos chefs, nos conjoints ou nos télévendeurs que nous sommes ici alors que nous sommes là, nous montrer actifs alors que nous buvons un café, reconstituer des trajets fictifs…

Bref, il n’y a plus rien de vrai. Proposons une Loi à méditer et discuter : « Plus une donnée est considérée comme susceptible d’être exploitée, moins il est possible de lui accorder confiance… »

Daniel Kaplan

À lire aussi sur internetactu.net

0 commentaires

  1. Tout cela est fort juste.

    A propos de qualité des données, j’ai mené depuis plusieurs années des projets d’amélioration au sein de grandes entreprises, et je ne peux que vous recommander la lecture de mon ouvrage « Data Management : qualité des données et compétitivité » paru aux éditions Hermes Science / Lavoisier.

    => http://www.amazon.fr/exec/obidos/ASIN/2746212102

  2. Disons qu’il faudrait éviter un écueil sournois:celui des métaphores avec la mécanique,fut-elle céleste: »les données exploitables s’attirent en raison inverse de leur éloignement sémantique » !
    Ceci posé:
    les données exploitables sans risque pose la très ancienne question de la vérité
    – vérité comme correspondance avec les faits
    – vérité comme propriété de notre connaissance
    La première a un pouvoir de prédiction,la seconde possède un degré de corroboration.
    Donc si le problème qui a été fort justement formulé mérite d’être résolu algorithmiquement on pourrait adjoindre aux données exploitables un indice supplémentaire de « pertinence ».Un tel indice pourrait être déduit des traitements spécifiques que la « Machine » accorde aux données au fur et à mesure qu’elle s’instruit (web sémantique – IA).

  3. Le géographe Thierry Joliveau prend un bon exemple pour montrer la limite des données que nous pouvons exploiter : en utilisant l’indice « d’aménité piétonnière » développé par WalkScore, il montre comment les utilisateurs devront être capable d’analyser les objectifs du fournisseur de l’outil et d’évaluer le biais qu’il peut introduire, sciemment ou non.