Entretiens du Nouveau Monde industriel 2011 (3/4) : sciences et technologies de la confiance

Comment faire confiance en une source d’information, s’est interrogé l’informaticien Alain Mille ? La confiance consiste à pouvoir agir en fonction d’une information sans avoir préalablement à la vérifier. Ce qui signifie que, finalement, la question de la confiance revient à celle de la vérité. On peut avoir confiance en ce qui est « vrai ». En ce sens, établir une vérité peut être l’équivalent d’une démonstration ou d’un théorème validé par une machine de Turing.

Ensuite, la question devient « comment dire le vrai à partir du vrai ». Une fois qu’on a considéré une assertion comme vraie de manière axiomatique, peut-on ensuite établir un système de règles permettant d’établir de manière formelle d’autres vérités qui en découlent ?

Comprendre cela est de l’ordre de la logique qui existe en de multiples systèmes et variations.

Comment avoir confiance dans l’information ?

Pour analyser un ensemble d’informations, il faut disposer d’un modèle. En intelligence artificielle (IA) un modèle d’interprétation doit être choisi arbitrairement, mais explicitement. Les premiers travaux dans le domaine de la démonstration automatique étaient inspirés de la démarche scientifique. Ils partaient donc de l’hypothèse d’un monde existant, avec une sémantique à découvrir.

enmi2011alainmille
Image : Alain Mille au micro de l’édition 2011 des Entretiens du Nouveau Monde industriel, photographié par Samuel Huron.

Mais aujourd’hui une telle connexion est battue en brèche par l’idée que l’interprétation est une production du vivant (il faut quelqu’un de vivant pour interpréter), un processus dynamique de construction individuelle et sociale.

L’informatique se base sur des « inscriptions numériques de connaissance ». Une connaissance est une telle inscription de connaissance accompagnée d’une interprétation, de son mode d’emploi : il faut que je sache comment l’interpréter.

Lorsque nous utilisons des machines, notre comportement laisse des « traces numériques d’usage ». Nous produisons des signes, qui peuvent être interprétés par d’autres humains ou par des programmes. Ces interprétations de notre comportement produisent à leur tour de nouveaux signes.

Comment établir la confiance numérique ? On peut bien sûr recourir à des agences de certification, des lois, etc. D’autres systèmes utilisent les votes, l’e-réputation…

Mais il existe d’autres moyens, explique Alain Mille. On peut enrichir les inscriptions de connaissance avec des instructions complémentaires ayant une sémantique explicite, comme les fameuses « métadonnées ». Autre solution, gérer la construction des inscriptions de connaissance (historisation et signatures, à la manière de ce qu’on trouve sur les wikis).

Enrichir les traces de connaissances avec des métadonnées, c’est justement le domaine du web sémantique. A noter que la plupart de métadonnées s’écrivent sous la forme de triplets, qui permettent justement le calcul logique sur ces informations et donc de plus ou moins les automatiser. Au sein de l’équipe d’Alain Mille, Yannick Prié effectue d’ailleurs un travail sur ce sujet.

Mais si les métadonnées nous permettent de nous fier aux informations, comment faire confiance aux métadonnées ? Qui fournit les informations ? Qui les enrichit, qui élabore la sémantique ? Et comment révéler les calculs sémantiques à l’utilisateur, afin que celui-ci puisse en prendre le contrôle ? C’est là qu’il devient important de travailler sur la genèse des inscriptions de connaissances.

Dans la Wikipédia, par exemple, il y a des pages d’historiques et des discussions, très importantes pour les contributeurs, mais pour lesquelles il n’existe pas d’outils informatiques spécifiques permettant d’automatiser aisément le processus. Dans des systèmes plus évolués, comme la DBpedia ou le wiki sémantique distribué, il existe aussi un grand nombre de ces informations, mais la plupart du temps, elles concernent soit des informaticiens, soit des personnes très investies dans le contenu du site, et la plupart des utilisateurs les ignorent. Comment faciliter l’accès et la compréhension de cette multitude de traces ?

Le système envisagé par Alain Mille consisterait essentiellement en un « agent assistant » (un programme) capable de modéliser et enregistrer l’ensemble des traces concernant l’utilisateur (qu’elles soient produites par lui-même, par le système ou par des sources extérieures) pour lui permettre de visualiser celles-ci comme il le souhaite.

Dans cet esprit, l’équipe d’Alain Mille propose deux systèmes. Le premier, Kolflow, a pour but d’accroitre la collaboration homme-machine selon deux points de vue différents. D’abord, du point de vue des humains : s’arranger pour que les productions des agents informatiques puissent être plus aisément contrôlées, évaluées et réutilisées. Mais aussi, du point de vue des machines. Ici, comment élaborer des systèmes susceptibles de tenir compte du comportement imprévisible d’agents humains sans pour autant déstabiliser l’ensemble du système ? Comment des raisonnements automatisés peuvent-ils adapter leur comportement à une multitude de feedbacks ?

Le projet Ozalid, qui démarre ce mois de janvier, réalisé avec l’aide de Cap Digital, est beaucoup plus industriel que Kolflow, qui est plus exploratoire. Ozalid cherche à répondre à la question d’institutions comme la BNF, qui disposent d’un fond de données non numériques, et qui cherchent, via la numérisation, à procurer un l’accès à une multitude de publics aux attentes et aux compétences très variées. L’idée consiste, pour faciliter le processus d’édition des contenus, à faire appel à des amateurs, des communautés d’éditeurs en réseau, qui pourraient entrer dans la chaine éditoriale pour aider à formuler le contenu, annoter les textes, les corriger, etc. Le tout sous la responsabilité éditoriale de l’institution.

En conclusion, estime Alain Mille, l’outil informatique permet, grâce à la traçabilité et la connaissance de la genèse des « inscriptions de connaissances » de créer un cadre de confiance dynamique, capable d’être constamment révisé et revisité.

Les progrès de l’analyse automatique des textes

Hugo Zaragova s’est penché sur l’analyse automatique des textes. Ancien de Yahoo ! Et Microsoft, il a créé sa propre société, Websays.

Il a commencé sa démonstration en parlant d’une expérience américaine qui a consisté à chercher sur 100 000 tweets les posts traitant de la vaccination contre le H1N1. Ces messages ont été catégorisés comme positifs (en faveur de la vaccination) ou négatifs (contre elle). Peu importait le contenu de ces posts, trivial ou important. Il s’est avéré qu’il existait une corrélation assez forte entre le nombre des gens ayant parlé positivement de la vaccination sur Twitter et le pourcentage de vaccination dans les différents Etats.

On peut donc prédire des comportements via Twitter. Et donc, on peut envisager des études de moins en moins cher en posant les questions qu’on désire. Mais quelle technologie utiliser ? Car bien sûr il n’est pas question de lire les 100 000 tweets !

websaysenmi2011
Image : Hugo Zaragova photographié par Samuel Huron.

« Je ne pose pas la question de savoir si les ordinateurs comprennent », a précisé Zaragova, « je cherche à savoir jusqu’où on peut programmer des ordinateurs qui vont nous aider à comprendre ».

Il existe déjà des formes d’analyse de texte qui marchent très bien. Les moteurs de recherche disposent aujourd’hui des algorithmes nécessaires pour trouver très rapidement des occurrences d’un terme sur des milliers de pages. Mais les limites des analyses trop simplistes, basées exclusivement sur la recherche de mots clés, apparaissent très vite. Si l’on prend le discours inaugural de Barak Obama, par exemple, et qu’on cherche à créer un nuage de tags à partir de la fréquence des mots employés, on n’obtiendra rien de bien passionnant : on comprendra qu’il parle de l’Amérique, qu’il souhaite quelque chose de nouveau, etc.

Il faut donc aller plus loin que le repérage de mots clés.

Prenons l’expression : « Pablo Picasso est né à Malaga en Espagne ». Pour aider la machine à la compréhension de cette phrase, il faut analyser les entités : savoir si un terme est le nom d’un objet, d’un endroit, de quelqu’un… On veut connaître les relations impliquées : « être né », par exemple implique une relation. En travaillant ainsi, on fait du « tagging sémantique » . L’ordinateur enrichit un texte avec des annotations diverses sur chacun des termes employés permettant d’obtenir au final un objet assez riche.

Pour effectuer un tel tagging la machine se heurte à des mots ambigus : même un mot aussi simple que « patate » peut revêtir des tas de significations (il suffit d’aller voir sur la Wikipédia) ! Pour régler le problème, on crée des systèmes d’apprentissage qui permettent de choisir entre telle ou telle signification : est ce que le mot « patate » est en majuscule ? Dans quel contexte est-il écrit (dans un document parlant de cuisine, etc.) ?…

Malgré tout, les résultats ne sont pas parfaits. Sur chaque phrase on a au moins une erreur. Mais ce n’est pas si grave parce que ce qu’on cherche, ce sont des tendances. Quand un même terme, une même expression revient souvent, la machine va se tromper dans un ou deux cas, mais si l’opération se répète mille fois, on finira tout de même par pouvoir dégager une tendance. C’est là que les statistiques jouent tout leur rôle. Si par exemple on tombe sur le mot « Chambéry « , l’ordinateur prend la décision qu’il s’agit d’une ville en fonction des statistiques des requêtes déjà effectuées. Le système pourra alors afficher la carte de la ville en réponse à la requête.

Les statistiques permettent aussi de déterminer des corrélations entre mots. Par exemple, la relation entre Johnny Depp et Vanessa Paradis est connue de l’ordinateur grâce aux statistiques. Il n’existe nulle part une phrase disant « Johnny Depp est en relation avec Vanessa Paradis ». Le moteur sera cependant en mesure de proposer une requête associée vers l’autre membre du couple.

Cependant, ces interprétations machiniques sont toujours sujettes à erreur. Aujourd’hui, par exemple, on génère des cartes par algorithme. C’est produit très vite, pour pas très cher, et cela donne un résultat joli qui a l’air vrai, mais l’est-ce vraiment ? Pour que l’utilisateur s’habitue au fait qu’il y a des erreurs, on affiche le texte original pour valider les sources de la carte.

Websays, la société de Zaragova, a pour but de permettre même aux petites sociétés d’utiliser l’analyse de textes pour catégoriser les messages des clients et en savoir plus sur leur comportement, leur degré de satisfaction, etc. On peut créer des graphes positifs ou négatifs, en fonction des termes utilisés pour déterminer ce que pensent les usagers.

« Mais notre technologie », a expliqué Zaragova, « veut aller plus loin que les graphes positifs et négatifs pour repérer des tendances de la discussion : on peut par exemple savoir de qui on parle quand on parle de la FNAC ? »

Enfin, Zaragova a rappelé que ces technologies n’étaient pas encore complètement au point il était hors de question de leur faire aveuglément confiance. Il a cité en exemple une étude sur Twitter, qui, après analyse des posts, en avait déduit que nous étions en moyenne plus heureux le matin et le week-end qu’en fin de journée et en semaine. « Ces conclusions n’avaient aucune valeur », a expliqué Zaragova, « mais les gens trouvent tellement sexy de voir des graphes susceptibles d’expliquer nos humeurs que cette nouvelle a eu un écho planétaire ».

Rémi Sussan

Les Compte rendus des Entretiens du Nouveau Monde industriel 2011 :

À lire aussi sur internetactu.net