#pdlt : Quand la machine apprend le langage

Xavier de la Porte, producteur de l’émission Place de la Toile sur France Culture, réalise chaque semaine une intéressante lecture d’un article de l’actualité dans le cadre de son émission. Une lecture accessible chaque lundi matin sur InternetActu.net.

La lecture de la semaine, il s’agit d’un article du New York Times, dernier article en date d’une série consacrée à l’intelligence artificielle et à ses impacts potentiels sur la société. Celui que j’ai choisi de traduire concerne l’apprentissage du langage par la machine, un enjeu essentiel dans le cadre de ce qu’on appelle depuis quelques années déjà le web sémantique.

L’article commence par rappeler que si l’on donne à un ordinateur une tâche qui est clairement définie – comme gagner aux échecs ou prédire le temps qu’il fera demain – la machine dépasse l’homme de manière presque systématique. Mais quand les problèmes comportent des nuances et des ambiguïtés, ou qu’ils exigent de combiner plusieurs sources d’information, les ordinateurs n’égalent pas l’intelligence humaine.

Parmi ces problèmes compliqués à résoudre pour l’ordinateur, il y a évidemment la compréhension du langage. Une des raisons de la complexité qu’il y a à comprendre le langage est que le sens des mots et des phrases ne dépend pas seulement de leur contexte, mais aussi d’une connaissance que les êtres humains acquièrent au fil de leur vie.

Or, nous apprend l’article, depuis le début de l’année, une équipe de chercheurs de l’université de Carnegie Mellon est en train d’élaborer un système informatique qui tente d’apprendre la sémantique à la manière d’un être humain, c’est-à-dire « de manière cumulative, et sur le long terme », comme l’explique Tom Mitchell, qui dirige le projet. Cette machine – qui calcule 24 heures sur 24 et 7 jours sur 7 – est abritée dans le centre informatique de cette université de Pittsburgh. Les chercheurs l’ont doté d’une connaissance de base et, depuis 10 mois, elle est lâchée sur le web avec la mission de s’y instruire par elle-même.

Ce système s’appelle NELL, acronyme de Never ending Language Learning System. Et d’après le journaliste du New York Times, Steve Lhor, jusqu’ici, les résultats sont impressionnants. NELL scanne des millions de pages Web dont il fait des textes-modèles qu’il utilise pour apprendre des faits. En quelques mois, il a appris 390 000 faits, avec une exactitude estimée à 87 %. Ces faits sont regroupés dans différentes catégories sémantiques : villes, entreprises, équipes de sport, acteurs, universités, plantes, et 274 autres. Dans chaque catégorie, les faits appris sont des choses comme « San Francisco est une ville » ou « le tournesol est une plante ».

NELL apprend aussi des faits qui sont des relations entre les membres de deux catégories différentes. Par exemple : « Peyton Manning est un joueur de foot ». « Les Colts d’Indianapolis est une équipe de foot ». En scannant des textes-modèles, NELL peut en déduire avec un fort taux de probabilité que Peyton Manning joue pour les Colts d’Indianapolis – même s’il n’a jamais lu que Peyton Manning joue pour les Colts. « Jouer pour » est une relation, il en existe 280 autres dans le programme. Le nombre de catégories et de relations a plus que doublé depuis le début de l’année, et il est en expansion constante.

nellapprend
Image : La liste des derniers faits appris par Nell sont disponibles sur Twitter.

Les faits appris sont continuellement ajoutés dans la base de données de NELL, que les chercheurs ont appelée base de connaissance. Selon Tom Mitchell, plus le nombre de faits appris sera important, plus il sera possible d’affiner l’algorithme d’apprentissage de NELL, de sorte qu’il augmente son efficacité et la précision de ses recherches de faits sur le Web.

Les chercheurs ont commencé par construire une base de connaissance, remplissant chaque type de catégorie ou de relation avec une quinzaine d’exemples avérés. Dans la catégorie des émotions, par exemple : « la colère est une émotion », « la félicité est une émotion », et une douzaine d’autres faits.

Ensuite, NELL part au travail. Ses outils incluent des programmes qui extraient et classifient des phrases rencontrées sur le Web, des programmes qui cherchent des modèles et des corrélations, et des programmes qui apprennent les règles. Par exemple, quand le système lit « Mont Ventoux » (j’ai francisé), il étudie la structure : deux mots, chacun commençant par une majuscule, et le premier mot est « Mont ». Cette structure suffit à rendre probable le fait que le « Mont Ventoux » soit une montagne. Mais NELL lit aussi de plusieurs manières. Il exploitera aussi des phrases qui entourent « Mont Ventoux » et des syntagmes nominaux qui reviennent dans un contexte semblable. Par exemple « J’ai grimpé X ».

NELL, explique Tom Mitchell, est conçu pour être capable d’examiner des mots dans des contextes différents, en parcourant une échelle de règles lui servant à résoudre l’ambiguïté. Par exemple, la phrase « J’ai grimpé X », apparaît souvent suivie du nom d’une montagne. Mais quand NELL lit « J’ai grimpé les escaliers », il a d’abord appris avec une quasi-certitude que le mot « escaliers » appartient à la catégorie « élément de construction ». Il se corrige à mesure qu’il a plus d’information, à mesure qu’il a plus appris.

Néanmoins, explique Tom Mitchell, il y a des types d’apprentissage que NELL n’arrive pas à assimiler aujourd’hui. Prenons deux phrases « La fille a attrapé le papillon avec des taches » et « La fille a attrapé le papillon avec le filet ». Dans la deuxième phrase, un lecteur humain comprend immédiatement que la fille tient le filet, et dans la première, que c’est le papillon qui est tacheté. C’est évident pour un être humain, pas pour un ordinateur. « Une grande partie du langage humain repose sur la connaissance, explique Mitchell, une connaissance accumulée au fil du temps. C’est là où NELL est dépassé, et le défi est maintenant de lui faire obtenir cette connaissance. »

L’aide humaine peut être, à l’occasion, une partie de la réponse. Pendant les six premiers mois de son activité, NELL a fonctionné sans assistance. Mais l’équipe de chercheurs a remarqué que s’il s’en tirait bien avec la plupart des catégories et relations, dans un quart des cas, sa précision était très mauvaise. A partir de juin, les chercheurs ont commencé à scanner chaque catégorie et relation pendant cinq minutes tous les 15 jours. Quand ils trouvaient des erreurs flagrantes, ils les répertoriaient et les corrigeaient, puis remettaient le moteur d’apprentissage de NELL au travail. Quand, récemment, Tom Mitchell a scanné la catégorie « produits de boulangerie et pâtisserie », il a identifié une de ces erreurs. Au début, NELL était dans le vrai, identifiant toutes sortes de tartes, de pains, et de gâteaux comme des « produits de boulangerie et pâtisserie ». Mais les choses se sont compliquées quand le classificateur de NELL a décidé de ranger « Internet cookies » dans cette catégorie des pâtisseries. NELL a lu la phrase : « J’ai détruit mes cookies Internet ». Donc, quand il a lu la phrase « J’ai détruit mes dossiers », il a décidé que « dossiers » était sans doute une pâtisserie. Une avalanche d’erreurs a suivi, explique Mitchell, il a fallu corriger l’erreur des cookies Internet et recommencer l’éducation pâtissière de NELL. L’idéal de Mitchell était un système informatique capable d’apprendre en continu sans assistance humaine. « On n’y est pas encore, ajoute-t-il, mais vous et moi n’apprenons pas non plus tout seuls. »

Beaucoup de choses sont fascinantes dans cet article, mais il semble que la conclusion est la plus intéressante. Pourquoi faudrait-il qu’une intelligence, parce qu’elle est artificielle, fonctionne sans aide ? Et si nous demandions à l’intelligence artificielle plus que ce que nous demandons à notre propre intelligence ?

Xavier de la Porte

L’émission du 10 octobre 2010 était consacrée au Laboratoire de haute sécurité (LHS) informatique de l’Inria qui a ouvert ses portes en juillet, avec Jean-Yves Marion, son directeur et Redu State, professeur et membre du LHS. Xavier de la Porte accueillait également Franck Sommer qui vient de publier aux éditions La Découverte, La pensée PowerPoint : enquête sur ce logiciel qui rend stupide, un livre pour dénoncer comme un outil de présentation est devenu une manière de représenter le monde.

À lire aussi sur internetactu.net

0 commentaires

  1. L’éternel problème de ces processus d’apprentissages, c’est qu’il reposent sur des relations logiques nettes affinées par des recoupements eux aussi logiques. On parvient très souvent aux mêmes impasses que celles qu’ont rencontrées les logiciens du temps d’Aristote, à savoir qu’après avoir établi une nomenclature des types de relations logiques, on s’est rendu compte que le dit corpus était loin de couvrir tout le champ des méthodes de connaissance. En outre, votre NELL est constitutivement incapable de comprendre une analogie, encore moins une métaphore, sans même oser évoquer deux vers de Mallarmé ou un psaume.

    Il y avait, il y a quelques années, un terme à la mode : la fuzzy logic, dévoyé depuis dans les capteurs d’appareils photos et de lave-linge. Cette « logique floue » recelait des promesses autrement plus enthousiasmantes que la création d’une intelligence sémantique reposant sur la seule puissance d’acquisition. Il s’agissait alors d’intégrer aux échanges logiques une sorte de troisième voie qui permettrait d’intégrer des données à priori fausses qui pourraient être réinjectées dans le processus de compréhension de sens, de manière à générer des associations qui, toutes improbables qu’elles fussent, servaient utilement à tester la fonctionnalité des modèles au fur et à mesure de leur élaboration, un peu comme un orateur corrigeant son discours tout en le prononçant. Si quelque chose doit se passer du côté de la compréhension sémantique, ce sera, à mon humble avis, de ce côté là. Ou alors cela viendra d’un génie capable d’attaquer la question sous un angle absolument nouveau. On peut toujours rêver.

  2. Très intéressant ! Démontre que les mêmes causes produisent les mêmes effets : la traduction automatique patine depuis des décennies, exactement comme ces projets d’acquisitions automatiques…

    L’élément commun est l’incompréhension profonde du fonctionnement du langage naturel qui n’est pas qu’un descripteur de relations logiques entre des étiquettes : c’était grosso modo le sens des premiers essais de traduction automatique.

    Ce qui est surprenant, ce sont les trois manques qui frappent tout psychologue dans ce genre de travaux :
    1/ l’aide pour corriger (celui-là a été semble-t-il perçu après-coup)
    2/ le montage des règles d’autocorrection, sans elles il est impossible que le système converge, il sera, sinon, toujours en divergences de plus en plus fortes au fur et à mesure de son développement (l’erreur induisant des effets de longue portée totalement irrattrapables au bout d’un moment : impossible de vérifier la totalité des inférences par millions ou par milliards)
    3/ l’analyse des conséquences pratiques des acquisitions (si le système acquiert que Toronto est une ville, cela implique une multiplicité de conséquences que le système doit pouvoir vérifier par lui-même) en une sorte d’équivalent de la pratique qui permet à tout humain d’intégrer des connaissances non seulement verbales ou logiques mais sensorielles, émotionnelles et non conceptualisées… ce qui ne sera pas le cas de sitôt dans un système d’IA !

  3. Il est exagéré de dire que la traduction automatique patine depuis des décennies. Voici par exemple la traduction que « Google translate » propose du commentaire précédent:

    « Very interesting! Demonstrates that the same causes produce the same effects: machine translation patina for decades, just as these proposed acquisitions automatic …

    The common element is a profound misunderstanding of how natural language is not a descriptor of logical relationships between labels: it was roughly the direction of the first tests of machine translation.

    What is surprising are the three deficiencies affecting any psychologist in this kind of work:
    1 / aid to correct (this one was apparently perceived afterthought)
    2 / assembly of self-correction rules, without them it is impossible that the system converges, it will otherwise still differences increasingly acute as to measure its development (the error-inducing effects of long scope completely irretrievable after a moment: could not verify all the inferences in the millions or billions)
    3 / analyzing the practical consequences of the acquisition (if the system becomes that Toronto is a city, this implies a multiplicity of effects that the system must be able to verify by himself) in a sort of equivalent of the practice that allows integrate all human knowledge not only logical but verbal or sensory, emotional and non-conceptualized … which will not happen anytime soon in an AI system! »

    Bien sûr, cette traduction reste très imparfaite mais elle n’est finalement quand même pas si mauvaise que ça… On était loin de cette qualité il y a dix ans et on fera mieux dans dix ans. Ceci dit, l’analogie entre l’apprentissage automatique et la traduction automatique reste intéressante et on peut s’attendre à ce que Nell rencontre effectivement des difficultés semblables à celles de Google Translate.

  4. Cela montre bien à quel point nous sommes dans l’enfance du net. Et si nous ne voulons pas nous retrouver avec un réseau paranoïaque ou psychopathe, nous avons intérêt à soigner son éducation.