Un super-générateur de « fake news », vraiment ?

Les chercheurs d’openAI auraient mis au point un générateur automatique de texte, nommé GPT-2, si sophistiqué et susceptible de donner des résultats si crédibles que les concepteurs ont choisi de ne pas partager le programme dans son intégralité, de peur que leur système ne déclenche une épidémie de fake news. L’épisode a bien été résumé dans Futura Sciences.

L’exemple donné le plus souvent dans la presse spécialisée est une fausse information concernant la découverte d’une tribu de licornes dans les Andes, parlant toutes un anglais parfait. C’est assez amusant et il faut bien le dire, assez bluffant. J’en reproduis quelques extraits choisis :

« … Le Dr Jorge Pérez, biologiste évolutionniste de l’Université de La Paz, et plusieurs de ses compagnons, exploraient les Andes lorsqu’ils découvrirent une petite vallée sans animaux ni humains. Pérez remarqua que la vallée possédait ce qui semblait être une fontaine naturelle, entourée de deux pics de roche et de neige argentée (…). Pérez et ses amis ont été étonnés de voir le troupeau de licornes. (…) En examinant ces créatures bizarres, les scientifiques ont découvert qu’elles parlaient également un anglais assez correct. (…) Le Dr Pérez pense que les licornes pourraient être originaires d’Argentine, où ces animaux seraient des descendants d’une race perdue qui y vivait avant l’arrivée des êtres humains dans ces régions de l’Amérique du Sud.

Bien que leurs origines soient encore floues, certains pensent que ces créatures ont peut-être été créées lorsqu’un humain et une licorne se sont rencontrés à une époque antérieure à la civilisation humaine. Selon Pérez, « En Amérique du Sud, de tels incidents semblent être assez fréquents ». »

Les philosophies derrière le traitement du langage


Mais qu’en est il exactement ? Quelle est la technologie employée ? La Technology Review s’est penchée sur la question, et ce faisant, nous donne un bon résumé de la recherche en matière de compréhension du langage naturel. Selon le magazine du MIT il existe actuellement 4 grands systèmes permettant aux machines de comprendre (et donc d’écrire ou de dire) les propos humains.

Ce sont la sémantique des cadres, la sémantique de la théorie des modèles, la sémantique incarnée et enfin, la sémantique distributive utilisée pour GPT-2.

La sémantique des cadres, explique le magazine, est largement utilisée par les chatbots. Elle considère la phrase comme un descriptif des actions et se montre efficace pour comprendre des phrases simples comme des commandes que nous donnons à Alexa ou Siri. En revanche, elles n’offrent que peu de nuances et ne comprennent pas les phrases trop complexes.

La sémantique de la théorie des modèles, elle, est assez dépassée aujourd’hui, nous dit le magazine. C’est la méthode de la « vieille IA », basée sur la logique et les bases de connaissances. On se base sur des règles du genre, les oiseaux volent, les pingouins sont des oiseaux, donc les pingouins volent… Mis à part qu’ils ne le font pas, ce qui illustre bien les limites de la méthode. Ceci dit, cette philosophie reste la meilleure si on veut extraire des connaissances d’une base de données.

La sémantique incarnée consiste à apprendre au robot de la même manière qu’un être humain. La Technology Review précise que c’est un champ nouveau et excitant, mais qu’enseigner la machine demande beaucoup de temps (autant qu’avec un enfant, peut être ?). A noter que cette approche semble être privilégiée par pas mal de chercheurs francophones, et nous avons déjà parlé dans nos colonnes des travaux de Pierre Yves Oudeyer et de l’exposition Ergo Robot, qui semble bien reposer sur une telle philosophie. C’est également la base des recherches de Luc Steels, qu’il continue notamment au sein du Computer Science Laboratory de Sony, à Paris.

Reste donc la dernière, basée sur la « sémantique distributive »… Cette technique, nous explique la revue du MIT, repose sur des similarités de sens entre des mots. Par exemple continue l’article, les mots « chat » et « chien » s’utilisent dans des contextes très analogues, on peut donc en déduire, qu’ils effectuent (ou subissent) le même type d’action. Cette approche repose beaucoup sur le « machine learning » et exige une grande quantité de données.

Encore quelques efforts à faire …


Donc, les chercheurs d’OpenAI ont refusé de rendre public l’ensemble de leur système. Pas très « open », tout ça, mais ils ont quand même consenti à délivrer une version réduite de leur base de données pour permettre à d’autre d’effectuer leurs propres recherches. Les journalistes d’Ars Technica se sont donc rués sur l’occasion, et ont installé la version simplifiée sur leur machine, et il faut bien le dire, les résultats sont plus hilarants que terrifiants.

La méthode pour tester le programme est simple : on entre une phrase en input, et le logiciel s’en inspire pour pondre un texte cohérent en rapport avec le paragraphe de base. Ou du moins on l’espère. Pour tester le programme, le journaliste d’Ars Technica a beaucoup utilisé des phrases de Donald Trump, ce qui avouons-le n’est pas peut être la meilleure méthode pour générer des textes intelligents et sensés.

A une première tentative dans laquelle Trump chante les louanges de sa relations avec Xi Jinpin, GPT-2 a produit un texte tournant autour du partenariat transpacifique (ce qui est quand même remarquable, car ce terme ne figurait pas dans la phrase d’entrée). La production est tout de même assez bizarre. En voici un extrait :

« Le Partenariat transpacifique est en réalité un partenariat économique entre toutes les parties prenantes, toutes les entreprises. Le but de cet accord commercial est de créer la meilleure relation commerciale pour la Chine. Ils ont une excellente relation économique. Je pense que l’une des choses qu’ils ont faites – je sais que vous dites depuis environ huit mois qu’ils n’ont rien à voir avec ça, parce que c’est déjà signé. Et ils sont sur le point de conclure un autre accord commercial. En ce moment, vous savez que l’administration Obama a décidé si cela se produirait jamais – il y a de quoi s’inquiéter de ce que la Chine – si elle devient membre de l’OMC, un accord commercial injuste pour notre économie ne soit pas équitable. Pour le peuple américain, ce ne sera pas une bonne affaire. »

Bon, c’est un peu un galimatias, mais c’est le genre de propos qu’on pourrait entendre de la part d’un politicien pas très doué comme Trump.

Pour vérifier les biais politiques du système (qui se nourrit comme beaucoup de ses congénères de propos trouvés en ligne) notre courageux expérimentateur a testé aussi une phrase d’Hillary Clinton, cela lui a surtout permis de constater qu’effectivement, comme le signale d’ailleurs le rapport d’OpenAI, le système a parfois quelques problèmes de répétions.

« En tant qu’homme d’affaires, il a dit des choses qui sont bonnes pour l’Amérique. Et il a dit des choses qui sont bonnes pour nos communautés. Il a dit des choses qui sont bonnes pour nos familles. Il a dit des choses qui sont bonnes pour notre pays. Il a dit des choses qui sont bonnes pour l’Amérique. Et il a dit des choses qui sont bonnes pour notre pays. Et il a dit des choses qui sont bonnes pour l’Amérique. Et il a dit des choses qui sont bonnes pour l’Amérique. Et il a dit des choses qui sont bonnes pour l’Amérique. Et il a dit des choses qui sont bonnes pour l’Amérique. Et il a dit des choses qui sont bonnes pour l’Amérique. (etc.) »

Mais l’expérience la plus curieuse est celle-ci : en réaction à une phrase de Trump, toujours à propos de la Chine et des droits de douanes, la machine a généré ces propos, involontairement fort égrillards :

FONDU D’OUVERTURE
LA QUEUE DE LA CHÈVRE DANS LE GARCON T-HAULUS
LA QUEUE DE LA CHÈVRE DANS LE GARÇON T-HULUS
LA QUEUE DE LA CHÈVRE DANS LE GARÇON GARÇON

BON GARÇON
GRAND CHÈVRE CHÈVRE CHÈVRE CHÈVRE CHÈVRE CHÈVRE CHÈVRE (etc.)

Cela confirme un peu ce qu’on savait déjà. Lorsqu’un système de machine learning se plante, il peut le faire gravement sans qu’on comprenne pourquoi. Cela rappelle cette expérience dans laquelle des chercheurs avaient demandé à un logiciel de comprendre le sens d’un texte consacré à un film, et le logiciel avait répondu avec justesse que cela traitait de cinéma. Puis ils avaient remplacé une occurrence du mot « film » par « flim » et le système avait alors décrété, avec une certitude de 99 % que le texte concernait les entreprises.

Le dernier mot revient au New Scientist, lui non plus pas très excité par la performance de GPT-2. « GPT-2 n’est pas plus dangereux que les générateurs de faux qui existent depuis des années. » Son grand avantage ? Non pas le génie de la conception logicielle, mais sa base de données, composée de 8 millions de pages et 40 gigaoctets de data. La plus importante à ce jour utilisée dans un tel cadre (dans la version utilisée par Ars Technica, les données totalisaient seulement 500 Mo ce qui expliquerait en partie la pauvreté des résultats).

Comme toujours, on en revient donc à la question du Big Data… et de leurs limites.

Rémi Sussan

À lire aussi sur internetactu.net

2 commentaires

  1. En effet « GPT-2 n’est pas plus dangereux que les générateurs de faux qui existent depuis des années. » on peut se demander quelle mouche a piqué l’équipe d’openAi pour ne publier sur GitHub qu’une version édulcorée de GPT-2 ? Ils sont « open source » quand ça les arrange, ou alors c’est un sursaut du patron qu’est Elon Musk, le mot partage doit lui faire mal ?

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *