clippyVous souvenez-vous de Clippy, cet insupportable assistant virtuel qui se lançait automatiquement avec Word 97 ? Cela fait 20 ans maintenant qu’on a assisté à la première vague des « assistants virtuels » ce qu’on appelait à l’époque les « agents intelligents ». Dire que ce ne fut pas un triomphe serait en dessous de la vérité. L’irritant Clippy et ses amis furent vite envoyés aux oubliettes du numérique.

La fin des apps ?

Preuve que dans le domaine de la technologie, tout est parfois un éternel recommencement. Car aujourd’hui, les plus grosses compagnies, au premier plan Microsoft et Facebook, ne jurent plus que sur les « bots » ces programmes conversationnels qui devraient selon eux donner naissance à une nouvelle sorte de web, et renvoyer au musée les vieilles applications de nos smartphones. Satya Nadella, le patron de Microsoft, n’a pas hésité à le proclamer récemment : « les bots sont les nouvelles apps« .

Pourquoi cette ruée vers les chatbots ? L’une des raisons, nous explique Wired, est que les « apps » sont arrivées en bout de course. Les gens en téléchargent de moins en moins, et nous dit Wired dans un autre article, selon l’agence Comscore, la plupart des usagers utilisent leurs 3 apps favorites 80 % du temps. Cela devient fatiguant d’en télécharger et installer constamment de nouvelles.

En revanche, les services de chat explosent. Par exemple, Facebook Messenger (sur lequel on n’aurait pas parié un kopeck il y a deux ans, nous explique encore Wired) rassemble aujourd’hui 900 millions d’utilisateurs.

C’est la Chine qui sert de modèle pour les évangélistes du bot, avec l’extraordinaire succès des systèmes comme WeChat. Mais, nous rappelle encore Wired, il ne faut pas oublier que les Chinois ont accès à un plus petit nombre d’apps que les Américains, et « il est difficile de savoir si les consommateurs des États-Unis souhaiteront utiliser le chat de la même façon. Pour l’instant, si vous voulez contacter Uber, il est assez facile d’activer tout simplement votre application Uber« .

Le chatbot a toujours été considéré comme le test fondamental des capacités de l’IA. De fait, ce qu’on nomme le test de Turing repose exclusivement sur la discussion avec un tel bot. Dans un papier sur la programmation, nous avions expliqué certains des algorithmes utilisés dans la création de ces programmes, mais pour garder l’aspect pratique, « do it yourself » de ce dossier programmation, les techniques présentées, comme l’AIML, permettaient la création de chatbots « artisanaux », par un individu lambda. Microsoft, Facebook ont bien entendu d’autres technologies en tête.

C’est aux dernières technologies d’IA que ces grosses sociétés préfèrent recourir. Enfin les dernières… Comme le souligne encore Wired, la technologie de Facebook M repose en fait sur des technologies d’IA assez anciennes, et de plus, la plupart des réponses du bot sont analysées et corrigées par des équipes d’êtres humains, comme le précise également Bloomberg.

En fait, la fonction du chatbot a changé, et l’IA perd aujourd’hui de son importance dans ces programmes. Les nouveaux chatbots ne cherchent plus du tout à passer le test de Turing, encore moins à susciter l’affection des utilisateurs. Ce sont avant tout des utilitaires : on attend d’eux qu’ils soient en mesure de rendre des services précis, pas à répondre ironiquement à des dragues lourdes ou à disserter sur la nature de la conscience machinique. Mais même à cela, sont-ils vraiment bons ?

Au-delà de la conversation

Dan Grover (@dangrover) est souvent cité par les aficionados des agents conversationnels pour un article de 2014 dans lequel il proclamait « le Chat est la nouvelle UI » (Interface utilisateur). Grover est chef produit chez WeChat, la célèbre messagerie asiatique à l’origine de la nouvelle mode des bots. Pourtant, dans un plus récent post sur son blog, Grover tient à préciser quelques points et se montre bien plus mesuré qu’on pourrait le penser. Le succès des chatbots, selon Grover, n’a pas grand-chose à voir avec la notion de « conversation« , mais repose dans la simplification de l’interface utilisateur : « Les raisons du succès de WeChat (…) tiennent en grande partie à la rationalisation des processus de login (authentification), d’installation de l’application, de connexion, de paiement, et de toutes les notifications… Autant d’optimisations n’ayant rien à voir avec la métaphore de la conversation dans une interface utilisateur« .

Il prend comme exemple d’une mauvaise utilisation du chatbot l’image ci-dessous (tirée du site « bot framework » de Microsoft)  :
pizzabot

Comme le signale Grover, il faut donc taper 73 fois sur son clavier pour effectuer une commande de pizza depuis le bot de Microsoft. Et note-t-il, il part du principe que le bot connaît déjà le consommateur. En revanche, le système utilisé par Pizza Hut en Chine pour obtenir le même résultat via WeChat ne demande que 16 touches sur le clavier. Et comme on le voit (même si c’est un peu difficile en chinois), le bot de Pizza Hut recourt ici à une architecture de menus assez semblable à ce qu’on pourrait trouver dans une interface classique. La conversation est réduite au minimum.

pizza-hut

Pour Grover, le mésusage des chatbots est une espèce de skeuomorphisme : cette tendance que nous avons de reproduire dans des interfaces l’apparence et la fonctionnalité de systèmes plus anciens (par exemple reproduire graphiquement une table de mixage dans un logiciel de musique, avec tous ses boutons, curseurs, comme nous l’expliquait Hubert Guillaud). Ce faisant, on perd un bon nombre de possibilités offertes par une interface plus fonctionnelle. Par exemple, avec un système de menus, il est possible de visualiser d’un coup les différents types de pizza, alors qu’en mode chat, il faudrait passer par un mode de communication plus linéaire. « L’interface conversationnelle… a appliqué une métaphore analogique a une tâche numérique et importé des aspects qui, sous cette forme, ne servent plus à rien. Des choses comme les petites plaisanteries dans l’échange ci-dessus comme « s’il vous plaît » et « merci », ou devoir spécifier les diverses options de pizza séquentiellement et séparément (plutôt que toutes à la fois)« . Une bonne interface utilisateur vaut donc apparemment bien des chatbots.

Des assistants intelligents, vraiment ?

Reste que, tout de même, l’IA demeure un des moteurs de la recherche dans ce domaine, surtout lorsque le bot est accompagné d’un système de commande vocale. Le milieu des chatbots s’est passionné tout récemment pour la première démo du système Viv, créé par les inventeurs de Siri. L’accueil à la conférence de lancement a été tout à fait enthousiaste, comme l’indique certains des titres des articles qui ont couvert l’événement : « Les créateurs de Siri ont présenté leur nouvel assistant IA, et c’est incroyable » s’exclame The Verge. « le créateur de Siri fait la démo d’une nouvelle IA qui cette fois n’est pas nulle », titre Gizmodo, un peu plus distancié. Pour Next Big Future « Viv est une interface intelligente pour tout ». Vous pouvez assister à la présentation dans la vidéo ci-dessous. Je ne sais pas si elle est complète, j’aurais bien aimé pour ma part voir Viv répondre à des requêtes formulées par des gens pris au hasard dans l’assistance…

D’un point de vue purement technique, Viv semble intéressant par sa capacité d’écrire dynamiquement ses propres programmes. Lorsque quelqu’un fait une requête, il crée automatiquement un programme censé traduire son intention. Ce qui, nous explique-t-on, devrait considérablement faciliter la tâche des développeurs : ils pourront consulter le code généré à chaque requête et ainsi le perfectionner aisément, sans avoir à tout écrire.

Mais le gros problème de Viv est peut être d’ordre commercial, souligne la Technology Review. Il s’agit en effet d’une compagnie indépendante, qui va se heurter aux géants que sont Google et Facebook désireux de mettre en avant leur propre assistant. La plupart des utilisateurs, souligne le magazine du MIT, utilisent pour 25 % des apps fonctionnant dans l’écosystème Facebook et Google. Si Viv veut triompher, il devra donc convaincre les consommateurs de sortir un peu de leurs habitudes. Pour cela, il lui faudra notamment des accords avec un grand nombre de partenaires commerciaux susceptibles d’utiliser son service. Mais pour obtenir de tels contrats, souligne la revue, il faudra tout d’abord que Viv puisse déjà revendiquer une grosse base d’utilisateurs. Un cercle vicieux.

Il y a vingt ans, lors de la première vogue des agents intelligents, Jaron Lanier avait écrit un article au vitriol affirmant que « les agents ne sont intelligents que parce qu’ils nous rendent plus bêtes qu’eux« . Il y dénonçait – déjà ! – le danger de la croyance en l’autonomie des programmes, qui nous amenait lentement à leur abandonner notre propre autonomie, et nous poussait à réfléchir, par effet miroir, comme des machines. Il y opposait la tâche plus ardue de concevoir des bonnes interfaces utilisateurs, qui donnent un plus grand pouvoir à l’usager : « Les agents sont un travail de programmeurs paresseux. Créer une bonne interface utilisateur afin d’accomplir une tâche compliquée, comme la recherche et le filtrage d’une tonne d’informations, est beaucoup plus difficile à réaliser que fabriquer un agent intelligent. Du point de vue de l’utilisateur, un agent est quelque chose qui vous ramollit l’esprit, tandis qu’une interface utilisateur est un outil que vous utilisez, et vous pouvez vous rendre compte si vous utilisez un bon outil ou non« .

Si l’accusation contre les « programmeurs paresseux » est un peu exagérée (il faut quand même beaucoup de jus de cerveau pour programmer un bon chatbot !), ces propos restent assez d’actualité (et pas si éloignés du point de vue d’un Grover, en fait). Et à l’époque, on ne parlait même pas encore de captation des données et d’espionnage des comportements !

Rémi Sussan

À lire aussi sur internetactu.net

0 commentaires

  1. Je suis globalement d’accord avec cette analyse, il manque juste le mot « normalisation ».

    En informatique on cherche toujours à normaliser pour contrebalancer la croissance de l’écosystème. Les assistants virtuels normalisent l’utilisation des services en proposant le langage naturel comme interface commune. C’est assez logique d’en arriver là. Ce qui est un peu nouveau, c’est que jusqu’à maintenant la normalisation massive concernait surtout les interfaces machine-machine, alors que maintenant les personnes physiques utilisent tellement l’informatique qu’on en vient à normaliser les interfaces homme-machine.
    Je le répète, ce n’est pas exactement nouveau, mais c’est une tendance plus marquée qu’avant.

    On peut normaliser autrement qu’avec le langage naturel, sans simplifier à outrance ou perdre en efficacité, mais ça implique des changements de l’écosystème, par exemple avec des entreprises encore plus monopolistiques, et simplement le temps nécessaire à la maturité.
    Je ne pense pas qu’à terme les agents virtuels domineront les interfaces homme-machine, sauf pour les services nouveaux qui n’auront pas encore de normes d’usage bien établies.

  2. Pour les développeurs que ça pourrait intéresser, Google vient de mettre en open source un outil de traitement du langage naturel, SyntaxNet