A l’heure où les enjeux commerciaux des interfaces vocales semblent sans limites, leur conception n’est pas sans heurt ou difficulté. A l’occasion de la journée d’étude Hypervoix qui avait lieu le 15 avril à Paris, retour sur les enjeux de conception que posent les assistants vocaux et notamment la question de la voix elle-même comme modalité d’interaction, une « matière » qu’il reste à façonner.
De la voix à l’artefact
« L’assistant vocal n’est pas qu’une voix. C’est également un artefact physique, un service, une interface (lumineuse, sonore, graphique…), une proposition d’interaction spécifique… », explique le designer Julien Drochon (@julien_drochon), enseignant à l’École supérieure d’art des Pyrénées, lors de sa présentation (.pdf). Par exemple, l’animation lumineuse des assistants vocaux a une fonction précise : maintenir la possibilité de l’interaction même lors des moments de silence… Montrer que l’objet inactif est avant tout hyperactif et attirer l’attention sur sa disponibilité permanente.
Image : des lumières d’Alexa et de leurs différentes significations.
L’utilisation de la voix seule déplace les enjeux de conception d’interfaces. « Si les interfaces graphiques structurent la surface, si les interfaces tangibles questionnent l’espace, les interfaces vocales, elles, par la conversation, relèvent principalement d’une structuration du temps ». Elles nécessitent un recours à tous ces éléments, car bien souvent, les artefacts convoquent à la fois la conception d’objet, d’interaction, le design sonore…
Après avoir expérimenté pendant quelques mois ces dispositifs, Julien Drochon pose plusieurs questions. Pourrait-on imaginer un design sonore moins pauvre, dont le paysage varierait en fonction de l’heure, de la saison, du temps, des propos ? La voix des assistants vocaux est souvent conçue sur un modèle de neutralité de façon à s’adapter à tous. Pourrait-on imaginer prendre le contre-pied de cette neutralité désincarnée et penser des principes d’interaction qui s’adaptent mieux à l’usager, au contexte ? Par exemple en donnant à ces voix des accents spécifiques, en leur faisant utiliser des vocabulaires populaires… ? Pourrait-on imaginer que leurs personnalités (tonalité, humeur…) soient plus variées, configurables, c’est-à-dire par exemple qu’elles procèdent d’un croisement de personnalités existantes ou fictives (croisant la personnalité de nos amis par exemple, ou prenant la personnalité d’une Daenerys Targaryen) ? Les personnalités des assistants vocaux sont dociles et conciliantes : pourrait-on imaginer des assistants qui deviennent désagréables quand on passe trop de temps avec eux ? Qui nous prennent à partie ? Qui soient attristés par des mauvaises nouvelles ? Avec lesquels nous pourrions nous disputer ? Pourraient-ils jouer des souvenirs sonores de nos interactions ?
Pour le designer, la conception des interfaces vocales devrait s’inspirer du jeu vidéo qui explore le rapport de la voix à la narration, à l’exemple du jeu Firewatch, qui exploite pleinement cette mécanique puisque le joueur, gardien d’un parc naturel dans le Wyoming, est relié à son superviseur par un simple talkie-walkie. La BBC a ouvert un département de R&D lié aux machines parlantes où ils explorent les possibilités des assistants vocaux en terme de contenus et d’interaction, à l’image de The Unfortunates, une fiction pour enceintes connectées dont la narration évolue avec les utilisateurs.
Les assistants vocaux sont encore insuffisamment envisagés comme des éditeurs de contenus, certainement en partie parce que les grands acteurs du secteur ne mettent pas en accès libre les modèles de reconnaissance vocale qu’ils tirent de leurs données, freinant l’existence de plateformes de reconnaissance vocale alternatives, comme Common Voice de Mozilla. Pour Julien Drochon, la participation des usagers est centrale pour corriger la surpuissance des acteurs de la voix, ce qui n’est pas si simple quand ce sont justement ces grands acteurs qui proposent des interfaces de programmation pour la voix assez accessibles et documentées, à l’image du kit de développeurs d’Alexa ou de Google Assistant. « La personnalisation passe-t-elle par l’automatisation du traitement d’un jeu de données non consenties de la part de l’utilisateur, son identification par un motif statistique, où passe-t-elle notamment par la participation de l’usager à son élaboration ? », interroge le designer. Pour lui, la cocréation est appelée à être plus fertile que l’apprentissage automatique. « L’apprentissage automatique est fait pour générer des stéréotypes, ce qui semble être incompatible avec la création d’interfaces vocales singulières. La place de l’humain et de l’auteur est capitale dans l’élaboration de profils d’interfaces et de scripts inattendus et originaux, pour favoriser l’adhésion des utilisateurs. » La place de l’humain dans ces interfaces ne peut pas se réduire à optimiser l’exploitation des données de l’utilisateur.
Qu’est-ce qu’une voix de synthèse ?
Nicolas Obin est chercheur dans l’équipe Analyse et synthèse des sons à l’Ircam, centre de recherche internationalement reconnu dont l’activité est consacrée à la création de nouvelles technologies pour la musique et le son. « Nous sommes capables de reproduire artificiellement une voix humaine », à l’image de la voix du comédien André Dussolier qui peut désormais être produite par une machine et créer des phrases que le comédien n’a jamais prononcées, ou encore celle de Marilyn Monroe. Il existe d’ailleurs un marché de la voix de synthèse, via des entreprises qui proposent ce type de services, comme Voxygen, Acapella ou Lyrebird. Reste que ces voix de synthèses demeurent encore imparfaites. L’Ircam travaille sur les caractéristiques de la voix et est ainsi capable d’hybrider des voix, par exemple en mixant une voix humaine à celle d’un lion. Avec des logiciels évolués, il est possible aussi de modifier les attributs d’une voix : à partir d’un enregistrement neutre, il est possible d’ajouter des émotions à une voix, de la faire passer de la colère à la joie ou à la tristesse. L’enjeu de ces recherches consiste à créer des voix plus expressives, prochaine étape de la synthèse vocale…
Désormais, les marques veulent avoir leur assistant vocal avec des voix personnalisées correspondant à leur identité de marque. L’Ircam est régulièrement sollicité par des entreprises pour créer des personnalités vocales. Reste que créer des voix n’est pas si simple. Il est pour l’instant encore difficile de « sculpter des voix » à la demande, notamment en y incorporant des vocabulaires ou des caractéristiques qui leur sont propres. Enfin, les interactions vocales restent pour l’instant limitées à des questions-réponses. La lecture d’un texte ou d’un roman par une voix de synthèse par exemple n’est pas encore envisageable sans générer de la monotonie.
Pour son collègue, Nicolas Misdariis (voir leur présentation .pdf), responsable de l’équipe perception et design sonores de l’Ircam, le design sonore est présent dans de nombreux artefacts : véhicules, espaces publics, etc., à l’image des identités sonores créées pour la SNCF ou l’aéroport de Roissy. Le design sonore consiste à utiliser des éléments sonores pour marquer un objet d’un signe qui va incarner une intention. Ce signe vise à créer une signature, une identité, un espace qui utilise le son pour différencier un objet d’un autre. La conception d’une voix ou d’un son nécessite un cahier des charges spécifique, souvent difficile à saisir, car il repose beaucoup sur la sensibilité. Il existe cependant des outils pour définir les propriétés sonores d’un son afin de différencier les sons et leurs caractéristiques. Les équipes de l’Ircam se sont par exemple intéressées à ce que signifiait un son chaud… Ils ont ainsi isolé deux paramètres : le paramètre spectral et le rapport signal/bruit permettant de produire des graphes pour analyser sa « chaleur ». D’autres travaux se sont intéressés au code émotionnel d’un son, par exemple pour saisir ce qui traduit une voix souriante afin de le reproduire. D’autres travaux encore se sont intéressés au « code social » d’un mot : comment par exemple impulser une sensation de confiance et dominance dans un simple « bonjour », en en analysant la fréquence et ses variantes. D’autres projets s’intéressent à produire des esquisses sonores, car l’un des problèmes de la création sonore repose sur le fait de réaliser des esquisses, permettant par exemple de distinguer des sons abstraits, de sons de machines ou d’interactions. L’Ircam a mis au point un outil pour esquisser des sons à la manière d’un croquis et l’améliorer peu à peu, via différentes couches apportant au son comme des textures spécifiques.
La voix n’est pas un son comme les autres, rappellent les chercheurs de l’Ircam. Elle est la modalité d’interaction avec d’autres humains, elle porte du sens, des visées intentionnelles et communicationnelles (attitudes, intentions, émotions…). Il faut prendre en compte de nombreux paramètres acoustiques pour communiquer : le timbre, les niveaux prosodiques (intonation, rythme, intensité…)… Ainsi, il est possible de donner de multiples inflexions aux voix de synthèse, par exemple en leur permettant de suggérer, d’inciter, voire de faire culpabiliser celui qui les écoute. Certaines études montrent qu’il est possible de manipuler les personnes depuis une voix de synthèse, notamment les plus jeunes. La conception sonore vise à créer des effets, ce qui nécessite également de poser des questions culturelles, car les codes que l’on cherche à véhiculer n’ont pas partout les mêmes valeurs. Bref, la conception de voix n’est donc pas sans considérations éthiques ! Et à mesure que la technologie progresse, celles-ci vont se poser avec toujours plus d’acuité.
Image : la voix comme assistance technologique intime et ultime. Illustration de Roberto Parada pour The Atlantic.
Vers des interfaces vocales qui respectent la vie privée ?
Joseph Dureau (@jodureau), directeur de la technologie de Snips en rappelle l’objet, original dans le paysage des producteurs d’assistants vocaux. Snips n’est pas seulement une solution alternative à celles proposées par les grandes plateformes, c’est aussi une proposition de valeur singulière qui cherche à maximiser le respect de la vie privée des utilisateurs. Snips vise à développer des objets connectés commandés par la voix, en local, plutôt que dans le cloud, l’informatique en nuage, comme le proposent les plus grands acteurs du secteur.
Pour y parvenir, Snips distingue les requêtes selon leurs domaines d’usages. Lorsque les requêtes vocales des utilisateurs sont dans le domaine d’usage de l’appareil proposé, celui-ci fournit une réponse sans envoyer de données dans le cloud. Le modèle est entraîné à partir de centaines d’heures d’échantillonnage vocal réalisées par des utilisateurs (par exemple, via Mozilla Common Voice) ou achetées. L’enjeu ici est que l’appareil, par exemple une machine à café, sache reconnaître une grande diversité de requêtes nécessaire à son fonctionnement pour qu’elle puisse être traitée localement. C’est seulement si la commande n’est pas interprétable, si l’intention n’est pas comprise, qu’une autorisation ponctuelle est accordée par l’utilisateur pour aller chercher une réponse plus adaptée sur un serveur distant.
À la différence d’un modèle comme celui d’Amazon ou de Google, où l’assistant vocal est censé répondre à tout type de requête en les transmettant aux serveurs de ces entreprises (et pour celles qui ne sont pas comprises, à leurs salariés pour désambiguïsation), Snips limite les requêtes à des domaines d’usages contextualisés afin de traiter les données en local. Pour Snips, une majorité de requêtes peuvent ainsi être traitées en local, et c’est grâce à cette architecture que la protection des données et que la frugalité des ressources sont garanties.
Pour Snips, le contexte d’usage d’un objet est bien souvent limité. Quand on observe d’ailleurs les cas d’usages les plus courants de la commande vocale, un bon nombre pourrait se passer de requête en ligne, et c’est certainement encore plus vrai pour faire du contrôle commande par la voix d’appareils électroménagers par exemple. Pour certaines interfaces, l’entreprise travaille à récupérer des données utilisateurs pour améliorer la performance du modèle, par exemple en se connectant au compte de streaming musical de l’utilisateur, afin d’améliorer ses propres modèles locaux.
Comme ses appareils préservent mieux la vie privée de l’utilisateur, Snips travaille également à supprimer le mot clé d’activation pour parvenir à un échange plus naturel et intuitif. En assurant le traitement de la voix en local, il suffirait de dire « expresso » pour que la machine à café obéisse ! Reste à savoir comment arrêter un mot signifiant prononcé par inadvertance pour qu’il ne déclenche pas d’action !
Quand l’interface vocale s’adapte à ses usagers
La question des interfaces vocales privilégie souvent la voix au détriment de tout autre type d’interaction, réduisant les boutons ou les écrans à leur seule présence pour des fonctions minimales. C’est à rebours de ces tendances que travaille François Millet, responsable du développement de Studio 44 et qui travaille avec plusieurs acteurs, dans le cadre du consortium HomeKeeper sur le projet d’enceinte intelligente Skipit (voir sa présentation .pdf).
Initialement conçu comme une interface destinée au streaming musical et radiophonique, le projet s’est progressivement orienté pour proposer une enceinte intelligente à destination de personnes âgées et non technophiles. Cibler ce public a amené les porteurs de projet à proposer un prototype différent des interfaces vocales du marché, avec des fonctionnalités spécifiques notamment sur la santé et l’assistance (en intégrant un calendrier des passages des aides à domicile ou des rappels sur la posologie des médicaments à prendre). Le prototype, testé auprès d’un public de personne âgée en Normandie, a montré que les difficultés de compréhension tant de la machine que des usagers n’étaient pas un petit problème. Le vocabulaire spécifique, les accents régionaux prononcés, les problèmes d’articulation et de prononciation génèrent de grosses difficultés qui posent un problème de conformité des interfaces vocales : les voix normées, souvent féminines, et sans accents des assistants ne sont pas conçus pour s’adapter à tous les publics.
Image : Skipit. Un assistant vocal domestique pour les seniors.
La disparition des interfaces graphiques des enceintes connectées est un autre problème quand on s’adresse à une population qui a l’habitude des boutons, comme ceux de leur télévision. D’où un prototype qui choisit de leur donner de la place ! Reste que leur présence ne suffit pas toujours à rendre les objets lisibles. Il faut également travailler à rendre visible ce que l’enceinte permet de faire. Ces « affordances » (la capacité d’un objet à suggérer sa propre utilisation) permettent aussi de pallier aux déficiences de la voix humaine, que ce soit dans l’écoute de ce que disent les usagers que dans l’écoute de ce que dit la machine. Skipit n’est donc pas doté uniquement de boutons, mais également d’un écran simplifié qui permet d’accéder à des fonctions, de zapper parmi un choix réduit de programmes et de services.
Si Skipit n’est pour l’instant qu’un prototype, ce démonstrateur montre que dans le domaine des assistants vocaux, il y a peut-être une place pour des acteurs spécifiques et pour penser des services adaptés à la diversité des utilisateurs.
Voix et vie privée : la voix sur écoute
Tous les majordomes du futur que sont les assistants vocaux ne se ressemblent techniquement pas, explique Félicien Vallet de la Cnil (et qui pilote le dossier sur les assistants vocaux du Laboratoire d’innovation numérique de la Cnil que nous vous recommandons chaudement). Or, ils sont nombreux déjà présents sur le marché. Si les plus connus sont Siri, Alexa, Cortana ou l’assistant de Google, de nombreux autres modèles se peaufinent comme le Bixby de Samsung, Djingo d’Orange, Aloha de Facebook, Nina de Nuance, Sam d’Ubisoft, DuerOS de Baidu, Cainiao d’Alibaba, Xio AI de Xiaomi, Xiaowei de Tencent, Snips… Tous ne reposent pas sur les mêmes technologies, bien sûr, mais beaucoup fonctionnent depuis le cloud, l’informatique en nuage, comme l’enceinte Google Home.
Félicien Vallet prend le temps de nous réexpliquer le fonctionnement de ces appareils (voire également les très claires explications du site de la Cnil). Google Home est en permanence en phase d’écoute passive et tente de détecter, au niveau local, le mot clé d’activation, le fameux « OK Google ». La reconnaissance du mot clé est relativement basse pour améliorer l’expérience utilisateur, c’est-à-dire que l’appareil se trompe facilement, qu’elle génère des faux positifs, c’est-à-dire une écoute qui récupère des données qui sont transmises par erreur aux serveurs de Google. À cette étape est prévue en option la reconnaissance d’un individu par sa voix (jusqu’à 6 voix différentes par foyer) avec des droits différents paramétrables pour différencier un enfant d’un adulte par exemple. Cette étape de reconnaissance implique donc de transmettre des données audio, c’est-à-dire des caractéristiques biométriques pour identifier l’interlocuteur. Quand le canal d’écoute est ouvert, l’usager énonce une requête. Cet échantillon audio est envoyé sur les serveurs de Google. Quand les données arrivent sur les serveurs, une nouvelle vérification du mot clé est initiée, si le mot clé n’est pas reconnu, l’activation est rejetée, sinon le signal audio est reconnu par phonème, puis transcrite par un modèle de langage par probabilité pour produire un fichier textuel. Ce fichier textuel est ensuite interprété et exécuté. Le processus alors s’inverse du texte à la synthèse vocale pour donner une réponse sous forme de fichier audio ou exécuter la commande comprise. Puis le système repasse en veille dans les 8 secondes sans nouvelle question ou tant que les voyants clignotent ou restent visibles.
En fonction des modèles techniques et économiques, le design des assistants vocaux suit la stratégie des acteurs qui les opèrent : Google se positionne sur une traduction vocale de son moteur de recherche, Amazon plutôt sur la vente en ligne, chacun essayant de nouer des partenariats pour pallier leurs faiblesses à l’image des accords entre Google et des acteurs de la grande distribution. L’un des grands enjeux du secteur est bien sûr le modèle publicitaire, dont on ne connaît pas le niveau d’acceptabilité par les utilisateurs. Mais Google a annoncé tester du contenu publicitaire dans les réponses. Aujourd’hui ces produits sont majoritairement installés dans les domiciles : salons, cuisines et chambres surtout. Ils sont encore assez rares au travail, mais des partenariats avec des groupes hôteliers ou des entreprises visent à accélérer leur déploiement dans d’autres types de lieux, posant de nouvelles questions de confidentialité des données et de secrets professionnels.
Image : Où se trouvent principalement les assistants vocaux ? Via le rapport annuel de Voicebot.
Avec le développement d’applications vocales, les assistants vocaux deviennent une plateforme d’intermédiation. L’application vocale « EDF et moi » par exemple conseille les clients sur leur contrat et leur propose des solutions pour économiser l’énergie. Mais là encore, cette relation client qui passe par un acteur tiers, Amazon, pose des questions de vie privée, puisqu’elle permet potentiellement à Amazon de connaître certaines dispositions de son contrat ou de sa consommation d’électricité… souligne Félicien Vallet.
Les interfaces vocales sont des systèmes faillibles. Des chercheurs sont parvenus à passer des ordres inaudibles aux humains, mais que l’assistant vocal était lui en mesure de comprendre. D’autres ont découvert des failles de compréhension très fréquentes de certains mots de ces outils de reconnaissance vocale : comme le fait de dire « Coal » (charbon) et que le système comprenne « Call » (appeler). Il est alors possible de créer des applications malveillantes pour exploiter ces erreurs, ce qu’on appelle le voice ou skill squatting, qui se déclencheront depuis ces erreurs d’interprétation.
L’absence d’écran pose le problème de la compréhension de l’utilisateur de ce qui est fait de ses données. Comment supprimer par exemple l’historique de ses données si on n’y a pas accès ? Le partage des responsabilités, au regard du RGPD, pose la question des applications : où s’arrêtent et où commencent les responsabilités de chacun ?
Les interfaces vocales posent également des problèmes de confidentialité des échanges, notamment du fait que des employés des grands constructeurs d’assistants vont écouter certains enregistrements pour aider le système à retranscrire ce qui est dit et améliorer le modèle de compréhension de l’écoute. Cette surveillance pose bien sûr la question de la monétisation de l’intime, du profilage des utilisateurs pour créer des services sur la base d’une connaissance toujours plus forte des utilisateurs. Pour Félicien Vallet, ces systèmes permettent d’envisager demain une analyse de nos voix et de nos émotions sans précédent. C’est déjà à l’oeuvre sur certains serveurs vocaux téléphoniques qui cherchent à qualifier l’engagement de l’utilisateur avec les téléopérateurs… des formes d’analyses nouvelles qui ne sont pas sans poser question sur le consentement des utilisateurs, surtout quand de plus en plus d’objets ont vocation à embarquer des assistants vocaux, parfois même à l’insu des utilisateurs, comme l’a montré le microphone découvert dans les thermostats de Nest. Et surtout, comme le soulignait sa collègue Estelle Harry il y a quelques mois, quand ces objets et ces techniques ont tendance à être à l’écoute par défaut et imbriqués par nature, pour assurer un service toujours plus efficace.
Hubert Guillaud
Avec la complicité de Fanny Maurel, Cécile Christodoulou et Véronique Routin.
Voir également notre dossier sur les assistants vocaux, suite à la journée d’étude Vox Machines de décembre 2018.