Demain, tous nos gadgets répondront-ils à la voix ?

Amazon vient d’annoncer étendre sa gamme de produits d’assistants vocauxrapporte 01net comme LeMonde.fr, parmi lesquels on trouve notamment un appareil pour la voiture ou une prise électrique qui se commande à la voix ou via l’application Alexa. Amazon a également dévoilé une série d’amélioration à son interface vocale lui permettant par exemple de murmurer ou de tenir des conversations. Mais surtout, souligne le Wall Street Journal, Amazon a lancé une puce électronique à destination des fabricants d’électroniques pour rendre compatible n’importe quel appareil à la commande vocale : machine à café, ventilateur, horloge, four ou amplificateur… Le but : inviter les fabricants à intégrer la commande vocale pour faire d’Alexa le système d’exploitation vocal de la maison.

La puce d’Amazon pourrait offrir une solution à une industrie domotique qui est toujours restée à la peine en matière d’OS, de standardisation, d’interopérabilité, de services, d’interfaces… Reste que ces commandes vocales ne sont pas magiques pour autant. Si vous pouvez désormais piloter votre four à distance, encore faut-il y introduire le poulet à décongeler ou le pop-corn ! Amazon réussira-t-il là où ses concurrents – le Home Kit d’Apple ou Google Home et ses produits Nest – n’ont pas toujours beaucoup convaincu ? L’Alexa Connect Kit et sa puce dédiée espèrent faire mieux en proposant une gamme plus ouverte, plus complète et plus évolutive. Reste à savoir si les fabricants de matériel vont coopérer aussi facilement… Signalons encore, comme le pointait Frédéric Cavazza, que ces offensives se doublent de programmes pilotes pour prendre d’assaut certains secteurs spécifiques, à l’image du programme Alexa for Hospitality d’Amazon qui vise à proposer des services vocaux dans les hôtels, avant de conquérir demain d’autres secteurs encore…

Dans une très pertinente vidéo du Wall Street Journal, la journaliste Saabira Chaudhuri, explique quant à elle, comment la commande vocale reconfigure le marketing. Alors que le site d’Amazon ou la grande surface locale propose des dizaines de références d’un produit, Alexa, pour simplifier la commande, référence le plus souvent seulement 2 ou 3 marques d’un produit. Le référencement vocal s’apprête à être une bataille marketing sanglante, dont il n’est pas sûr que le consommateur sorte vainqueur !

Pour l’éditorialiste technologique star du WSJ, Christopher Mims, les objets qui nous écoutent et nous parlent seront bientôt partout. Pour les géants de la technologie, la commande vocale devrait devenir bientôt la modalité principale de nos connexions permanentes. Produits en masse, peu chers, de plus en plus petits, les micros vont s’immiscer partout. La division électronique de Samsung envisage d’équiper tous ses appareils (de la télévision aux frigos…) de micro d’ici 2020 ! Demain !
La poubelle à commande vocale de Simple Human s’ouvre à la demande (« Poubelle ouvre-toi ! ») et se ferme toute seule quand l’utilisateur s’éloigne. Cette poubelle n’envoie pas de données d’utilisation à son fabricant quand vous l’utilisez, mais il n’est pas sûr que ce ne soit pas le cas de bien d’autres produits à venir qui utiliseront la commande vocale. Car l’enjeu est bien de développer des commandes de plus en plus complexes, ce qui justifie pour beaucoup de constructeurs d’accéder aux données des utilisateurs et de pouvoir faire des mises à jour du système. Des solutions qui ne s’annoncent pas très respectueuse de la vie privée des utilisateurs, contrairement aux solutions d’intelligence artificielle embarquée telles que promues par Snips.

La chercheuse Kate Crawford (@katecrawford), cofondatrice de L’AI Now Research Institute, et Vladan Joler (@thecreatureslab), directeur de Share Labs Foundation ont récemment disséqué Echo, l’assistant vocal d’Amazon, se demandant s’il était possible de faire une cartographie anatomique d’un système technique.

Les chercheurs soulignent que rien dans l’interface ne permet de deviner le réseau qui sous-tend l’enceinte connectée. La vidéo promotionnelle d’Echo par exemple indique simplement que la gamme de ce qu’on peut demander à son enceinte est toujours en expansion. L’échelle des ressources requises pour faire fonctionner la commande vocale est bien plus vaste que ce qu’il faudrait à un être humain pour accomplir la même action, comme d’éteindre ou d’allumer des lumières, expliquent les deux chercheurs à The Verge.

Reste que passer d’un outil à commande vocale à des centaines d’objets domestiques qui obéissent à la voix est un scénario plus inquiétant qu’autre chose, qui promet d’aller un cran plus loin dans l’enfer de la maison intelligente. Plein d’appareils peuvent alors répondre à des commandes qui ne sont pas pour eux ! Simple Human admet que sa poubelle peut parfois s’ouvrir spontanément en réponse à un bruit de fond. Même l’Echo d’Amazon se réveille quand il n’est pas nécessaire, et peut mal interpréter les bavardages familiaux (ou des commandes inaudibles aux humains) comme une directive pour déclencher des messages apparemment aléatoires. Comment gérer tous ces appareils avec des invites vocales (du type « Ok Google ! », « Alexa ! »…) dont les noms de lancement pourront être personnalisés ? Si nous avons peut-être passé le pic de la consultation sur écran comme le pointait Farhad Manjoo dans le Wall Street Journal, pas sûr que les interfaces vocales soit une solution de reconquête attentionnelle.

Mais surtout, pourrait-on compléter, nos meubles et gadgets ne finiront-ils pas par nous épuiser à force de devoir leur parler ? La commande vocale et son corollaire, l’écoute, nécessitent une attention bien plus captive encore que nos écrans dont nous ne cessons pourtant de nous plaindre. Comme le dit le chercheur Olivier Ertzscheid, « les assistants vocaux nivellent l’ensemble du spectre des « récits de vérité » pour le ramener à la seule dimension d’une rationalité sèche ». Les réponses des assistants vocaux ne sont pas sans poser problème, et ce pas seulement dans le domaine commercial. Que doit répondre un robot à la question « Est-ce que le père Noël existe ? » ? Comme il le souligne encore : « dans quel cadre relationnel et avec quel niveau de confiance (technique) et de connivence (sociale) peut s’installer ce dialogue » avec les machines ?

Pour l’instant pourtant, nous n’en sommes pas encore là. La plupart de nos échanges vocaux avec ces machines en restent à des commandes d’actions, visant à lancer de la musique ou une information sur la météo rapporte CNBC.

Reste à comprendre ce que ces interfaces hyperattentionnelles vont produire si elles se généralisent. Comme le pointaient l’excellente interview de Moustafa Zouinar et Julia Velkovska d’Orange Labs sur le Linc de la Cnil, la promesse de fluidité de la conversation est loin d’être atteinte. Elles demandent beaucoup de travail et beaucoup d’attention à l’utilisateur pour que la machine le comprenne (consistant à reformuler les énoncés, à parler plus fort…). Reste également à comprendre les limites de leurs réponses et les enjeux qui recouvrent les choix que l’appareil fait par-devers l’utilisateur. Ces enjeux, à l’image des versions pour enfants qu’il est possible d’installer pour Alexa (Alexa FreeTime) ou du contrôle parental sur Google Home, posent enfin la question du contrôle des réponses que produisent ces systèmes (voir par exemple les réponses différentes que propose Alexa pour les enfants et Alexa traditionnel, sur la mort, sur le père Noël ou sur comment on fait les enfants…). Ces systèmes de surveillance continue, qui nous écoutent en permanence, qui nécessitent des interactions très engageantes, et qui produisent des réponses uniques, sans nécessairement beaucoup de complexité, et qui s’insèrent pourtant au coeur de nos interactions familiales, vont assurément soulever bien des défis de régulation.

À lire aussi sur internetactu.net