La voix, interface ultime ?

Pour obtenir ce que vous voulez d’un service client par téléphone, il vaut mieux montrer son émotion que la retenir, explique Noreen Seebacher (@writenoreen) pour All Analytics (@allanalytics). La colère, l’indignation et les larmes fonctionnent mieux que la raison.

On se demande souvent à quoi sert l’enregistrement des conversations que l’on est contraint d’accepter lorsqu’on appelle un service client… Et bien certains centres d’appels les utilisent pour étudier les interactions vocales entre clients et téléopérateurs. Nice Systems développe ainsi un programme d’analyse automatique de la voix pour traiter plus efficacement les réclamations des utilisateurs. Des logiciels de ce type aident à mesurer l’humeur du client en temps réel afin de proposer des options au téléopérateur pour restaurer la relation. Nice Systems par exemple réagit à des mots clefs pour déclencher des contre-mesures : dire des obscénités, se mettre en colère ou faire référence à des concurrents déclenche ainsi des alertes (notamment l’intervention d’un superviseur) pour désamorcer la colère du client et éviter de le perdre. Selon une étude du SQM Group, lorsque les problèmes des clients sont résolus au premier appel, seulement 1 % des clients sont susceptibles d’essayer la concurrence, contre 15 % lorsque leur problème n’est pas suffisamment pris en compte. L’analyse automatique de la parole est devenue un investissement ordinaire dans les Centres d’appels, rapporte une autre étude.

Après la commande vocale

siriAlors que les systèmes de reconnaissance vocale commencent à envahir notre quotidien, notamment avec Siri ou Voice Search intégré au navigateur Chrome de Google (et demain à tous les produits Google, des lunettes à la voiture), la prochaine frontière de l’analyse de la voix n’est plus dans la reconnaissance vocale ou la commande vocale, mais s’est déjà déplacée à la compréhension de l’humeur.

Beyond Verbal a ainsi développé une technologie qui cherche à reconnaître votre humeur juste en écoutant le son de votre voix, rapporte la Technology Review. L’idée est d’analyser le ton de la voix pour en déduire l’état émotionnel de votre interlocuteur afin de permettre aux interfaces de demain de s’y adapter (voir la vidéo promotionnelle explicative). Beyond Verbal estime être capable d’analyser la modulation de la voix et se dit capable de détecter l’émotion d’un interlocuteur avec 80 % de précision.

Pour Clifford Nass, le spécialiste de l’interaction homme-machine, auteur de Câblés pour le langage : comment la voix active et augmente la relation homme-machine et de L’homme qui mentait à son ordinateur : ce que les ordinateurs nous apprennent des relations humaines, s’il est possible d’utiliser des machines pour détecter certaines formes d’émotions dans la voix, aucune technologie pour l’instant n’est aussi aboutie que l’esprit humain, d’autant que la tonalité est parfois très difficile à interpréter, notamment selon la langue et la culture employée. L’informatique affective n’est pas si accessible. Pour James Lester, responsable du groupe IntelliMedia à l’université de Caroline du Nord, spécialiste de l’informatique affective, visiblement si Beyond Verbal parvient à peu près correctement à identifier certaines émotions, le logiciel a plus de mal à dire si ces émotions sont positives ou négatives.

Pour progresser, ces systèmes utilisent l’enregistrement de discours et dialogues disponibles en ligne, notamment pour en comprendre les intonations, les pauses, les interjections, rapporte le New York Times. Ron Kaplan de Nuance Communications, l’éditeur des suites logicielles de reconnaissance vocale Dragon, travaille depuis longtemps à rendre la compréhension de nos propos plus fluides, mais selon lui, là encore, l’analyse de sentiment va apporter une nouvelle forme de connaissance, augmenter notre intelligence émotionnelle, nous permettant par exemple de mieux entendre quand quelqu’un nous nous ment. Neville Chamberlain croyait-il à son accord avec Hitler quand il fait son discours suite à la signature des accords de Munich en 1938 ? Est-ce que l’analyse temps réel des discours politiques (comme Beyond Verbal le propose en analysant une des séquences du débat entre Obama et Romney) ou des propos de vos collègues ou de vos supérieurs nous apporterons une nouvelle connaissance ? « Qu’est-ce qui est préférable pour nos coeurs et nos esprits, le théâtre de la politique ou la déférence à l’algorithme ? »

Mais la voix ne servira pas qu’à cela… Elle servira également à vous identifier. Nuance a ainsi lancé un produit capable d’identifier quelqu’un en une quinzaine de secondes juste en discutant de la pluie et du beau temps avec lui.

Mais la voix « est appelée à se déplacer dans des utilisations où elle n’avait jamais servi jusqu’à présent ». Des applications pour poster des conversations sur Facebook, pour créer des retranscriptions d’appels comme le propose Tropo… Les constructions sociales pour l’enregistrement audio omniprésent sont à inventer, estime Jason Goecke de Tropo, qui évoque le concept d’Hypervoix pour évoquer les nouveaux enjeux de la voix. Récemment, le Consortium Hypervoice a été lancé pour créer des normes et des pratiques pour gérer la façon dont nous allons passer de la voix éphémère à la voix permanente.

hypervoice

Comme l’exprime leur manifeste, « les conversations vocales de demain ne doivent pas seulement porter nos voix à distance, mais être capables d’amplifier nos pensées, nos actions et intentions dans l’espace et le temps ». Pour cela elles doivent permettre d’accéder au contexte, d’être reliées entre elles, d’être accessibles… Pour Martin Geddes, le responsable du consortium, la voix est l’interface de demain. Selon lui, les cinq caractéristiques de l’hypervoix sont :

  • l’intégration du flux d’activité, c’est-à-dire le fait de « relier ce que nous disons avec ce que nous faisons », comme par exemple renouer notre journal d’appel à leur enregistrement ;
  • pour cela, il faut que nos activités audio soient enregistrables… Mais cet enregistrement n’est pas seulement un contenu, il doit également être augmenté de données pour savoir qui parle, où, de quoi… ;
  • les conversations doivent devenir partageables ;
  • les conversations doivent s’intégrer au flux de travail ;
  • enfin, elles doivent être cherchables que ce soit par la transcription ou l’étiquetage des contenus ou de leurs métadonnées.

Pour comprendre le principe, le mieux est pour l’instant de regarder certains des projets des partenaires du consortium, comme le Symposia de la société Harquen, une solution de téléconférence qui permet d’étiqueter le contenu audio d’une conférence téléphonique pour en souligner les moments importants et pouvoir s’y référer si besoin (vidéo), ou VoiceBase, qui permet de chercher et partager des contenus audios ou vidéos, tout comme CallTrunk. Mais l’exemple le plus étonnant vient peut-être de MindMeld, une application de messagerie instantanée dotée d’un assistant intelligent qui « comprend » ce que vous dites et augmente vos conversations d’images ou de liens… relatifs à vos propos (voir la vidéo).

Effectivement, ce dernier exemple ouvre quelques nouvelles perspectives quant à l’utilisation de la voix. Faire apparaître à vos interlocuteurs le site web, la vidéo ou l’image dont vous parlez au moment où vous en parlez… plutôt que de devoir prendre le temps de les chercher cela change les choses. Encore faut-il que le système soit relativement fiable. Mais on peut légitimement penser qu’avec un peu de contexte et d’entrainement, il ne peut que progresser…

Hubert Guillaud

À lire aussi sur internetactu.net

0 commentaires

  1. Il faut bien reconnaitre tous les efforts pour développer de nouvelles technologie et interfaces sont orientées vers l’indépendance de la machine. Le but étant d’éviter tout contact avec l’interface. Ainsi on voit les grosses firmes investir dans la reconnaissance de mouvements, de couleurs, d’odeur, et là de voix.
    L’interface sera t-elle assez intelligente pour nous reconnaitre avec une voix enrouée, fatiguée ?

  2. Avec l’arrivée de l’internet des objets l’ergonomie change et il faut renouveler nos modes d’interactions avec la machine.

    C’est un peu l’objectif du projet SARAH (http://encausse.net/s-a-r-a-h) qui introduit aussi la reco gestuelle et faciale car effectivement il faut utiliser tous nos sens.

    Typiquement réveiller toute la maison à minuit en disant « SARAH éteint les lampes » c’est pas top 🙂

  3. L’atout clé de la voix en matière d’interface est de pouvoir être utilisé sur des terminaux extrêmement miniaturisés