La cage de verre : de quoi nos gestes seront-ils l’interface ?

Le 15 octobre 2013, le gouvernement américain a accepté de breveter des gestes, rapporte Engadget. Oui, des gestes… Un geste de la main censé désigner quelque chose d’important ou quelque chose auquel on tient : le fait de faire un coeur avec ses doigts. Un brevet déposé par Google pour faciliter le fonctionnement de ses lunettes, les fameuses Google Glass (Wikipédia et son actualité sur Google+). Faire un tel geste devant ses lunettes sera reconnu par l’appareil et déclenchera une fonction, comme faire une photo et la mettre en favori par exemple… Un moyen d’indiquer simplement qu’on apprécie l’objet, le service ou la personne qu’on a devant soi. Un autre geste répertorié par le brevet consiste à dessiner un cercle du doigt pour sélectionner une partie du paysage que l’appareil prendra en photo et isolera. Un autre encore consiste à dessiner un cadre avec ses doigts pour prendre une photo…

Image : dessiner un coeur avec ses doigts, image extraite du dépôt de brevet de Google.

Bien sûr, le brevet sur ces gestes ne signifie pas que vous devrez demander une permission chaque fois que vous le ferez… Mais il signifie que les autres dispositifs techniques du même type ne pourront pas utiliser ces gestes pour déclencher des fonctions similaires. Bel exemple de Copyright madness cher à Lionel Maurel et Thomas Fourmeux.

Les instructions des Google Glass comportent d’ailleurs plusieurs types de gestes particuliers qui déclenchent des fonctions, à l’image du réveil avec la tête, consistant à lancer sa tête vers le haut pour rallumer le système. Mais nul ne précise si, quand vous vous endormez, le système s’endort également…

La cage de verre : vers le panoptique personnel

Pour Nicholas Carr, qui a annoncé travailler à un nouveau livre, The Glass Cage : automation and us (qu’on pourrait traduire, mot à mot par « les lunettes cages, l’automatisation et nous », mais on lui préférera « la cage de verre »), l’un des défis des dispositifs comme les Google Glass est l’absence d’interface. Nos ordinateurs ont des claviers et des souris. Nos tablettes et smartphones sont tactiles… Mais comment envoyer des instructions à un ordinateur quand il prend la forme de simples lunettes ? Comment déclencher des fonctions ? Comment déplacer ses mains, sa tête, son regard, lui parler ? Les lunettes disposent d’un capteur de mouvement, mais à quoi réagit-il ? Il y a plein de manières de secouer la tête ou de faire des gestes des doigts… Lesquels saura-t-il reconnaître ?

L’arrivée des Google Glass a suscité de vives inquiétudes sur les risques que les possibilités documentaires de l’appareil pourraient faire peser au respect de la vie privée. Mais pour l’instant, plus que de nouvelles little sisters (cette sousveillance, ce pendant décentralisé au panoptique du Big Brother), on trouve surtout des gens qui font des gestes étranges avec leur tête, qui regardent ailleurs plutôt que leurs interlocuteurs… Comme si les lunettes nous plongeaient dans une vallée de l’étrange de l’interaction, où la superposition d’une double interaction (celle avec ses interlocuteurs et celle avec les lunettes) semblait rendre les premiers utilisateurs parfaitement schizophrènes. En effet, alors que nos smartphones, comparativement, semblent encore doués de capacité à nous socialiser, ce ne semble plus être le cas des lunettes. Si les téléphones nous amènent souvent à ignorer le monde alentour, ils savent aussi nous regrouper pour partager quelque chose que l’on peut montrer à l’écran par exemple. Une chose impossible avec les lunettes, expliquait Emily Nussbaum pour le New York Times, après en avoir fait l’expérience du port de lunette en couple. Les lunettes dressent autour de leur utilisateur un « panoptique privé », une cage de verre.

Image : l’inénarrable Robert Scoble et ses Google Glass : mais qui regarde-t-il vraiment ? Image extraite du Tumblr critique, hommes blancs portant des Google Glass.

Nous sommes le dispositif d’entrée

Les Google Glass transforment le corps humain en dispositif d’entrée d’ordinateur, souligne Carr. La Kinect n’était qu’une caméra fixée vers l’utilisateur, alors que les lunettes de Google sont une caméra mobile pointée vers le monde, fixée vers l’extérieur, superposant son regard à celui de l’utilisateur. « Avec les Google Glass, notre regard devient le curseur ». Ce que l’on regarde, le monde, devient un ensemble de données qui peut être manipulé à la fois par le regard et par des gestes de la main. « Alors que la réalité virtuelle nous a fourni une simulation du réel qui est resté séparé de lui, les lunettes transforment le réel en une simulation de lui-même. » Comme si, en chaussant ces lunettes, nous portions la société de simulation toujours un cran plus loin.

Image : photogramme du site de Google consacré aux Google Glass montrant comment les lunettes ajoutent des sens à ceux qui les portent.

« Sous le slogan trompeur de l’augmentation de la réalité, nous sommes prêts à subir une réduction de la réalité, transformant le monde en écran d’ordinateur et éloignant ses richesses sensorielles toujours plus loin », conclut Carr. En minorant peut-être un peu trop rapidement le fait que la stimulation sensorielle est en fait bien réelle. Les lunettes de Google visent à augmenter notre regard, à lui donner des capacités qu’il n’avait pas jusqu’alors, à nous doter de sens dont nous étions dépourvus, à surstimuler notre attention… Les Google Glass nous transforment en super héros comme le montre très bien la vidéo promotionnelle de Google. Augmenter nos sens réduit certainement la réalité, mais vise surtout à augmenter notre perception, notre être au monde. Et plus encore notre être aux autres… Pas tant avec les gens avec lesquels nous interagissons directement qu’avec ceux qui nous suivent à distance, ceux auxquels le regard de nos yeux est destiné.

Documenter nos gestes…

Pas si simple de faire comprendre quelle fonction déclenche tel ou tel geste. On se souvient des travaux de Timo Arnall notamment visant à créer des icônes pour expliciter les fonctionnalités des puces sans contact. Il y a quelques années, le designer Dan Saffer et quelques autres avaient proposé un manifeste pour mieux comprendre la grammaire des mouvements, visant à identifier les fonctions de nos gestes, à les documenter pour créer des fonctions gestuelles communes aux outils qui les reconnaîtront… Le wiki créé à l’occasion a disparu. Chez Nokia Youghee Jung a longtemps travaillé à un esperanto des gestes pour trouver un geste internationalement acceptable pour rendre simplement silencieux sont mobile quand il sonne (cf. « La généralisation du téléphone mobile transforme-t-elle les comportements ? »).

Aujourd’hui, de nouvelles initiatives succèdent aux premières. La dernière en date est peut-être celle de David Way, doctorant au laboratoire des environnements sensibles du Media Lab du MIT, qui a développé un système permettant aux Google Glass de reconnaître nos gestes, explique le New Scientist. Son système permet ainsi de faire semblant de tapoter sur un clavier afin que les lunettes reconnaissent les mots que l’on cherche à écrire, sur le principe du projet Digits de Microsoft Research (vidéo). Pour cela, David Way a installé un capteur capable d’interpréter la profondeur des gestes dans un dispositif qu’il attache à son poignet. Ce système permet de construire un modèle informatique personnalisé selon la manière dont il accomplit certains gestes et d’attribuer des fonctions spécifiques à chacun. Bien sûr, revenir à taper sur un clavier imaginaire n’est pas le but du système développé par David Way, et ce d’autant plus que la reconnaissance vocale intégrée aux Google Glass permet de se passer très bien du clavier. Mais les petits gestes de la frappe de clavier sont autant de petits mouvements qu’on peut retenir et exécuter facilement pour déclencher des interactions par exemple. Car le but de David Way est de proposer une interface personnalisable, ou chacun pourra programmer les fonctionnalités de ses gestes.

Vidéo : Digits de Microsoft Research, présenté par l’émission Gamespot.

Les développeurs traquent les moyens d’augmenter les relations aux lunettes de réalité augmentée de Google, comme l’entreprise 3DIM, qui a développé logiciel de reconnaissance de geste, qui intégré aux caméras, permet de reconnaître les mouvements faits devant elle et de déclencher des actions en réponse (vidéo). Ici, le système est plus modique et plus simple, mais moins précis. Il est capable de lire une lettre que vous dessineriez dans les airs pour rechercher dans un plan des éléments qui commencent par cette lettre par exemple, mais pas de suivre des gestes trop précis. Google lui-même s’intéresse à la reconnaissance des gestes, comme le montrent les brevets déposés. La firme a également racheté Flutter, un système qui fonctionne avec une simple caméra capable de contrôler des applications médias par gestes.

Vidéo : le fonctionnement de l’interface de 3Dim.

Mais l’avenir des lunettes sera-t-il de reconnaître nos gestes ? Ou seulement ce sur quoi porte notre regard, à l’image de l’outil de surveillance du regard que le développeur Brandyn White cherche à intégrer à ses lunettes (vidéo). Couplé à un outil capable de reconnaître non seulement les visages – même si Google a annoncé qu’il ne permettrait pas d’applications de reconnaissance faciale sur les Google Glass – mais surtout les objets que vous regardez, on referme alors le panoptique sur lui-même. A l’image du système développé par la société spécialisée dans l’apprentissage machine, AlchemyAPI qu’évoquait il y a peu Tom Simonite pour la Technology Review. Un système de reconnaissance d’image capable de reconnaître en quelques secondes un objet ou une plante par exemple tout en donnant un taux d’erreur de son appréciation (vidéo). Bref, un système de connaissance pour nous aider à mieux lire le monde extérieur.

Vidéos : le fonctionnement du l’interface de Brandyn White et celle d’AlchemyAPI.

Reste qu’il n’est pas certain que nous aider à comprendre le monde soit l’objectif premier des lunettes. Selon un brevet déposé par Google en 2011, les lunettes devraient surtout servir à observer si vous regardez bien la publicité qu’on vous propose… (même si, pour l’instant, les Google Glass proscrivent toute forme de publicité, ce qu’il faut plutôt lire comme « Google se la réserve pour lui-même »). En un mot, à mesurer votre attention ! A savoir ce que vous regardez. Les prothèses de l’informatique qui se porte – ou plutôt ces orthèses, ces appareillages qui compensent une fonction absente, pour reprendre une distinction du chercheur en science de l’information Olivier Ertscheid – n’ont pas seulement pour fonctionner d’augmenter nos capacités, mais bien de les mesurer, d’identifier les motifs qui sont les nôtres pour y afficher des informations contextuelles et mesurer leur apport, notre réaction, notre niveau de stimulation. Notre regard n’est pas seulement le curseur, il devient aussi « l’agent calculatoire » du monde, celui qui permet de mesurer notre rapport au monde, mais celui qui permet également au monde de se mesurer et s’adapter à nous.

A la recherche du bon geste

Contrairement à ce que semble penser Google en déposant un brevet sur un geste, c’est oublier un peu vite, qu’au contraire, comme l’a montré le succès du tactile, celui-ci repose sur des grammaires qui doivent être partagées massivement et rapidement pour être adoptées, tous les gestes cachés ne prennent pas nécessairement. Au contraire, seuls quelques-uns vont se répandre partout et devenir l’alphabet de nos interactions physiques… C’est la simplicité d’un geste qui répond à une fonction qui assure son succès. D’où l’échec de nombreux gestes quand ils ne sont pas ceux que nous avons déjà adoptés, à l’image de ceux proposés par le modèle tactile de Blackberry.

Rachel Metz pour la Technology Review ne disait pas autre chose quand elle revenait cet été sur la relative déception du lancement de Leap Motion, ce capteur de mouvement pour ordinateur. En effet, le succès de Leap Motion, ce petit capteur qui permet d’interagir avec les mains sur n’importe quel ordinateur, n’a pas été à la hauteur du battage médiatique dont il a fait l’objet. Depuis sa sortie, les critiques ont été nombreuses, pointant à la fois la difficulté à contrôler précisément les applications, leur faible nombre, et la fatigue musculaire à utiliser ce système pour des ordinateurs qui ne sont pas conçus pour ce type d’interaction. Pas si simple en effet d’inventer des commandes de mouvement que les utilisateurs doivent pouvoir comprendre très facilement et intuitivement quand les standards de gestes n’existent pas. D’une application l’autre, la simple sélection d’un objet qui s’affiche à l’écran n’est pas la même. Au final, la grammaire sans limites des gestes s’avère plus déroutante qu’autre chose. Et Leap Motion de réfléchir à standardiser certaines interactions en travaillant avec les développeurs qui imaginent des applications à son dispositif.

Vidéo : vidéo promotionnelle de LeapMotion.

Pour conclure, Rachel Metz rappelle que si la souris et l’écran tactile ont été inventés dans les années 60, la souris n’a pris son envol commercial que dans les années 80 et les interfaces tactiles une bonne dizaine d’années plus tard. Le dictionnaire de nos gestes devrait donc prendre plus de temps que prévu… En tout cas, leur privatisation n’aidera certainement pas au développement des pratiques.

Le corps démuni

Accepterons-nous que notre corps devienne l’interface de nos gadgets ? Cligner de l’oeil pour prendre une photo ne risque-t-il pas d’être vécu comme particulièrement aliénant, s’interroge l’écrivain et cinéaste John Pavlus pour la Technology Review. « Nos corps ne peuvent pas devenir la marionnette de nos technologies, il faudra bien que ce soit l’inverse.

Google a annoncé qu’il ne permettrait pas à d’applications de reconnaissance faciale dans ses lunettes, tant que les moyens de protection de la vie privée ne seront pas mieux adaptés… Mais quels types de moyens de protection pourraient être mis en place face à ce type de technologie ? Jusqu’à présent, estime Joseph Jerome pour le Forum sur l’avenir de la vie privée, la règle voulait que si l’on vous prend en photo, vous deviez être au courant… (même si c’est une règle qui est loin de marcher dans toutes les situations). Mais cette règle ne permet qu’aux surveillés d’être conscients de la surveillance, pas de réagir, estime le spécialiste. Dans un rapport sur la reconnaissance faciale (.pdf), la Commission fédérale du commerce américain suggère que seuls les gens qui ont choisi de pouvoir être réidentifié par un programme de reconnaissance faciale puissent l’être, proposant par là une sorte d’opt-out qui pose plus de questions qu’il n’en résoud. Car comment pourrons-nous la mettre en place ? Tracer la ligne de démarcation des bons et mauvais usages des Google Glass risque d’être difficile, souligne avec raison Joseph Jerome.

Pourtant, pour l’ethnologue Jan Chipchase, auteur de Caché en pleine vue, la peur qu’inspire les Google Glass n’est qu’une nouvelle matérialisation de craintes qui existent déjà. Les lunettes ne sont qu’un objet pour discuter de ce qui distingue un comportement acceptable dans l’espace public et dans l’espace privé. Pour Chipchase, les lunettes ne devront pas seulement « éviter l’inattendu » comme l’a indiqué Google dans les principes de conception à destination des développeurs, mais elles devront également trouver le moyen de favoriser la transparence de proximité (c’est-à-dire permettre aux gens d’accéder aux enregistrements faits à proximité d’eux par exemple) et le contrôle de proximité (permettre aux gens de contrôler l’enregistrement fait). Pas si simple… d’inventer le robot.txt du monde réel, comme nous y invitait récemment John Battelle, c’est-à-dire l’équivalent pour les lunettes et la réalité qu’elles observent du code qui indique aux robots comment ils doivent se comporter avec les données d’un site qu’ils visitent.

John Battelle a raison pourtant. L’enjeu est bien d’esquisser un nouveau contrat social pour la société que nos nouveaux outils technologiques ne cessent de modifier…

Bienvenue dans la police du regard

Depuis le lancement des premiers prototypes, les Google Glass ne cessent de poser des questions, de générer une vive opposition contre l’idéologie qu’elles impliquent, à l’image de la campagne Stoppons les cyborgs. Des lieux et de plus en plus de lieux s’apprêtent à les bannir : casinos, cinémas, clubs… Mais elles interrogent également les actions que nous pouvons faire ou ne pas faire avec. Pourrons-nous conduire avec des Google Glass ? Pourrons-nous aller au musée ou lire un livre ? Ne vont-elles pas changer le statut juridique de la vision elle-même, comme s’en inquiétait le juriste Lionel Maurel. A qui appartiendra le spectacle même de la réalité ?

Image : le logo de la campagne « Stoppons les cyborgs ».

Après la police des schémas, celle qui surveille nos activités, nos comportements, nos gestes, nos déplacements… voici la police du regard, celle qui arrive jusque dans nos corporalités, qui nous dicte les mouvements que nous devrons faire, qui observe à notre place, qui traque jusqu’à notre attention… La cage de verre, oui. Celle qui nous transforme en super-héros sous-contrôle.

Hubert Guillaud

0 commentaires

gv dit :

28/11/2013 à 8:48

Les Google Glass ne sont-elles pas la fin plutôt que le début de quelque chose.
C’est une interface qui “ne joue“ que pour elle-même, qui ne permet pas de nouvelles choses à l’utilisateur (même si elle en permet à Google). Ce pourrait être une interface “pour chercheur“, mais on voit mal l’avantage que peut avoir un utilisateur à “apprendre un alphabet“ complexe au regard de ce que celui-ci lui donnera comme possibilités nouvelles.
Ce qui peut donner lieu à trois hypothèses pour le futur:
1/ les Google Glass sont un gadget
2/ elles sont une transition vers autre chose qui reste très problématique pour l’instant.
3/ elles formalisent le baroud d’honneur de quelque chose qui est sur le point de s’éteindre
Wait and see.
fm dit :

28/11/2013 à 9:35

Petite remarque : nos gestes servent avant tout à interagir avec notre environnement. Ils s’adressent à l’autre.
Dans le cas des lunettes G., le geste est dirigé vers soi-même.
Pierre dit :

28/11/2013 à 5:20

Je me demande si nous ne sommes pas en train d’atteindre les limites de l’acceptabilité sociale.

Par exemple, j’ai l’impression d’assister à la quasi-disparition des gens qui parlent tout seuls dans la rue: si cette impression est justifiée, cela voudrait dire que la société n’a pas voulu voir des technophiles branchés, mais des hurluberlus azimutés… Et pour les appareils commandés par gestes, ça risque d’être bien pire lorsqu’on est en public.

Pour qu’un nouveau code comportemental soit acceptable socialement, il faut que son utilité soit évidente au point de faire oublier son étrangeté – voire son ridicule – initiale. D’après ce que vous dites dans votre article, cela ne semble pas gagné…
Renaud DEFRANCE dit :

28/11/2013 à 6:12

Le seul fait de vouloir breveter des gestes en dit long… Cette mentalité est proprement désespérante! Nous avons tous intérêt à surveiller ça de très près: ils vont sûrement essayer de transformer ces exigences ubuesques en traité international primant sur les lois locales, comme ils l’ont déjà fait par le passé, via l’OMC, ou la négo trans-atlantique, par exemple. Que dis-je « surveiller » ?! Il faut leur taper sur les doigts tellement fort qu’ils seront trop heureux de se les foutre dans le c…
Arnaud dit :

06/12/2013 à 12:58

Le risque concerne également la surveillance de l’individu qui les a sur le nez : les lieux qu’il fréquente, les chose auxquelles il porte attention, ce qu’il lit, ce qu’il écoute, les personnes qu’il cotoie, l’utilité qu’il donne à ses lunettes… Bref tout un tas d’infos supplémentaires sur l’utilisateur, encore plus riches (?) que celles partagées sur Google+, facebook, votre iphone, etc…
Hubert Guillaud dit :

06/12/2013 à 9:46

@Arnaud. Pas sûr. Ces données là, Google les as déjà.

Mobilité (807)
Territoires (639)
Interfaces (616)
Médias (574)
Confiance et sécurité (531)
Economie et marchés (472)
eDémocratie (440)
Education et formation (419)
Innovation, RD (333)
Jeu (306)

(...)

Toute l'actualité des TIC

Notre selection de livres