Economie de surveillance

Le Wall Street Journal a publié cet été une passionnante série d’articles sur la surveillance et le repérage des internautes, dont Jean-Michel Salaün à fait une synthétique et remarquable lecture sur son blog. Tant et si bien que nous avons décidé de vous la proposer…

Professeur à l’Ecole de bibliothéconomie et des sciences de l’information de l’université de Montréal et codirecteur d’une Introduction aux sciences de l’information parue dans la collection « repères » aux éditions La Découverte, Jean-Michel Salaün tient un blog exigeant sur l’économie du document qu’il destine à ses étudiants, mais également bien au-delà… Tant mieux, cela permet à plein d’autres internautes d’en profiter…

Le Wall Street Journal a publié cet été une série de cinq articles sur la surveillance et le repérage des internautes. Ces articles sont aussi importants par les informations qu’ils apportent, que par le statut du journal qui les publie.

Voici quelques notes et commentaires article par article. Attention, il s’agit de ma lecture et de mon interprétation des articles et non d’un compte-rendu fidèle, j’y ai ajouté commentaires, liens et réflexions de mon cru. Le sous-titre représente la principale leçon que j’en ai tirée.

L’économie souterraine du ciblage

Le WSJ s’intéresse dans cet article introductif signé Julia Angwin et intitulé « La nouvelle minde d’or du web : vos secrets » (“The Web’s New Gold Mine : Your Secrets”) aux logiciels espions.

Du côté technique, les initiés n’apprendront pas grand-chose. J’avais déjà rendu compte d’une enquête sur les mouchards des 50 sites les plus populaires des Etats-Unis. Le journal a fait une expérience similaire avec un ordinateur test. Il a constaté que les 50 sites les plus fréquentés ont déposé 3184 éléments de surveillance au total, la plupart du temps sans prévenir ; une douzaine de sites en a déposé plus de cent et Wikipédia aucun. Un petit tiers de ces mouchards se sont révélés inoffensifs, par exemple ceux nécessaires pour se rappeler son mot de passe.

Mais les logiciels espions ne s’en tiennent pas à des cookies et sont de plus en plus sophistiqués. Certains, par exemple, suivent ce que font les gens en temps réel et évaluent instantanément le lieu, les revenus, les comportements d’achat et même l’état médical des internautes. Certains se réimplantent automatiquement quand les usagers cherchent à s’en débarrasser, notamment en profitant des fonctionnalités de Flash d’Adobe. Reste que la relation entre les profils et les noms des personnes n’est pas faite. Les profils sont, en toute rigueur, ceux des machines des utilisateurs.

Plus inédits sont les éléments, même partiels, donnés sur cette économie. Les profils des individus ainsi recueillis, constamment actualisés, sont achetés et vendus sur une sorte de bourse qui a pris son envol dans les derniers 18 mois. Le journal a ainsi identifié plus de 100 sociétés d’intermédiaires en concurrence sur les données comportementales et d’intérêts des individus. Parmi celles-ci la société BlueKai surveille, par exemple, les visiteurs de eBay.com ou de Expedia.com en temps réel et ces données sont revendues sur son site. Plus de 50 millions d’informations sur les habitudes de navigation des internautes sont vendues chaque jour à 1/10 de centime de dollars pièce. On considère que la publicité ciblée a fait un chiffre d’affaires de 23 milliards de dollars l’année dernière.
Ces données peuvent être une rentrée supplémentaire pour des sites qui ne peuvent se financer complètement par la vente d’espace publicitaire. Il semble néanmoins que – naïfs, inconscients ou complices passifs ? -, nombre de sites ne sont pas au courant des logiciels espions qu’ils transmettent et qui sont initiés par des entreprises-tiers d’un nouveau genre, où règnent en maître les statisticiens. Par ailleurs, si aux États-Unis l’utilisation des cookies est réglementée, les autres logiciels espions – bien plus intrusifs -, ne le sont pas… Enfin, pas encore.

In fine, l’objectif est, bien sûr, de cibler au plus près le consommateur. Voici trois citations illustratives de l’objectif des responsables de ces sociétés : « Les annonceurs veulent accéder aux personnes, pas aux pages web » ; « Quand une publicité est correctement ciblée, elle cesse d’être une publicité pour devenir une information importante » ; « Nous dirigeons les gens vers différentes files de l’autoroute ». Mais, cette détermination a des limites. Il n’est pas sûr que nous voulions rester toujours dans les mêmes rails et nous sommes, comme tous les humains, heureusement versatiles.

L’importance du navigateur et des choix techniques

Un important débat a eu lieu à Microsoft au moment de la mise au point de Internet Explorer 8 entre les ingénieurs et les responsables de la stratégie, explique Nick Wingfield dans « Quand Microsoft annule ses efforts pour stimuler la vie privée en ligne » (“Microsoft Quashed Effort to Boost Online Privacy”). Les premiers avaient imaginé un navigateur qui protégeait par défaut la vie privée des internautes en les prévenant des logiciels intrusifs et leur donnant la possibilité de les bloquer. Mais suite à des pressions internes de nouveaux recrutés issus de la publicité sur le web et de la consultation des représentants de cette branche, la tendance a été renversée, rendant quasi impossible cette protection, qui n’existe plus par défaut et qu’il faut réenclencher à chaque ouverture du navigateur.

L’épisode est intéressant à double titre. D’une part, il illustre combien la logique économique du web est radicalement différente de celle de l’économie classique des logiciels, culture initiale de MSN, et repose exclusivement sur la publicité ciblée. D’autre part, il montre le rôle essentiel dans cette économie du navigateur dont les choix techniques ne sont pas gravés dans le marbre.

MSN, malgré tout, cherche encore à se démarquer de ses concurrents sur le web en appliquant une politique plus rigoureuse sur les données qu’il collecte, comme le montre cet article du journal de la firme.

L’épisode peut aussi faire réfléchir à la stratégie de Mozilla avec Firefox, drapé dans la vertu du logiciel libre, mais ne défendant pas mieux les données privées…

Cellulaire ou mobile

En Amérique du Nord, on dit « téléphone cellulaire », en Europe « téléphone mobile », ou plus rapidement cellulaire et mobile. La différence sémantique est ironique : l’un insiste sur le repérage, le quadrillage voire l’enfermement, tandis que l’autre pointe la liberté, le déplacement. Sans doute, il s’agit de l’envers et du revers d’une même médaille, mais le pile et le face sont pour le moins contrastés. Une même technologie, un même service sont désignés selon les continents par des qualificatifs opposés. Ici, je garderai « cellulaire », plus représentatif des propos de Justin Scheck dans “Stalkers Exploit Cellphone GPS” (« Quand les harceleurs exploitent le GPS des mobiles ») pour le WSJ. Les compagnies de téléphone savent, en effet, où se trouvent leurs abonnés à trente mètres près.

L’article met en balance deux conséquences de ce repérage : d’un côté, il indique la possibilité de repérer des victimes d’accidents ou de délits ou encore de sécuriser le déplacement des enfants, ce qui justifie officiellement la réglementation américaine d’installation d’une puce GPS dans tous les téléphones cellulaires ; mais de l’autre, il insiste surtout sur les dangers du harcèlement et de la surveillance domestique, multipliant les exemples de femmes battues, retrouvées par leur mari grâce au traçage familial de leur téléphone portable proposé aux abonnés d’un cellulaire. En réalité, les enjeux me paraissent ailleurs : sur la surveillance policière ou le contrôle social d’un côté, sur la publicité contextualisée, de l’autre.

Un chercheur d’une société de sécurité informatique, Don Bailey d’ISec Partners, a montré qu’il suffisait du numéro de cellulaire d’une personne, d’un ordinateur et de quelques connaissances sur la technologie des cellulaires pour être capable de surveiller n’importe qui. Pour les paranos ou les incrédules, toutes les explications du chercheur sont accessibles en ligne (.pdf). Il y explique comment il est possible de savoir : qui vous êtes, qui sont les membres de votre famille, vos amis, vos collègues, où vous êtes, où ils sont, ce que vous êtes probablement en train de faire, pourquoi… et ce que vous allez probablement faire ensuite.

Anonymat et personnalisation

L’article d’Emily Steel et Julia Angwin, “On the Web’s Cutting Edge, Anonymity in Name Only” (« A la limite du web, l’anonymat ne réside plus que dans le nom »), donne une illustration concrète de ce qu’il est possible aujourd’hui de faire avec les données collectées. Il prend l’exemple de la société (x+1) qui a trouvé son modèle d’affaires en 2008 après de nombreux déboires et changements.

En utilisant les bases de données construites comme indiqué dans le premier article, la société est capable instantanément de donner le profil de consommation de n’importe quel internaute. Ils n’ont pas a priori son nom, mais croisent les références des données avec des bases de données de propriétaires, des évaluations de revenus, de statuts… En utilisant les probabilités, ils font des hypothèses sur les penchants de l’internaute. Le directeur de la société indique : « Jamais, nous ne savons rien sur une personne ».
Sans doute, il leur arrive de se tromper, mais leurs propositions sont suffisamment fiables pour qu’ils aient trouvé un marché auprès des vendeurs de cartes de crédit qui évaluent ainsi en temps réel la fiabilité de leurs nouveaux clients. Comme le dit le journaliste : « en résumé, les sites web ont gagné la possibilité de décider si vous serez un bon consommateur ou non, avant même que vous ne leur disiez quoi que ce soit sur vous-même ». Les conseils d’Amazon à partir de leur base de données maison sont largement dépassés. Ces techniques ouvrent la possibilité de construire un commerce personnalisé où produits, services ou même prix sont proposés selon le profil de chacun.

La préservation de l’anonymat est toute relative et, par ailleurs, même si ces sociétés disent ne pas faire de discrimination selon les genres, les profils ethniques, les handicaps qui tombent sous le coup de la loi, de tels profilages peuvent conduire facilement à des dérives éthiques. Ainsi, comme le titre de l’article l’indique, cette économie du web est limite.

Contextuel ou comportemental

Le dernier article, celui de Jessica E. Vascellaro “Google Agonizes on Privacy as Ad World Vaults Ahead” (« La lutte pour la vie privée chez Google, où comment le monde de la pub passe devant »), est celui qui m’a le plus intéressé. Il s’appuie sur un document interne de la société, un Brainstorming qui montre les hésitations de Google pour l’exploitation des données qu’il récolte sur les internautes face à la montée de la concurrence. De par sa domination sur le marché de la publicité en ligne, la position de Google est déterminante à la fois vis-à-vis de ses concurrents et aussi vis-à-vis de l’évolution de la réglementation que chacun sent proche.

La firme détient par son moteur la plus grosse base de données sur les intentions des internautes, mais a résisté jusqu’à présent à surveiller ces derniers sans leur consentement, notamment pour préserver son image. Le savoir-faire de Google est d’abord contextuel : il repose sur une expertise de traitement des textes, aussi bien les requêtes des internautes que les documents publiés sur le web, et non comportementale, c’est-à-dire sur une connaissance des réactions des personnes. Cette dernière expertise est plutôt celle de FaceBook ou des jeunes firmes présentés dans les autres articles de la série. D’un côté, on pourrait dire qu’on a une expertise linguistique, de l’autre une expertise sociologique. C’est aussi dans ce contexte que l’on peut relire le slogan don’t be evil : on peut chez Google manipuler les mots, pas les personnes. Les débats internes à Google sur l’utilisation des cookies par exemple sont très vifs et ne sont pas sans rappeler les débats de MSN présentés dans un précédent article de la série. Dans les deux cas, le dilemme est le même : comment préserver la culture de l’entreprise tout en faisant face à la concurrence ?

Une animation très claire, qui accompagne l’article, montre combien aujourd’hui les données engrangées sont nombreuses, recueillies par divers services de Google et sont encore cloisonnées pour leur exploitation publicitaire. Reste que l’article ne dit pas à quoi sert l’important stock de données collectées en dehors d’une utilisation pour la publicité, par exemple par la barre d’outils de Google.

googledata Suite notamment à l’achat de Double-Click en 2007, à la montée de la concurrence (dont Facebook), il semble que la position de la firme a évolué sur le cookies. D’ailleurs, l’enquête déjà citée montrait que Google est très présent dans la surveillance. Une stratégie pour sortir du dilemme par le haut serait de devenir une bourse d’échanges de données ou une régie de publicité comportementale ciblée.

Jean-Michel Salaün

Cet article a été publié à l’origine sur le blog de Jean-Michel Salaün.

À lire aussi sur internetactu.net

0 commentaires

  1. La partie concernant l’article “On the Web’s Cutting Edge, Anonymity in Name Only” est intéressante, allant plus loin que l’agitation (nécessaire) de Facebook et Google en épouvantails. Ces acteurs sont importants, mais ont des utilisateurs directs qui retourneront peut être leur veste (avec un peu d’aide).

    Les acteurs plus souterrains auquels nous n’avons pas d’accès direct me semble au moins aussi préocuppants. Un de ceux là, dont on ne parle jamais est akamai qui cache les données de millions de sites pour les servir plus rapidement grace a des serveurs répartis à travers le monde (internet n’a pas totalement aboli l’espace).

    Les sites servis par akamai vont bien au dela des sites contenant de la pub, pensez à OpenCourseWare, aux sites de banques, etc.
    http://en.wikipedia.org/wiki/Akamai_Technologies
    http://www.akamai.com/html/customers/

    Cela leur permet d’avoir une base de données impressionante de comportement allant qui va au dela des sites avec mouchards, tout se passant côté serveur et de manière transparente. Les appels aux serveurs d’akamai peuvent être eux même invisibles du genre images.apple.com qui en fait est controlé par akamai (c’est un exemple, apple utilise akamai, mais je ne suis pas que ce soit de cette manière en particulier).
    Une image pour expliquer http://en.wikipedia.org/wiki/File:Akamaiprocess.png

    Ils offrent un service de publicité descriptive et prédictive :
    http://www.akamai.com/html/solutions/ads_predictive_segments.html

  2. Merci Aurélien pour cette remarque et ces infos importantes.

    Je crois en effet qu’il faudrait mieux comprendre cette économie souterraine du web qui est en train de se consolider. Un analyste, Craig Labovitz, a montré récemment que le trafic global d’internet s’était considérablement concentré en quelques années.
    Aujourd’hui, par exemple, seulement 150 fermes de serveurs (ASN) font 50% du trafic (contre 30.000 en 2007)..

    Un bref cr et les liens sont ici : http://blogues.ebsi.umontreal.ca/jms/index.php/post/2009/12/18/Quelle-richesse-des-r%C3%A9seaux