Travail et travailleurs de la donnée

Par le 13/12/13 | 19 commentaires | 4,261 lectures | Impression

Comment les chercheurs en sciences sociales doivent-ils utiliser les gisements de données en provenance du web ? Transforment-ils si en profondeur la méthode scientifique ? Comment en extraire du sens tout en restant respectueux des données toujours plus personnelles des utilisateurs ?… Telles sont quelques-unes des questions de fond qui se posent aux chercheurs. Avec le lancement de l’enquête sociologique Algopol sur Facebook, une enquête sociologique qui cherche dans sa forme même une nouvelle forme de relation avec les enquêtés, Irène Bastard, Dominique Cardon, Guilhem Fouetillou, Christophe Prieur et Stéphane Raux proposent de poser les bases d’un nouveau contrat relationnel entre les chercheurs et l’objet de leur enquête : nous, les internautes. Voilà qui nous intéresse forcément !

A l’heure des discours euphoriques sur les promesses des big data, que peuvent faire les sciences sociales des données du web ? Doivent-elles, comme tant d’autres, se féliciter de l’apparition d’un nouveau gisement de données numériques et annoncer sans prudence que, sans qu’elles n’aient pourtant jamais rien demandé, le web est devenu le meilleur de leurs enquêteurs ? Détrônant les soigneux questionnaires, les archives difficilement exhumées, les méticuleux entretiens et les patientes observations, internet serait la nouvelle méthode de recueil des données, un geyser d’informations s’offrant sans réserve à l’avidité gourmande du chercheur. Il faut dire que le web-comme-enquêteur présente de nombreuses qualités. Il travaille bénévolement, il est très curieux et se montre bon archiviste. Beaucoup de chercheurs se sont réjouis de l’apparition de cette nouvelle source documentaire et il ne fait pas de doute que les données du web installent un nouveau contexte qui renouvelle en profondeur la fabrique de la recherche [01]. Elles le sont sans conteste pour beaucoup de travaux en informatique, en théorie des graphes ou en traitement automatique de la langue. Les corpus du web offrent de volumineuses bases de données qui nourrissent aujourd’hui des recherches très fructueuses [02]. Récemment une base de données de 3,5 milliards de sites comportant 128 milliards de liens hypertexte a ainsi été rendue publique pour encourager les travaux sur les algorithmes de recherche d’information, la détection des spams, et les dynamiques d’influence dans le graphe du web [03]. Mais qu’en est-il des travaux des sciences sociales ? Est-il si facile pour elles d’interpréter ces immenses bases de données ? Quels profits peuvent-elles tirer de ce flux d’informations dont elles ne contrôlent aucune des conditions d’enregistrement ? Dans quelles conditions peut-on extraire du sens de ces données au-delà de la seule prouesse technique de visualisations souvent aussi belles qu’inintelligibles ?

L’oubli du travail des données

Le traitement par les sciences sociales des données du web n’en est qu’à ses premiers balbutiements et il serait inopportun d’en critiquer déjà les résultats. En revanche, il est utile de porter l’attention sur un ensemble de questions qui est étrangement absent des discours euphoriques ou dystopiques sur le nouveau monde des données numériques. Dans l’étonnante floraison de propos portant aujourd’hui la parole de l’open et des big data, du data journalisme et des corpus « nativement numérique » s’affiche la promesse d’un changement de paradigme invitant pouvoirs public, entreprises, chercheurs, journalistes et citoyens à tirer des profits de toutes sortes du « nouvel or » des données numériques. Prédire le succès d’un film, personnaliser la relation client, rendre le marketing prédictif, cartographier les mobilités, modéliser des politiques publiques alternatives, visualiser la diffusion d’une information sur le web, mesurer les sentiments sur le réseau, etc., il suffirait d’un bon jeu de données pour produire facilement un savoir précis et opérationnalisable de phénomènes qui jusqu’alors ne faisaient l’objet que d’une connaissance grossière et rétrospective [04]. Tout se passe comme si entre les données et leurs effets, une ligne directe, immédiate et automatique conduisait des data aux résultats. Qu’on le souhaite ou le craigne, les données parleraient d’elles-mêmes – et souvent, le discours critique croit encore plus à la précision et à l’effectivité des algorithmes que ceux qui les fabriquent. Or, il nous semble que dans ce débat, le questionnement le plus pertinent se situe moins dans la collecte des données ou dans les résultats attendus, qu’entre les deux : dans le travail d’interprétation des nouveaux corpus numériques dont rien n’assure qu’il soit simple, immédiat et conclusif. Peut-on réellement extraire du sens de la prolifération des traces du web ? Que faire de données si « sales », aux modes de production si peu questionnés, aux catégorisations si floues et à la représentativité si flottante ? Les données du web sont certes nombreuses et massives, mais sont-elles vraiment les « bonnes » données pour produire les résultats annoncés ? Les algorithmes prédictifs, dont on assure que, pistant nos comportements, ils seraient capables d’anticiper nos besoins et de réaliser, avant même que nous en ayons le projet, le futur que nous désirons, prédisent-ils vraiment quelque chose qui ne soit pas complètement trivial ?

Ce que semble souvent oublier le débat sur les nouvelles données numériques, c’est le travail de la donnée et le rôle qu’y jouent les travailleurs de la donnée, codeurs, statisticiens, modélisateurs, designers d’algorithmes et l’ensemble des métiers, dont ceux des sciences sociales, qui se donnent pour tâche d’en extraire de la signification. Il suffit que la NSA ait stocké d’invraisemblables collections de données numériques pour que d’un seul coup la société paraisse dénudée, alors même qu’il n’a jamais été montré que les informations en sa possession aient permis aux Etats de combattre les fléaux au nom desquels s’exerce cette surveillance disproportionnée : trafics en tout genre, évasion fiscale, réseaux terroristes et mafieux… À se révéler aussi inefficace avec autant de données à disposition, c’est bien qu’un point critique ne se trouve pas (seulement) dans la possession des données, mais dans l’incroyable complexité du travail requis par leur manipulation, leur traitement et leur interprétation. Sans doute faudrait-il donner plus souvent la parole aux travailleurs des données pour rappeler les exigences, les tourments, les approximations et les bricolages de ceux qui, au quotidien, doivent se coltiner ces fichiers sales, incomplets, débordants, mal, pas ou étrangement catégorisés. Le labeur de l’interprétation ne correspond à rien de cette opération computationnelle proprement magique (« mais, tu ne te rends pas compte, ils ont des algorithmes pour ça ! »), immédiate, lisse et directement efficace qu’évoquent un peu naïvement tous ceux qui parlent des opportunités et des risques des données sans jamais avoir eu à « faire parler » un fichier. Si seulement, par exemple, ils se rendaient compte des redoutables problèmes statistiques que pose le traitement des propriétés temporelles des enregistrements. Il suffit, comme souvent, d’oublier les dimensions dynamique et historique des données pour écraser dans des agrégats absurdes et inintelligibles des comportements enregistrés à des moments très différents et dans des contextes variables. A leur manière, les films et séries de science-fiction, ces mondes dans lesquels d’un clic la donnée-est-le-résultat ont, eux aussi, largement contribué à invisibiliser le travail et les travailleurs de la donnée [05]. Aussi voudrait-on souligner ici qu’ils sont la pièce essentielle de la possible réalisation, en sciences sociales comme dans les autres contextes professionnels, des promesses des big data [06].

ALGOPOL, une expérimentation sociologique sur Facebook

Des interventions de chercheurs en sciences sociales sont déjà venues rappeler que les données n’étaient jamais « brutes » ; que ce n’est pas le nombre qui en garantit la représentativité ; que, sans convention catégorielle, il était impossible de produire des interprétations qui se détachent de la seule lecture individualisante d’un point sur une carte ; que, prise dans les catégories des plateformes qui les enregistrent, les données du web manquaient de contexte, etc. [07] Aussi voudrait-on illustrer ici, beaucoup plus prosaïquement, la manière dont ces questions générales se posent concrètement lorsqu’il s’agit de construire une enquête sociologique un tant soit peu ambitieuse à partir de données du web. Dans le cadre du projet ANR, « Politique des algorithmes » (Algopol – CAMS/CNRS, Liafa/Paris 7, Linkfluence, Orange Labs) qui réunit informaticiens et sociologues dans un ensemble de travaux portant sur les formats des artefacts computationnel qui organisent l’information numérique dans les différents espaces du web [08], nous avons conçu une application d’enquête destinée à collecter des données et à constituer un large panel d’enquêtés sur Facebook. De cette initiative dont le lancement a eu lieu début décembre, on voudrait souligner les enjeux, ainsi que la manière dont nous avons essayé de trouver de fragiles parades aux difficultés que pose la mise en place d’un protocole d’enquête sur Facebook. On a choisi de présenter cette expérience en confrontant nos choix méthodologiques à certains présupposés relatifs au traitement des données du web.

1. Le web enregistre la « société »

La première illusion qui enveloppe la promesse des données numériques est de considérer le web comme un enregistrement transparent de la société. Mieux que tout dispositif d’enquête, nécessairement artificiel et intentionnel, il offrirait un accès authentique aux activités sociales des individus. Si beaucoup de traitements des données du web réalisés dans les Internet studies ont pour projet l’interprétation stricto sensu des seuls comportements numériques, d’autres travaux conçoivent désormais les données du web comme une voie d’accès à la compréhension d’univers sociaux dont les données numériques ne seraient que l’enregistrement. Le web serait pour les chercheurs un moyen d’accéder à leur objet sans passer par l’exigeante rigueur du « terrain ». Il est, par exemple, tentant d’utiliser Facebook comme une nouvelle technique de recueil de données sur la sociabilité des individus. Si, comme le montrent de nombreux travaux, la forme et la structure des liens « amicaux » sur Facebook reproduit des structures d’échanges qui sont celles des sociabilités ordinaires [09], peut-on étudier ces dernières en prenant Facebook comme terrain ? Peut-on se passer des lourdes et complexes techniques de l’enquête de réseau social [10] pour enregistrer les pratiques relationnelles à partir du graphe social de l’entreprise de Mark Zuckerberg ?

Le questionnement scientifique qui anime le projet ALGOPOL voudrait comprendre la structure des liens sociaux existant au sein de réseaux égocentrés à partir du contenu des échanges et des liens partagés sur Facebook. Les interactions sur cette plateforme se déploient-elles différemment, avec une énonciation différente, autour de contenus partagés différents, selon les segments du réseau social mobilisés ? A-t-on des conversations différentes avec les liens « forts » et les liens « faibles » ? Les objets informationnels mis en partage sont-ils les mêmes selon la forme et la structure de la sociabilité numérique des individus ? Chercher à répondre à ces questions requiert des données fines et précises que les méthodes d’enquête traditionnelle ont beaucoup de difficulté à fournir [11]. Sur ces questions, et sur bien d’autres, il est incontestable que les traces des échanges enregistrées par Facebook offrent un matériel original et d’une incomparable richesse pour aborder, à nouveaux frais, des questions de recherche qui traversent depuis longtemps les travaux des sociologues. Les questionnements sur la forme, le rôle et l’organisation du capital social ont, par exemple, fait l’objet d’importantes avancées en exploitant intelligemment des données extraites de Facebook [12]. Mais peut-on, pour autant, traiter ces données comme de simples enregistrements de pratiques sociales ordinaires ? Quelles spécificités faut-il leur accorder ? Comment mesurer l’écart entre les pratiques en ligne et hors ligne et, plus encore, est-il seulement possible de saisir l’effet inextricablement emboité que les sociabilités numériques exercent en retour sur les pratiques hors ligne ? Si les travaux de sociologie du web n’ont eu de cesse de montrer que les pratiques numériques n’étaient pas dissociables, et pas si différentes, des pratiques hors ligne [13], il n’en reste pas moins que les données du web sont produites dans des contextes spécifiques, qu’elles s’insèrent dans un ensemble de médiations techniques et de cadres d’usages qui ne peuvent jamais être éliminés d’une analyse qui risque à tout moment de prendre la carte pour le territoire [14]. Il en va du web comme de tout traitement documentaire dans le travail des sciences humaines et sociales. L’analyse réflexive des conditions de production du document fait partie de son interprétation, mais sans doute, dans le cas du web, les risques de prendre les enregistrements pour la pratique elle-même sont-ils encore renforcés.

Parmi ceux-ci, celui de l’absence de représentativité n’est pas le moindre. Beaucoup d’enquêtes conduites sur internet, par questionnaire, par observation ou par capture de jeux de données, ne disposent que de très peu de repères pour étalonner la représentativité des pratiques observées. En lançant notre enquêteur virtuel sur Facebook accompagné d’un dispositif de viralisation qui permet aux enquêtés de publier la carte de leurs réseaux et la « hit-list » de leurs commentateurs sur leur page afin de susciter la participation de leurs amis, nous savons d’ores et déjà que nous recueillerons beaucoup plus de données que dans tout autre dispositif d’enquête classique. Mais que valent des milliers de répondants auto-sélectionnés par un effet de boule de neige viral au regard d’une enquête représentative contrôlant la juste répartition de l’âge, du sexe et de la CSP des répondants ? La généralisation d’enquêtes en ligne menées à tout propos semble faire comme si, puisque les données sont là, qu’elles sont nombreuses et qu’elles se donnent d’elles-mêmes, il serait possible de substituer les grands nombres à la représentativité !

C’est pour apporter des réponses à cette question que nous avons construit un partenariat avec l’Institut CSA [15], afin d’interroger un panel de 1000 répondants représentatifs de la population des utilisateurs français de Facebook. Se prêtant généreusement à l’idée de participer à une réflexion sur l’innovation dans les techniques d’enquête en ligne, CSA a accepté d’adresser un questionnaire et une demande d’installation de l’application ALGOPOL à son panel d’enquêtés internautes. La comparaison des échantillons « représentatif » et « spontané » permettra de conduire des opérations de redressement et de croisement qui sont rarement menées dans les enquêtes sur le web. Elle invitera aussi à observer des usages de Facebook sans doute fort différents de la représentation produite par les journalistes et les experts à partir de leurs propres pratiques. Vues depuis les zones de haute visibilité de l’espace public, les pratiques de Facebook sont souvent décrites comme un grand système d’échange ouvert, large et hétérogène, alors que les usages ordinaires, en clair-obscur, sont extrêmement contextuels, autocentrés et locaux.

algopol01

Si les sciences sociales veulent passer par le web pour parler de la société, il ne leur est pas possible d’user des méthodes des grands nombres et de l’argument de la complétude des données mis en avant par les informaticiens avec les méthodes statistiques d’apprentissage. Le rappel à la contrainte de l’échantillonnage et le nécessaire contrôle des opérateurs de représentativité restent une condition indispensable de scientificité. Mais, pour établir des relations intelligibles entre la carte et le territoire, il est souvent nécessaire de disposer de données personnelles sur les enquêtés que le web, aussi indiscret soit-il, ne donne pas.

2. Les données du web sont accessibles, donc publiques

Une deuxième illusion entourant la promesse des données numériques revient à considérer que, puisqu’elles sont accessibles sur le web, toutes les données sont publiques. Il suffit de les extraire pour se sentir autorisé et légitime à les exploiter de quelque manière que ce soit. La réalité est cependant beaucoup plus complexe. Certaines bases de données sont effectivement « très » publiques et facilement exploitables. On pense par exemple à celles de Wikipedia que la communauté rend explicitement accessibles grâce à des outils dédiés et qui ont donné jour aux très actives Wikipedia Studies [16]. En revanche, il en est d’autres qui, bien que publiques, sont de moins en moins accessibles et dont la capture pose des problèmes déontologiques de plus en plus aigus. Au début des années 2000, les chercheurs des Internet studies entreprenaient sans vergogne d’aspirer les données du web pour procéder à toutes sortes de traitement. Ils le faisaient en développant des crawler spécifiques ou bien en profitant de l’ouverture des Application Protocol Interface (API) des plateformes du web. Des travaux ont ainsi pu être conduits à partir d’extractions massives de données sur les wikis, les blogs, Flickr ou MySpace [17]. Par ailleurs, lors de conférences universitaires, des plateformes, de blogs notamment, confiaient facilement de grands jeux de données pour que les participants produisent des communications à partir du dataset mis à disposition. Dans les sciences exactes, il est fréquent de voir les chercheurs recourir au même jeu de données afin de comparer les travaux et, parfois, de mettre en compétition les équipes pour trouver la meilleure solution dans la résolution d’un problème, comme par exemple lors du concours organisé par NetFlix visant à améliorer les algorithmes de filtrage coopératif (récompense d’un million de dollars) [18]. Lorsqu’ils souhaitent accéder à des données plus originales, les chercheurs des universités américaines ont aussi entrepris de travailler directement avec certaines entreprises du web afin d’obtenir des jeux de données plus « réalistes ». C’est le cas par exemple des données de Couchsurfing, de Twitter ou de Facebook [19] qui ont permis aux équipes de recherche américaines bénéficiaires de ces exclusivités de prendre une avance scientifique remarquable. Si en France, quelques rares expériences de collaborations directes avec des plateformes ont été tentées, par exemple avec Skyrock dans le cadre du projet ANR CEDRES, il faut constater que ces relations privilégiées avec les opérateurs de données privilégient systématiquement les chercheurs américains. Les données livrées aux chercheurs sont massives et, souvent, fortement anonymisées, ce qui convient aux travaux quantitatifs des recherches en TAL et en informatique, mais restent en revanche beaucoup moins pertinents pour les travaux des sciences sociales. Par ailleurs, obligés de « coopérer » avec les plateformes qui fournissent les données, les chercheurs sont aussi soumis à leurs désidérata et les questionnements qu’ils mettent en œuvre peuvent être orientés par la recherche de solutions innovantes pour améliorer les services de la plateforme.

Depuis quelques années, ce contexte a cependant évolué de diverses façons. On observe d’abord un mouvement de fermeture progressive des API des plateformes de réseau social. Cherchant à valoriser leurs données, elles n’offrent plus qu’un accès limité à leurs données et proposent de faire payer, parfois très cher, comme Twitter, ceux qui souhaitent accéder à des volumes importants. Dans le cadre du projet ANR PANIC, les chercheurs ont dû mixer des méthodologies de collecte et des achats de données, auprès des entreprises de conseil ou des régulateurs du marché comme Médiamétrie. La mise en regard des données sur différentes plates-formes est pourtant un levier important de la recherche pour trouver sa place dans ce monde des data et de leurs multiples visualisations, au prix cependant d’un important travail de restructuration et de recatégorisation des jeux de données.

Mais, il apparaît aussi de plus en plus que la capture massive de données des plateformes sociales, bien que techniquement et juridiquement possible, pose des problèmes déontologiques de plus en plus délicats. La sensibilité croissante aux enjeux de vie privée, la constitution de bases de données de plus en plus nominatives, le caractère massif et asymétrique de l’extraction, la démonstration que des techniques de croisement entre bases de données permettent de désanonymiser les jeux de données les mieux protégés [20], soulèvent un légitime questionnement déontologique. En 2012, l’AoIR, l’Association internationale des chercheurs travaillant sur Internet a publié une révision de la charte de déontologie qu’elle avait rédigée en 2002, en soulignant la nouveauté du contexte créé par l’intensification de l’identification nominale des internautes, notamment avec le développement des plateformes de réseaux sociaux [21]. La transition progressive d’un web des documents vers un web des personnes où affluent des données personnelles « publiques » transforme les conditions dans lesquelles les sciences sociales peuvent utiliser sans scrupule les données du web. Tout se passe comme si alors que, précédemment, ils allaient chercher des informations à la Bibliothèque, les chercheurs qui exploitent les données du web, se rendaient désormais aux Archives où des protections relatives aux délais de communication des documents sont destinées à protéger les individus dont les agissements ont été consignés. En 2008, une affaire a jeté le trouble dans la communauté scientifique américaine. Un groupe de chercheurs américains a rendu public un jeu de données de 1700 comptes Facebook d’étudiants d’une « université du nord-est des Etats-Unis » sous le nom de projet « Tastes, Ties and Times (T3) ». Or, en dépit de l’anonymisation des noms des étudiants et du masquage de certaines informations, des critiques se sont levées pour montrer que la base de données pouvait être désanonymisée. Au terme d’une polémique qui a mobilisé de nombreux intervenants, l’équipe de recherche (à laquelle la NSF, qui finançait leur recherche, avait demandé de « partager les données ») a retiré le jeu de données de son site [22]. Les données accessibles sur le web apparaissent en effet de moins en moins « publiques » en raison de la transformation des pratiques d’exposition de soi des individus qui usent moins de l’anonymat et engagent de plus en plus souvent leur identité réelle, ou une identité aisément identifiable par recoupement. Les usages conversationnels du web ont installé une situation singulière où il apparaît de plus en plus que les informations quotidiennes, personnelles, bavardes, conversationnelles publiées par les internautes, bien que publiques, ne sont pas destinées à une publicité élargie mais à un cercle de proches, en clair-obscur, dans une zone grise entre privé et public, dans laquelle, comme toute autre personne qui n’a pas de liens sociaux avec les participants, les chercheurs en sciences sociales ne sont pas invités à fureter. Une gêne s’est ainsi installée chez beaucoup de chercheurs des internet studies à prélever sans prévenir des morceaux de vie, de conversations, des échanges qui n’ont plus le statut distancié d’objets informationnels de l’espace public [23]. Comme le propose Helen Nissenbaum avec la notion de privacy contextuelle [24], beaucoup de données de l’Internet social sont – magnifique paradoxe – publiques si elles préservent le contexte d’énonciation dans lesquelles elles sont partagées avec un réseau d’« amis » ou de « followers », mais devraient être considérées comme privées pour ceux qui n’appartiennent pas à ce contexte.

Dans ce nouveau paysage, les données de Facebook offrent un cas très particulier d’inaccessibilité. En dépit de l’idée tenace selon laquelle il est aisé de fouiller dans les comptes Facebook des individus, il n’est pas possible d’accéder à la plus grande partie des comptes lorsque l’on n’est pas « ami » avec les utilisateurs. La plateforme américaine doit son succès à la manière très particulière dont elle ouvre un espace à la fois protégé et poreux pour instaurer cette sorte d’entre soi qui libère la parole et densifie les échanges. Aussi est-il nécessaire à qui souhaite accéder aux publications d’un utilisateur de faire entrer un « cheval de Troie » dans les frêles murailles de son compte. Comme le montre de nombreuses études, la très grande majorité des comptes Facebook sont aujourd’hui fermés aux seuls amis et tout montre que les utilisateurs sont attentifs à leurs paramètres de confidentialité – et ceci d’autant plus qu’ils sont jeunes [25]. Si les pages d’entreprises et de « personnalités » du réseau en quête d’attention et de visibilité sont « ouvertes », c’est souvent parce que leurs attentes et leurs pratiques du réseau ne correspondent en rien à celles des praticiens ordinaires de Facebook. Conduire une enquête sur les usages de Facebook à partir des seules pages publiques serait, d’un point de vue sociologique, un parfait contresens. Comment dès lors imaginer un protocole d’enquête permettant d’accéder aux comptes des enquêtés en respectant les règles déontologiques du métier de sociologue ?

ALGOPOL est un enquêteur virtuel qui se présente sous la forme d’une application Facebook. Du mieux qu’il le peut, ALGOPOL ne cache rien aux internautes sollicités de son projet et des moyens qu’il va mettre en œuvre pour le réaliser : explorer et analyser le compte Facebook de ceux qui acceptent de participer à une enquête sociologique et leur garantir une totale confidentialité lors de la publication des résultats de la recherche. Une page Facebook et le site du projet ajoutent un ensemble d’explications supplémentaires à qui s’interroge sur la démarche [26]. En acceptant d’installer l’application ALGOPOL, l’utilisateur donne son consentement pour participer à l’enquête. Lors de la connexion, nous explicitons le mieux possible les conditions de cette participation, l’extraction de données qui va être faite sur le compte de l’enquêté et les règles déontologiques du traitement de ces informations (anonymat, publication scientifique, usage strictement réservé aux chercheurs du projet, destruction des données au terme du projet). L’interface de l’application, lors du chargement des données, montre clairement à l’utilisateur qu’un robot est en train d’enregistrer les données de son compte.

Algopol02

Un processus de traitement a été conçu en concertation avec la CNIL afin que les données nominales soient stockées sur une machine spécifique qui ne sera accessible que localement aux chercheurs du projet afin de préparer les interviews qualitatifs avec les enquêtés – exigence qualitative qui oblige à préserver, localement, un fichier nominal des enquêtés. En revanche, tous les autres traitements statistiques des données de l’enquête seront conduits à partir de fichiers anonymisés à l’aide d’un hashage [27] spécifique. Il reste que le consentement de l’utilisateur à l’installation d’une application d’enquête labellisée par l’Agence Nationale de la Recherche ne suffit pas à légitimer une recherche qui, pour se faire, a constitué un fichier de données personnelles des enquêtés… et de leurs amis.

algopol03

3. L’enquêté a consenti, tout va bien

Un troisième implicite du travail sur les données numériques est la place grandissante que prend le consentement dans l’autorisation dont se prévalent les travailleurs de la donnée pour mener à bien leurs opérations. Si les utilisateurs « cèdent » leurs données personnelles aux plateformes qui les accueillent sans lire les Conditions Générales d’Utilisation (CGU), c’est de plus en plus souvent avec une sorte de résignation fatiguée, armés qu’ils sont du savoir que même s’ils faisaient l’effort de les décoder, ils ne pourraient rien y faire. Le seul pouvoir de l’utilisateur est un pouvoir de ne pas… et, souvent, lors de l’installation d’une application Facebook qui leur paraît intrusive ou envahissante, ils reculent ou interrompent le processus en cours. Dans le cas des enquêtes en sciences sociales, cette sensibilité, très inégalement distribuée, à la protection de ses données personnelles devient un facteur « déformant » dans la constitution des échantillons. Les risques d’observer un effet d’auto-sélection sont très forts si la multiplication des préventions et des obligations faites à l’utilisateur pour participer au dispositif font reculer un pourcentage important des enquêtés sollicités et attirent en revanche cette population si particulière des répondants « professionnels ». Le légitime renforcement de la sensibilité des internautes aux usages commerciaux ou policiers de leurs données contribuent donc aussi à dégrader la qualité des données que les chercheurs en sciences sociales sont amenés à leur demander.

Si la mise en place d’un dispositif d’enquête ayant recueilli le consentement de l’utilisateur ne pose pas de difficulté particulière, il n’en va pas de même du recueil des informations concernant les amis de l’enquêté. Ceux-ci n’ont pas donné leur consentement pour participer à l’enquête et, comme le font nombre d’applications sur Facebook, des données les concernant sont aspirées par les services auxquels consentent leurs amis. Cette aspiration secrète du profil des « amis » contrevient aux lois sur la protection des données personnelles [28]. Les « amis » devraient au moins être informés qu’ils ont été indirectement intégrés à une base de donnée et pouvoir exercer un droit de retrait. Comment lever cette difficulté sans nuire à la représentativité de l’enquête en obligeant tous les enquêtés à prévenir un à un leurs amis ? En collaboration avec la CNIL, nous avons mis en place un dispositif expérimental encourageant la prise de conscience des enquêtés de la nécessité d’informer leurs amis de la collecte de certaines données par Algopol. Nous avons d’abord réduit au strict nécessaire les informations prélevées sur les amis de l’enquêté (sexe, âge) et nous ne collectons que les interactions qu’ils ont eues sur la page de l’enquêté (Likes et commentaires). Indispensables à la conduite de notre enquête, l’enregistrement de ces données pose cependant problème. Aussi proposons-nous à l’enquêté de choisir entre trois moyens d’informer ses amis : (1) par l’envoi automatique d’un courriel à travers la messagerie de Facebook ; (2) par un badge signalant sur la page de l’enquêté et dans le newsfeed de ses amis qu’il participe à Algpol et que ses amis peuvent demander le retrait de leurs informations ; (3) en informant lui-même ses amis « par un autre moyen » que Facebook. Cette dernière solution, que l’on jugera facilement hypocrite, informe simplement l’enquêté qu’il doit prévenir ses amis mais ne le fait pas pour lui.

algopol04

Expérimentation dans l’expérimentation, les choix des enquêtés relatifs à l’information de leurs amis feront l’objet d’une analyse spécifique dans le cadre d’une réflexion conduite avec la CNIL sur la propension aux différentes formes de consentement sur Facebook. Il est probable que les enquêtés qui acceptent de participer à l’enquête ne souhaiteront pas que l’application envoie un message personnel à l’ensemble de leur réseau, ou bien reculeraient si l’application le faisait automatiquement. Mais, en ouvrant aux enquêtés ces trois solutions pour informer leurs amis, on souhaite mesurer les effets que les choix de signalement de participation à l’enquête exercent sur la représentativité de l’échantillon et la qualité des données recueillies.

4. Les données du web sont auto-suffisantes

Une quatrième illusion consiste à penser que, pour conduire une analyse de sciences sociales, les données du web sont auto-suffisantes. C’est sur ce point que l’usage des données du web par les sciences sociales se différencie nettement de celui qu’en font les disciplines, plus quantitatives et plus « exactes », des computer science, du datamining, de l’information retrieval ou du traitement automatique de la langue. Si ces dernières peuvent se contenter de volumineux jeux de données froidement décontextualisées, l’approche herméneutique des sciences sociales doit parvenir à construire ses interprétations en enrichissant les données recueillies d’informations contextuelles étroitement accrochées aux personnes. C’est donc cette indécrottable tendance au réalisme des sciences sociales qui les rendent complices des demandes les plus indiscrètes. Davantage que les autres disciplines, elles réclament un accès à des données personnalisées susceptibles de documenter le plus complètement possible le profil des individus dont elles analysent les traces d’activité. Aussi, à vouloir « expliquer le social par le social », les demandes de données des sciences sociales se trouvent-elles aujourd’hui plus facilement associées à l’enquête policière et aux captures disproportionnées d’information par les outils du marketing numérique.

Cette question n’est pas nouvelle. Elle est même consubstantielle aux techniques d’enquête de nos disciplines : dans le rapport au terrain, certaines pratiques des sciences sociales instaurent délibérément un rapport d’indiscrétion avec leurs sujets d’études. Il n’est pas un manuel de méthodes en ethnologie ou en sociologie de l’observation participante qui n’insiste sur cette qualité de l’enquêteur à obtenir la confiance de l’enquêté, afin qu’il se livre à des confidences de toute nature. En plongeant dans la biographie des individus, en reconstituant leur trajectoire familiale, en pénétrant leur imaginaire, en essayant de reconstituer, de l’intérieur, leurs expériences, leurs motivations et leurs désirs, l’enquêteur s’arroge souvent le droit de franchir la frontière du privé et de l’intimité. Cependant cette entrée en intimité avec les enquêtés s’accompagne, comme les journalistes professionnels avec leurs sources, de fortes règles déontologiques qui, c’est un honneur de la profession, ne sont (presque) jamais transgressées et font l’objet dans nos disciplines d’une vénération sacrée. C’est en échange d’une garantie d’anonymat que le chercheur obtient les informations nécessaires à son enquête. La personne enquêtée dans toute sa singularité, devient un individu abstrait, épistémique, lors de la publication des résultats de la recherche. La qualité de l’interprétation dépend donc de l’adresse avec laquelle le chercheur parvient à se mouvoir dans deux directions opposées : entrer en intimité avec les individus puis transformer les informations personnelles en connaissances partageables et généralisables. Est-il possible dans le monde d’accessibilité généralisé du numérique, de préserver ces niches d’intimité garantes de la confiance entre chercheur et enquêtés ? De quel droit les chercheurs peuvent-ils prétendre à un statut particulier au sein de nos sociétés pour continuer ce fructueux commerce de données personnelles avec les personnes dont ils obtiennent la confiance ? A l’heure de la transparence et de l’open data, il importe de défendre l’idée que beaucoup de ces choses qui s’échangent entre chercheurs et enquêtés doivent être rendues publiques sous formes de connaissance et non sous forme de données. S’il faut soutenir les initiatives visant à assurer le partage et la mutualisation des données entre des chercheurs peu partageux (surtout dans les sciences sociales) [29], s’il est nécessaire de donner au public le plus large accès possible aux données brutes de la recherche qui ne comportent pas de risques d’identification personnelle, il importe aussi d’être très vigilant sur la protection de l’identité des enquêtés car une partie de la qualité interprétative du travail des sciences sociales s’appuiera toujours sur ce contrat de confiance, confident et secret, qui le lie à ses enquêtés.

Les grands jeux de données web rendus publics ont été si soigneusement peignés afin de ne pas transporter d’informations personnelles qu’ils ne présentent souvent plus guère d’intérêt pour les chercheurs en sciences sociales. Les enregistrements permis par ALGOPOL offrent de très nombreuses informations sur les pratiques d’échanges et de sociabilité sur Facebook. Cependant, au regard des questions posées dans nos hypothèses de recherche, ils leur manquent des informations indispensables. Sans cesse, dans le travail conduit avec les données du web, un aller-retour entre informations numériques et informations obtenues par des techniques d’enquête traditionnelles apparaît nécessaire. En premier lieu, parce que certaines des informations « identitaires » projetées sur Facebook sont fictives, fantaisistes, jouées, incomplètes, catégorisées dans des registres définis par les plateformes ou laissés à la libre improvisation des sujets. Sans doute est-ce préférable, mais, par exemple, les données « sensibles » des catégories d’opinion politique, de religion ou d’orientation sexuelle sont, sur Facebook, quasiment inutilisables par les chercheurs en sciences humaines – et il serait bien imprudent de faire confiance aux techniques prédictives des méthodes d’apprentissage pour extrapoler des propriétés qui n’ont pas été données par les individus [30]. Aussi, est-ce à travers les procédures permettant d’enrichir les données numériques par des informations obtenues au contact direct des individus qu’il est possible de conduire les contrôles interprétatifs nécessaires. Dans l’enquête Algopol, nous demandons par exemple aux enquêtés de qualifier eux-mêmes le lien qu’ils entretiennent avec cinq de leurs amis en leur demandant l’ancienneté de leur relation, la fréquence de leur contact et la force affective qu’ils attribuent à cette relation. Si ces informations ne peuvent être obtenues du jeu de données extrait de Facebook, elles constituent un élément indispensable pour répondre à nos questions de recherche. Par ailleurs, des entretiens qualitatifs approfondis seront conduits avec un sous-échantillon des participants à l’enquête. Revenir vers les personnes reste donc indispensable pour produire des interprétations pertinentes des données du web.

5. Interpréter leurs données sans les internautes

Enfin, la dernière illusion sur laquelle on nous voudrions conclure, a trait au rapport qu’entretiennent les collecteurs de données avec le monde social qu’ils interprètent. Si l’extériorité de l’interprétation sociologique aux sujets qui en sont l’objet a déjà fait l’objet de mille discussions savantes concourant à définir des épistémologies radicalement divergentes, la question du web rend particulièrement sensible la manière dont les sujets d’enquêtes doivent participer à la production des résultats. Dans le contexte des données numériques, tout vient renforcer la position d’extériorité du chercheur à l’égard de ceux dont ils interprètent les traces enregistrées, les robots de crawl lui assurant non seulement l’invisibilité mais lui épargnant aussi la tâche d’avoir seulement à entrer en contact avec son terrain. On voudrait cependant soutenir que s’il existe une éthique du travail des sciences humaines à partir des données du web, elle devrait encourager le mouvement inverse. En effet, au moment où se multiplient les techniques de ciblage du datamining, les calculs opaques des algorithmes, la circulation clandestine des fichiers publicitaires et l’espionnage étatique du web, il existe un risque important pour les chercheurs, notamment ces insatiables curieux des sciences sociales, d’être associé, bon gré mal gré, aux nouveaux dispositifs de surveillance qui s’installent sur le web pour le calculer, le vendre et le policer. Aussi est-il d’autant plus nécessaire de faire reposer les enquêtes basées sur les données sur un processus actif de co-production et de contrôle des résultats de la recherche par les enquêtés eux-mêmes. C’est dans cette voie que les travaux sur la cartographie du web menés avec les outils de Linkfluence se sont engagés en organisant des réunions pour présenter et discuter avec les acteurs de leur position sur la carte et de la pertinence des catégories qui ont été constituées à partir de leurs traces numériques. Le très grand intérêt des travaux de cartographie du web des migrants (e-diaspora) de Dana Diminescu ou d’analyse de la sociabilité numérique des anorexiques (Anamia) d’Antonio Casilli et Paola Tubaro est d’avoir aménagé de réels espaces d’interactions entre les sujets de l’enquête et les résultats produits par les chercheurs [31]. C’est aussi ce genre de démarche que nous voulons mettre en œuvre avec le projet ALGOPOL. Les données numériques constituent une formidable opportunité pour les sciences sociales, mais elles ne parviendront à la faire fructifier qu’en clarifiant au mieux la spécificité réflexive de leur projet : produire une connaissance qui puissent être ouvertement partagée, critiquée et appropriée par ceux qui en sont l’objet.

algopolo05

Irène Bastard, Dominique Cardon, Guilhem Fouetillou, Christophe Prieur, Stéphane Raux.

Irène Bastard est doctorante en sociologie à Orange Labs et Télécom ParisTech. Dominique Cardon (@karmacoma) est sociologue à Orange Labs et professeur associé au Laboratoire techniques territoires et sociétés de l’université de Marne la vallée. Guilhem Fouetillou (@gfouetil) est le cofondateur de LinkFluence. Christophe Prieur est chercheur au Laboratoire d’informatique algorithmique : fondements et applications (Liafa) du CNRS et de l’université Paris-Diderot. Stéphane Raux (@straux) chercheur à Linkfluence et doctorant à l’université Paris 7.
________
Notes
01. Voir sur ce point le travail pionnier mené en France par Marin Dacos et Pierre Mounier pour promouvoir les digital humanities. Cf. Read/Write Book 2. Une introduction aux humanités numériques, Paris, Clio, 2012 ou, récemment, Wieviorka (Michel), L’impératif numérique, Paris, CNRS Editions, 2013.
02. On renvoie par exemple aux travaux de la conférence ICWSM (International Conference on Webloging and Social Media) qui rassemble informaticiens, linguistes, psychologues et sociologues autour du traitement à grande échelle des données du web. Sur l’articulation entre sciences sociales et informatique, voir Cardon (D.), Prieur (C.), « Les réseaux de relations sur Internet : un objet de recherche pour l’informatique et les sciences sociales » in Brossaud (Claire), Reber (Bernard), dir., Humanités numériques 1. Nouvelles technologie cognitives et épistémologie, Paris, Lavoisier, 2007, pp. 147-164.
03. Grandville (V.), “Big data set. 3.5 billions sites made available for all of us”, BigDataNews, 28 novembre 2013 [http://www.bigdatanews.com/profiles/blogs/big-data-set-3-5-billion-web-pages-made-available-for-all-of-us].
04. Parmi les multiples ouvrages sur la question, voir : Siegel (Eric), Predictive Analytics : The power to predict who will click, buy, lie or die, Hoboken, John Wiley & Sons, 2013 ; Silver (Nate), The signal and the noise. Why so many predictions fail – but some don’t, New York, The Penguin Press, 2012 ; Ayres (Ian), Super crunchers. Why thinking by numbers is the new way to be smart, New York, Bantam Dell, 2007.
05. Sur la figure de « double-clic », ce personnage conceptuel inventé par Bruno Latour pour critiquer toutes ces articulations automatiques et immédiates qui oublient le rôle reconfigurateur des médiations socio-techniques, voir Latour (Bruno), Enquête sur les modes d’existence. Une anthropologie des modernes, Paris, la découverte, 2012.
06. Voir les numéros thématiques de la revue Réseaux, « Politique des algorithmes » [vol. 31, n°177, 2012] et « Sociologie des bases de données » [n°178-179, 2013].
07. Boyd (D.), Crawford (K.), “Six Provocations for Big Data”, A Decade in Internet Time: Symposium on the Dynamics of the Internet and Society, September 2011. (traduit en français : « Big Data : la nécessité d’un débat », InternetActu.net, 23/9/11 http://www.internetactu.net/2011/09/23/big-data-la-necessite-d%E2%80%99un-debat/) ; Manovitch (L.), “Trending: The Promises and the Challenges of Big Social data”, in Gold (M. K.) (ed.), Debates in the Digital Humanities, Minneapolis, University of Minnesota Press ; Cardon (D.), « Zoomer ou dézoomer ? Les enjeux politiques des données ouvertes », Owni, 25/2/11 [http://owni.fr/2011/02/21/zoomer-ou-dezoomer-les-enjeux-politiques-des-donnees-ouvertes/].
08. Pour plus d’informations, voir le site du projet Algopol : http://algopol.fr
09. Jones (Jason), Settle (Jaime E.), Bond (Robert M.), Fariss (Christopher J.), Marlow (Cameron), Fowler (James H.), “Inferring Tie Strength from Online Directed Behavior”, PLoS ONE, 8(1), e52168., 2013 [doi:10.1371/journal.pone.0052168].
10. Sur ces méthodologies, voir la synthèse de Bidart (Claire), Degenne (Alain), Grossetti (Michel), La vie en réseau. Dynamique des relations sociales, Paris, PUF, 2011.
11. Même si, notamment autour des enquêtes sur le Sida et la sexualité des français, des travaux importants ont pu être conduits en ce sens. On pense notamment à ceux d’Alexis Ferrand sur les confidents [Ferrand (Alexis), Confidents. Une analyse structurale des réseaux sociaux, Paris, L’Harmattan, 2007] et sur la diversité des opinions des individus selon le segment de réseau auxquels ils s’adressent [Ferrand (Alexis), Appartenances multiples, opinion plurielle, Lille, Presses universitaires du Septemtrion, 2011].
12. Ellison (Nicole B), Steinfield (Charles), Lampe (Cliff), “The benefits of Facebook « friends »: Social capital and college students use of online social network sites”, Journal of Computer Mediated Communication, 2007 [http://onlinelibrary.wiley.com/doi/10.1111/j.1083-6101.2007.00367.x/pdf] ; Burke (Moira), Kraut (Robert), “Using Facebook after Losing a Job: Differential Benefits of Strong and Weak Ties”, Proceedings of CSCW13, San Antonio, 23-27 février 2013 ; Burke, (Moira), Kraut (Robert), Marlow (Cameron), “Social capital on Facebook: Differentiating uses and users”, Proceedings of the 2011 Annual Conference on Human Factors in Computing Systems, 2011. [http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.227.6644&rep=rep1&type=pdf].
13. Casilli (Antonio), Les liaisons numériques. Vers une nouvelle sociabilité ?, Paris, Seuil, 2010 ; Rainie (Lee), Wellman (Barry), Networked. The New Social Operating System, Cambridge, The MIT Press, 2012.
14. Denouël (Julie), Granjon (Fabien), “Les usages en question”, InternetActu.net, 15/6/11 [http://www.internetactu.net/2011/06/15/julie-denouel-et-fabien-granjon-les-usages-en-question/].
15. http://www.csa.eu
16. Jullien (Nicolas), “What We Know About Wikipedia : A Review of the Literature Analysing the Project(s)”, (May 7, 2012) [//ssrn.com/abstract=2053597 or http://dx.doi.org/10.2139/ssrn.2053597].
17. Par exemple Beuscart (J.-S.), Cardon (D.), Prieur (C.), Pissard (N.) « Pourquoi partager mes photos de vacances avec des inconnus ? Les usages de Flickr », Réseaux, n° 154, 2009, p. 91-129 ; Roth (C.), Taraborelli (Dario), Gilbert (Nigel), « Démographie des communautés en ligne : le cas des wikis » Réseaux, n°152, 2008, pp. 205-240 ; Caberlee (J.), Webb (S.), “A Large-Scale Study of MySpace: Observations and Implications for Online Social Networks”, Proceedings of International Conference on Weblogging and Social Media 2008, Seattle, april 2008.
18. http://en.wikipedia.org/wiki/Netflix_Prize
19. Avec les données de Couchsurfing, Adamic (Lada), Lauterbach (Debra), Teng (Chun-Yen), Ackerman (Mark S.), “Rating Friends without Making Ennemies”, ICWSM, Barcelona, 2011 [http://www.personal.umich.edu/~ladamic/papers/trust/AdamicRatingFriendsICWSM.pdf] ; avec les données de Facebook, voir l’ensemble des travaux conduits par la Facebook DataTeam avec des universitaires américains rassemblés ici : https://www.facebook.com/data/notes
20. Guillaud (Hubert), « En quoi les Big Data sont-elles personnelles ? », InternetActu.net, 5/12/13 [http://www.internetactu.net/2013/12/05/en-quoi-les-big-data-sont-elles-personnelles/].
21. AoIR, “Ethical Decision-Making and Internet Research. Recommendations from the AoIR Ethics Working (version 2.0)”, 2012 [http://aoir.org/reports/ethics2.pdf].
22. Sur cette affaire, voir Zimmer (M.), “But the data is already public: On the ethics of research in Facebook”, Ethics & Information Technology, 12(4), 2010, pp. 313-325 [http://www.sfu.ca/~palys/Zimmer-2010-EthicsOfResearchFromFacebook.pdf].
23. Sur ces questions, voir Donath (Judith), boyd (danah), “Public displays of connection”, BT Technology Journal, volume 22, n°4, october 2004, p. 71-82 ; Cardon (D.), « Montrer/Regarder. L’économie de la visibilité sur les réseaux sociaux d’Internet », in Marquet (Jacques), Janssen (Christophe), dir., Lien social et Internet dans l’espace privé, Paris, Academia/L’Harmattan, 2012, pp. 21-50.
24. Nissenbaum (Helen), “A Contextual Approach to Privacy Online”, Daedalus 140 (4), Fall 2011, pp. 32-48. [http://www.amacad.org/publications/daedalus/11_fall_nissenbaum.pdf].
25. Madden (Mary), Lenhart (Amanda), Cortesi (Sandra), Gasser (Urs), Duggan (Maeve), Smith (Aaron), Beaton (Meredith), « Teens, Social Media, and Privacy », Pew Internet, 21 mai 2013 [http://www.pewinternet.org/Reports/2013/Teens-Social-Media-And-Privacy.aspx]. Dans une récente enquête de Harris Interactive pour le GIS M@rsouin auprès d’un échantillon de 2000 utilisateurs de Facebook, 91% d’entre eux contrôle leur paramètre de confidentialité, cf. « Première enquête approfondie du GIS M@rsouin sur les usages de Facebook en France », M@rsouin.org, 4/12/13 [http://www.marsouin.org/spip.php?article551].
26. http://app.algopol.fr/info
27. Fonction informatique permettant d’anonymiser des identifiants.
28. Il faut souligner que cette pratique est aujourd’hui absolument généralisée sur Facebook où de nombreuses applications prélèvent, sans leur consentement, les données des amis de ceux qui installent l’application. Dans le domaine qui nous intéresse ici, l’application assez similaire à la nôtre de Wolframm (http://www.wolframalpha.com/facebook/) ne prend pas ces précautions, pas plus que l’application du MIT, Immersion, qui collecte l’ensemble du graphe des correspondants du compte Gmail de l’enquêté pour représenter la structure du réseau d’échange des personnes avec des personnes qui n’ont, bien sûr, jamais été prévenues (immersion : https://immersion.media.mit.edu).
29. Voir le projet d’équipement d’excellence DIME-SHS destiné à partager les données d’enquêtes quanti et quali des chercheurs et qui comporte un important volet d’outils pour le traitement des données numérique : http://www.sciencespo.fr/dime-shs/
30. Des travaux ont montré qu’il était possible d’estimer les préférences sexuelles des utilisateurs de Facebook à partir de la structure de leur réseau social. Pareillement, c’est à travers une analyse du réseau social des participants qu’une recherche récente a montré qu’il était possible d’identifier les relations amoureuses comme la rencontre de deux centres de clusters différents, cf. Backstrom (Lars), Kleinberg (Jon), “Romantic Partnership and the Dispersion of Social Ties: A Network Analysis of Relationship Status on Facebook”, CSCW’14, Baltimore [http://arxiv-web3.library.cornell.edu/pdf/1310.6753v1.pdf].
31. Sur les projets e-diaspora [http://www.e-diasporas.fr] et Anamia [http://www.anamia.fr].