Big Data : la nécessité d’un débat

Par le 23/09/11 | 9 commentaires | 5,996 lectures | Impression

Il nous a semblé intéressant de traduire, de façon collaborative (via Framapad), l’essai original que viennent de publier danah boyd et Kate Crawford présentant “Six provocations au sujet du phénomène des Big Data”.

Ces chercheuses, orientées vers l’ethnographie des usages des technologies de communication, s’interrogent – en toute connaissance de cause [cf. cette étude sur les tweets des révolutions tunisiennes et égyptiennes à laquelle a participé danah boyd]- sur les limites épistémologiques, méthodologiques, mais aussi éthiques des Big Data : champ d’études qui s’ouvre aujourd’hui sur la base des énormes jeux de données que fournit internet, en particulier celles générées par l’activité des usagers des sites de réseaux sociaux, que seuls des systèmes informatiques ont la capacité de collecter et de traiter.

Les analyses des graphes relationnels de Facebook ou des flux de tweets de Twitter sont des exemples bien connus de cette rencontre des sciences humaines et de l’informatique en réseau. Dans cet essai, les deux chercheuses personnifient ce champ de recherche en un Big Data faisant écho à Big Brother, et le confrontent à quelques principes méthodologiques des sciences humaines. Elles pointent également les dangers qu’une hégémonie mal anticipée de l’analyse automatisée des données risque de faire courir à la compréhension d’internet et de ses usages.

cover_natureBigDataRépétons avec elles qu’un corpus n’est pas plus scientifique ou objectif parce que l’on est en mesure d’aspirer toutes les données d’un site. D’autant qu’il existe de nombreux biais (techniques avec les API, mais aussi organisationnels) dans l’accès même à ces données qu’on aurait tort de considérer comme totales. Cet accès ne repose en effet que sur le bon vouloir de sociétés commerciales et sur les moyens financiers dont disposent chercheurs et universités.

Ainsi, le phénomène des Big Data risque, d’une part, de créer une nouvelle fracture numérique entre universités pauvres et riches, mais il peut aussi conduire à une vassalisation de la recherche scientifique par des sociétés commerciales et leurs services de marketing, utilisant eux aussi les Big Data pour profiler leurs produits.

Ce virage computationnel des sciences humaines menace également de pérenniser inutilement le sempiternel clivage entre deux cultures scientifiques, l’une mathématique, objective par nature, et l’autre littéraire – subjective forcément. A moins qu’il ne soit vu comme une occasion de guérir enfin une partie des sciences humaines de leur pêché interprétatif originel et de leur achiffrisme congénital.

Les Science Studies féministes, Donna Haraway [Le Manifeste Cyborg et autres essais. Sciences, Fictions, Féminismes, Exils, 2007] par exemple, ont démontré comment, du lexique jusqu’aux instruments d’observation utilisés, les pratiques scientifiques ne cessent d’être liées à la Culture et à la Société au sein desquelles elles sont pensables, et que leur travail d’explication chiffrée et de prévision des phénomènes naturels implique toujours une part d’interprétation. Les auteures soulèvent enfin les problèmes éthiques qu’implique l’usage des données personnelles des utilisateurs, lorsque celles-ci, bien que produites en public, sont loin d’être explicitement destinées aux usages scientifiques.

Internet supporte aujourd’hui l’émergence d’une société de “citoyens-interprètes” [Yves Citton, L’Avenir des humanités : Économie de la connaissance ou cultures de l’interprétation ?, La Découverte, 2010], c’est à dire potentiellement en capacité de produire et de traiter leurs propres données et connaissances dans les champs de la santé, de l’énergie ou encore de la politique. Cette diffusion des compétences interprétatives au sein de sociétés d’individus connectés, et l’accroissement de leurs capacités d’agir à partir des données qu’ils partagent volontairement, bref la dimension profondément politique de ces activités en ligne, ne doivent pas se trouver noyées dans l’océan de données de Big Data.

Ce texte suggère aussi que cette ère des Big Data doit être accompagnée d’une réflexion politique au sein des Digital Humanities. Pour parodier Spiderman, avec danah boyd et Kate Crawford, n’oublions pas que “With big power come big responsabilities”.

Laurence Allard, Pierre Grosdemouge & Fred Pailler.

6 provocations à propos des Big Data

Traduction : Pierre Grosdemouge (@cultord) & Fred Pailler (@Sociographie) à l’initiative de Laurence Allard. Merci à Samuel Ripault et Laëtitia Tin pour leur aide précieuse.

L’article original à été présenté lors du Symposium sur les dynamiques de l’internet et de la société : “Une décennie avec Internet”, organisé par l’Oxford Internet Institute, le 21 septembre 2011

“La technologie n’est ni bonne, ni mauvaise, ni neutre… L’interaction entre la technologie et l’écosystème social est telle que les développements techniques ont des conséquences environnementales, sociales, et humaines qui dépassent de loin les objectifs des appareils techniques et des pratiques elles-mêmes.”
Melvin Kranzberg (1986, p. 545)

“Nous devons ouvrir le débat – alors qu’il n’en existe aucun de sérieux actuellement – à propos des différentes temporalités, spatialités et matérialités que nous sommes susceptibles de représenter grâce à nos bases de données, avec, en vue, une conception permettant une flexibilité maximum, et autorisant, autant que possible, l’émergence d’une polyphonie et d’une polychronie. L’expression “données brutes” est un oxymore autant qu’une mauvaise idée; au contraire, les données devraient être cuisinées avec soin.”
Geoffrey Bowker (2005, p. 183-184)

L’ère de Big Data a commencé. Les informaticiens, physiciens, économistes, mathématiciens, politologues, bio-informaticiens, sociologues, et beaucoup d’autres réclament l’accès aux quantités massives d’informations produites par et à propos des gens, des choses, et de leurs interactions. Divers groupes discutent des coûts et des bénéfices de l’analyse de l’information issue de Twitter, Google, Verizon, 23andMe, Facebook, Wikipedia, et de tous les espaces dans lesquels de grands nombres de personnes laissent des traces numériques et déposent des données. D’importantes questions émergent. Les analyses de l’ADN à grande échelle aideront-elles à guérir les maladies ? Ou bien cela aboutira-t-il à une nouvelle vague d’inégalités médicales ? L’analyse des données rendra-t-elle l’accès des gens à l’information plus efficace et effectif ? Ou sera-t-elle plutôt utilisée pour pister les manifestants dans les rues des grandes villes ? Améliorera-t-elle la manière dont nous étudions la communication et la culture humaine, ou va-t-elle rétrécir la palette des options qui s’offrent à la recherche et altérer ce que “recherche” veut dire ? Tout ou partie de ces possibilités ?

Parler en termes de Big Data est, de bien des manières, restrictif. Comme l’observe Lev Manovitch (2011), ce terme a été utilisé en sciences pour désigner les ensembles de données suffisamment grands pour nécessiter des super-ordinateurs, et bien que, désormais, de grands ensembles de données puissent être analysés sur des ordinateurs de bureau avec des logiciels standards. Il n’y a aucun doute sur le fait que les quantités de données disponibles aujourd’hui soient en effet très grandes, mais ce n’est pas la caractéristique la plus pertinente de ce nouvel écosystème des données. Les Big Data sont remarquables, non en raison de leurs tailles, mais pour leurs capacités à être articulées à d’autres données. En raison des efforts pour exploiter et agréger les données, Les Big Data sont fondamentalement liées aux réseaux. Leurs valeurs viennent des patterns qui peuvent être tirés du fait de connecter entre eux des jeux de données, concernant un individu, des individus liés à d’autres, des groupes de gens, ou simplement concernant la structure de l’information elle-même.

Plus encore, les Big Data sont importantes parce qu’elles renvoient à des analyses ayant cours à la fois à l’université et dans l’industrie. Au lieu de suggérer un terme nouveau, nous utilisons le terme Big Data ici en raison de sa prégnance populaire et parce que c’est le phénomène entourant les Big Data que nous souhaitons aborder. Ces Big Data amènent certains chercheurs à croire qu’ils peuvent tout voir d’une hauteur de 30 000 pieds. C’est le genre de données qui encourage la pratique de l’apophénie : voir des tendances là où il n’y en a aucune, simplement parce que des quantités massives de données peuvent offrir des connexions qui irradient dans toutes les directions. Pour cette raison, il est crucial de commencer à interroger les hypothèses qui vont gouverner l’analyse, les cadres méthodologiques, et les préjugés qui sous-tendent le phénomène Big Data.

Alors que les bases de données ont agrégé des données sur plus d’un siècle, le champ des Big Data n’est plus exclusivement le domaine des actuaires et des scientifiques. De nouvelles technologies ont rendu possible pour un grand nombre de personnes – incluant les chercheurs en humanités et en sciences sociales, les marketeurs, les organisations gouvernementales, les institutions éducatives, et les individus motivés – le fait de produire, partager, interagir avec, et organiser des données. Des jeux massifs de données autrefois illisibles et distincts, se trouvent articulés et aisément accessibles aujourd’hui. Les données deviennent chaque jour davantage notre “atmosphère numérique” : l’oxygène que nous inspirons et le dioxyde de carbone que nous expirons. Cet air est à la fois source de nourriture et de pollution.

La manière dont nous nous engageons dans l’ère des Big Data est cruciale : alors qu’elle s’installe dans un environnement d’incertitudes et de changements rapides, les décisions prises aujourd’hui auront un impact considérable dans le futur. Face à l’automatisation croissante de la collecte et de l’analyse des données – tels les algorithmes qui peuvent extraire et nous renseigner sur des patterns massifs dans le comportement humain – il est nécessaire de se demander quels systèmes dirigent ces pratiques, et lesquels les régulent. Dans Code, L. Lessig (1999) soutient que les systèmes sont régulés par quatre forces : le marché, la loi, les normes sociales, et l’architecture – ou, dans le cas de la technologie, le code.

Quand il s’agit des Big Data, ces 4 forces entrent en jeu, et, fréquemment, en conflit . Le marché voit les Big Data comme une pure opportunité : les marketeurs les utilisent pour orienter leurs campagnes, les assureurs veulent optimiser leurs offres, et les banquiers de Wall Street les utilisent pour améliorer leurs analyses des comportements du marché. Une législation a d’ores et déjà été proposée pour freiner la collecte et la rétention de données, généralement plutôt motivée par des questions de vie privée (par exemple, le Do Not Track Online Act de 2011 aux États-Unis). Des fonctionnalités comme la personnalisation permettent un accès rapide aux informations les plus pertinentes, mais elles entrainent de difficiles questions éthiques et divisent l’opinion de manière problématique (Pariser 2011).

Des études significatives et pertinentes sont actuellement réalisées qui s’appuient sur les méthodologies des Big Data, en particulier des études concernant les pratiques des sites de réseaux sociaux comme Facebook et Twitter. Néanmoins, il est impératif que nous commencions à poser des questions cruciales sur ce que signifient toutes ces données, qui y ont accès, comment elles sont déployées, et à quelles fins. La montée des Big Data amène aussi de grandes responsabilités. Dans cet essai, nous proposons six provocations dont nous espérons qu’elles pourront éveiller les conversations sur les problèmes de Big Data. Il y a un enjeu pour les chercheurs du domaine des sciences sociales au cœur de la culture computationnelle du champ des Big Data, précisément dans la mesure où beaucoup de leurs questions centrales sont des questions fondamentales de nos disciplines. Aussi, nous croyons qu’il est temps de commencer à interroger de manière critique ce phénomène, ses hypothèses, ses partis-pris.

1. L’automatisation de la recherche change la définition du savoir

Durant les premières décennies du 20e siècle, Henry Ford a imaginé un système de production pour la fabrication de masse, utilisant des machines spécialisées et des produits standardisés. Simultanément, il est devenu la vision dominante du progrès technologique. Impliquant des chaînes d’automatisation et d’assemblage, le fordisme est devenu l’orthodoxie de la production pour les décennies suivantes : adieu les artisans compétents et le travail lent, bienvenue dans une ère du “fait à la machine” (Baca 2004). Mais il s’agissait de bien plus que d’un nouvel ensemble d’outils. Le 20e siècle fut profondément marqué par le fordisme : ce dernier a produit une nouvelle compréhension du travail, de la relation humaine au travail et plus largement de la société.

Les Big Data ne renvoient pas uniquement aux très grands jeux de données et aux outils et procédures utilisés pour les manipuler et les analyser, mais aussi au tournant computationnel de la pensée et de la recherche (Burkholder 1992). Tout comme Ford a changé la manière dont nous fabriquons des voitures – et ainsi transformé le travail lui-même – les Big Data font émerger un système de savoir qui est déjà en train de transformer les objets du savoir, tout en ayant aussi le pouvoir d’informer la manière dont nous comprenons les réseaux humains et les communautés. “Changez les instruments, et vous changerez toute la théorie sociale qui va avec”, nous rappelle Latour (2009, p. 9).

Nous dirions que les Big Data créent un changement radical dans la manière dont nous pensons la recherche. Commentant la science sociale computationnelle, Lazer et al. affirment qu’elle offre “la capacité de collecter et d’analyser des données avec une ampleur, une profondeur et à une échelle sans précédents” (2009, p. 722). Mais ce n’est pas qu’une question d’échelle. Pas plus qu’il ne suffit de considérer cela en termes de proximité, ou de ce que Moretti (2007) évoque comme une analyse proche ou distante des textes. Il s’agit plutôt d’un profond changement au niveau de l’épistémologie et de l’éthique. Sont reformulées des questions clés concernant la constitution du savoir, le processus de recherche, la manière dont nous devons traiter l’information, et la nature et la catégorisation de la réalité. Tout comme du Gay et Pryke ont noté que “les outils comptables… n’aident pas seulement à mesurer l’activité économique, ils donnent forme à la réalité qu’ils mesurent” (2002, pp. 12-13), les Big Data posent les bases de nouveaux terrains d’objets, de nouvelles méthodes de connaissance, de nouvelles définitions de la vie sociale.

Louant ce qu’il appelle “l’âge des Petabits”, Chris Anderson, rédacteur en chef de Wired, écrit : “C’est un monde dans lequel des quantités massives de données et les mathématiques appliquées remplacent tous les autres outils qui pourraient être utilisés. Exit toutes les théories sur les comportements humains, de la linguistique à la sociologie. Oubliez la taxinomie, l’ontologie, et la psychologie. Qui peut savoir pourquoi les gens font ce qu’ils font ? Le fait est qu’il le font, et que nous pouvons le tracer et mesurer avec une fidélité sans précédent. Si l’on a assez de données, les chiffres parlent d’eux-mêmes.” (2008)

Les chiffres parlent-ils d’eux-mêmes ? La réponse, pensons-nous, est un retentissant “NON”.

Le fait qu’Anderson congédie toutes les autres théories et disciplines est significatif : cela révèle l’existence d’un courant arrogant dans nombre de débats sur les Big Data dans lesquels toutes les autres formes d’analyses peuvent être écartées au profit d’une production à la chaîne de chiffres, privilégiés comme étant en lien direct avec la connaissance brute. Les raisons pour lesquelles les gens font des choses, écrivent des choses, ou fabriquent des choses sont effacées au profit du volume des répétitions numériques et de vastes modélisations. Ce n’est pas un lieu pour la réflexion, ni pour les formes plus anciennes d’habiletés intellectuelles. Comme David Berry (2011, p. 8 ) l’écrit, les Big Data fournissent “des quantités déstabilisantes de connaissances et d’informations auxquelles il manque la force régulatrice de la philosophie.” En lieu et place de la philosophie – que Kant voyait comme la base rationnelle de toute institution – “la computationalité pourrait alors être envisagée comme une onto-théologie, créant une nouvelle “épochè” ontologique en tant que nouvelle constellation historique de l’intelligibilité” (Berry 2011, p. 12).

Nous devons poser de difficiles questions sur les modèles d’intelligibilité des Big Data avant qu’elles ne se cristallisent en nouvelles orthodoxies. Si nous en revenons à Ford, son innovation utilisait la chaine de montage pour fragmenter des tâches globales, interconnectées en tâches simples, atomisées et mécaniques. Il l’a fait en concevant des outils spécialisés qui prédéterminaient et limitaient fortement l’action du travailleur. De même, les outils spécialisés des Big Data intègrent également leurs propres limitations et restrictions. L’une d’elles concerne le temps. “Les Big Data portent sur le présent exclusivement, sans le contexte historique qui est un facteur prédictif”, observe Joi Ito, le directeur du MIT Media Lab (Bollier 2010, p. 19). Par exemple, Facebook et Twitter sont des exemples de sources de Big Data qui n’offrent que des fonctions limitées d’archivage et de recherche, et pour lesquelles les chercheurs auront tendance à se concentrer sur des choses présentes ou sur le passé immédiat – traçant les réactions à une élection, une finale télévisée ou un désastre naturel – en raison de la difficulté même, voire de l’impossibilité, d’accéder à des données plus anciennes.

Si nous observons l’automatisation de certains types particuliers de fonctions de recherche, alors nous devons considérer les défauts intégrés de ces machines-outils. Il ne suffit pas de simplement demander, comme le suggère Anderson “Qu’est-ce que la science peut apprendre de Google ?”, mais il faut se demander comment Google et les autres moissonneurs de Big Data peuvent changer le sens même d’apprendre, et quelles nouvelles possibilités et limites pourraient accompagner ces systèmes de connaissance.

2. Les revendications d’objectivité et d’exactitude sont trompeuses

“Des nombres, des nombres, des nombres”, écrit Latour (2010). “La sociologie a été obsédée par l’idée de devenir une science quantitative”. Et pourtant, elle n’a toujours pas atteint ce but, selon Latour, puisqu’il dépend de l’endroit où l’on fait passer la ligne séparant la connaissance quantifiable de celle qui ne l’est pas en matière de social.

Les Big Data offrent aux Humanités une nouvelle opportunité de revendiquer le statut de science quantitative aux méthodes objectives, en rendant quantifiables de plus en plus d’espaces sociaux. En réalité, travailler avec les Big data reste une affaire subjective, et ce qui est quantifié ne peut forcément prétendre à une plus grande proximité avec une vérité objective – en particulier lorsque l’on considère les messages provenant des sites de médias sociaux. Pourtant, persiste la croyance erronée que les recherches qualitatives sont affaires d’interprétation de récits, et que les recherches quantitatives sont affaires de production de faits. Et c’est ainsi que les Big Data risquent de remettre à l’ordre du jour les divisions qui organisent les éternelles querelles sur les méthodes scientifiques.

La notion d’objectivité a constitué une question centrale pour la philosophie des sciences comme ce fut le cas lors des premiers débats sur les méthodes scientifiques (Durkheim 1895). D’un côté, la revendication de l’objectivité suggère une adhésion de la recherche à la sphère des objets, aux choses existant en elles-mêmes et pour elles-mêmes. D’un autre côté, la subjectivité est considérée avec suspicion, toute colorée qu’elle est par les diverses formes de conditionnements individuels et sociaux. La méthode scientifique s’efforce de se déprendre de toute subjectivité grâce l’application d’un processus dépassionné par lequel des hypothèses sont proposées et testées, aboutissant au final à une amélioration des connaissances. Néanmoins, les revendications d’objectivité sont nécessairement celles de sujets et sont fondées sur des observations et des choix subjectifs.

Tous les chercheurs sont des interprètes de données. Comme Lisa Gitelman (2011) l’observe, les données doivent d’abord être imaginées, conçues comme des données, et ce processus d’imagination des données se base sur une forme d’interprétation : “chaque discipline institutionnalisée possède ses propres normes et standards concernant l’imagination des données”. Depuis que les chercheurs en informatique ont commencé à prendre part à la recherche en sciences sociales, il existe une tendance à considérer leurs travaux comme étant affaire de faits et non d’interprétations. Un modèle peut avoir l’air mathématiquement solide, une expérience peut sembler valide, mais dès lors que le chercheur tente d’en saisir le sens, le processus d’interprétation a commencé. Les décisions de conception, qui déterminent ce qui sera mesuré, découlent elles aussi d’un processus interprétatif.

Par exemple, dans le cas des données issues des médias sociaux, il existe un processus de “nettoyage des données” : des décisions sont prises pour savoir quels attributs et quelles variables vont être pris en compte, et lesquels vont être ignorés. Ce processus est intrinsèquement subjectif. Comme Bollier l’explique : “En tant que grande masse de données brutes, les Big Data ne s’expliquent pas d’elles-mêmes. Qui plus est, les méthodologies spécifiques permettant d’interpréter les données sont soumises à toutes sortes de débats philosophiques. Les données peuvent-elles représenter une “vérité objective” ou bien est-ce que toute interprétation est forcément biaisée par une forme de filtrage subjectif, ou encore par la manière dont les données sont “nettoyées” ?” (2010, p.13)

Il faut ajouter à ces questions le problème des erreurs dans les données elles-mêmes. Les grands jeux de données récoltés sur Internet sont souvent peu fiables, à la merci des pannes ou des pertes, et ces erreurs et lacunes sont décuplées quand on croise de multiples jeux de données. Les sociologues ont une longue histoire en termes de critique de la collecte des données et de vigilance à la façon dont un ensemble de biais peuvent influencer leurs données (Cain & Finch, 1981; Clifford & Marcus, 1986). Une telle critique implique de comprendre les propriétés et les limites d’un jeu de données, quelle que soit sa taille. Ce dernier peut contenir des millions et des millions de petits morceaux d’informations, mais cela ne signifie ni qu’il soit aléatoire ni qu’il soit représentatif. Pour avoir des prétentions statistiques face à un jeu de données, nous avons besoin de savoir d’où celles-ci proviennent ; et il est tout aussi important de connaître les faiblesses de ces données, et d’en rendre compte. Une telle démarche implique d’admettre que l’identité d’une personne et son point de vue informent les analyses qu’elle peut produire (Behar & Gordon, 1996).

Des erreurs spectaculaires peuvent survenir lorsque les chercheurs tentent de faire des trouvailles en sciences sociales au sein des systèmes technologiques. Un exemple classique est né du choix de Friendster d’appliquer les travaux de Robin Dunbar (1998). Analysant la pratique du commérage chez les humains et de l’épouillage chez les singes, Dunbar trouva que les gens ne pouvaient entretenir activement plus de 150 relations, et défendait l’idée que ce nombre représentait la taille maximale du réseau personnel de quelqu’un. Malheureusement, Friendster a cru que les gens reproduiraient sur le site leur réseau personnel préexistant, et en a déduit que personne n’aurait une liste d’amis supérieure à 150. Il a donc bloqué le nombre “d’amis” que les gens pouvaient avoir sur ce service (boyd, 2006).

L’interprétation est au cœur de l’analyse de données. Quelle que puisse être la taille d’un jeu de données, il est sujet à des limitations et à des partis-pris. Si ces limites et ces partis-pris ne sont pas compris et soulignés, il faut s’attendre à des problèmes d’interprétation. Les Big Data atteignent le sommet de leur efficacité lorsque les chercheurs prennent en compte le processus méthodologique complexe qui sous-tend l’analyse de données sociales.

3. De plus grosses données ne sont pas toujours de meilleures données

Les chercheurs en sciences sociales ont longtemps affirmé que la rigueur de leur travail s’enracinait dans leur approche systématique de la collecte et de l’analyse de données (McClosky, 1985). Les ethnographes s’attachent à rendre compte réflexivement des préjugés que peuvent contenir leurs interprétations. Ceux qui travaillent sur la base d’expérimentations contrôlent et standardisent la conception de leurs expériences. Les sociologues creusent la question des mécanismes de l’échantillonnage et des biais potentiellement contenus dans les questionnaires qu’ils utilisent dans leurs enquêtes. Les chercheurs quantitativistes soupèsent la représentativité statistique… Ce ne sont que quelques-unes des manières par lesquelles les chercheurs en sciences sociales essaient d’évaluer, chacun, la validité de leurs travaux respectifs. Malheureusement, certains de ceux qui abordent la question des Big Data supposent que ces questions au cœur des méthodologies des sciences sociales ne sont désormais plus pertinentes. On constate qu’un ethos sous-jacent pose ici problème, selon lequel plus gros signifie meilleur, quantité signifie nécessairement qualité.

Twitter fournit un bon exemple, dans le contexte d’une analyse statistique. Tout d’abord, Twitter ne représente pas “tout le monde”, bien que beaucoup de journalistes et de chercheurs emploient “les gens” et “les usagers de Twitter” comme des synonymes. La population utilisatrice de Twitter n’est pas davantage représentative de la population globale. Et nous ne pouvons pas affirmer non plus qu’un compte Twitter équivaille à un utilisateur : certains utilisateurs ont plusieurs comptes, certains comptes sont utilisés par plusieurs personnes. Certaines personnes ne créent jamais de comptes, mais accèdent à Twitter via le web. Certains comptes sont en fait des “robots”, qui produisent du contenu automatisé sans impliquer la présence d’une personne. Plus encore, la notion de compte “actif” est problématique. Tandis que certains usagers postent régulièrement du contenu sur Twitter, d’autres participent en tant “qu’écoutants” (Crawford 2009, p. 532). La société Twitter Inc. a révélé que 40% des utilisateurs actifs ne se connectent que pour écouter (Twitter, 2011). Le sens véritable des termes “utilisateur” et “participation” et “actif” doit donc être examiné de façon critique. En raison des incertitudes sur ce que représente véritablement un compte et sur les diverses formes que peut prendre l’engagement dans des activités liées au site, il serait aventureux de prendre un échantillon de comptes Twitter et d’en tirer des conclusions sur “les gens” ou “les utilisateurs”. Seul Twitter Inc. peut revendiquer un regard sur l’ensemble des comptes ou l’ensemble des tweets ou d’un échantillon aléatoire, dans la mesure où ils ont accès à la base de données centrale. Mais même ainsi, ils ne peuvent pas facilement comptabiliser les “voyeurs”, ni les gens utilisant de multiples comptes ou les groupes de gens qui utilisent le même compte à plusieurs. Qui plus est, la base de données centrale est également sujette à des pannes, et les tweets sont fréquemment perdus et effacés.

Twitter Inc. rend accessible au public une fraction de son matériel, via ses API (1). Le plus gros des flux offerts ainsi par Twitter, appelé par la firme elle-même le firehose (“la lance à incendie”, ndlt), permet d’accéder théoriquement à tous les tweets publics qui ont été postés et exclut explicitement tout tweet qu’un utilisateur aurait choisi de rendre privé ou “protégé”. Pourtant, certains tweets publiquement accessibles manquent encore dans le firehose. Bien qu’une poignée d’entreprises et de start-ups puissent ainsi aspirer l’intégralité des tweets, très peu de chercheurs bénéficient d’un tel niveau d’accès. La plupart ont plutôt accès à ce que Twitter appelle le gardenhose (“le tuyau d’arrosage”, ndlt) (qui représente environ 10% des tweets publics), soit même seulement au spritzer (“vin délayé”, ndlt) (environ 1% des tweets publics), ou encore ont eu recours à une “liste blanche” de comptes grâce auxquels ils ont pu utiliser les API pour avoir accès à différents sous-ensembles de contenus tirés du flux public (2). On manque donc d’informations permettant de savoir quels tweets sont exactement inclus dans ces différents flux de données et comment est construit leur échantillonnage. Il se peut que l’API n’extraie qu’un échantillon aléatoire de tweets, ou qu’elle ne retienne que les quelques premières centaines de tweets émis chaque heure, ou encore qu’elle ne retienne que les tweets issus d’un segment particulier du graphe du réseau. Étant donnée cette incertitude, il est difficile pour des chercheurs de revendiquer la qualité des données qu’ils sont en train d’analyser. Ces données sont-elles représentatives de tous les tweets ? Non, dans la mesure où elles excluent les tweets des comptes protégés (3). Ces données sont-elles représentatives de tous les tweets publics ? Peut-être, mais pas nécessairement.

Ce ne sont là que quelques-unes des inconnues auxquelles les chercheurs font face lorsqu’ils travaillent sur les données de Twitter, pourtant ces limites sont rarement reconnues. Même ceux qui fournissent la procédure par laquelle ils ont construit leur échantillon à partir du firehose ou du gardenhose évoquent rarement ce qui pourrait manquer ni comment leurs algorithmes ou l’architecture du système de Twitter peuvent introduire des distorsions dans le jeu de données. Certains chercheurs se concentrent simplement sur le nombre brut de tweets : mais un grand nombre de données (big data) et la totalité des données (whole data), ce n’est pas la même chose. Si l’on ne peut prendre en compte le mode d’échantillonnage d’un jeu de données, sa taille n’est d’aucune importance.

Par exemple, un chercheur pourrait chercher à comprendre la fréquence de réactualisation des tweets en fonction des sujets abordés, mais si Twitter retire du flux tous les tweets qui contiennent certains mots ou informations problématiques – des références à la pornographie par exemple – cette fréquence sera finalement complètement erronée. Indépendamment du nombre de tweets, un échantillon n’est pas représentatif si les données sont biaisées dès le départ. Twitter est devenu une source très populaire lorsqu’il s’agit d’exploiter dans le champ des Big Data, mais travailler avec les données de Twitter pose de sérieux défis méthodologiques, rarement abordés par ceux qui s’y aventurent. Lorsque des chercheurs se mettent à travailler sur un jeu de données, ils ont besoin de comprendre – et de pouvoir expliquer publiquement – non seulement les limites de ce jeu de données, mais aussi les limites des questions qui peuvent se poser et quelles interprétations sont appropriées pour y répondre.

C’est particulièrement vrai lorsque les chercheurs combinent de multiples grands jeux de données. Jesper Anderson, le cofondateur du système de stockage de données financières ouvert FreeRisk, explique que le fait de combiner des données issues de multiples sources confronte à des défis particuliers : “Chacune de ces sources est sujette à des erreurs… Je pense que nous ne faisons qu’amplifier ce problème [quand on combine de multiples jeux de données]“ (Bollier 2010, p.13). Cela ne signifie pas pour autant que combiner des données n’aie pas d’intérêt – certaines études, comme celle menée par Alessandro Acquisti et Ralph Gross (2009) qui montrait comment les bases de données pouvaient être croisées pour révéler de très sérieuses violations de la vie privée sont cruciales. Il est donc impératif que de telles combinaisons de données se fassent avec rigueur méthodologique et transparence.

Finalement, au tournant de l’ère computationnelle, il devient de plus en plus important de reconnaître la valeur du “small data”. Les intuitions de recherche peuvent apparaître à n’importe quel niveau, y compris à très petite échelle. Dans certains cas, se concentrer sur un seul individu peut s’avérer extraordinairement riche. On peut prendre pour exemple le travail de Tiffany Veinot (2007), qui a suivi un seul travailleur – un inspecteur des voûtes dans une entreprise de services hydroélectriques – afin de comprendre les pratiques informationnelles des travailleurs en col-bleu. En menant cette étude peu commune, Veinot a été amenée à déplacer la définition des “pratiques informationnelles”, en s’écartant du regard porté habituellement sur leurs premiers usagers, les cols blancs, et en se rendant dans des espaces situés hors des contextes de l’entreprise ou de la ville. L’histoire que son travail nous raconte n’aurait pu être découverte en exploitant des millions de comptes Facebook ou Twitter, et si elle contribue de manière significative au champ de recherche, c’est en portant un regard sur le plus petit nombre possible de participants. La dimension des données reprises devrait ainsi correspondre à la question posée : dans certains cas, plus c’est petit, mieux c’est.

4. Toutes les données ne sont pas équivalentes

Certains chercheurs considèrent que les recherches menées sur de petits ensembles de données peuvent être améliorées grâce aux Big Data. Cet argument présuppose que les données sont interchangeables. Au contraire, sorties de leur contexte, les données perdent leur signification et leur valeur. Le contexte est déterminant. Si deux jeux de données peuvent être modélisés de la même manière, cela ne signifie pas pour autant qu’ils soient équivalents ni qu’ils puissent être analysés de la même façon. Considérons par exemple l’intérêt croissant pour l’analyse des réseaux sociaux qui a accompagné l’émergence des sites de réseaux sociaux (boyd & Ellison 2007) et l’obsession des industriels pour les “graphes sociaux”. Un nombre incalculable de chercheurs se sont rués sur Twitter et Facebook et sur d’autres médias sociaux pour analyser les graphes sociaux qui en résultaient, se découvrant des prétentions sur l’analyse des réseaux sociaux.

L’étude des réseaux sociaux date des débuts de la sociologie et de l’anthropologie (par ex. Radcliffe-Brown, 1940), avec l’apparition de la notion de “réseau social” en 1954 (Barnes) et l’émergence du champ de “l’analyse des réseaux sociaux” peu de temps après (Freeman 2006). Depuis lors, les universitaires de différentes disciplines ont tenté de comprendre les relations des gens entre eux en recourant à diverses approches méthodologiques et analytiques. Alors que les chercheurs commençaient à interroger les connexions entre les gens sur les médias sociaux en ligne, on a vu un véritable regain d’intérêt pour l’analyse des réseaux sociaux. Désormais, les spécialistes de l’analyse de réseaux se tournent vers l’étude des réseaux générés par les communications médiatisées, les déplacements géographiques et d’autres types de données traçables.

Cependant, les réseaux générés par les médias sociaux et résultant des traces communicationnelles ne sont pas nécessairement interchangeables avec les données issues des autres types de réseaux sociaux. Simplement parce que le fait que deux personnes soient physiquement co-présentes – ce qui pourrait être décelé par les antennes téléphoniques ou saisi par des photographies – ne signifie pas pour autant qu’elles se connaissent. En outre, plutôt que d’indiquer la présence de récurrences objectives et prévisibles, les sites de réseaux sociaux facilitent plutôt l’établissement de connexions qui traversent les frontières structurelles et agissent ainsi comme une source dynamique de changement : produire un instantané, ou même relever un ensemble de traces dans le temps, ne permet pas de saisir la complexité de toutes les relations sociales. Comme le notent Kilduff et Tsai (2003, p. 117) “les recherches sur les réseaux tendent à se baser sur une ontologie naïve qui considère comme non-problématique l’existence et la persistance objectives de patterns, d’invariants et de systèmes sociaux”. Cette approche produit un certain type de résultats lorsque l’analyse ne porte que sur un point déterminé dans le temps, mais elle s’effondre totalement dès lors que des questions plus vastes sont abordées (Meyer et al. 2005).

Historiquement parlant, lorsque les sociologues et anthropologues s’intéressèrent, les premiers, aux réseaux sociaux, les données sur les relations entre individus étaient collectées par le biais d’enquêtes, d’entretiens, d’observations et de dispositifs d’expérimentation. Utilisant ces données, les sociologues se sont essentiellement attachés à décrire les “réseaux personnels” – l’ensemble de relations qu’un individu développe et entretient (Fischer 1982). Ces connexions furent évaluées sur la base d’une série de mesures développées au fil du temps dans le but d’identifier les connexions personnelles. L’ère des Big Data introduit deux nouveaux types très populaires de réseaux sociaux, dérivés cette fois de l’étude des traces laissées par les données : les “réseaux articulés” et les “réseaux comportementaux”.

Les “réseaux articulés” sont ceux qui résultent du fait que les utilisateurs spécifient leurs contacts lorsqu’ils utilisent des technologies de médiation (boyd 2004). Il existe trois motifs fréquents pour lesquels les gens articulent ainsi leurs connexions : pour disposer d’une liste de leurs contacts à usage personnel ; pour afficher publiquement leurs connexions à certains autres ; et pour filtrer le contenu sur les médias sociaux. On trouve ces réseaux articulés sous la forme de carnets d’adresses mails ou téléphoniques, de listes de contacts de messageries instantanées, de listes “d’amis” sur certains réseaux sociaux, et de “followers” sur d’autres types de réseaux sociaux. Les motivations qui poussent les gens à ajouter quelqu’un à chacune de ces listes sont très variables, mais le résultat reste que ces listes peuvent inclure des amis, des collègues, des connaissances, des célébrités, des personnalités publiques, et des inconnus jugés intéressants.

Les “réseaux comportementaux” sont dérivés de l’analyse des modes de communication, des coordonnées téléphoniques et des interactions sur les médias sociaux (Meiss et al. 2008 ; Onnela et al. 2007). Ils peuvent inclure les personnes qui s’envoient des SMS, ceux qui sont tagués ensemble sur des photos sur Facebook, les gens qui s’envoient des emails, et les gens qui se trouvent physiquement dans les mêmes espaces, du moins si l’on se fie à ce qu’indiquent leurs téléphones portables.

Réseaux “articulés” et “comportementaux” ont tous deux une grande valeur aux yeux des chercheurs, mais ils ne sont pas équivalents aux réseaux personnels. Par exemple, bien que souvent contesté, le concept de “force des liens” est conçu pour indiquer l’importance des relations individuelles (Granovetter, 1973). Quand une personne choisit de lister quelqu’un parmi ses “meilleurs amis” sur Myspace, il peut s’agir véritablement, ou pas, d’un de ses amis les plus proches ; il existe toutes sortes de raisons sociales de ne pas mentionner ses plus intimes connexions au sommet de la liste (boyd 2006). De même, lorsque les téléphones mobiles permettent de repérer qu’un travailleur passe plus de temps avec ses collègues qu’avec son épouse, cela ne signifie pas pour autant qu’il entretient des liens plus forts avec ses collègues qu’avec sa femme. Mesurer la force des liens au seul prisme de leur fréquence ou des articulations publiques est une erreur courante : la notion de force des liens – et de bien des théories qui se sont construites autour – exige une estimation subtile de la manière dont les gens envisagent et valorisent leurs relations avec les autres.

De fascinantes analyses de réseaux peuvent être réalisées à partir de ces réseaux articulés et comportementaux. Mais il existe un risque, à l’ère des Big Data, de traiter chaque connexion comme équivalente à toutes les autres, de confondre la fréquence des contacts avec la force des relations, et de croire qu’une absence de connexion indique qu’une relation devrait être établie. Les données ne sont pas génériques. Il y a certes un intérêt à analyser des données abstraites, mais le contexte demeure crucial.

5. Accessible ne veut pas dire éthique

En 2006, un projet de recherche basé à Harvard a commencé par rassembler les profils de 1700 étudiants usagers de Facebook afin d’étudier comment leurs centres d’intérêts et leurs amitiés évoluaient avec le temps (Lewis et al. 2008). Ces données prétendument anonymes ont été rendues accessibles à tous, permettant à d’autres chercheurs de les explorer et de les analyser. Ces autres chercheurs ont, en revanche, rapidement découvert qu’il était possible de désanonymiser certaines parties de ce jeu de données, compromettant ainsi la vie privée des étudiants, dont aucun ne savait que ces données avaient été collectées (Zimmer 2008). Cette affaire fit les gros titres des journaux, et posa un problème épineux aux universitaires : quel statut accorder à des données soi-disant “publiques” sur les réseaux sociaux ? Peuvent-elles êtres simplement utilisées, sans en demander la permission ? Quelle serait la démarche la plus éthique pour les chercheurs ? Les militants pour la protection de la vie privée y voient d’ores et déjà un champ de bataille crucial, sur lequel l’établissement de meilleurs dispositifs de protection de la vie privée s’avère nécessaire. Toute la difficulté réside dans le fait que les brèches dans la vie privée sont délicates à spécifier – peut-on en constater les dégâts au moment même où elles ont lieu ? Et qu’en sera-t-il vingt ans après ? “Tout type de donnée portant sur des sujets humains soulève des questions de protection de la vie privée, et il est difficile de quantifier les véritables risques induits par l’usage abusif de ces données” (Nature, cité in Berry 2010).

Même lorsque les chercheurs s’efforcent de procéder avec précaution, ils ne sont pas toujours conscients des dommages que leurs recherches pourraient entrainer. Par exemple, un groupe de chercheurs avait noté qu’il existait une corrélation entre le fait de s’auto-mutiler (le “cutting“) et le suicide. Ils avaient préparé une intervention pédagogique cherchant à décourager les gens de s’auto-mutiler ainsi, pour finir par apprendre que cette intervention induisait une augmentation des tentatives de suicide. Pour certains, en effet, les auto-mutilations servaient de soupape de sécurité et tenaient à distance le désir de se suicider. Les scientifiques cessèrent immédiatement leurs interventions (Emmens & Phippen, 2010).

Les comités d’éthique dédiés à la recherche sont apparus dans les années 1970 pour superviser la recherche sur l’humain. Bien que leur mise en œuvre ait incontestablement été problématique (Schrag, 2010), le but de ces comités est de fournir un cadre permettant d’évaluer les dimensions éthiques de certaines recherches par enquêtes, et de s’assurer que de bons contrepoids sont mis en place pour protéger les personnes. Des pratiques comme le “consentement éclairé” et la protection de la vie privée des informateurs sont destinées à donner du pouvoir aux participants, compte tenu des abus qui ont pu avoir cours au sein des sciences médicales et sociales (Blass, 2004; Reverby, 2009). Bien que les comités d’éthiques ne soient pas toujours en mesure de prévoir les méfaits d’une étude en particulier – et viennent, trop souvent, empêcher les chercheurs de se lancer dans des recherches pour des motifs autres qu’éthiques – l’intérêt de l’existence de ces comités reste d’inciter les universitaires à une pensée critique quant à l’éthique de leurs recherches.

Alors que les Big Data commencent à émerger en tant que champ de recherche, on comprend encore bien peu de choses quant aux implications éthiques des recherches mises en œuvre. Sur quelles bases inclure quelqu’un dans un vaste ensemble de données ? Que se passe-t-il si un billet “public” sur le blog de quelqu’un est sorti de tout contexte et analysé d’une manière que son auteur n’aurait jamais imaginée ? Que signifie pour quelqu’un le fait d’être mis sous les projecteurs ou d’être “étudié” sans même le savoir ? Qui est responsable de s’assurer qu’un processus de recherche ne s’avère pas nuisible pour des individus ou des communautés ? Que devient le consentement ?

Il ne serait pas raisonnable de demander aux chercheurs d’obtenir le consentement de chacune des personnes qui poste un tweet, mais il n’est pas éthique, de la part de chercheurs, de légitimer leurs actions par le simple fait que les données sont accessibles (boyd & Marwick, 2011). La déontologie de la collecte et de l’analyse des données en ligne révèle de très sérieuses problématiques (Ess, 2002). Le processus d’évaluation éthique de la recherche ne peut pas être simplement ignoré parce que les données sont apparemment accessibles. Les chercheurs doivent continuer à s’interroger – et à interroger leurs collègues – sur la déontologie de leurs collectes de données, de leurs analyses, et de leurs publications.

S’ils souhaitent agir de manière éthique, il est important que les universitaires réfléchissent à l’importance de leur responsabilité. Dans le cas des Big Data, cela renvoie à la fois à une responsabilité devant le champ de recherche et à une responsabilité devant les sujets de la recherche. Lorsqu’ils travaillent avec des participants humains, les chercheurs académiques sont tenus au respect de standards professionnels spécifiques afin que soient protégés leurs droits et leur bien-être. Néanmoins, le problème est que beaucoup d’instances de supervision éthique ne comprennent pas les processus d’exploitation et d’anonymisation des Big Data, sans parler des erreurs qui peuvent rendre les données personnelles identifiables. La responsabilité devant le champ et devant les sujets humains requiert une pensée rigoureuse de toutes les ramifications des Big Data, plutôt que la seule supposition que les comités d’éthique vont nécessairement faire ce qu’il faut pour s’assurer que les gens sont protégés. La responsabilité est ici utilisée dans un sens plus large que la simple protection de la vie privée, comme Troshynski et al. (2008) l’ont souligné, dans la mesure où le concept de responsabilité peut s’appliquer même lorsque les attentes conventionnelles en terme de vie privée ne sont pas remises en cause. La responsabilité renvoie ici davantage à une relation multi-directionnelle : il peut y avoir responsabilité devant des supérieurs, des collègues, des participants et devant l’opinion publique (Dourish & Bell 2011).

Les études de Big Data recèlent d’importantes questions sur la vérité, le contrôle et le pouvoir : les chercheurs disposent des outils et des accès, tandis que les utilisateurs des médias sociaux, dans leur ensemble, n’en disposent pas. Leurs données ont été produites dans des espaces dont le contexte s’avère particulièrement sensible et déterminant, et il est fort probable que certains utilisateurs de médias sociaux n’accorderaient pas leur permission pour que leurs données soient utilisées ailleurs. Beaucoup n’ont pas conscience de la multiplicité d’agents et d’algorithmes qui collectent et stockent leurs données pour des usages ultérieurs. Les chercheurs sont rarement le public qu’un utilisateur s’imagine avoir, pas plus que les utilisateurs ne sont nécessairement conscients des multiples usages, profits et autres bénéfices qui peuvent être tirés des informations qu’ils ont mises en ligne. Les données peuvent être publiques (ou semi-publiques), mais cela ne doit pas être pris, de façon simpliste, comme une permission totale, donnée pour toute forme d’utilisation. Il existe une différence considérable entre le fait d’être en public et celui d’être public, différence qui est rarement reconnue par les chercheurs du champ des Big Data.

6. L’accès limité aux Big Data crée de nouvelles fractures numériques

Dans un essai sur les Big Data, Scott Golder (2010) cite le sociologue Georges Homans (1974) : “Les méthodes des sciences sociales sont coûteuses en temps et en argent et deviennent plus coûteuses encore chaque jour”. Historiquement, la collecte de données a effectivement toujours été difficile, chronophage et coûteuse. L’essentiel de l’enthousiasme autour des Big Data provient de l’impression qu’elles offrent au contraire un accès facile à un grand nombre de données.

Mais qui y a accès ? Avec quels objectifs ? Dans quels contextes ? Et avec quelles contraintes ? Bien que l’explosion de la recherche utilisant des jeux de données tirés des médias sociaux donne à croire que l’accès est devenu simple et direct, c’est tout sauf vrai. Comme Lev Manovich (2011) le fait remarquer, “seules les entreprises de médias sociaux ont accès à des bases de données sociales véritablement conséquentes – et plus particulièrement aux données concernant les interactions et les échanges. Un anthropologue travaillant pour Facebook ou bien un sociologue travaillant chez Google accéderont à des données auxquelles le reste de la communauté scientifique n’accédera jamais”. Certaines entreprises empêchent complètement l’accès à leurs données. D’autres vendent à bon prix ce privilège de l’accès. Et d’autres encore cèdent de petits jeux de données aux chercheurs travaillant pour des universités. Tout ceci produit des écarts de niveaux considérables dans le système de la recherche : ceux qui ont des moyens financiers – ou bien ceux qui travaillent au sein des entreprises – peuvent conduire des recherches de types très différents de ceux qui sont dehors. Ceux qui n’ont accès à rien ne peuvent ni reproduire ni donc évaluer les affirmations méthodologiques de ceux qui bénéficient d’un accès privilégié.

Il est également important de reconnaître que la classe des “riches” des Big Data se trouve renforcée par le système universitaire : les universités les mieux cotées et les mieux dotées sont les seules capables d’acheter l’accès aux données, et les étudiants des grandes universités sont les plus susceptibles d’être invités à travailler pour les grandes entreprises de médias sociaux. Ceux qui restent en périphérie se verront moins probablement proposer ces invitations et trouveront donc moins l’occasion de développer leurs compétences. lI en résulte que l’écart entre ceux qui sont allés dans les universités prestigieuses et les autres se creusera significativement.

Au-delà des questions d’accès, il y a également des questions de compétences. Batailler avec les APIs, fouiller et analyser de grands pans de données est une compétence généralement réservée aux personnes expérimentées en informatique. Lorsque les compétences informatiques deviennent les plus valorisées, émerge la question de savoir qui se trouve avantagé ou désavantagé par un tel contexte. Cela crée de nouvelles hiérarchies tournant autour de “qui saura lire les chiffres”, plutôt que de reconnaître qu’informaticiens et sociologues peuvent offrir chacun des points de vue valables. De façon significative, il s’agit également d’une différence entre les genres. La plupart des chercheurs qui ont des compétences en informatique aujourd’hui sont des hommes, et, comme les historiens féministes et les philosophes des sciences l’ont montré, l’identité de celui qui pose les questions détermine les questions qui seront posées (Forsythe 2001; Harding 1989). C’est un point difficile que d’évaluer le type de compétences de recherche qui seront valorisées dans le futur, et la manière dont ces compétences seront enseignées. Que faut-il enseigner aux étudiants pour qu’ils soient aussi à l’aise avec les algorithmes et l’analyse de données qu’avec l’analyse sociologique et la théorie ?

En définitive, la difficulté et le coût de l’accès aux données des Big Data aboutissent à une culture étriquée des résultats de recherche. Les grandes entreprises de données n’ont aucune obligation de rendre leurs données disponibles, et ont un contrôle total sur le choix de ceux qui y accèdent. Les chercheurs du champ des Big Data qui ont accès à ces jeux de données propriétaires sont moins susceptibles de choisir des questions qui pourraient être litigieuses pour une société de médias sociaux, par exemple, s’ils pensent que cela peut aboutir à l’interruption de leur droit d’accès. Les effets dissuasifs sur les types de questions de recherche qui peuvent être posés – en public comme en privé – sont une chose dont nous devons tous tenir compte pour évaluer l’avenir des Big Data.

L’écosystème qui entoure actuellement les Big Data crée un nouveau type de fracture numérique : des Big Data de riches et des Big Data de pauvres. Les chercheurs de certaines grandes entreprises sont même allés jusqu’à suggérer que les universitaires ne devraient pas venir entraver l’étude des médias sociaux – les “chercheurs-maisons” pouvant s’en occuper tellement plus efficacement (4). De tels efforts pour distinguer des chercheurs initiés de chercheurs étrangers et profanes – ce qui n’a rien de nouveau – mettent à mal la rhétorique utopiste des évangélistes des valeurs des Big Data. “Une démocratisation effective peut toujours se mesurer à ce critère essentiel”, affirmait Derrida, “la participation et l’accès aux archives, à leur constitution et à leur interprétation” (1996, p. 4). Chaque fois que les inégalités sont explicitement inscrites au sein même d’un système, elles produisent des structures qui reconduisent des différences de classes. Manovich décrit trois classes d’individus au royaume des Big Data : “ceux qui créent les données (que ce soit consciemment ou en laissant des traces numériques), ceux qui ont les moyens de les recueillir, et ceux qui ont la compétence de les analyser” (2011). Nous savons que ce dernier groupe est le plus restreint, mais aussi le plus privilégié : ce sont également ceux qui arrivent à déterminer les règles selon lesquelles les Big Data seront exploitées, et à choisir qui pourront y participer. Bien que les inégalités institutionnelles puissent parfois être considérées comme inéluctables par le monde universitaire, elles doivent néanmoins être examinées et interrogées, dans la mesure où elles orientent les données comme les types de recherches susceptibles d’en émerger.

Affirmer que le phénomène des Big Data participe de certains des plus grands changements historiques et philosophiques ne revient pas à suggérer qu’il en soit le seul responsable. Le monde académique n’est en aucun cas l’unique moteur du tournant computationnel. Il existe un mouvement de fond, gouvernemental et industriel, pour récolter et extraire le maximum de valeur des données, qu’il s’agisse d’informations qui permettront de mieux cibler les publicités, du design de produits, de la planification du trafic ou de la lutte contre le crime. Mais nous croyons réellement qu’il existe de nombreuses et sérieuses conséquences à l’opérationnalisation des Big Data, et à ce que cela va signifier pour l’agenda scientifique. Comme Lucy Suchman (2011) l’observe, via Levi-Strauss, “nous sommes nos outils”. Lorsque nous les utilisons, nous devrions donc également prendre en considération la manière dont ils participent à la construction du monde. L’ère des Big Data vient à peine de commencer, mais il est d’ores et déjà important que nous nous mettions à interroger les hypothèses, les valeurs, et les partis-pris de cette nouvelle vague de recherches. En tant qu’universitaires investis dans la production de la connaissance, de telles interrogations constituent une part essentielle de ce que nous faisons.

danah boyd
Microsoft Research
dmb@microsoft.com

Kate Crawford
University of New South Wales
k.crawford@unsw.edu.au

Traduction : Laurence Allard, Pierre Grosdemouge & Fred Pailler.

Remerciements
Nous voulons remercier Heather Casteel pour son aide dans la préparation de cet article. Nous sommes aussi profondément reconnaissantes envers Eytan Adar, Tarleton Gillespie, et Christian Sandvig pour leurs conversations inspirantes, leurs suggestions et leurs retours sur ce texte.

Bibliographie
- Acquisti, A. & Gross, R. (2009) ‘Predicting Social Security Numbers from Public Data’, Proceedings of the National Academy of Science, vol. 106, no. 27, pp. 10975-10980.
- Anderson, C. (2008) ‘The End of Theory, Will the Data Deluge Makes the Scientific Method Obsolete?’, Edge [25 July 2011].
- Baca, G. (2004) ‘Legends of Fordism: Between Myth, History, and Foregone Conclusions’, Social Analysis, vol. 48, no.3, pp. 169-178.
- Barnes, J. A. (1954) ‘Class and Committees in a Norwegian Island Parish’, Human Relations, vol. 7, no. 1, pp. 39–58.
- Barry, A. and Born, G. (2012) Interdisciplinarity: reconfigurations of the Social and Natural Sciences. Taylor and Francis, London.
- Behar, R. and Gordon, D. A., eds. (1996) Women Writing Culture. University of California Press, Berkeley, California.
- Berry, D. (2011) ‘The Computational Turn: Thinking About the Digital Humanities’, Culture Machine. vol 12. [11 July 2011].
- Blass, T. (2004) The Man Who Shocked the World: The Life and Legacy of Stanley Milgram, Basic Books, New York, New York.
- Bollier, D. (2010) ‘The Promise and Peril of Big Data’, [11 July 2011].
- boyd, d. (2004) ‘Friendster and Publicly Articulated Social Networks’, Conference on Human Factors and Computing Systems (CHI 2004). ACM, April 24-2, Vienna.
- boyd, d. (2006) ‘Friends, Friendsters, and Top 8: Writing community into being on social network sites’, First Monday vol. 11, no. 12, article 2.
- boyd, d. and Ellison, N. (2007) ‘Social Network Sites: Definition, History, and Scholarship’, Journal of Computer-Mediated Communication, vol. 13, no.1, article 11.
- boyd, d. and Marwick, A. (2011) ‘Social Privacy in Networked Publics: Teens’ Attitudes, Practices, and Strategies,’ paper given at Oxford Internet Institute Decade in Time Conference. Oxford, England.
- Bowker, G. C. (2005) Memory Practices in the Sciences. MIT Press, Cambridge, Massachusetts.
- Burkholder, L, ed. (1992) Philosophy and the Computer, Boulder, San Francisco, and Oxford, Westview Press.
- Cain, M. and Finch, J. (1981) Towards a Rehabilitation of Data. In: P. Abrams, R. Deem, J. Finch, & P. Rock (eds.), Practice and Progress: British Sociology 1950-1980, George Allen and Unwin, London.
- Clifford, J. and Marcus, G. E., eds. (1986) Writing Culture: The Poetics and Politics of Ethnography. University of California Press, Berkeley, California.
- Crawford, K. (2009) ‘Following you: Disciplines of listening in social media’, Continuum: Journal of Media & Cultural Studies vol. 23, no. 4, 532-33.
- Du Gay, P. and Pryke, M. (2002) Cultural Economy: Cultural Analysis and Commercial Life, Sage, London.
- Dunbar, R. (1998) Grooming, Gossip, and the Evolution of Language, Harvard University Press, Cambridge.
- Derrida, J. (1996) Archive Fever: A Freudian Impression. Trans. Eric Prenowitz, University of Chicago Press, Chicago & London.
- Emmens, T. and Phippen, A. (2010) ‘Evaluating Online Safety Programs’, Harvard Berkman Center for Internet and Society. [23 July 2011].
- Ess, C. (2002) ‘Raw Data’ is an Oxymoron. [23 July 2011].
- Golder, S. (2010) ‘Scaling Social Science with Hadoop’, Cloudera Blog. [June 18 2011].
- Granovetter, M. S. (1973) ‘The Strength of Weak Ties,’ American Journal of Sociology vol. 78, issue 6, pp. 1360-80.
- Harding, S. (2010) ‘Feminism, science and the anti-Enlightenment critiques’, in Women, knowledge and reality: explorations in feminist philosophy, eds A. Garry and M. Pearsall, Boston: Unwin Hyman, 298–320.
- Homans, G.C. (1974) Social Behavior: Its Elementary Forms, Harvard University Press, Cambridge, MA.
- Isbell, C., Kearns, M., Kormann, D., Singh, S. & Stone, P. (2000) ‘Cobot in LambdaMOO: A Social Statistics Agent’, paper given at the 17th National Conference on Artificial Intelligence (AAAI-00). Austin, Texas.
- Kilduff, M. and Tsai, W. (2003) Social Networks and Organizations, Sage, London.
Kranzberg, M. (1986) ‘Technology and History: Kranzberg’s Laws’, Technology and Culture vol. 27, no. 3, pp. 544-560.
- Latour, B. (2009). ‘Tarde’s idea of quantification’, in The Social After Gabriel Tarde: Debates and Assessments, ed M. Candea, London: Routledge, pp. 145-162. [19 June 2011].
- Lazer, D., Pentland, A., Adamic, L., Aral, S., Barabási, A., Brewer, D.,Christakis, N., Contractor, N., Fowler, J.,Gutmann, M., Jebara, T., King, G., Macy, M., Roy, D., & Van Alstyne, M. (2009). ‘Computational Social Science’. Science vol. 323, pp. 721-3.
- Lewis, K., Kaufman, J., Gonzalez, M.,Wimmer, A., & Christakis, N. (2008) ‘Tastes, ties, and time: A new social network dataset using Facebook.com’, Social Networks vol. 30, pp. 330-342.
- Manovich, L. (2011) ‘Trending: The Promises and the Challenges of Big Social Data’, Debates in the Digital Humanities, ed M.K.Gold. The University of Minnesota Press, Minneapolis, MN.[15 July 2011].
- McCloskey, D. N. (1985) ‘From Methodology to Rhetoric’, In The Rhetoric of Economics au D. N. McCloskey, University of Wisconsin Press, Madison, pp. 20-35.
- Meeder, B., Tam, J., Gage Kelley, P., & Faith Cranor, L. (2010) ‘RT @IWantPrivacy: Widespread Violation of Privacy Settings in the Twitter Social Network’, Paper presented at Web 2.0 Security and Privacy, W2SP 2011, Oakland, CA.
- Meiss, M.R., Menczer, F., and A. Vespignani. (2008) ‘Structural analysis of behavioral networks from the Internet’, Journal of Physics A: Mathematical and Theoretical, vol. 41, no. 22, pp. 220-224.
- Meyer D, Gaba, V., Colwell, K.A., (2005) ‘Organizing Far from Equilibrium: Nonlinear Change in Organizational Fields’, Organization Science, vol. 16, no. 5, pp.456-473.
- Moretti, F. (2007) Graphs, Maps, Trees: Abstract Models for a Literary History. Verso, London.
- Onnela, J. P., Saramäki, J., Hyvönen, J., Szabó, G., Lazer, D., Kaski, K., & Kertész, J., Barabási, A.L. (2007) ‘Structure and tie strengths in mobile communication networks’, Proceedings from the National Academy of Sciences, vol.104, no.18, pp. 7332-7336.
- Pariser, E. (2011) The Filter Bubble: What the Internet is Hiding from You. Penguin Press, New York, NY.
- Radcliffe-Brown, A.R. (1940) ‘On Social Structure’, The Journal of the Royal Anthropological Institute of Great Britain and Ireland vol.70, no.1, pp.1–12.
- Reverby, S. M. (2009) Examining Tuskegee: The Infamous Syphilis Study and Its Legacy. University of North Carolina Press.
- Schrag, Z. M. (2010) Ethical Imperialism: Institutional Review Boards and the Social Sciences, 1965-2009. Johns Hopkins University Press, Baltimore, Maryland.
- Suchman, L. (2011) ‘Consuming Anthropology’, in Interdisicpinarity: Reconfigurations of the social and natural sciences, eds Andrew Barry and Georgina Born, Routledge, London and New York.
- Twitter. (2011) ‘One hundred million voices’, Twitter blog. [12 September 2011]
- Veinot, T. (2007) ‘The Eyes of the Power Company: Workplace Information Practices of a Vault Inspector’, The Library Quarterly, vol.77, no.2, pp.157-180.
- Zimmer, M. (2008) ‘More on the ‘Anonymity’ of the Facebook Dataset – It’s Harvard College’, MichaelZimmer.org Blog. [20 June 2011].

Notes
1. API signifie Application Programming Interface (ndlt : interface de programmation) ; cela désigne un jeu d’outils que les développeurs utilisent pour accéder à des ensembles structurés de données.

2. Les détails des outils de développement fournis par Twitter peuvent être trouvés à l’adresse https://dev.twitter.com/docs/streaming-api/methods
Les comptes sur liste blanche constituaient au départ un mécanisme d’acquisition des autorisations d’accès, mais ils ne sont plus disponibles actuellement.

3. Le pourcentage de comptes protégés est inconnu. Dans une étude à travers laquelle ils ont tenté de repérer les comptes protégés et publics sur Twitter, Meeder et al. (2010) ont déterminé que 8,4% des comptes identifiés étaient protégés.

4. Durant son discours à la Conférence internationale sur les blogs et les médias sociaux (ICWSM), à Barcelone, le 19 juillet 2011, Jimmy Lin – chercheur travaillant chez Twitter – décourageait les chercheurs de se lancer dans des projets de recherche pouvant être menés à bien plus facilement par les chercheurs travaillant chez Twitter, compte tenu de leur accès privilégié aux données de Twitter.