#pdlt : Sciences sociales, les données ne feront pas tout

Xavier de la Porte, producteur de l’émission Place de la Toile sur France Culture, réalise chaque semaine une intéressante lecture d’un article de l’actualité dans le cadre de son émission. Désormais, vous la retrouverez toutes les semaines aussi sur InternetActu.net.

J’ai déjà parlé plusieurs fois de danah boyd (et internetActu aussi). C’est une ethnographe américaine spécialisée dans l’étude des réseaux sociaux, et notamment dans les usages que font les adolescents de ces réseaux sociaux. Elle mène un travail important sur ce sujet, qu’il est malheureux qu’on ne puisse pas lire en français.

Mais le dernier post de son blog concerne une autre question, qui relève de la méthodologie, voire d’une forme d’épistémologie très contemporaine. danah boyd y interroge une notion dont on entend de plus en plus parler dans le monde du web, la notion de « Big data » (syntagme un peu difficile à traduire, ce serait peut-être « le grand répertoire des données » ou quelque chose comme ça) . Sous ce nom de Big data sont regroupées les technologies permettant d’exploiter instantanément d’immenses quantités de données : données comportementales des internautes ou données issues de capteurs, données de géolocalisation, etc. A condition de collecter et de savoir les exploiter, ces données peuvent servir aussi bien à la publicité ciblée, à l’optimisation des itinéraires pour les voyageurs, qu’aux sciences sociales. Et l’on voit dans les labos de sciences sociales un intérêt croissant pour l’exploitation de ces données, Bruno Latour était venu nous en parler il y a quelques mois.

economistdatadeluge
Image : The Economist avait consacré il y a quelques temps un dossier sur le sujet du déluge des données, illustré par Brett Ryder.

C’est évidemment ce dernier aspect de Big data qui intéresse danah boyd, mais comme souvent, elle est un peu en avance sur les usages contemporains. Car son post, plus que l’émerveillement devant les possibilités offertes qui donnent un peu le ton du discours actuel, pose les conditions d’une bonne exploitation des données en sciences sociales.

Evidemment, commence par reconnaître danah boyd, Big data nous donne la possibilité de comprendre les pratiques sociales. Mais, nous met-elle tout de suite en garde, pouvoir observer les traces laissées par des comportements ne signifie pas toujours que l’on a accès aux intentions et aux logiques culturelles qui les sous-tendent. Et ce n’est pas non plus parce qu’on possède un très grand nombre de données qu’elles sont représentatives et généralisables.

Et danah boyd de s’inquiéter d’entendre bon nombre de chercheurs en science computationnelle – donc des ingénieurs, des gens qui manient ces données de manière principalement quantitative -, arguer du nombre colossal de données auxquelles ils ont aujourd’hui accès pour prétendre avoir une meilleure connaissance des pratiques sociales que les chercheurs en sciences sociales. Car, très fréquemment, explique danah boyd, ces chercheurs en sciences computationnelles font l’erreur de voir une logique culturelle derrière des traces comportementales observées sur le web.

Elle prend un exemple. Au moment de l’explosion des réseaux sociaux, une équipe de chercheurs en sciences computationnelles avait étudié le site social Friendster. Ils avaient calculé le nombre d’amis par membre du réseau et, de ce chiffre, ils avaient conclu que les réseaux sociaux augmentaient la taille de l’amitié. danah boyd dit avoir été très énervée par cet article, car, – on le sait bien aujourd’hui -, dès qu’ils sont interrogés par un sociologue, les gens font une grande différence entre les raisons qui président à un contact dans le cadre d’un réseau social et celles qui président à une relation en dehors. De la même manière, ce n’est pas le temps passé avec quelqu’un qui détermine la force de la relation que j’ai avec lui. La proximité, dit danah boyd, que j’ai avec mes collègues de bureau, avec lesquels je passe mes journées, est souvent beaucoup plus faible que celle que j’ai avec les membres de ma famille, que je vois de manière plus espacée. Le calcul du temps passé en interaction laisse de côté la question de la qualité de ce temps.

Donc, Big data va devenir extrêmement important, mais il ne faut jamais perdre de vue le contexte dans lequel ces données sont produites et la logique culturelle qui est à l’oeuvre derrière cette production. Nous devons, dit danah boyd, continuer à nous demander « pourquoi » : une question qu’on ne peut pas poser seulement aux traces laissées sur le web. Avant de commencer à utiliser ces données, nous devons interroger les présupposés, nous devons comprendre les fondements théoriques qui y sont à l’oeuvre et déterminer quand ils ne s’appliquent pas. Picorer dans différents champs disciplinaires sans comprendre où ces idées s’enracinent nous amènerait dans de mauvaises directions.

Et pour créer les possibilités d’une bonne exploitation de ces données, danah boyd se lance dans un grand plaidoyer en faveur de l’interdisciplinarité, seul moyen de tirer profit des forces des différentes approches en fonction des données que l’on choisit d’étudier et des questions que l’on décide de se poser. Mais il faudrait alors une vraie interdisciplinarité, pas celle que danah boyd voit à l’oeuvre dans des cursus scolaires encore trop axés sur une discipline et où on va piocher quand c’est nécessaire à droite à gauche sans connaître vraiment le contexte de ce que l’on ramasse.

Bref, il faut être armé à la fois pour avoir recours à ce nombre incalculable de données aujourd’hui disponibles, mais aussi pour leur poser les bonnes questions. La solution consisterait donc, pour danah boyd, en une alliance entre les sciences sociales et les sciences computationnelles. Elle explique qu’on y assiste déjà, mais il faudrait que cette alliance soit reconnue par les processus de validation universitaire et que les agences qui allouent les fonds de recherche soient attentives à valoriser ce type d’alliance. De la même manière, il faudrait créer de vrais cursus interdisciplinaires au sein des universités : enseigner les sciences computationnelles aux étudiants en sciences sociales et les sciences sociales aux étudiants en sciences computationnelles. Organiser la possibilité de vrais croisements.

La conclusion de danah boyd est pleine de mesure et de diplomatie : « Il est bon d’avoir un Big data, dit-elle, mais nous devons créer un appareil intellectuel qui nous permet d’analyser vraiment ces données. Nous avons chacun une pièce du puzzle, mais les assembler exige que nous mettions fin aux vieilles habitudes. C’est possible, et c’est important. La solution est de laisser de côté nos rancunes et la défense de nos territoires sans pour autant abandonner notre rigueur et notre profondeur d’analyse. »

Ce post de danah boyd me semble important à plusieurs égards.

D’abord parce que sa position est comme souvent très juste. Danah boyd accueille avec enthousiasme ce que permettent les nouvelles technologies sans déclarer la fin de tout ce qui a précédé. En la matière, elle reconnaît l’intérêt de toutes ces nouvelles données disponibles et leur exploitation par les sciences computationnelles, sans pour autant déclarer la mort des sciences sociales et leur inutilité. Prôner une alliance est une position pleine de promesses.

Ensuite, les questions qu’elle pose depuis sa position de chercheuse en sciences sociales sont applicables à d’autres champs. On commence de plus en plus à parler, par exemple, de data-journalism, de journalisme de données, un journalisme qui utiliserait les données disponibles sur le web, données statistiques, économiques, administratives. On voit bien ce que les journalistes aussi auraient à gagner à un travail conjoint avec les chercheurs en sciences computationnelles.

Xavier de la Porte…

L’émission du 23 avril 2010 était consacrée aux Migrants connectés, avec la sociologue Dana Diminescu et le professeur de sociologie et d’anthropologie urbaine, Alain Tarrius. Une émission à réécouter en différé ou en podcast sur le site de Place de la Toile.

placedelatoile

À lire aussi sur internetactu.net

0 commentaires

  1. Franchement, avec danah, j’ai du mal.

    Sa thèse (dispo sur son site, en anglais mais très accessible) est assez décevante, on a pas l’impression de découvrir grand chose, et son introduction (je-fais-des-recherches-sur-des-jeunes-ados-en-ligne-parce-que-moi-aussi-dans-ma-vie-j’ai-été-brimée-en-tant-qu’ado-geek-et-queer-et-que-du-coup-je-me-sens-vachement-proche-d’eux) n’a pas sa place dans une démarche scientifique (c’est en tout cas mon opinion). Le reste de ses interventions me semble également assez surestimé (un peu comme celles de Benkler, je trouve. mais je suis un rétif).

    Sa position peut aussi s’expliquer du coup par ses propres lacunes : on ne voit pas de traces de statistiques dans sa thèse. je ne dis pas que c’est un tort, mais de sa position d’ethno qui choisit quelques ados qu’elle interroge pour en faire une thèse-blockbuster dans son milieu, il y a peut-être une nécessité à résister contre Big Data, qui est clairement une tendance lourde de la recherche pour expliquer ce qu’il se passe avec les réseaux sociaux (et c’est ce qui se vend, comme ce qui se développe un peu partout).

    Sa mise en garde sur « la donnée n’est pas l’intention » ou l’intensité est probablement assez justifiée. Ceci étant dit, le rapprochement est en tout cas fait pour la plupart des annonceurs qui y voient un moyen de cibler mieux les pubs (d’où le succès de Facebook et les craintes que cela peut inspirer).

    M

  2. @Marshka : Vous mettez un jugement très personnel et d’autorité, sans qu’on puisse comprendre pourquoi, notamment du fait de votre anonymat : visiblement vous avez du mal avec les sociologues plus proches de l’ethnologie, mais vous ne pouvez pas rejeter d’un coup de coude l’apport de Benkler ou boyd sans vous décribiliser. Tout comme Xavier de la Porte, à InternetActu, on adore danah boyd, surtout et avant tout pour sa grande clarté. Son regard de quasi ethnologue lui permet aussi d’avoir un vrai regard sur les pratiques adolescentes. Et c’est parfois bien plus intéressant que des tonnes de chiffres.

  3. non, je n’ai pas forcément de mal avec la démarche ethno dont je compte m’inspirer pour ma thèse… ni ne suis un fanatique des chiffres et des statistiques ! (par contre, ok, je suis peut-être un peu abrupt)

    mais j’ai vraiment trouvé sa thèse peu intéressante de bout en bout ! Quant à Benkler je trouve sa position très idéologique (mais assumée dès les premières pages de Wealth of Networks) et le considère plutôt comme un objet d’étude qu’un source de concepts ou d’éléments de savoir. Enfin je ferraille sur le sujet avec plusieurs personnes 🙂 et serais content de voir ma lanterne éclairée voire de changer d’avis !

    je ne comprend par contre pas bien en quoi ma volonté de rester anonyme est gênante… chacun ses motifs de dévoiler ou non son identité, non ?

    A vous lire dans tous les cas, vos billets m’intéressent toujours beaucoup !
    M

  4. (ps : par contre je veux bien savoir comment avoir un avatar)

    🙂

    M

  5. Quand on y pense, c’est quand même incroyable de devoir sans cesse rappeler que les données ne sont rien sans le contexte et les motivations dans le cadre desquelles elles ont vu le jour. Soit cela relève de la bidouille, soit cela s’appelle de la manipulation ou de la compromission.
    On a le même problème avec les gens qui se la pètent parce qu’ils ont généré 120 000 fans sur une page Facebook, alors que c’était par le prétexte d’un jeu concours. Après, ils s’étonnent que tous ces contacts soient improductifs.
    En attendant, on s’étonnera de la pauvreté des stratégies et des projets bâtis sur des idées à l’emporte-pièce. Il y a un sérieux saut qualitatif à faire si on veut produire des éléments d’appréciation crédibles.

  6. @Alexis : ce n’est peut-être pas étonnant. Comme le répète d’ailleurs danah boyd, l’internet fait disparaître les contextes. Vue de l’extérieur, le profil d’un prof et d’un élèves sont les mêmes sur Facebook. Tous les commentateurs d’un article ont le même traitement – alors que pourtant, ils sont différents : on en connait certains, d’autres sont clairement identifiés et permettent d’accéder justement à leur contexte…

    On se dit que le contexte n’a pas d’importance, parce que le résultat est le même, mais en fait, comme tu le dis, il structure des différences que les systèmes ne rendent pas encore visibles. Le web social va-t-il nous amener au retour des hiérarchies, des structures, des architectures ?…

  7. Le data journalism est une épidémie moderne. Sous couvert de faits et de chiffres, de longs articles et d’énormes « infographies » nous nourrissent de chiffres sans autre forme de commentaire que leur propre spectacle.

    J’y avais consacré une petite note il y a quelques semaines : http://notrelienquotidien.com/2010/03/25/a-propos-du-data-journalism/

    Je reste fâché contre Steven Lewitt qui incarne à mon sens les dérives propres à l’avalanche de données. Cela le fait dérailler.

  8. Je suis d’accord avec @Marshka : on passe notre temps à lire des billets qui reprennent avec ravissement le moindre commentaire de Danah BOYD, qui, la plupart du temps est assez banal.

    Depuis le temps on s’est habitué à son analyse sociologique des usages :assez Bourdisienne (les internautes reproduisent ce que leurs divers capitaux – sociaux, économiques, culturels – leur permettent ou pas de faire IRL), ainsi dans son article de 2007 où elle comparait Facebook et Myspace (ce dernier étant marqué très « peuple » par comparaison à l’autre);
    son billet énervé sur le « big data » fait partie du ba-ba de tout étudiant de sociologie qui vous défendrait que le quantitatif n’est pas tout, ou mieux, que l’étude sociologique assistée voire conduite par ordinateur est une aberration totale (ça c’est le sociocentrisme qui parle);

    Personne ne peut dire qu’elle à tord dans ses appréciations, mais qu’elle banalité !

    J’ai découvert il y a quelques temps un billet de HARGITTAI Eszter, intitulé « Isolated social networks » (2005) où il me semblait que ses remarques sur la computing science étaient plus intéressantes…

    Et pour finir j’ai toujours trouvé paradoxal que Danah Boyd ait passé 6 mois à étudier 10000 profils pour son étude « young et Myspace » alors que le service marketing de Yahoo (et ses « big datas » donc) fait la même chose en …1 journée …mais c’est vrai, on n’aurait pas eu cette saveur bourdieusienne qui, il faut le dire, nous est tellement inconnue en France …

    Voila. je critique juste ce qui me semble récurrent à moi aussi : une certaine banalité du propos.