De la statistique aux big data : ce qui change dans notre compréhension du monde

Lors de la dernière édition des Entretiens du Nouveau Monde industriel qui avaient lieu les 17 et 18 décembre 2012 au Centre Pompidou, le sociologue Dominique Cardon a proposé une intéressante matrice pour comprendre à la fois les limites de la réutilisation des données ouvertes et celle des « Big Data« .

Nous sommes désormais confrontés à un incroyable déluge de données produit par le numérique, reconnaît Dominique Cardon. C’est ce qu’on appelle le Big Data. Les données semblent innombrables, proliférantes… Et vont demain nous en apprendre toujours plus sur nous-mêmes…

Mais sont-elles nécessaires ? Répondent-elles à des besoins ? Sont-elles critiques ou plutôt nous permettent-elles d’acquérir une perspective critique ?…

Depuis quelques années, un ensemble de discours (relayé à la fois par des militants, des citoyens, des entreprises, des pouvoirs publics) se met en place autour « du nécessaire partage des données ». Tout ce monde, selon des modalités et des objectifs différents souhaite « rendre publique les données » que ce soit pour favoriser la transparence politique, l’accessibilité, ou pour permettre de générer de l’innovation. Pour le sociologue, il est nécessaire de recontextualiser la place des données par rapport aux savoirs issus des sciences sociales.

« La structuration des données a-t-elle pour but de mettre en forme, classer, comparer les individus (en maintenant leurs singularités) ou sont-elles comprises, organisées à partir de catégories ? » Et si c’est le cas, lesquelles ? Quelle matrice permet de comprendre leur agencement ?

Pour cela, le sociologue utilise une matrice assez simple distinguant à qui s’adresse les données : à tous ou seulement aux « Puissants », aux individus ou aux structures.

Dominique Cardon présente sa matrice d'analyse
Image : Dominique Cardon (à droite) présente, sur la scène des Entretiens du Nouveau Monde industriel, sa grille d’analyse. Photographié par Victor Feuillat.

Journalistes et sociologues ont pour mission de rendre visible le monde social avec des techniques et des dispositifs très différents, rappelle le sociologue, à la suite de Robert Ezra Park (Wikipédia). La fonction d’investigation du journaliste consiste à jouer avec les données, à dévoiler des réalités cachées, à montrer au public des choses auquel il n’a pas accès, comme le fait le journalisme d’investigation par exemple. Cette fonction centrale du journalisme est en partie celle du sociologue, qui lui ne personnalise pas les agissements en coulisse des acteurs publics, mais vise à rendre visible les effets de structures. Ce débat se rejoue à l’heure de la prolifération des données entre statisticiens et « data scientists ».

La culture de la statistique comme on la connait dans les sciences sociales est pourtant peu présente dans le monde de l’open data, rappelle Dominique Cardon. La raison tient peut-être à sa fonction. La statistique sociale, comme la pratique l’Insee par exemple, révèle les corrélations entre catégories statistiques, comme l’explique le spécialiste de l’histoire de la statistique Alain Desrosières. Sa fonction est de « dézoomer » pour mieux comprendre le monde. Les catégories statistiques définissent ainsi un système de convention pour décrire le monde social, rappelle le sociologue.

Les statisticiens produisent également des techniques d’échantillonnage… Ils travaillent sur des modélisations du monde où la partie est censée parler pour le tout. Le social est décrit par les catégories et leurs corrélations. C’est en tout cas ainsi que les sciences sociales décrivent le monde : la profession des parents est-elle corrélée à la réussite des enfants par exemple.

Mais à la crise de représentation générale du monde qui traverse notamment le monde des médias et le monde politique, s’ajoute une crise quant aux représentations catégorielles liées aux conventions statistiques qui décrivent le monde social. Aujourd’hui, on dispose d’une multitude de chiffres différents pour tenter d’apprécier le nombre de chômeurs en France par exemple. Comme si les catégories statistiques étaient devenues moins capables de décrire le monde social dans lequel nous vivons.

Le modèle statistique des données ouvertes consiste, lui, à porter sur la place publique de la donnée « brute ». Les mouvements open data et big data induisent de ne plus se fier aux données catégorisées, mais à retrouver une donnée brute, le plus proche possible de la fiction ou du mythe d’une « nature sociale originelle ». Cette focalisation sur la donnée brute qui traverse les mouvements open data et big data est aussi une focalisation sur des données complètes. Comme si l’échantillonnage cher aux statisticiens ne suffisait pas, ne suffisait plus : il faut désormais toutes les données pour faire sens ! L’open data ne veut pas de données catégorisées. Il aspire des données au plus proche des traces des individus, comme si les catégories qui décrivent le monde n’étaient plus fiables ou plus assez stables.

Plutôt que des catégories, le mouvement open data produit des cartographies individualisées et des services pratiques. C’est le cas par exemple de NosDeputes.fr qui cartographie l’activité législative des députés ou de SourceMap qui cartographie les composants des produits industriels selon un processus de participation ouvert proche de Wikipédia… Mais on trouve aussi des sites qui traitent de choses plus spécifiques comme ceux qui mesurent les réductions d’effectifs des employés des municipalités britanniques en crise… Ici, des séries d’opérations critiques traditionnelles sont enrichies, nourries, renforcées par des bases de données ouvertes.


Image : la cartographie localisée de la criminalité de Londres.

Les données publiques ouvertes sont également beaucoup utilisées pour « zoomer » au niveau des individus, via la cartographie notamment. C’est le cas des sites de données ouvertes qui ont le plus de succès en terme d’audience dans le monde anglo-saxon comme les sites de cartographie de données criminelles, à l’image de Police.uk. « Ici, le jeu de donnée est individualisant… Le public veut se voir sur la carte. L’individu est le point d’entrée de la base. » D’ailleurs, le discours des données ouvertes emprunte une grande partie de la rhétorique de la personnalisation. « La carte est devenue l’opérateur central, l’instrument de la navigation pratique. L’utilisateur se retrouve dans les données auxquelles il accède. Il interprète le monde par le point où il est. La carte devient l’endroit emblématique où la statistique des données s’organise. »

En fait, estime Dominique Cardon, les catégories qui permettaient de décrire et de structurer la société tombent. Les théories de la justice sociale que les catégories sociologiques permettaient de mobiliser jusqu’à présent se font désormais de manière plus individuelle. Les catégories sociologiques produisaient des représentations désincarnées, quand l’univers des données parle à chacun de chacun. En ce sens, ce passage de l’un à l’autre souligne la crise actuelle des explications catégorielles et systémiques. Celles-ci ne semblent plus expliquer le monde.

Les nouvelles formes produites par les données proposent à la fois des formes qui sont plus individuelles, mais également des formes critiques. Elles permettent par exemple de savoir quelle est la valeur immobilière de mon quartier et donc de mon bien immobilier. De savoir si les écoles qui m’entourent ont un bon taux de réussite… Plutôt que de responsabiliser les puissants, elles responsabilisent les acteurs du bas de l’échelle : les fonctionnaires, les voisins, nos proches… « La nouvelle catégorisation produite par les données n’est plus une lecture globale du monde. Chacun dispose désormais d’une critique plus forte, car plus documentée. Mais cette critique porte en elle un inconvénient : elle contribue à diffuser une version plus utilitariste de notre rapport au monde social. »

Le discours sur les données ouvertes porte en lui un discours sur les valeurs des acteurs de la société. Ceux qui produisent les données ouvertes vont pouvoir faire de bonnes ou de meilleurs corrélations interprétatives. Ils vont pouvoir utiliser et livrer des données sans faire d’hypothèses préalables. C’est en cela que le domaine de l’analyse des grands ensembles de données porte en son sein un « nouveau régime statistique ». C’est celui du « machine learning », celui des machines apprenantes, celui qui promet de laisser les données se corréler entre elles. « On ne va plus faire d’hypothèses ni sur les données, ni sur les corrélations : c’est l’algorithme d’apprentissage qui va trouver lui-même les bons modèles prédictifs ! Il suffit désormais de donner aux données des buts à atteindre pour qu’elles apprennent elles-mêmes de la corrélation des données. »

Actuellement, le monde des données ouvertes et des big data proposent de prédire le comportement des utilisateurs via des algorithmes d’apprentissages ou via des données « brutes » pour que chacun y projette sa propre interprétation, ses propres visées, ses propres objectifs. Et ce sont ces deux phénomènes qui vont désormais produire de nouvelles interprétations de nos sociétés.

Comment s’extraire de la lecture très individualiste de l’interprétation des données ? La solution est peut-être d’annoter les big datas estime le sociologue en répondant aux questions de l’assistance. Peut-on reproduire, via les individus, des annotations permettant de dézoomer, de faire repasser les données du local au global ? Créer de nouvelles formes de catégorisation ? Quelle est la place du commentaire, de l’annotation dans les services proposés pour nous permettre de prendre du recul face à cette vision très consommatrice, très utilisatrice des données ? Il faut pouvoir retrouver la société dans les chiffres et pas seulement se retrouver soi-même.

Hubert Guillaud

À lire aussi sur internetactu.net

0 commentaires

  1. Merci pour ce Compte Rendu. Si je tente de résumer le propos de Dominique Cardon: le mouvement open et big data produit une lecture individualisante de la société et remet en cause les catégories des sociologues et les modéles systèmiques qui tentent d’expliquer le monde.

    OK pour la partie « remise en cause des modèles sociologiques », par contre je vois plus que des services individualisants dans l’open data et le big data.

    Il suffit de se pencher, non pas sur les belles carto qui générent du traffic, mais sur les programmes de recherche tel que EVO http://www.evo-uk.org/ (partager, modéliser et visualiser les données environnementales) où l’on a déja l’objectif de proposer à la fois une vision globale et locale d’une problématique complexe (l’écologie) en y incluant les individus.

    Au final, j’ai l’impression que le sociologue est un peu déboussolé car il voit son champs de recherche remis en cause (les catégories) et qu’il cherche à rattacher les pratiques individuelles à des catégories via la donnée.

    Mais après tout, les catégories ne sont-elles pas une représentation du monde que l’on offre quand on a pas mieux ? où que l’on ne peut pas comprendre plus. Ce qui est intéressant désormais, et d’ailleurs Cardon le dit, c’est que les Big Data remettent en cause les visions catégorielles.

    On peut aussi y voir une opportunité pour le sociologue de mieux expliquer sa vision du monde à l’individu à travers des applications/modèles qui permettent de zoomer/dézoomer. Mais est-on encore dans la sociologie ?

    L’intérêt est également énorme je crois pour les politiques publiques.
    Pourquoi expliquer plus finement aux citoyens comme aux politiques comment une action globale à un impact local sur l’individu et inversement, c’est une avancée énorme pour une société .

    Enfin retrouver la société dans les chiffres est une belle formule, mais il ne faudrait pas chercher à y retrouver la société que l’on décrivait justement sans ces chiffres.

  2. @Pierre : je ne suis pas sûr que Dominique Cardon ait une réaction corporatiste quand il évoque la remise en cause des modèles sociologiques. Tout comme lui, je ne suis pas persuadé qu’on y gagne en remettant en cause les explications catégorielles, car bien souvent, on les remplace par des catégories ou des individuations qui n’en sont pas. Typiquement, cela conduit par exemple à stigmatiser l’étranger plutôt que le pauvre comme bouc-émissaire de nos sociétés.

    Le zoom/dézoom de Dominique Cardon vise justement, il me semble, à montrer comme une action globale a un impact local et inversement comme vous le dites, mais cela ne signifie pas qu’il faille faire l’économie de la description de ce qui fait société (que ce soit dans les chiffres ou par les mots).

  3. Il suffit juste de voir l’évolution de la relation entre les consommateurs et les marques et des usages liés à la consumérisation de l’IT. La business intelligence se déplaçant peu à peu des entreprises vers les particuliers et le positionnement de ces entreprises sur l’agrégation à chaud des données consommateurs.
    Ex : je suis mes consommations et en retour je veux faire des écononomies voire optimiser mes dépenses énergétiques. En retour, je reçois des réponses individualisées.

    Pour cela, l’entreprise a perçu un besoin exprimé un temps T qui déclenche une opportunité tout de suite et pas demain. C’est l’exigence de rapidité à apporter aux besoins exprimés dans la situation du moment qui justifie l’usage de cartographies temps réel.

    Et là effectue, ça bouleverse les modèles tout en expliquant clairement que les comportements de consommateurs ont évolué du tout au tout depuis ces 6 derniers mois. Une question de renouveler les métriques donc les paradigmes. Il se peut aussi que l’on explique pas tout mais que l’on tente de comprendre.

    L’enjeu est peut être dans les systèmes de représentation qui vont nous aider à gagner en compréhension.

  4. Attention à ne pas surestimer la capacité du machine learning à produire de la connaissance, du sens; détecter une corrélation ne fait pas explication; la corrélation peut résulter parfois d’un lien de cause à effet entre les données, mais les données elle-mêmes peuvent être issues d’un même contexte sans autre lien que ce contexte… et donc on n’apprend rien.

    L’analyse de données est essentiellement une recherche de compréhension résumée, synthétique de l’amas de données. Elle nécessite une personne ou un groupe de personnes pour interpréter, travailler avec les outils pour produire une information simplifiée qui explique au maximum les données.
    C’est la personne qui donne sens à l’analyse de données; Sa compréhension dépend des outils qu’il sait utiliser, certes.

  5. @François, oui, corrélation n’est pas causalité, mais « si maintenant nous sommes prompts à dire que la corrélation n’est pas causalité, c’est parce que les corrélations sont tout autour de nous », estime avec raison Daniel Engber.

    Bien sûr qu’il faut interpréter… Mais comme le montre par exemple la dernière étude du MIT, les machines apprenantes, en traitant de très grandes quantité de données, trouvent des corrélations que nous ne savions pas nécessairement trouver. Cela ne jette pas la méthode scientifique à la poubelle… mais cela montre que ces outils, quand on sait les utiliser, savent aussi produire du sens.

  6. Bonjour Hubert;
    il n’y a pas effectivement pas polémique et je suis d’accord sur le fond avec vous. Ce que je voulais juste signifier est que l’accès à plus de données (typiquement des trajectoires) couplées avec des techniques d’apprentissage augmentent nos capacités outillées (données + algo) de résumer l’ensemble de ces données (traces de comportements physiques, physiologiques, etc.).
    La révolution à ce niveau n’est peut être pas si grande d’un point de vue méthodologique. Les outils sont plus puissants (en observation -captation des données- et en analyse et simulation).
    Pour conclure, ce que j’expose ici est juste une hypothèse de continuité tout en sachant que la modification de l’outil peut amener / porter en lui effectivement à terme des changements de paradigmes.

  7. Seconde remarque autour de cette réflexion sur les données massives nouvellement enregistrées et l’importance parmi celles-ci que peuvent revêtir les trajectoires. J’étais tombé il y a quelques temps sur une analyse de B. Latour des monades chez Tarde. Tarde démontrait au début de ce siècle que l’usage des statistiques dans les sciences dures provenait d’un défaut d’informations. En effet, c’est bien parce qu’on ne pouvait isoler une molécule, un atome d’un gaz et tracer leur trajectoire que les sciences physiques développaient l’usage de la statistique .En sociologie au contraire, nous avons l’information de trajectoire de l’individu. Il serait dès lors dommage de restreindre l’analyse sociologique à la statistique en ignorant la masse d’informations individuelles… Tout serait donc une question d’échelles et d’accès à l’information (outil de type microscope qui dilaterait la vision et le temps)

    Il est clair que si les capacités d’enregistrement de trajectoire sont faibles, chaque trajectoire est unique, et la statistique et les techniques de prédiction échouent. En revanche, si nous disposons aujourd’hui massivement de l’enregistrement de parcours individuels… on peut sur le même sujet mener de front les analyses « résumées » et individuelles. On peut expliquer 70% d’un comportement individuel sur une catégorie, laissant 30% échappant au modèle par exemple.

    Ce sujet dépasse mes capacités et mes connaissances mais je conseille vivement cette lecture pour questionner le sujet.

    http://www.bruno-latour.fr/sites/default/files/116-CANDEA-TARDE-FR.pdf