Une société de données n’est pas une société statistique

Les ordinateurs, les algorithmes et les bases de données pourraient-ils nous aider à penser différemment notre société ?

Lev Manovich (@manovich) est un chercheur russe émigré aux Etats-Unis. Depuis la fin des années 90, et grâce à plusieurs livres dont le classique Le Langage des nouveaux médias, il s’est imposé comme l’un des penseurs les plus importants du numérique. Interrogé longuement par Claire Richard pour Place de la toile, il répond à cette question de manière convaincante.

Depuis le 19e siècle et jusqu’à récemment, explique Manovich, on se représentait notre société via les statistiques. Or les statistiques s’intéressent à la moyenne. Quand dans les années 1830, Adolphe Quételet mesure la taille des soldats de l’armée française, ce qui l’intéresse, c’est l’homme moyen. Et notre société moderne, en accord avec les outils de description que sont les statistiques, s’est constituée autour de ce paradigme de la normalité… Tout ça, depuis Foucault, on le sait bien.

Image : Selfiecity, une enquête sur le Selfie à travers le monde, un des projets de recherche de Lev Manovich, directeur du laboratoire Software Studies.

Mais depuis les années 1960 et les progrès de l’informatique, sont apparues les bases de données. Puis aujourd’hui, la possibilité offerte par internet de remplir ces bases d’un nombre incalculable de données, toujours plus fines. Quand on veut étudier une population, ce ne sont plus quelques milliers de chiffres que l’on peut manier, mais des millions, voire des milliards. Et, selon, Manovich, cela change tout. Avant, quand l’informatique était inexistante ou encore rudimentaire, on ne pouvait classer la population qu’en quelques catégories : homme/femme, normal/anormal, en bonne santé/malade, français/étranger, etc. Aujourd’hui, si vous vous intéressez à la population d’une grande ville, vous pouvez jouer un nombre incalculable de variables. Vous pouvez donc créer des catégories qui obéissent à des critères infinis, et nouveaux. Pourquoi est-ce important ? Pour Manovich, avoir la possibilité de regrouper et de diviser selon un nombre presque infini de critères fragilise les représentations classiques les populations. Que valent encore les vieilles catégories de classe, de genre ou d’ethnie quand on peut avoir une représentation beaucoup plus précise, beaucoup plus granulaire des populations qui habitent une ville ? Car désormais, ce qu’on peut travailler ce sont d’autres données : les goûts, les déplacements, les pratiques culturelles, les temporalités, et l’on peut croiser tout ça dans tous les sens.

Imaginez un instant que Lev Manovich ait raison. Imaginez que de nouveaux outils fassent apparaître de nouvelles représentations, imaginez que ces nouvelles représentations fassent apparaître de nouveaux groupes qui ne se composent plus selon les vieux critères (genre, classe, ethnie…) mais selon d’autres critères… Est-ce qu’on pourrait espérer que notre représentation de la société en soit changée ? Est-ce qu’on pourrait espérer, en nous apercevant que ces nouveaux groupes dépassent les critères anciens, qu’ils abolissent les vieilles altérités ?

« Et la hiérarchie entre les critères, me direz-vous, il y a des critères qui sont plus déterminants que les autres : être un homme ou une femme, c’est plus déterminant que préférer le bleu au rouge ! » A cela, Manovich répond : « mais la hiérarchie est un concept de l’Ancien Monde « . D’abord, les bases de données rompent la hiérarchie en mettant tous les chiffres au même niveau. Mais, au-delà, le Web abolit les hiérarchies. En nous permettant de passer d’un contenu à l’autre, d’une publicité à Proust, de Proust à un roman populaire, d’un roman populaire à Barack Obama, le Web nous prépare, en quelque sorte à accueillir ces nouvelles représentations de notre société, où les hiérarchies anciennes n’ont plus cours. Tout converge donc à l’avènement d’une société qui ne soit plus la société disciplinaire des statistiques, mais une société des données, qui reste à caractériser.

Bon, je suis tout à fait conscient des problèmes que cela pose. Et notamment du point de vue politique. Parce que tant que ces vieux critères sont opérants dans le réel (le fait d’avoir un nom arabe, d’être une femme, d’être handicapé, ça veut encore dire quelque chose), ces vieux critères sont aussi des leviers de lutte. Mais quand même, si les ordinateurs, les bases de données et les algorithmes pouvaient nous convaincre enfin que l’altérité n’est pas là où on la pense, s’ils pouvaient faire apparaître des proximités incongrues et des ressemblances profondes et essentielles, ça nous avancerait un peu.

Xavier de la Porte

Tous les jours de l’année vous avez pu retrouver la chronique de Xavier de la Porte (@xporte) dans les Matins de France Culture dans la rubrique Ce qui nous arrive sur la toile à 8h45. Il a livré sa dernière chronique la semaine dernière. Ainsi que le dernier numéro de Place de la Toile, fort d’une passionnante interview de Lev Manovich réalisée par Claire Richard (@klerichar).

Nous regretterons les deux. Place de la toile, qui depuis 2007 (à l’époque animée par Caroline Broué et Thomas Baumgartner) était la seule émission de réflexion sur les nouvelles technologies. Et les lectures et chroniques de Xavier de la Porte, qui, depuis 2009 sur Place de la Toile et depuis 2010 sur InternetActu.net, nous avait fait l’amitié de nous confier le texte de ses lectures hebdomadaires (soit quelques 183 articles).

Espérons que nous aurons le plaisir de retrouver un jour une émission aussi essentielle que Place de la Toile. Bonne continuation à Xavier qui prend la rédaction en chef de Rue89. Et merci encore de ta confiance ! Pour un petit média comme InternetActu.net, elle était essentielle ! – Hubert Guillaud

0 commentaires

Sur le même thème, vous avez publié il y a quelques temps cet article. Je trouve cela intéressant de le mettre en lien pour enrichir le discours puisqu’il propose justement les bases d’une pratique :

https://www.internetactu.net/2014/05/20/big-data-vers-lingenierie-sociale/

J’aimerais aussi encourager les lecteurs à penser à « l’évenement » de Derrida, lorsqu’on parle d’analyse, à Wajman aussi. Il ne faudrait pas tomber dans le fantasme que ces grandes quantités de chiffres nous donnent le pouvoir de tout voir, de voir à travers l’invisible, de prévoir l’imprévisible…

« s’ils pouvaient faire apparaître des proximités incongrues et des ressemblances profondes et essentielles »

Justement, vous citez Foucault au début de votre article, je pense que c’est plus avec une éthique (comme la sienne – décloisonnement et désacralisation des disciplines -) que l’on peut les dénicher ces liens singuliers et justement pas par une fascination d’un outil « sublime » (qui dépasse notre entendement).
Il faut toujours garder en tête qu’un outil reste un outil, même s’il a une forme « d’intelligence », qu’il peut nous surprendre. Il s’agit juste d’un outil plus complexe… C’est avant tout et principalement un outil.

(vous me direz que c’est du bon sens, que j’enfonce des portes ouvertes et que ça n’est pas ce que vous dites dans cet article mais je pense qu’il est important de le souligner parce qu’avec les Big Data, le fantasme n’est pas loin)

Lev a raison, je le connais bien depuis près de 15 ans et ce qu’il fait est toujours stimulant. Cependant, il serait judicieux de ne pas penser qu’un monde efface l’autre. Les données produites par les statistiques ont fait exister les Etats mais aussi la « société » comme concept. Les sondages ont, eux, fait exister à partir de 1936 environ, « l’opinion ». Je prétends que le big data mais surtout les traces (trace data) sont en train de faire exister les « répliques » ou les vibrations (ou encore les mèmes), un autre concept qui est tout autant social que les précédents mais fondé sur les traces des plates-formes, dont le lien avec les autres entités société et opinion sont très incertains mais qui peuvent exister pour eux-mêmes et fonder une troisième génération de sciences sociales, qui ne prend pas la place des autres. C’est ce que j’introduis dans la communication au colloque Big Data du collège de France
http://www.college-de-france.fr/site/pierre-michel-menger/symposium-2014-06-02-17h00.htm
avant une publication plus longue et détaillée.

Passionnante interview, et passionnante réflexion.

Je me permets d’exprimer un léger désaccord sur l’idée que « les bases de données rompent la hiérarchie en mettant tous les chiffres au même niveau ». Je comprends bien le parallèle que l’on pourrait faire entre l’organisation de nos concepts et celle de nos médias. Il est Élégant et peu être juste. Deux points méritent cependant d’être mentionnés:

1. Les données, quoiqu’au même niveau, peuvent a priori objectivement démontrer que certain facteurs sont plus pertinents que d’autres- ils peuvent permettre d’expliquer un plus grand pourcentage de variance, ou permettre de meilleures prédictions. C’est ce qui est fait par exemple dans les analyses en composantes principales. Notez qu’inversement, on peut potentiellement démontrer que les données ne s’expliquent pas majoritairement par un nombre limité de facteurs, et donc fournir une critique étayée des catégories traditionnellement utilisées (sexe, classe etc). Dans les deux cas, l’horizontalilté de la base de données n’impose pas que les données elles mêmes représentent des facteurs ‘non hiérarchisables’. C’est une question empirique.

2. Un des défis du big data et du machine learning est de trouver des moyens techniques de gérer l’explosion du nombre de facteurs à prendre en compte. Et une des approches populaires pour faire face à ce problème est l’utilisation d’analyses structurellement hiérarchiques. C’est par exemple ce qui est utilisé dans les réseaux bayesiens, une famille d’ algorithmes que l’on retrouve à peu près dans tous les domaines informatiques (ce qui peut raisonnablement suggérer qu’il s’agit d’une approche valide et efficace). En d’autres termes, on se rend compte qu’en pratique, analyser de grosses bases de données est bien plus efficace lorsqu’on utilise des alogithmes qui vont tenter d’identifier ou d’utiliser des structures hiérarchiques. (En réalité, j’exagère un peu : les structures hiérarchiques ne sont pas les seules topologies statistiques utilisées. D’autres réseaux (sériel, cyclique) sont également monnaie courante. Il s’agit de donc de voir et d’établir de manière quantitative laquelle de ces structures éclaire le plus efficacement nos données.)

Je ne sais pas si Proust à encore beaucoup d’espoir à avoir, mais je doute qu’il se nivelle au rang de la préférence pour la couleur bleue.

PS:merci pour toutes ces émissions. J’ai rarement écouté des entretiens de si bonne qualité sur des sujets si divers et pourtant toujours captivants. Du beau boulot.

« Or les statistiques s’intéressent à la moyenne » phrase bien trop caricaturale. Ce préambule me gène un peu alors que l’idée de l’article est excellente. Il me semble justement que le statisticien réinterroge les classifications (qui correspondent en partie aux hiérarchies). la moyenne c’est de la statistique simpliste et c’est effectivement pas comme cela qu’il faut saisir la complexité du monde. Les outils modernes du big data sont des outils statistiques qui permettent effectivement de trouver du sens dans la masse de données.

Yann Soubai dit :

07/07/2014 à 10:49

Sur le même thème, vous avez publié il y a quelques temps cet article. Je trouve cela intéressant de le mettre en lien pour enrichir le discours puisqu’il propose justement les bases d’une pratique :

https://www.internetactu.net/2014/05/20/big-data-vers-lingenierie-sociale/

J’aimerais aussi encourager les lecteurs à penser à « l’évenement » de Derrida, lorsqu’on parle d’analyse, à Wajman aussi. Il ne faudrait pas tomber dans le fantasme que ces grandes quantités de chiffres nous donnent le pouvoir de tout voir, de voir à travers l’invisible, de prévoir l’imprévisible…

« s’ils pouvaient faire apparaître des proximités incongrues et des ressemblances profondes et essentielles »

Justement, vous citez Foucault au début de votre article, je pense que c’est plus avec une éthique (comme la sienne – décloisonnement et désacralisation des disciplines -) que l’on peut les dénicher ces liens singuliers et justement pas par une fascination d’un outil « sublime » (qui dépasse notre entendement).
Il faut toujours garder en tête qu’un outil reste un outil, même s’il a une forme « d’intelligence », qu’il peut nous surprendre. Il s’agit juste d’un outil plus complexe… C’est avant tout et principalement un outil.

(vous me direz que c’est du bon sens, que j’enfonce des portes ouvertes et que ça n’est pas ce que vous dites dans cet article mais je pense qu’il est important de le souligner parce qu’avec les Big Data, le fantasme n’est pas loin)
Dominique Boullier dit :

07/07/2014 à 5:36

Lev a raison, je le connais bien depuis près de 15 ans et ce qu’il fait est toujours stimulant. Cependant, il serait judicieux de ne pas penser qu’un monde efface l’autre. Les données produites par les statistiques ont fait exister les Etats mais aussi la « société » comme concept. Les sondages ont, eux, fait exister à partir de 1936 environ, « l’opinion ». Je prétends que le big data mais surtout les traces (trace data) sont en train de faire exister les « répliques » ou les vibrations (ou encore les mèmes), un autre concept qui est tout autant social que les précédents mais fondé sur les traces des plates-formes, dont le lien avec les autres entités société et opinion sont très incertains mais qui peuvent exister pour eux-mêmes et fonder une troisième génération de sciences sociales, qui ne prend pas la place des autres. C’est ce que j’introduis dans la communication au colloque Big Data du collège de France
http://www.college-de-france.fr/site/pierre-michel-menger/symposium-2014-06-02-17h00.htm
avant une publication plus longue et détaillée.
JR dit :

24/07/2014 à 5:23

Passionnante interview, et passionnante réflexion.

Je me permets d’exprimer un léger désaccord sur l’idée que « les bases de données rompent la hiérarchie en mettant tous les chiffres au même niveau ». Je comprends bien le parallèle que l’on pourrait faire entre l’organisation de nos concepts et celle de nos médias. Il est Élégant et peu être juste. Deux points méritent cependant d’être mentionnés:

1. Les données, quoiqu’au même niveau, peuvent a priori objectivement démontrer que certain facteurs sont plus pertinents que d’autres- ils peuvent permettre d’expliquer un plus grand pourcentage de variance, ou permettre de meilleures prédictions. C’est ce qui est fait par exemple dans les analyses en composantes principales. Notez qu’inversement, on peut potentiellement démontrer que les données ne s’expliquent pas majoritairement par un nombre limité de facteurs, et donc fournir une critique étayée des catégories traditionnellement utilisées (sexe, classe etc). Dans les deux cas, l’horizontalilté de la base de données n’impose pas que les données elles mêmes représentent des facteurs ‘non hiérarchisables’. C’est une question empirique.

2. Un des défis du big data et du machine learning est de trouver des moyens techniques de gérer l’explosion du nombre de facteurs à prendre en compte. Et une des approches populaires pour faire face à ce problème est l’utilisation d’analyses structurellement hiérarchiques. C’est par exemple ce qui est utilisé dans les réseaux bayesiens, une famille d’ algorithmes que l’on retrouve à peu près dans tous les domaines informatiques (ce qui peut raisonnablement suggérer qu’il s’agit d’une approche valide et efficace). En d’autres termes, on se rend compte qu’en pratique, analyser de grosses bases de données est bien plus efficace lorsqu’on utilise des alogithmes qui vont tenter d’identifier ou d’utiliser des structures hiérarchiques. (En réalité, j’exagère un peu : les structures hiérarchiques ne sont pas les seules topologies statistiques utilisées. D’autres réseaux (sériel, cyclique) sont également monnaie courante. Il s’agit de donc de voir et d’établir de manière quantitative laquelle de ces structures éclaire le plus efficacement nos données.)

Je ne sais pas si Proust à encore beaucoup d’espoir à avoir, mais je doute qu’il se nivelle au rang de la préférence pour la couleur bleue.

PS:merci pour toutes ces émissions. J’ai rarement écouté des entretiens de si bonne qualité sur des sujets si divers et pourtant toujours captivants. Du beau boulot.
François Saint Pierre dit :

05/08/2014 à 8:06

« Or les statistiques s’intéressent à la moyenne » phrase bien trop caricaturale. Ce préambule me gène un peu alors que l’idée de l’article est excellente. Il me semble justement que le statisticien réinterroge les classifications (qui correspondent en partie aux hiérarchies). la moyenne c’est de la statistique simpliste et c’est effectivement pas comme cela qu’il faut saisir la complexité du monde. Les outils modernes du big data sont des outils statistiques qui permettent effectivement de trouver du sens dans la masse de données.

Mobilité (807)
Territoires (639)
Interfaces (616)
Médias (574)
Confiance et sécurité (531)
Economie et marchés (472)
eDémocratie (440)
Education et formation (419)
Innovation, RD (333)
Jeu (306)

(...)

Toute l'actualité des TIC

Notre selection de livres

Une société de données n’est pas une société statistique

À lire aussi sur internetactu.net

0 commentaires