Les corrélations en leurs limites

L’aléatoire est une composante essentielle de la création de la nouveauté dans les sciences ou dans la biologie. « Mais comprenons-nous bien ce que veut dire aléatoire ? », interroge le mathématicien Giuseppe Longo sur la scène des Entretiens du Nouveau Monde industriel. « Un processus est aléatoire quand il est imprédictible par rapport à la théorie donnée ». En mathématique, il y a deux formes d’aléatoires très différentes l’une de l’autre, départagée par des équations différentes. Celle définie par le mathématicien Henri Poincarré qui montre qu’une perturbation cause un phénomène aléatoire plus ou moins observable dans le temps. Et celle du mathématicien David Hilbert, l’aléatoire quantique, qui repose sur l’indétermination et qui détermine une loi de probabilité.

Quand on transfère la connaissance du monde dans des bases de données « discrètes », c’est-à-dire produisant un nombre restreint de réponses – c’est-à-dire un nombre fini de réponses comme le nombre de personnes dans une salle, contrairement aux données continues qui peuvent prendre une infinité de valeurs -, on construit des images du monde assez particulières, nous explique le mathématicien. Les bases de données discrètes ne sont pas neutres, elles sont exactes. Et c’est cette détermination qui implique la prédictibilité. Avec le numérique, il n’y a pas d’aléatoire. Schrödinger qui voyait l’ADN comme codage discret du phénotype, estimait que si on parvenait à décoder l’ADN on connaîtrait parfaitement l’organisme. Pourtant, le séquençage complet de l’ADN n’a pas suffi à nous en donner la clef, s’amuse le mathématicien. « En 2000 on a complètement décodé l’ADN, et on a compris qu’on n’a rien compris ». Dans la machine, l’effet papillon chère au météorologue Edward Lorenz, n’existe pas.

L’absence d’aléatoire dans ces systèmes induits donc la certitude et l’absolu, tant et si bien que pour créer de l’aléatoire, il faut avoir recours à des systèmes qui génèrent un pseudo aléatoire et tentent de le reproduire, en générant des listes de chiffres par exemple – dont on a vue récemment les limites.


Vidéo : L’intervention de Giuseppe Longo sur la scène des Entretiens du Nouveau Monde industriel par Christian Mrasilevici, également disponible sur le site de la conférence.

De la collaboration des diversités à la compétition vers l’identique

Amazon est très pertinent dans sa manière de faire de la recommandation, mais ses recommandations sont bien différentes de celles de nos amis, capables de nous recommander des livres rares, différents, peu cités, qui peuvent paraître éloignés de nos préoccupations. Amazon recommande, lui, les plus lus, les plus cités, créant par là même un effet de convergence, nous ramenant tous vers les mêmes titres. La bibliométrie et les facteurs d’impact, qui consistent à compter les citations scientifiques, agissent dans le même sens. Ces jeux à champs moyens créent des effets : quand on a trop de voisins on devient tous identiques. Les facteurs d’impacts nous poussent à travailler dans les domaines les plus cités. Or « La démocratie n’est pas seulement le vote de la majorité qui va proposer une politique, c’est aussi l’espace d’une minorité qui a une pensée critique. Et la science se situe toujours de ce côté là », dans un regard nouveau porté par une minorité qui deviendra peut-être un jour majorité. Pour Giuseppe Longo, cette médiométrie, cette métrie du moyen ou du médiocre, fait peser un risque sur le facteur critique qui est à la base de la pensée scientifique. Nous sommes dans une médiométrie qui nous force tous à être dans la moyenne, qui réduit la diversité collaborative et donc la créativité. Pour Guiseppe Longo, les outils par lesquels nous regardons le monde sont dotés de biais qu’il faut comprendre et utiliser.

Pour Longo, ces limites pointent bien celles du mythe du Big data comme remplacement de la connaissance et de la théorisation scientifique qu’évoquait Chris Anderson en 2008. Avec les données on peut remplacer la connaissance scientifique par les corrélations que trouvera la machine, et donner des règles pour l’action via des outils prédictifs. On sait dire par exemple qui va divorcer l’année prochaine, car les familles en crise ont des profils de dépenses particuliers. Mais ces modèles s’ils marchent très bien aux Etats-Unis, fonctionnent moins en Europe et ne marchent pas du tout en Afrique, car les profils standards reposent sur des modèles de consommation qui ne peuvent pas être les mêmes… Pour rendre les outils de prédiction efficaces, il faudrait nous rendre tous identiques, nous formater sur les mêmes modèles pour que le Big data remplace toute forme d’analyse. Nous en sommes forts heureusement assez loin.

De l’inefficacité des corrélations

Plus on a de données, plus les corrélations sont sensées être efficaces pour la décision ou la prédiction, indépendamment de leur signification, comme le montre le site des corrélations absurdes de Tyler Vigen. Ces corrélations sont très utilisées, à l’image des économistes de Harvard qui ont fait un article très cité sur la corrélation entre la croissance et la dette publique… invitant à la baisse de la dette publique pour soutenir la croissance. « Mais cela ne pourrait-il pas être le contraire ? », interroge le mathématicien avec malice, soulignant combien l’on peut souvent renverser les corrélations causales : en présence d’une crise économique, on peut avoir une situation d’endettement publique. La connexion des données n’est jamais neutre, souligne le mathématicien, reprochant aux économistes d’avoir exclu de leur analyse de nombreuses années (comme les 6 années qui suivent la guerre, où le niveau de dette est extraordinaire et la croissance très forte, montrant exactement le contraire de ce qu’ils cherchaient à démontrer).

mariageetnoyade

Pour Guiseppe Longo, si l’on prend une corrélation arbitraire ou stupide… comme celle qui relie le taux de mariage dans le Kentucky au taux de gens qui se noient après être tombé d’un bateau de pêche, il existe un nombre assez grand qui fait que tout ensemble de données de grandes dimensions réalise des corrélations. Au-delà de certains nombres, la plupart des corrélations sont insensées, comme l’a expliqué le chercheur dans un récent article de recherche (.pdf). Si l’on observe la longueur de la corrélation, le nombre de choses que l’on corrèle et le critère de partage (à savoir si les choses que l’on rapproche sont proches ou éloignées, comme les mariages et la noyade), on peut préciser le caractère insensé d’une corrélation.

Les algorithmes servent à trouver des régularités, mais plus on dispose d’immenses quantités de nombres, plus on a de chance de trouver des corrélations absurdes. Une corrélation insensée… est produite dans un ensemble de données produite au hasard, incompressible. Plus vous avez d’immenses quantités de nombres, plus vous avez de chances que ce soit incompressible. Sur une base de données immense, le pourcentage de collection de nombres qui ne sont pas aléatoires ou incompressibles est très bas. Plus la base de données est grande, plus croire que les corrélations permettent l’action est une idée fausse, puisque la plupart du temps avec la croissance de la base de données, il devient de plus en plus vrai que les corrélations sont aléatoires.

Pour le dire autrement, plus on fait de big data, plus on mélange des données aléatoires. Plus on les compare par corrélation, plus c’est fallacieux. Le principe de compression (qui réduit les régularités) est d’autant plus fort qu’il y a de données. En fait, plus elles sont vastes, plus les bases de données deviennent de moins en moins efficaces, contrairement à ce qu’on nous présente bien souvent. La régularité n’est pas incompatible avec l’aléatoire, mais plus une base de données est grande et plus elle se rapproche de l’aléatoire.

Derrière la démonstration mathématique de haut niveau que livre Giuseppe Longo, celui-ci nous rappelle une grande évidence : nous ne devons pas oublier le sens des corrélations qui sont désormais possibles.

Hubert Guillaud

À lire aussi sur internetactu.net

0 commentaires

  1. Merci pour cet excellent article.
    Giusepe Longo mentionne René Thom, mathématicien du continu, et dans l’un de ses articles, cette jolie citation de Thom : « en science, on calcule de plus en plus et on comprend de moins en moins ». Le numérique aurait ainsi contribué à ralentir le développement des sciences. Cela mériterait que l’on s’y attarde…
    D’autant que les sciences exactes ne sont pas seul concernées, les sciences humaines le sont également (voir par exemple
    https://halshs.archives-ouvertes.fr/halshs-01141120/document)