Est-ce que le déluge de données va rendre la méthode scientifique obsolète ?

« Il y a soixante ans, les ordinateurs ont rendu l’information lisible. Il y a vingt ans, l’internet l’a rendu accessible. Aujourd’hui, Google et d’autres (…) nous permettent de traiter ce corpus massif de données comme le laboratoire de notre humaine condition. » Bienvenue dans l’âge du Petaoctet. L’âge où les informations sont stockées dans les nuages, explique la revue The Edge, qui consacre un excellent dossier à la fin de la science.

Selon Chris Anderson, nous sommes à la fin de la science, de la science telle que nous la connaissons. « À l’échelle du pétaoctet, l’information n’est pas une question de simples dimensions en matière de taxonomie et d’ordre, mais de statistiques agnostiques en termes de dimensions. Cela nécessite une approche totalement différente, qui nous oblige à concevoir la donnée comme quelque chose qui ne peut être visualisée dans sa totalité. Cela nous oblige à regarder d’abord les données mathématiquement et établir leur contexte ensuite. Par exemple, Google a conquis le monde de la publicité avec rien de plus que des mathématiques appliquées. Google n’a pas la prétention de savoir tout sur la culture des hommes et les conventions de la publicité – il a juste supposé que des données de meilleure qualité, avec de meilleurs outils d’analyses, l’emporteraient. Et Google avait raison.

La philosophie fondatrice de Google est que nous ne savons pas pourquoi cette page est mieux que celle-ci : mais si les statistiques des liens entrants disent qu’elle l’est, c’est bien suffisant. Aucune analyse sémantique ou de causalité n’est nécessaire. C’est la raison pour laquelle Google peut traduire toutes les langues sans les connaître (avec les mêmes corpus de données, Google peut traduire le klingon en farsi aussi facilement qu’il peut traduire du français en allemand). »

Pour Chris Anderson, l’analyse mathématique appliquée aux énormes quantités de données qui vont provenir de nos capteurs, de nos outils qui collectent tous nos comportements, de nos possibilités infinies de stockage, de nos nuages de processeurs, vont transformer les sciences. « Avec suffisamment de données, les chiffres parlent d’eux-mêmes. »

Alors que la méthode scientifique est construite autour d’hypothèses que l’on teste, de modèle et d’expérimentations qui confirment ou infirment les hypothèses théoriques, les données, sans modèles, ne risquent-elles pas de n’être rien d’autre que du bruit ? Pas si sûr, répond Anderson : avec l’arrivée de données massives, cette approche de la science risque de devenir obsolète. « L’ère du Pétaoctet nous permet de dire : « la corrélation va suffire ». Nous pouvons désormais analyser les données sans faire des hypothèses sur ce qu’elles vont produire. Nous pouvons jeter les nombres dans le plus grand réseau d’ordinateurs que le monde n’ait jamais vu et laisser les algorithmes trouver les modèles que la science n’arrivait pas à trouver. » Et d’évoquer l’exemple du séquençage des gènes par Craig Venter, qui est passé de l’organisme humain au séquençage de l’océan, au séquençage de l’air. Un procédé qui lui permet de trouver des centaines de nouvelles espèces, de nouvelles bactéries dont Venter ne sait rien : il ne dispose que d’une alerte statistique, une séquence, qui parce qu’elle n’est pas comme les autres séquences d’ADN qu’il a dans sa base, doit représenter une nouvelle espèce.

La revue The Edge donne plusieurs exemples de ces pétaoctets d’informations, dans les domaines de la physique, de la biologie, de la politique ou de l’information, pour prendre des domaines plus accessibles. Comme l’Europe Media Monitor, un système qui analyse quelques 40 000 articles européens quotidiennement pour les exploiter de multiples manières, comme le montre leurs surprenants laboratoires (par thème, par localisation, selon leur impact ou en essayant de voir leur structure sociale…).

Les réactions compilées par les contributeurs experts de la cyberculture de The Edge sont également intéressantes. Pour l’historien des sciences George Dyson, le flot de données va ouvrir de nouveaux territoires scientifiques qui devraient nous ramener à l’excitation du XVIIe siècle, époque où est apparue la science moderne. Mais il est difficile de dire si cela va rendre obsolète la méthode scientifique, au moins parce qu’elle est peut-être encore trop récente.

Pour Kevin Kelly, beaucoup de domaines scientifiques (l’astronomie, la physique ou la géologie par exemple) utilisent déjà des flux de données extrêmement vastes, dont seuls les ordinateurs peuvent dégager des tendances invisibles à l’échelle de l’oeil humain. Selon lui, ces nouvelles méthodes ne viennent pas remplacer l’ancienne, mais viendront en complément de la science orientée par la théorie. Pour Daniel Hillis le fondateur de Metaweb et d’AppliedMinds, il n’y a pas de nouvelle méthode : collecter des données, quelque soit leur taille, et les analyser, a toujours fait parti de la méthode scientifique. Pour le physicien Sean Carroll, les hypothèses demeurent l’outil le plus utile de la science : « la théorie c’est la compréhension, et la compréhension du monde est le seul propos de la science ».

Pour le journaliste scientifique John Horgan, Anderson ne fait que recycler de vieilles rhétoriques sur la complexité, le chaos et l’intelligence artificielle : « Chris Anderson semble penser que les ordinateurs permettront de réduire la science à de la pure induction, de prédire l’avenir depuis le passé. Cette méthode bien sûr ne peut prédire les trous noirs, les anormalités ou les évènements vraiment nouveaux. Les théories conduites par les humains non plus, mais nos experts sauront comment gérer ces perturbations quand elles apparaitront. » Douglas Rushkoff est sceptique. Ce n’est pas parce qu’on supprime les limites et les biais de la narrativité de la science qu’on ne construit pas de nouveaux partis pris et de nouveaux biais. Dans ce concert de commentaires, laissons le mot de la fin au physicien Lee Smolin : « Il est clair que l’informatique et la simulation numérique sont des outils qui sont les bienvenues : ils sont utiles s’ils sont utilisés par de bons scientifiques pour augmenter la puissance créative de leurs raisonnements. Mais on réussit rarement en lançant un problème dans un ordinateur : il faut des années et même des décennies de développement et de réglage prudent d’une simulation pour l’amener au point où son rendement sera suffisamment puissant pour être utile et dans tous les cas quand cela arrive c’est parce qu’il a été réalisé grâce à un travail théorique durable et créatif du type de celui qui est traditionnellement au coeur du progrès scientifique. »

Dit autrement, quitte à se répéter, les données ne sont pas intelligentes pour elles-mêmes, quelque soit leur taille. Encore faudra-t-il comprendre ce qui peut se mixer de ce qui ne le peut pas.

0 commentaires

Guillaume dit :

09/09/2008 à 7:48

Le Chris a l’airde tout ignorer des stats descriptives, et des magnifiques patatoïdes qui en résultent (et qui leurs sont souvent associés): et ceux là, ben c’est pas la quantité de data qui leur fait peur..;

La phrase semble plus refléter la peur et surtout la perte de visibilité decelui qui l’a prononcée qu’autre chose !
narvic dit :

09/09/2008 à 8:54

Si je comprend bien la réponse de Lee Smolin à Chris Anderson, ce n’est pas parce qu’on ne voit plus d’utilité de la théorie scientifique dans le recueil et l’exploitation des résultats qu’elle aurait pour autant disparu : elle s’est seulement déplacée dans l’élaboration des outils produisant ses résultats…

Il n’y aurait une tendance excessive de notre époque à voir des révolutions partout, qui conduirait à ne pas considérer des déplacements, ou des glissements, dont les conséquences à terme sont pourtant aussi décisives ?
Hubert Guillaud dit :

10/09/2008 à 2:13

Pour ceux que le sujet intéresse, je n’avais pas remarqué qu’Homo-numericus l’avait abordé – brillamment, comme à son habitude :

« Rapidement, on relève d’abord que le raisonnement d’Anderson est surtout valable en sciences appliqués ou ce sont des connaissances utiles à l’action qui sont surtout recherchées, alors que tout un autre pan de la science est orienté vers la recherche d’explications de phénomènes, qui ne peuvent surgir du simple établissement de corrélations. Autre type de réponse, bien plus radicale et exprimée avec clarté par l’économiste Alexandre Delaigue sur son blog : les données sne sont pas des morceaux de réalités ; elles sont elles-mêmes construites, le plus souvent en relation avec une…théorie scientifique particulière. Autrement dit, les données ne préexistent pas aux théories ; elles leurs sont intimement liées.

Sans aller jusqu’au point de vue extrême d’Anderson, de nombreux chercheurs constatent cependant que les technologies numériques modifient les conditions dans lesquelles ils travaillent. »

La conclusion d’Alexandre Delaigue me semble également tout à fait pertinente : « L’analyse des données est extrêmement utile, mais sa disponibilité croissante risque d’avoir l’effet exactement inverse de celui prédit par Anderson : une floraison de théories. Parce qu’il n’y a pas d’autres façons d’imaginer ce que l’on ne peut pas voir – ce qui constitue le problème principal de la science. »
ber dit :

11/09/2008 à 11:47

si c’est pour trouver des solutions : vendredi=couches+biere
ca me fait de la peine
Olivier Auber dit :

11/09/2008 à 12:57

Pour aller dans sens de l’économiste Alexandre Delaigue, avec un clin d’oeil à Latour et Varela, on voir sciences et les technologies comme composés d’îlots performatifs fonctionnant de manière autopoïétiques, c’est à dire tendant à reproduire les conditions prévalant à leur propre existence, en particulier celle des hommes qui les habitent. Les pétaoctets assurent simplement une part de la boucle de rétroaction. Ensemble, ces îlots forment un seul et même système autopoïétique où se joue une compétition de type darwienne entre les centres de computation et de pouvoir. Mais, il est à parier que d’autres topologies de calcul puissent advenir 😉
Djib dit :

12/09/2008 à 11:19

Reproduire le monde en modèle de données. Prendre une photo du monde passé et présent. Cela ne permet pas d’en tirer forcément plus d’informations qui ce qui est déjà disponible. Cela permettr
Djib dit :

12/09/2008 à 11:22

Cela permettra tout au plus de les croisés plus efficacement mais cela ne sera toujours qu’une information incomplète sur une réalité complexe. Toute théorie devra toujours se confronté à la réalité, et dans l’océan gigantesque de donnée récoltée, il y aura toujours besoin d’un bon timonier pour savoir trouver le courant porteur d’une cohérence scientifique.