Science et statistique : errare humanum est

Christie Aschwanden (@cragcrest) pour Five Firty Eight Science nous explique dans un passionnant article que faire de la science depuis des statistiques est difficile, même si on est un scientifique rigoureux. Répondre depuis des données à des questions scientifiques, même simples, exige de faire beaucoup de choix dans les données qui peuvent en transformer les résultats. “Cela ne signifie pas que la science n’est pas fiable. Cela signifie seulement qu’elle est plus difficile que nous le pensons”.

Il est plus facile d’obtenir un résultat qu’une réponse

La journaliste le montre dans son article avec un petit test interactif permettant d’observer quel parti politique américain est corrélé avec la réussite économique. Des variables qui permettent quelque 1800 combinaisons dont plus d’un millier donnent un résultat publiable. “Il est plus facile d’obtenir un résultat qu’une réponse”. La cause ? La fameuse valeur P, qu’on pourrait définir comme le niveau à partir duquel les données fournissent un résultat qui ne semble pas aléatoire. Mais cette valeur dépend beaucoup des modes de traitement des données.

issciencebroken
Image : capture d’écran du test interactif de Five Firty Eight Science permettant d’observer quel parti politique américain est corrélé avec la réussite économique.

Pour bien nous faire comprendre le problème, elle rapporte une recherche menée par Brian Nosek, un des fondateurs du Centre pour l’Open Science, consistant à donner à plusieurs équipes scientifiques un jeu de données identiques. Le jeu de données devait permettre de savoir si les arbitres de football donnaient plus de cartons rouges aux joueurs à la peau sombre qu’aux joueurs à la peau claire. 29 équipes de chercheurs ont joué avec ces données utilisant plusieurs méthodes d’analyses. 20 équipes ont conclu que les arbitres de football ont donné plus de cartons rouges aux joueurs à la peau foncée et 9 équipes n’ont trouvé aucune relation significative entre la couleur de la peau et les cartons rouges.

Ces résultats montrent surtout que les choix subjectifs faits par les équipes ont une importance capitale dans le traitement de données. Pour Christie Aschwanden, cela montre aussi combien une seule analyse ne suffit pas pour trouver un résultat définitif. Chaque résultat est une vérité temporaire. Mais ce qui rend la science si puissante est sa capacité d’auto-correction. Si de fausses conclusions sont publiées, de nouvelles études viendront les remettre en cause…

Les scientifiques Adam Marcus et Ivan Oransky ont lancé Retraction Watch, un blog qui observe les retraits, rétractations et corrections faites aux articles scientifiques. Selon ces chercheurs, 2/3 des rétractations seraient dues à des fautes. Depuis le début des années 2000, le nombre de rétractations dans la littérature scientifique a décuplé, même si seulement 0,02 % des publications scientifiques subissent ce sort chaque année. Pour eux, les rétractations ne devraient pas être mal considérées : le comportement scientifique ne consiste-t-il pas justement à corriger ses erreurs et celles de ses pairs ? En fait, cette évolution est certainement plus la preuve d’une bonne santé de la science que le contraire. Si pour beaucoup d’observateurs, ces erreurs de plus en plus nombreuses prouveraient que le principe scientifique est cassé… Mais pour Christie Aschwanden, elles montrent surtout que la science est plus difficile qu’on ne le pense.

« La vérité scientifique est générée par l’accumulation de résultats au cours du temps, pas par l’éclat ou le bruit d’une étude isolée »

“La science n’est pas une baguette magique qui transforme tout ce qu’elle touche en vérité. Au lieu de cela, « la science fonctionne comme une procédure de réduction de l’incertitude », estime Nosek. « Le but est d’obtenir moins de mal au fil du temps. »

Ce concept est fondamental : « tout ce que nous savons maintenant est seulement notre meilleure approximation de la vérité. » Le chemin vers la vérité consiste à poser une question, faire une étude, obtenir une réponse partielle ou ambiguë, puis à faire une autre étude… Cela explique en grande partie les résultats contradictoires dont les médias se font échos nous expliquant par exemple un jour que le café est bon pour la santé et un autre tout le contraire. En fait, ces aller-retour incarnent le processus scientifique lui-même. Et ces variations dans les résultats montrent surtout que la science est difficile – notamment (mais pas seulement) quand il s’agit de mesurer l’impact de l’alimentation sur la santé. Les variations dans les résultats montrent surtout que les scientifiques travaillent à des problèmes difficiles. “L’incertitude inhérente à la science ne signifie pas que nous ne pouvons pas l’utiliser pour faire des politiques ou des décisions importantes. Cela signifie simplement que nous devrions rester prudents et adopter un état d’esprit ouvert, prêt à changer de cap si de nouvelles données l’affirment.”

« La vérité scientifique est générée par l’accumulation de résultats au cours du temps, pas par l’éclat ou le bruit d’une étude isolée », expliquaient récemment la juriste et professeur de bioéthique Michelle Meyer et le psychologue Christopher Chabris dans un article pour Slate qui revenait en détail sur la publication d’un hors-série de la revue Social Psychology consacrée à la réplication de récentes et importantes découvertes en psychologie sociale, montrant que cette réplication n’est pas simple et que bien souvent, elle échoue. Est-ce pour autant qu’il faut jeter toutes les études avec l’eau du bain ? La crise de la réplication et la surexposition des résultats “positifs” n’est pas spécifique à la psychologie. Derrière cette polémique, il faut rappeler que la non-réplication n’invalide pas pour autant une étude (beaucoup d’autres paramètres entrent en jeu et bien souvent les méthodes ne sont pas assez détaillées pour être reproduites).

“Selon la célèbre mise en garde de Carl Sagan, désormais enseignée à tous les étudiants, des affirmations extraordinaires requièrent des preuves extraordinaires. Ce qui signifie que, lorsque des études originales sont surprenantes, qu’elles observent des effets importants, ou qu’elles semblent contredire d’autres découvertes jusqu’ici établies, elles devraient être soumises à un examen encore plus approfondi que d’habitude –et donc à des tentatives de réplication.”

Le journaliste scientifique Pierre Barthélémy sur son blog revenait sur l’article publié par le professeur à Stanford, John Ioannidis, dans Plos Medecine, sur “Pourquoi la plupart des découvertes publiées sont fausses”. Nous sommes submergés par les articles scientifiques, estime le professeur de Stanford alors que les découvertes importantes, elles, sont bien plus modestes. Pour lui, trop de résultats sont trop souvent des faux positifs que l’on ne peut reproduire, comme le dénonçaient Michelle Meyer et Christopher Charbis. Pour résoudre cet écueil, John Ioannidis, directeur du Meta Centre de recherche sur l’innovation de Stanford, propose d’inciter à la reproduction des travaux pour s’assurer que les effets mesurés sont réels par un meilleur partage des protocoles et plus de collaboration. Et souhaite améliorer la valorisation de ceux qui veulent reproduire ou vérifier des résultats d’expérience. Pour cela, la science doit encore apprendre à mieux partager ses données et pas seulement ses résultats. Elle doit dépasser la problématique de l’Open Access (le libre accès aux résultats scientifiques), qui consiste à mettre les résultats de recherche en accès libre, pour rendre accessibles les données elles-mêmes.

Dans ce domaine, de nombreuses initiatives ont essaimé ces dernières années, allant du Data-Hub du MIT, au Scientific Data de Nature… et les répertoires de données de recherche se multiplient dotés désormais de protocoles communs et de registres pour en faciliter l’accès à l’image de re3data. Mais le plus dur demeure de trouver les modalités pour inciter les chercheurs à déposer leurs données…

Hubert Guillaud

À lire aussi sur internetactu.net

0 commentaires

  1. Bonjour,

    deux autres biais dans les publications des résultats scientifiques est l’obligation de publier dans des délais contraints pour entretenir le financement et qui finance avec obligation de ne pas fâcher le « mécène » qui attend certains résultats, quitte à occulter ou privilégier (pas forcément de façon consciente) certaines analyses.
    XF

  2. @XF : oui, mais ceux-ci sont déjà très connus 😉

    Nature revenait récemment sur d’autres biais qui posent problème à la recherche : les biais cognitifs des chercheurs eux-mêmes, c’est-à-dire leurs propres préjugés. La crise de la reproductibilité est une occasion pour faire avancer les outils scientifiques, explique Robert MacCoun de Stanford. C’est d’une telle crise qu’est née la norme de l’expérimentation en double aveugle.

    Parmi les biais classiques de la recherche, l’article de Nature évoque la myopie (les chercheurs se fixent sur la collecte de preuves à l’appui de leur hypothèse), le tireur du Texas (prendre des motifs aléatoires dans les données pour des résultats intéressants), l’attention asymétrique (une vérification rigoureuse de résultats inattendus mais qui laisse passer les plus attendues), le stroytelling (trouver des histoires après les faits pour rationnaliser ce que les résultats semblent être).