Science et statistique : errare humanum est

Par le 28/09/15 | 12 commentaires | 2,156 lectures | Impression

Christie Aschwanden (@cragcrest) pour Five Firty Eight Science nous explique dans un passionnant article que faire de la science depuis des statistiques est difficile, même si on est un scientifique rigoureux. Répondre depuis des données à des questions scientifiques, même simples, exige de faire beaucoup de choix dans les données qui peuvent en transformer les résultats. “Cela ne signifie pas que la science n’est pas fiable. Cela signifie seulement qu’elle est plus difficile que nous le pensons”.

Il est plus facile d’obtenir un résultat qu’une réponse

La journaliste le montre dans son article avec un petit test interactif permettant d’observer quel parti politique américain est corrélé avec la réussite économique. Des variables qui permettent quelque 1800 combinaisons dont plus d’un millier donnent un résultat publiable. “Il est plus facile d’obtenir un résultat qu’une réponse”. La cause ? La fameuse valeur P, qu’on pourrait définir comme le niveau à partir duquel les données fournissent un résultat qui ne semble pas aléatoire. Mais cette valeur dépend beaucoup des modes de traitement des données.

issciencebroken
Image : capture d’écran du test interactif de Five Firty Eight Science permettant d’observer quel parti politique américain est corrélé avec la réussite économique.

Pour bien nous faire comprendre le problème, elle rapporte une recherche menée par Brian Nosek, un des fondateurs du Centre pour l’Open Science, consistant à donner à plusieurs équipes scientifiques un jeu de données identiques. Le jeu de données devait permettre de savoir si les arbitres de football donnaient plus de cartons rouges aux joueurs à la peau sombre qu’aux joueurs à la peau claire. 29 équipes de chercheurs ont joué avec ces données utilisant plusieurs méthodes d’analyses. 20 équipes ont conclu que les arbitres de football ont donné plus de cartons rouges aux joueurs à la peau foncée et 9 équipes n’ont trouvé aucune relation significative entre la couleur de la peau et les cartons rouges.

Ces résultats montrent surtout que les choix subjectifs faits par les équipes ont une importance capitale dans le traitement de données. Pour Christie Aschwanden, cela montre aussi combien une seule analyse ne suffit pas pour trouver un résultat définitif. Chaque résultat est une vérité temporaire. Mais ce qui rend la science si puissante est sa capacité d’auto-correction. Si de fausses conclusions sont publiées, de nouvelles études viendront les remettre en cause…

Les scientifiques Adam Marcus et Ivan Oransky ont lancé Retraction Watch, un blog qui observe les retraits, rétractations et corrections faites aux articles scientifiques. Selon ces chercheurs, 2/3 des rétractations seraient dues à des fautes. Depuis le début des années 2000, le nombre de rétractations dans la littérature scientifique a décuplé, même si seulement 0,02% des publications scientifiques subissent ce sort chaque année. Pour eux, les rétractations ne devraient pas être mal considérées : le comportement scientifique ne consiste-t-il pas justement à corriger ses erreurs et celles de ses pairs ? En fait, cette évolution est certainement plus la preuve d’une bonne santé de la science que le contraire. Si pour beaucoup d’observateurs, ces erreurs de plus en plus nombreuses prouveraient que le principe scientifique est cassé… Mais pour Christie Aschwanden, elles montrent surtout que la science est plus difficile qu’on ne le pense.

“La vérité scientifique est générée par l’accumulation de résultats au cours du temps, pas par l’éclat ou le bruit d’une étude isolée”

“La science n’est pas une baguette magique qui transforme tout ce qu’elle touche en vérité. Au lieu de cela, “la science fonctionne comme une procédure de réduction de l’incertitude”, estime Nosek. “Le but est d’obtenir moins de mal au fil du temps.”

Ce concept est fondamental : “tout ce que nous savons maintenant est seulement notre meilleure approximation de la vérité.” Le chemin vers la vérité consiste à poser une question, faire une étude, obtenir une réponse partielle ou ambiguë, puis à faire une autre étude… Cela explique en grande partie les résultats contradictoires dont les médias se font échos nous expliquant par exemple un jour que le café est bon pour la santé et un autre tout le contraire. En fait, ces aller-retour incarnent le processus scientifique lui-même. Et ces variations dans les résultats montrent surtout que la science est difficile – notamment (mais pas seulement) quand il s’agit de mesurer l’impact de l’alimentation sur la santé. Les variations dans les résultats montrent surtout que les scientifiques travaillent à des problèmes difficiles. “L’incertitude inhérente à la science ne signifie pas que nous ne pouvons pas l’utiliser pour faire des politiques ou des décisions importantes. Cela signifie simplement que nous devrions rester prudents et adopter un état d’esprit ouvert, prêt à changer de cap si de nouvelles données l’affirment.”

“La vérité scientifique est générée par l’accumulation de résultats au cours du temps, pas par l’éclat ou le bruit d’une étude isolée”, expliquaient récemment la juriste et professeur de bioéthique Michelle Meyer et le psychologue Christopher Chabris dans un article pour Slate qui revenait en détail sur la publication d’un hors-série de la revue Social Psychology consacrée à la réplication de récentes et importantes découvertes en psychologie sociale, montrant que cette réplication n’est pas simple et que bien souvent, elle échoue. Est-ce pour autant qu’il faut jeter toutes les études avec l’eau du bain ? La crise de la réplication et la surexposition des résultats “positifs” n’est pas spécifique à la psychologie. Derrière cette polémique, il faut rappeler que la non-réplication n’invalide pas pour autant une étude (beaucoup d’autres paramètres entrent en jeu et bien souvent les méthodes ne sont pas assez détaillées pour être reproduites).

“Selon la célèbre mise en garde de Carl Sagan, désormais enseignée à tous les étudiants, des affirmations extraordinaires requièrent des preuves extraordinaires. Ce qui signifie que, lorsque des études originales sont surprenantes, qu’elles observent des effets importants, ou qu’elles semblent contredire d’autres découvertes jusqu’ici établies, elles devraient être soumises à un examen encore plus approfondi que d’habitude –et donc à des tentatives de réplication.”

Le journaliste scientifique Pierre Barthélémy sur son blog revenait sur l’article publié par le professeur à Stanford, John Ioannidis, dans Plos Medecine, sur “Pourquoi la plupart des découvertes publiées sont fausses”. Nous sommes submergés par les articles scientifiques, estime le professeur de Stanford alors que les découvertes importantes, elles, sont bien plus modestes. Pour lui, trop de résultats sont trop souvent des faux positifs que l’on ne peut reproduire, comme le dénonçaient Michelle Meyer et Christopher Charbis. Pour résoudre cet écueil, John Ioannidis, directeur du Meta Centre de recherche sur l’innovation de Stanford, propose d’inciter à la reproduction des travaux pour s’assurer que les effets mesurés sont réels par un meilleur partage des protocoles et plus de collaboration. Et souhaite améliorer la valorisation de ceux qui veulent reproduire ou vérifier des résultats d’expérience. Pour cela, la science doit encore apprendre à mieux partager ses données et pas seulement ses résultats. Elle doit dépasser la problématique de l’Open Access (le libre accès aux résultats scientifiques), qui consiste à mettre les résultats de recherche en accès libre, pour rendre accessibles les données elles-mêmes.

Dans ce domaine, de nombreuses initiatives ont essaimé ces dernières années, allant du Data-Hub du MIT, au Scientific Data de Nature… et les répertoires de données de recherche se multiplient dotés désormais de protocoles communs et de registres pour en faciliter l’accès à l’image de re3data. Mais le plus dur demeure de trouver les modalités pour inciter les chercheurs à déposer leurs données…

Hubert Guillaud

Rétroliens

  1. Science et statistique : errare humanun est | P...
  2. Science et statistique : errare humanun est | E...
  3. Science et statistique : errare humanun est | R...
  4. Science et statistique : errare humanum est &la...
  5. Science et statistique : errare humanum est &la...
  6. Science et statistique : errare humanun est | D...
  7. Science et statistique : errare humanun est | E...
  8. Science et statistique : errare humanum est &la...
  9. Science et statistique : errare humanum est | A...

3 commentaires

  1. par XF

    Bonjour,

    deux autres biais dans les publications des résultats scientifiques est l’obligation de publier dans des délais contraints pour entretenir le financement et qui finance avec obligation de ne pas fâcher le « mécène » qui attend certains résultats, quitte à occulter ou privilégier (pas forcément de façon consciente) certaines analyses.
    XF

  2. @XF : oui, mais ceux-ci sont déjà très connus ;-)

    Nature revenait récemment sur d’autres biais qui posent problème à la recherche : les biais cognitifs des chercheurs eux-mêmes, c’est-à-dire leurs propres préjugés. La crise de la reproductibilité est une occasion pour faire avancer les outils scientifiques, explique Robert MacCoun de Stanford. C’est d’une telle crise qu’est née la norme de l’expérimentation en double aveugle.

    Parmi les biais classiques de la recherche, l’article de Nature évoque la myopie (les chercheurs se fixent sur la collecte de preuves à l’appui de leur hypothèse), le tireur du Texas (prendre des motifs aléatoires dans les données pour des résultats intéressants), l’attention asymétrique (une vérification rigoureuse de résultats inattendus mais qui laisse passer les plus attendues), le stroytelling (trouver des histoires après les faits pour rationnaliser ce que les résultats semblent être).

  3. Notre volonté est-elle cognitivement limitée ? S’épuise-t-elle à mesure qu’on s’en sert. C’est ce qu’on croyait jusqu’à présent rappelle Daniel Engber dans un remarquable article pour Slate.com sur les limites cognitives de notre volonté.

    Il rappelle l’expérience (.pdf) lancée dans les années 90 par les psychologues Roy Baumeister et Dianne Tice sur l’autocontrôle. L’expérience consistait à faire résoudre un casse-tête impossible à des étudiants : certains n’avaient mangé que des radis, alors que les autres avaient eux pu choisir de délicieux et odorants cookies (et ceux qui avaient mangé les radis devant se refréner pour ne pas se jeter sur les cookies mis en évidence pour les allécher). Ceux qui avaient mangé les cookies étaient resté en moyenne 19 minutes sur le casse-tête, une durée similaire à un groupe de contrôle à qui on n’avait rien proposé à manger du tout. Ceux qui avaient mangé les radis mais pas pu goûter aux cookies avaient jeté l’éponge au bout de 8 minutes.

    image
    Les psychologues ont parlé “d’épuisement de l’égo” pour parler du fait que nous avons une volonté limitée et qui diminue à mesure qu’on y a recours. Manger un radis quand vous êtes entouré de biscuits frais relève d’une abnégation épique et l’épuisement pour résister épuise le muscle mental de notre volonté.

    A la suite de ces recherches, de nombreux chercheurs ont montré que des tâches différentes étaient capables de drainer notre énergie mentale et de nous laisser cognitivement appauvri. Une méta-étude (.pdf) réalisée en 2010, s’appuyant sur 200 expériences distinctes, soulignait que l’épuisement de soi semblait un phénomène fiable. Baumeister et John Tierney du New-York Times en ont même tiré un bestseller : Le pouvoir de la volonté : la nouvelle science du self-contrôle.

    Mais voilà, une étude à paraître dans la revue Perspectives en science psychologique qui a tenté de reproduire l’expérience originale auprès de 2000 personnes depuis une vingtaine de laboratoires différents sur plusieurs continents… ne révèle aucun épuisement de la volonté.

    Si nous avons déjà évoqué la crise de reproductibilité en psychologie, pour Daniel Engber, ce nouveau pavé dans la marre jette un doute non seulement sur des recherches, mais sur l’idée qui la motivait tout entière. La théorie de Baumeister sur l’épuisement de la volonté a pourtant été étudié de nombreuses fois… Ce n’est pas une idée folle qui semble construite sur un ensemble de données fragiles, mais un édifice de la connaissance construit sur plusieurs années de travail par de nombreux chercheurs… qui pourrait s’avérer complètement faux. Si tout ce qui est établi peut se désagréger, ce n’est pas seulement inquiétant pour la recherche en psychologie, c’est terrifiant, estime le journaliste. En fait, expliquent les chercheurs Evan Carter et Michael McCullough du Laboratoire de comportement humain de l’université de Miami qui ont réalisé cette étude, la méta-analyse a surtout écarté nombres d’études sur le sujet qui n’ont jamais été publiées. En les ré-analysant, ils ont surtout pointé le fait qu’il y avait très peu de preuve d’un effet réel d’épuisement de la volonté.

    Cette remise en cause ne signifie pas pour autant que notre volonté soit une ressource infinie, rappelle Engber. Reste que l’épuisement de la volonté semble bien moins robuste qu’on le prétendait et notamment être très sensible aux conditions d’expérimentation. Le prouver montre peut-être surtout que vous avez trouver une méthode qui colle à votre hypothèse. Pour le professeur en psychologie, Michael Inzlicht du Laboratoire de neuroscience sociale l’université de Toronto, ce n’est pas seulement la recherche sur l’épuisement de la volonté qui doit repartir à zéro, mais également toute la psychologie sociale. Même les méta-analyses, qu’on pensait très fiables, savent être détournées. Si vous analysez 200 études mal foutues, vous obtiendrez une réponse mal foutues. Baumeister a annoncé qu’il allait reprendre ses études sur le sujet à zéro, même si ce n’est pas agréable.

    Le manque de fiabilité sur les recherches en psychologie sociale que cette étude met en cause, sans jeter l’opprobre sur tout le secteur, pointe en elle-même les limites de nombre d’applications qui en découlent : celles de l’économie comportementale, comme celles de l’internet des objets et des outils de mesure de soi…