Fait-on dire ce qu’on veut aux chiffres ?

Par le 13/06/12 | 14 commentaires | 3,136 lectures | Impression

La messe semble dite. La connaissance devrait désormais progresser par la multiplication des données et leur traitement statistique. Au point que certains – et non des moindres – déclarent désormais dépassée la bonne vieille méthode scientifique. Les Big Data vont nous permettre de nous passer de théories, semble-t-il. Mais les statistiques sont loin d’être un outil facilement maniable, et les pièges méthodologiques ne manquent pas.

Des vérités que les adeptes contemporains du Quantified self risquent d’apprendre à leur dépends s’ils décident se fier un peu trop facilement aux diverses études concernant la santé. Ainsi ces dernières semaines, la presse internationale (y compris française, c’est dire !) a donné un large écho à plusieurs études : la première affirmait que le chocolat pouvait faire maigrir, tandis que la viande rouge abrégeait notre durée de vie. Plus récemment encore, on a appris que le café augmentait la longévité. Gary Taubes, auteur de plusieurs ouvrages sur les sciences, dont Good calories, bad calories (un livre plus “vulgarisateur”, FAT a même été traduit en français) s’est penché dans Discover Magazine sur la valeur de ce genre de travaux.

Les biais multiples nuisent à l’observation

L’auteur remarque que ces études peuvent être considérées comme appartenant à une branche nommée “épidémiologie observationnelle” qu’il considère “plus proche de la pseudoscience que de la science réelle”.

Se reposant sur les travaux du philosophe et épistémologiste Karl Popper, Taubes rappelle que “la méthode scientifique consiste à faire des conjectures audacieuses puis à trouver des moyens exigeants et ingénieux pour les réfuter.”

L’observation selon laquelle la viande rouge pourrait réduire la durée de vie est une de ces “conjectures audacieuses”, explique Taubes.

“Tout le monde peut faire des conjectures audacieuses, poursuit-il. Par exemple, “les extraterrestres causent des maladies cardiaques”… La difficulté, c’est de mettre au point les moyens audacieux et sérieux pour les réfuter”.

Comment fonctionnent ces études basées sur l’observation ? On prend des milliers de sujets, on leur fait remplir un questionnaire, et on les suit sur plusieurs années.

L’une des premières causes d’erreurs dans ce genre de travaux est la confusion des causes. Ainsi, si l’on prend une échelle allant des végétariens purs et durs aux consommateurs quasi exclusifs de viande rouge, on observe que les autres facteurs de mortalité augmentent dans la même proportion que les habitudes carnivores. Autrement dit, plus on consomme de viande, plus on fume, on boit, on est sédentaire, etc. Difficile dans ces conditions d’isoler la viande rouge comme le facteur limitant la longévité.

correlation
Image : un petit strip de Randall Munroe : “Je pensais que la corrélation impliquait la causalité. J’ai pris un cours de statistiques et maintenant je ne le pense plus. Visiblement le cours a aidé. Euh… Peut-être”.

Taubes cite un autre biais souvent ignoré : celui de “conformité”. Il l’illustre par l’exemple suivant. Une expérience effectuée sur un médicament pour le coeur, réalisée avec toutes les précautions nécessaires (autrement dit avec un groupe témoin utilisant des placebos) s’était révélée un échec, et les chercheurs en avaient déduit l’inefficacité du produit en question. Pourtant, ils n’en sont pas restés là et se sont demandé qui, parmi les sujets, avait réellement suivi la prescription médicale. Ils ont alors découvert, à leur grande satisfaction, que les patients qui avaient suivi scrupuleusement le protocole avaient en effet bénéficié d’une longévité accrue par rapport aux autres, plus dilettantes. Cela aurait suffi à montrer que finalement le médicament était efficace, poursuit Taubes, mais les chercheurs ne se sont pas arrêtés là et ont découvert que les consommateurs “réguliers” du placebo voyaient eux aussi leur santé s’améliorer dans de fortes proportions ! Taubes attribue cela au fait que les usagers du placebo, comme les autres se montraient plus prompts à suivre les recommandations de leur médecin. Un paramètre difficile à évaluer lorsqu’on effectue de simples observations.

Une autre source d’erreur possible est liée au pourcentage constaté. Les études sur la viande rouge montrent que la mortalité accrue est de l’ordre de 20 %. Un tel chiffre est quasiment insignifiant. Surtout si on le compare avec le tabac : un fumeur a 20 fois plus de chances qu’un non-fumeur d’avoir un cancer du poumon. Autrement dit, le risque impliqué par la viande rouge est 100 fois plus petit que celui constaté avec le tabac. Une si petite association n’est guère significative, affirme Taubes. Alors que l’observation simple suffit à établir la dangerosité du tabac, à cause de l’importance de la mortalité qui y est associée, ce ne peut être le cas pour la viande rouge.

La troisième possibilité d’erreur n’est autre que la confusion de la cause et de la conséquence. Le chocolat aide-t-il vraiment à maigrir ? Peut-être, au lieu de penser, argue Taubes, que les mangeurs de chocolat ont tendance à être plus maigres, devrait-on considérer que les gens maigres mangent plus facilement du chocolat, parce qu’ils savent qu’ils peuvent se le permettre. Les gens plus gros, eux, n’ignorent pas que le produit aura pour eux des conséquences négatives. Et je peux confirmer le soupçon de Taubes sur ce point. Je connais quelqu’un qui se nourrit essentiellement de Granola et qui ne prend jamais un gramme. Un régime que je ne pourrai certainement jamais me permettre.
Pour Taubes, ces expériences fondées sur l’observation pure ne constituent en rien de la vraie science, qui se base non sur des observations nues, mais sur des expériences.

“Nous disposons au moins de deux moyens raisonnables d’expliquer l’association minuscule entre la consommation de viande et la mortalité accrue. La première est qu’elle est causée par la viande elle-même. L’autre par les comportements qui sont associés à la consommation de viande. Donc, la solution serait de faire une expérience pour voir qui a raison. Commencez avec une cohorte de sujets et affectez-les au hasard à un groupe qui mangera, soit un régime riche en viande rouge et en viande préparée, soit à un régime pauvre en viande – un régime essentiellement végétarien. En distribuant les sujets au hasard dans chacune de ces deux interventions, nous pouvons nous débarrasser des facteurs comportementaux (socio-économiques, éducatifs, etc.) qui pourraient s’associer avec le choix personnel d’être végétarien ou quasi végétarien ou au contraire mangeur de viande.”

A noter que pour Taubes de telles expériences ont été faites. Et de citer une étude de l’université de Stanford, basée sur ces principes, et qui, contrairement à l’opinion commune, a trouvé que les régimes riches en protéines et pauvres en hydrates de carbone se révélaient préférables non seulement pour la perte de poids, mais aussi pour la santé. A noter toutefois que dans ses livres, Taubes se montre un défenseur convaincu des régimes hyperprotéinés, donc il possède ses propres biais qu’il ne faut pas oublier quand on le lit (en se demandant s’il n’y a pas d’autres expériences qui iraient dans l’autre sens, par exemple), mais cela ne nuit pas à mon avis à son argumentation générale.

Causalité ou corrélation

Bien entendu, ces erreurs épistémologiques ne concernent pas que la santé et le poids. La confusion entre causalité et corrélation est fréquente à chaque fois qu’on étudie un phénomène qui ne se prête pas à l’expérience – autrement dit la plupart des sujets touchant à la sociologie. Les multiples études cherchant à montrer les dangers ou au contraire les bénéfices de nouveaux médias, de jeux vidéos, etc., sont particulièrement susceptibles de tomber dans ce travers. Et cela ne concerne pas que les amateurs. On pense aux propos de la baronne Susan Greenfield, l’une des plus célèbres psychologues britanniques, lorsqu’elle affirma : “Je remarque d’un côté la montée de l’autisme et de l’autre l’usage d’internet. C’est tout”.

Une affirmation si pseudoscientifique et péremptoire qui donna naissance à un tag twitter, #greenfieldism, qui a vu s’accumuler les affirmations les plus absurdes : “je remarque d’un côté le diabète et de l’autre les chats. C’est tout”. “Je remarque le réchauffement global et de l’autre le porno. C’est tout.” “Les allergies aux cacahuètes et les Kardashian ont connu simultanément une montée en puissance. Je suis sûr que ce ne peut être une coïncidence. “

Une formule populaire dit : on leur fait dire ce qu’on veut, aux chiffres. Ce n’est peut-être pas tout à fait vrai, mais les chiffres n’ont de signification que dans un contexte expérimental bien défini. En tout cas, il est encore loin le temps où les statistiques remplaceront la “bonne science”.

Rémi Sussan

Rétroliens

  1. À lire ... | Pearltrees
  2. outils_statistiques | Pearltrees
  3. Possiamo far dire ai dati tutto quello che vogliamo? | LSDI
  4. Fait-on dire ce que l’on veut aux chiffres ?

10 commentaires

  1. Le sociologue Pierre Mercklé dans le Monde illustrait récemment par l’exemple la manière dont on peut manipuler les chiffres pour leur faire dire une chose, ou son contraire, en toute bonne foi. La façon de mesurer l’évolution des inégalités scolaires se contredisait selon la méthode de calcul utilisée. Autant pour le mythe de l’objectivité des statistiques.

  2. par Patrice

    La traduction du strip de R.Munroe serait plutôt : “Je pensais que la corrélation impliquait la causalité. J’ai pris un cours de statistiques et maintenant je ne le pense plus. Visiblement le cours a aidé. Euh… Peut-être.”

  3. @Patrice : la votre est bien mieux, on la prend !

  4. Il existe des corrélations qui sont des causalités. Je vous rappelle celle portant sur le nombre de pirates sur terre et la réchauffement climatique.

    http://www.venganza.org/piratesarecool4.gif

  5. Ce qui est faux ce sont les raisonnements, pas les statistiques.

    D’ailleurs, tout ce qui est dit ici prouve la validité des statistiques. On ne voit pas d’ailleurs sur quoi d’autre on pourrait se fonder que les données empiriques pour valider une théorie.

    L’erreur du poppérisme dogmatique est de ne pas contextualiser son critière comme un simple conformisme (et sophisme) kantien pour résister à l’empirisme.

  6. par Christophe K

    “Et de citer une étude de l’université de Stanford, basée sur ces principes, et qui, contrairement à l’opinion commune, a trouvé que les régimes riches en protéines et pauvres en hydrates de carbone se révélaient préférables non seulement pour la perte de poids, mais aussi pour la santé. A noter toutefois que dans ses livres, Taubes se montre un défenseur convaincu des régimes hyperprotéinés”
    Un régime riche en protéines, c’est bien un régime hyperprotéiné, non ? Sauf erreur de ma part, je ne vois pas en quoi Taubes se contredit.

  7. par Arnaud

    Bonjour, je suis tout à fait d’accord avec votre article sauf la phrase de conclusion, dans le sens où les statistiques font partie intégrante de l’arsenal des méthodes scientifiques depuis fort longtemps (ex : méthodologie des essais cliniques). Ce qui peut être sujet à controverses est uniquement l’interprétation qu’on en fait.

  8. par Rémi Sussan

    @Christophe

    Je ne dis pas que Taubes se contredit, je pense juste qu’il est bon de rappeler le contexte dans lequel il écrit: Taubes est un ardent partisan de ces régimes, il est donc bon de le savoir pour évaluer son affirmation. Il a peut être raison, d’ailleurs, mais là n’est pas le sujet. Lorsqu’une controverse existe, (et Dieu sait le sujet est controversé !) il est bon de signaler si l’un des participants défend une thèse précise avec force. Cela aussi peut introduire des biais…ou non !

  9. par L. D.

    Jacques Bolo +1

    La conclusion de l’article cristalise le malaise que j’ai ressenti pendant toute la lecture

    “Une formule populaire dit : on leur fait dire ce qu’on veut, aux chiffres. Ce n’est peut-être pas tout à fait vrai, mais les chiffres n’ont de signification que dans un contexte expérimental bien défini. En tout cas, il est encore loin le temps où les statistiques remplaceront la “bonne science”.”

    à savoir que certaines erreurs méthodologiques sont très communément commises par la plupart des gens, y compris scientifiques, lorsqu’ils manipulent des masses de chiffres bruts à travers des outils statistiques. Les raisonnements probabilistes sont extrêmement contre-intuitifs, aussi arrive-t-il parfois (souvent) de commettre des erreurs avec la meilleure volonté du monde et le plus grand sérieux…

    Il reste important de ne pas mettre dans le même sac scientifiques et pseudo-scientifiques, qui, eux, manipulent sciemment les données brutes, ou se fichent des erreurs de méthode, puisque ce qui compte à leurs yeux c’est de se parer de fausse crédibilité en “faisant dire ce qu’ils veulent aux chiffres”.

    Je trouve qu’il est au mieux extrêmement maladroit d’opposer “bonne science” et statistiques dans les conclusions de l’article, puisque justement il est bien souvent nécessaire de faire de “bonnes statistiques” pour faire de la “bonne science”…

    A propos des statistiques, des charlatans, et de l’incompréhension généralisée de ce que sont les statistiques et ce qu’elles permettent, il existe des blogs de très haute qualité en anglais, comme celui de Ben Goldacre

    http://www.badscience.net/

    Enfin, il me semble que l’article cherche, en parlant de “contexte expérimental” cherche maladroitement à pointer du doigt l’erreur qui consiste (en statistiques) à ne pas définir *à l’avance* ce que l’on cherche à mesurer (et comment). Un exemple simple : si l’on trace un cercle sur le mur de son salon, puis qu’on se bande les yeux et que l’on tire à la mitrailleuse en faisant la toupie, on a très peu de chances de mettre deux balles dans le cercle. En revanche, si l’on ne trace pas le cercle à l’avance, en enlevant le bandeau, on a beaucoup de chances de découvrir un résultat “significatif” a posteriori, c’est-à-dire un endroit où deux impacts de balles sont très proches (et l’on trace alors fièrement un cercle autour)…

    Ce type d’erreur est malheureusement commun dans de nombreuses publications scientifiques… et sont détectées par la suite (par des scientifiques)(formés ou a minima informés)(arrêtons là les parenthèses), heureusement. Ceci montre bien l’importance de :
    - publier,
    - donner accès aux protocoles et aux données brutes sans limite de durée,
    - faire régulièrement des méta-analyses
    - etc.
    sujets autrement plus intéressants que d’opposer certains mots à la mode (Big Data), mots peu à la mode (statistiques telles que mal comprises) et “bonne science”.

    Désolé pour cette conclusion un peu sèche,

    un lecteur déçu.

  10. par Rémi Sussan

    @Jacques et L.D

    Il n’est pas question pour moi (ou pour Taubes d’ailleurs) de critiquer les statistiques en tant que telles. Justement le point de l’article est de montrer leur mauvais usage constant lorsqu’elles se trouvent déconnectées d’une méthodologie rigoureuse.
    Comme vous l’avez vous même remarqué, (L.D) les erreurs méthodologiques sont nombreuses dans leur usage, et ces erreurs ne sont pas seulement le fait de “pseudoscientifiques” mais aussi de scientifiques reconnus qui se laissent un peu trop vite aller à leur enthousiasme. L’exemple du cercle que vous donnez est d’ailleurs, à mon avis, précisément l’illustration d’une expérience, qui permet d’obtenir des données fiables. Tracer le cercle “après coup” est justement un exemple d’une observation pure, sans contexte expérimental fixé à l’avance….
    Maintenant la question plus large qui se pose est de savoir si même une expérimentation est possible si l’on ne dispose pas d’une théorie explicative qui permet d’en définir les paramètres. C’est le problème posé par la critique de l’empirisme, mais ça c’est encore une autre histoire…