Prédictions : les données seules ne sont pas suffisantes

Par le 25/09/12 | 4 commentaires | 1,920 lectures | Impression

Quelles relations établir entre la gigantesque masse de données fourbie par les ordinateurs – les fameux Big Data -, les modèles utilisés pour les analyser, et les humains qui les interprètent ? C’est la question que s’est posée Nate Silver, dans une brillante analyse de la science météorologique, parue dans le New York Times.

Nate Silver n’est pas un inconnu, loin s’en faut. Figurant parmi les cent personnes les plus influentes de 2009 toujours selon le New York Times, ce génie des maths a commencé sa carrière… en analysant les probabilités des résultats des matchs de baseball, domaine qu’il a parait-il révolutionné. Puis il s’est fait connaître par son blog politique (@fivethirtyeight) analysant les chances des différents candidats aux élections américaines. Lors des précédentes présidentielles aux US, il a réussi à prédire les gagnants sur 49 états sur 50.

La météo, un succès ?

“En 2008“, commence Silver, “le rédacteur en chef de Wired magazine, Chris Anderson, écrivait avec optimisme que nos bases de données étaient désormais si volumineuses et nos ordinateurs si puissants qu’il n’était plus nécessaire de développer des théories, ni même besoin de méthode scientifique. A l’époque, il était dur de se trouver en désaccord avec lui.”

“Mais”, continue Silver, “si nous considérons notre notre capacité de prédiction comme le meilleur moyen de tester nos connaissances, nous n’avons pas bien réussi. En novembre 2007, les économistes (…) examinant 45 000 ensembles de données économiques pronostiquèrent qu’il n’existait pas plus d’une chance sur 500 que nous puissions connaître une crise comparable à celle qui commença un mois plus tard. Les tentatives de prévoir les tremblements de terre ont continué à prédire des catastrophes qui ne sont jamais arrivées et n’ont pas réussi à nous préparer à ceux qui se sont produits, comme le désastre de 2011 au Japon.”

Rolling-thunder-cloud-a
Image : Orage sur Enschede, aux Pays-Bas via Wikimedia Commons.

Pourtant, tout ne marche pas aussi mal, nous rassure-t-il. Il existe par exemple un domaine où nos facultés de préparer l’avenir a été en constant progrès : la météo.

Évidemment, à première vue, cette idée aurait tendance à faire rigoler tout le monde. Pourtant, insiste Silver, c’est un domaine qui a connu de véritables progrès. Par exemple en 1972 les services météo américains se trompaient d’environ 6 degrés lorsqu’il fallait prévoir le temps 3 jours à l’avance. Maintenant, l’erreur est juste de trois degrés. Encore, mieux, la prédiction des ouragans s’est fortement améliorée. Il y a 25 ans, les spécialistes chargés de cette tâche prédisaient avec une marge d’erreur de 560 km quel lieu pourrait être touché par l’ouragan. Aujourd’hui, la marge est 160 km. Bref, ce n’est pas une science exacte, mais il y a des progrès significatifs, contrairement à ce qui se passe en économie.

Pour Silver, c’est la reconnaissance de l’incertitude qui a permis aux météorologues de progresser dans leur tâche. “Alors que des champs comme l’économie ont commencé à se baser de plus en plus sur les Big Data, les météorologistes ont reconnu que les données seules n’étaient pas suffisantes.”

Pourtant, en météo, les Big Data, ils connaissent et ils utilisent. Pour preuve, le superordinateur IBM Bluefire du Centre national de recherche atmosphérique américain à Boulder, dans le Colorado, avec ses 77 000 milliards d’instructions par secondes. Pourtant, même cette puissance de calcul énorme ne suffit pas à expliquer les avancées dans ce domaine.

Multiplier et interpréter les modèles

La prédiction, rappelle Silver, est particulièrement difficile dans le domaine du temps à cause l’extrême sensibilité aux conditions initiales, propres aux phénomènes du chaos. Du reste, cette théorie mathématique est fondamentalement liée à l’histoire de la météorologie, puisqu’un de ses pionniers (certains diraient même son fondateur), était un météorologue Edward Lorentz, qui a le premier émis la fameuse formule : “le battement d’ailes d’un papillon au Brésil peut provoquer une tornade au Texas”.

Rappelons le principe de la théorie du chaos : c’est l’idée que lorsque nous collectons nos informations sur une situation, une erreur du cinquième ou dixième chiffre après la virgule peut avoir finalement des conséquences profondes sur le résultat global.

Il va sans dire que la théorie du chaos est l’un des gros obstacles au triomphe des Big Data. Si la situation n’est pas absolument décrite dans tous ses détails au commencement d’une simulation, le modèle ne tardera pas à diverger de la réalité. Pour que cela marche, il faudrait donc que les data soient vraiment très très big. En fait, il est impossible d’obtenir avec précision l’ensemble des paramètres constituant une situation complète. Dans le domaine de la météo, il faudrait avoir la position et le comportement de chacune des milliards de milliards de molécules constituant l’atmosphère en un lieu et à un moment donné. Mais évidemment, cela s’applique aussi aux sociétés humaines et aux neurones de notre cerveau.

Comment donc se débrouillent les météorologues ? Eh bien, explique Silver, ils ne se contentent pas d’appliquer un modèle unique. Citant Ben Kyger, directeur des opérations pour la National Oceanic and Atmospheric Administration : “les spécialistes prennent en compte différents modèles : européen, canadien, le nôtre. Il y a des modèles en grand nombre, et ils ne racontent pas la même histoire… ce qui veut dire qu’ils sont fondamentalement tous faux”. Il est donc nécessaire d’ajuster ces modèles “à la main” et interpréter ce qui apparait dans les simulations. Et de citer encore Kyger, “j’ai appris à vivre avec ça, et je sais comment le corriger ? Toute ma carrière pourrait bien être basée sur mon interprétation des informations que je reçois”.

Autre problème des ordinateurs, ils sont notoirement mauvais lorsqu’il s’agit de saisir des patterns globales. Leur capacité d’interprétation est donc limitée. Ainsi, raconte Silver, rapportant les paroles d’un expert de la météo nationale américaine, ils ont du mal à correctement prédire les conditions atmosphériques se déroulant au coeur d’une tempête. L’un des modèles, lui a-t-il expliqué, a par exemple tendance à prédire les pluies 160 km trop au sud.

“Les êtres humains augmenteraient de 25 % la précision en matière de prévision des précipitations, et de 10% en ce qui concerne les températures, par rapport aux prédictions des superordinateurs. En fait, lorsque le superordinateur Cray fut endommagé par un incendie en 1999, leur capacité de pronostiquer les hautes températures se montra remarquablement correcte”.

Pourquoi donc la météo a-t-elle aussi mauvaise réputation, se demande enfin Nate Silver ? Tout simplement parce que les diffuseurs commerciaux évitent de donner le pourcentage d’incertitude associé à une prédiction. En fait, lui a expliqué Max Mayfield, qui a dirigé le Centre National des Ouragans à l’époque de Katrina, “Aucune prévision n’est complète sans une description de l’incertitude qui lui est associé”. De fait, aujourd’hui, ce même centre, plutôt que décrire par une simple ligne la trajectoire d’un ouragan, utilise désormais un “cône d’incertitude”, également et justement nommé le “cône de chaos”.

Malheureusement,les diffuseurs ont peur que la révélation de l’incertitude n’introduise un trop grand doute sur la valeur de la prédiction. Silver ajoute ainsi qu’ils ont tendance à arrondir les chiffres pour leur donner plus de signification. Par exemple, s’il y a 50% de chances de pluie, ils préfèrent annoncer 60/40… en favorisant l’hypothèse pessimiste. En effet, “les gens ne se formalisent pas si un jour prévu comme pluvieux se révèle finalement ensoleillé. Mais s’il pleut quand ce n’est pas supposé arriver, ils maudissent le météorologiste qui a ruiné leur pique-nique”.

Silver ne parle bien sûr que de la météo américaine (il est vrai que la présence des tornades et des ouragans rend la situation encore plus délicate aux US). Quant à notre contrée, tout ce que je puis dire, c’est que je n’ai pas vu d’indications chiffrées des incertitudes sur le site de Météo France, même pour les prévisions à plusieurs jours d’avance (on y indique cependant qu’il s’agit seulement de “tendances”)…

Mais Silver, on l’a vu, ne s’intéresse que tangentiellement à la météo. C’est la nature de la prédiction qui l’intéresse et il sort ce mois-ci un livre sur le sujet, “The Signal and the Noise : Why Most Predictions Fail–But Some Don’t” (Le signal et le bruit : pourquoi la plupart des prédictions échouent – mais pas toutes !). En attendant, il continue son blog de pronostics politiques (basé exclusivement sur des données chiffrées et non sur les idées des candidats). Aux dernières nouvelles (22 septembre) il donnerait Obama vainqueur avec 77% de probabilités… A suivre !

Rémi Sussan

Rétroliens

  1. La lettre du 1e octobre : Internet est une technologie de transformation | Proxem, le blog
  2. Proxem » La lettre du 1e octobre : Internet est une technologie de transformation
  3. Prédictions : les données seules ...

1 commentaire

  1. Comme le souligne Tom Roudet la presse toute entière – Nate Silver vient de brillamment démontrer la validité de son modèle de prédiction. Comme le rappelle Tom Roud, Silver a confirmé que son modèle était valide malgré sa simplicité : il repose sur l’idée que les populations socio-économiquement similaires votent de la même façon. Sa modélisation est simple et montre qu’on peut modéliser un système complexe si on identifie correctement les “causes premières”, rappelle Tom Roud qui le qualifie de premier PsychoHistorien ! Rien de moins !