Encore sur la crise des sciences : le « machine learning » en cause

Encore et toujours sur la crise actuelle des sciences et l’actuelle difficulté à reproduire les expériences. Après les biais de protocoles, de publication et de statistiques, après la théorie, on a peut-être trouvé un coupable supplémentaire : le « machine learning », de plus en plus utilisé dans les labos. C’est en tout cas ce que pense la spécialiste en statistiques Genevera Allen, qui a présenté un avis à l’American Association for the Advancement of Science à Washington et dont le point de vue a été présenté sur le site de la BBC. Et le problème ne touche pas que les sciences sociales, mais également l’astronomie ou la médecine.

Comme souvent, c’est le choix des ensembles de data qui pose problème. Les machines ont tendance à trouver des patterns qui, explique l’article de la BBC, figurent dans les données sélectionnées, mais n’existent pas forcément dans le monde réel. « Souvent, explique Allen, des études ne sont pas considérées comme inexactes tant que quelqu’un n’applique pas les mêmes techniques à un autre grand ensemble de données et s’exclame « Oh mon Dieu, les résultats de ces deux études ne se chevauchent pas ». Et l’article de la BBC de préciser : « Les algorithmes de machine learning ont été développés spécifiquement pour rechercher des éléments intéressants dans des jeux de données. Donc, lorsqu’ils effectuent une recherche dans d’énormes quantités de données, ils finiront inévitablement par trouver un pattern ». Le problème est qu’il suffit parfois d’ajouter un jeu de données ou de changer une source de données pour que les résultats soient significativement différents ! Ainsi, si on utilise par exemple un jeu d’images de tumeurs pour apprendre à un programme à les repérer, le fait d’utiliser une base d’images avec une meilleure définition pourrait changer les résultats du programme…

Faut-il pour autant abandonner l’usage de ces programmes, qui peuvent s’avérer précieux dans bon nombre de cas ? Genevera Allen ne baisse pas les bras, mais travaille au contraire, en association avec des chercheurs en biologie médicale de Houston, à élaborer un nouveau type de logiciels, qui seront en mesure, après avoir détecté des patterns, de préciser le niveau de certitude de leur trouvaille et la probabilité de reproduire le même résultat.

À lire aussi sur internetactu.net