La démocratisation de l’analyse de données

Jusqu’à présent, l’analyse des données était réservée aux experts et aux sociétés d’analyse de données. Est-ce que cela pourrait être appelé à changer et comment ? L’analyse de données peut-elle être plus accessible à tout à chacun ?

C’est en tout cas ce que commencent à proposer plusieurs services, mais par des approches radicalement divergentes.

Par l’automatisation

C’est le cas par exemple du « moteur de connaissance » Wolfram Alpha, qui vient de présenter ses nouvelles fonctionnalités accessibles aux abonnés premium (4,99 dollars par mois) leur permettant de télécharger leurs données pour que le moteur les analyse et en fasse des rendus de visualisation. Du fait de sa capacité à reconnaitre certaines données, Wolfram Alpha est capable de produire par exemple un graphe social depuis vos contacts e-mail pour vous montrer l’intensité de vos échanges et la forme de votre réseau, ou une carte depuis une feuille de calcul qui contient des noms de pays ou de villes. Il peut bien sûr puiser dans ses propres données pour améliorer les vôtres. Stephan Wolfram souhaite démocratiser l’utilisation de l’analyse de données, explique Tom Simonite pour la Technology Review. « Il est temps de réduire le seuil d’accès pour ceux qui utilisent les données. (…) Si un expert peut répondre à une question depuis vos données, vous devez pouvoir l’obtenir vous-mêmes automatiquement. »


Vidéo : démonstration des fonctionnalités de Wolfram Alpha Pro.

Lee Sherman, directeur de Visual.ly, un outil qui propose le même type de fonctionnalités, est convaincu qu’il existe un marché pour des outils permettant d’exploiter des données de façon simple. « Les gens ne veulent pas des réponses, ils veulent des rapports », estime le chercheur. En utilisant des données structurées, Wolfram Alpha ne se contente pas de renvoyer des informations, mais analyse et calcule vos données avec les siennes pour les contextualiser. Son objectif comme le clame son slogan est de rendre « calculable la connaissance du monde ». À terme, le but de Wolfram Alpha est de livrer une interprétation des données adaptées à celles-ci, explique Dieter Bohn pour The Verge.

Wolfram Alpha n’est pas le seul modèle du secteur. Nombre de start-ups tentent de simplifier les outils de visualisation ou de créer des plateformes d’échanges, à l’image de BuzzData, une plateforme de partage et de visualisation des jeux de données organisées comme un site social, ou, à sa manière, de Google Correlate, qui permet de chercher ce qui est le plus corrélé à l’information que vous cherchez.

… ou par la personnalisation

Rachel Metz pour la Technology Review évoquait récemment une autre approche : celle de Kaggle, une structure qui organise des concours pour des organisations qui cherchent à générer des prédictions pertinentes depuis leurs données.

kagglehomepage
Image : la home page de Kaggle, « nous faisons de la science des données un sport ».

Anthony Goldbloom, son fondateur, s’est inspiré du concours organisé par Netflix entre 2006 et 2009, proposant 1 million de dollars à qui réussirait à améliorer son logiciel de recommandation de film de 10 %. Après avoir observé la popularité du concours, Goldbloom a travaillé pour The Economist où il a constaté que beaucoup de sociétés dormaient sur leurs données, sans personnes pour les exploiter. Depuis son lancement en avril 2010 en proposant un prix de 1000 dollars pour l’équipe qui parviendrait le mieux à prédire comment la plupart des pays voteraient au concours de l’Eurovision, Kaggle a proposé une trentaine de compétitions différentes. La communauté Kaggle, désormais forte de quelques 27 000 membres est une forme de crowdsourcing de l’analyse de données – sur le modèle professionnel d’Innocentive ou de Procter&Gamble Connect que nous avions déjà évoqué – qui vise à mettre en relation scientifiques spécialisés dans le traitement de données et entreprises ayant des données à traiter. Ces dernières proposent des défis contre récompenses sonnantes et trébuchantes.

Dans un des premiers défis, une université a fourni des dossiers anonymes de patients atteints du VIH contenant des marqueurs génétiques qu’il espérait pouvoir être utilisés pour prédire la progression du virus. Moins d’une semaine et demie plus tard, les utilisateurs de Kaggle étaient capables de prédire la progression du virus avec une précision de 70 %. A la fin de la compétition, les utilisateurs avaient même réussi à améliorer la précision à 77 % et à réduire le taux d’erreur d’un tiers.

Si la plupart des participants travaillent dans l’analyse de données, les gagnants proviennent le plus souvent d’un champ disciplinaire différent de celui proposé, certainement parce que cela leur permet d’aborder le problème sous un angle nouveau. Pour Will Cukierski (voir son profil Kaggle), un doctorant en génie biomédical de l’université Rutgers, le site lui permet de prendre pied dans le marché de l’emploi.

Barbara Chow, directrice de l’éducation de la Fondation William et Flora Hewlett, a quant à elle lancé un défi pour trouver une solution pour automatiser la notation des travaux des étudiants en se rapprochant des notations que donnent les professeurs. Will Cukierski qui oeuvre à l’une des réponses estime que les résultats préliminaires montrent que les concurrents sont déjà capables de fourbir des solutions qui offrent des résultats qui sont assez proches de ceux des humains. Les algorithmes seront-ils capables d’apprécier un essai aussi bien que des humains ne le feraient ? Visiblement, cela ne serait tarder, estime l’étudiant.

Les défis lancés semblent tous aussi passionnants, explique un article du Bits du New York Times : actuellement, un organisme de santé offre 3 millions de dollars pour l’équipe qui réussira à prédire, depuis l’historique médical de patients, ceux qui seront hospitalisés dans l’année à venir, afin que les médecins puissent intervenir préventivement ; une banque offre 5000 dollars pour trouver une meilleure façon de prédire les défaillances des clients auxquels elle accorde des prêts.

Les approches de Wolfram Alpha et de Kaggle sont diamétralement différentes bien sûr. Il n’est pas sûr qu’elles soient en concurrence, mais toutes deux montrent bien combien le champ de l’analyse de données cherche à se rendre toujours plus accessible.

Hubert Guillaud

À lire aussi sur internetactu.net

0 commentaires