Big Data, grande illusion ?

La cause serait entendue : après le cloud computing et l’internet des objets, les « big data » constitueraient la prochaine « révolution » apportée par le numérique. Alan Mitchell, cofondateur et directeur de la stratégie du cabinet britannique Ctrl-Shift, n’est pas d’accord. Pour lui, les Big Data auraient presque un côté contre-révolutionnaire : le chant du cygne d’une informatique productiviste, centralisatrice, centrée sur les grandes organisations.

« Les Big Data se fondent entièrement sur la statistique : dégager des schémas et des tendances à partir de grandes collections de données. La statistique fournit une manière extraordinairement puissante et utile de remettre en questions les suppositions et les inférences que les cerveaux humains produisent naturellement – et souvent de manière erronée. C’est formidable.
« Mais le principal déficit que rencontre notre société ne réside pas dans la capacité de traiter un grand nombre de données, bien au contraire. Le défi est celui de la logistique de l’information : comment transmettre exactement la bonne information à, et depuis, les bonnes personnes, au bon format, au bon moment. Une affaire de ‘Toutes Petites Données’ (Very Small Data). »

Mitchell ne conteste pas l’utilité des Big Data, il en conteste la nouveauté et le degré de priorité dans les agendas de recherche et d’investissement.

Selon lui, les Big Data ne marquent qu’une nouvelle étape d’une histoire aussi vieille que l’informatique : celle qui raconte la manière par laquelle des organisations, équipées de moyens très supérieurs à ceux du commun des mortels, deviennent capables de traiter des volumes toujours croissants d’informations toujours plus hétérogènes, afin de détecter des phénomènes toujours plus subtils, de prendre des décisions toujours plus pertinentes – et au final, de renforcer leur position ou d’en occuper de nouvelles.

Et pourquoi pas ? Mais pour Mitchell, cette informatique-là rencontrerait ses limites, dont les Big Data constitueraient une sorte de tentative désespérée de les repousser. Première limite, déjà énoncée par plusieurs chercheurs : le fantasme d’un accès direct, sans médiation, à la réalité de phénomènes physiques, biologiques ou sociaux, qui oublie volontiers qu’une donnée n’a rien de « donné » : elle est construite comme une variable, avec une finalité précise, puis produite, saisie ou acquise par des mécanismes qui constituent autant de médiations plus ou moins masquées. Cette quête sans fin se condamne à la course aux armements : il faut des moyens sans cesse plus importants pour parvenir à des inférences un peu plus fines, avec des rendements de plus en plus décroissants. Et sans espoir, nous dit Mitchell, de parvenir au Graal : se connecter vraiment à l’unité, la subjectivité, la complexité des êtres humains et de leurs pratiques sociales. Pourquoi ? Parce que les objets du calcul, en l’occurrence les humains, n’y sont pas conviés.

« Dans la plupart (mais pas la totalité) de ses manifestations, les Big Data s’intéressent à des données qui concernent le comportement des consommateurs. Les organisations collectent de telles données pour, par exemple, leur proposer un produit ou leur envoyer un message. L’objet, encore et toujours, est d’aider les organisations à en faire plus, de manière plus efficace.

[Cette approche] part, sans même y penser, de l’hypothèse que toutes les améliorations proviendront des organisations, alors qu’en réalité, les principales opportunités se trouvent tout à fait ailleurs – dans le fait d’aider les individus à agir de manière plus pertinente et efficace, via de nouveaux genres de services centrés sur les personnes. »

C’est bien là, selon Alan Mitchell et les autres pionniers d’un monde numérique centré sur l’empowerment des individus, que résideraient la vraie opportunité et le vrai défi : passer du traitement de masse de l’information (largement consubstantiel à sa concentration dans des organisations obligées de deviner le sens d’actes, de sentiments ou de discours qui leur restent extérieurs) à une « logistique de l’information », qui vise à « résoudre des problèmes, prendre des décisions, organiser et mettre en pratique des actions sans perdre de temps et d’énergie à chercher la bonne donnée, encore moins à trier et jeter des masses d’informations non pertinentes. »

« Les Big Data ne vont jamais à la source des données qui comptent vraiment (Really Big and Important Data) : à savoir, les humains et ce qu’ils veulent faire tout de suite, ou prévoient de faire dans le futur. Pourtant, (…) les gens commencent à avoir les moyens de gérer leur propre information, de la créer eux-mêmes et de la partager avec d’autres. Cela crée une avalanche de ‘données qui comptent vraiment’ : les Informations Proposées Volontairement (Volunteered Personal Information) – des informations sur moi, ma situation, mes priorités et ce que je souhaite faire maintenant. (…) La logistique de l’information s’organise autout de spécifications très précises – le recueil d’informations sur ce qu’un individu précis recherche à ce moment précis – plutôt que sur le moulinage massif et a posteriori de toutes les données sur lesquelles on a pu mettre la main. A partir des Big Data, vous pouvez inférer un motif ou une intention extraits de la masse, mais ça ne sera jamais aussi bon que d’obtenir l’information directement auprès de ceux qu’elle concerne. (…) Le sujet, ce n’est pas la collecte et le traitement massif de données – c’est le partage de données, qui mobilise des technologies différentes et pose des problèmes infrastructurels différents des Big Data. »

Prenons l’exemple de quelqu’un qui cherche à changer de voiture. L’approche « Big Data » consisterait à repérer, par exemple, que l’automobile actuelle a plus de x ans, que les factures de réparation se multiplient, qu’elle consomme visiblement plus, que la famille s’est étendue, qu’elle consomme plus « vert » et bio qu’avant mais que son pouvoir d’achat a baissé et qu’elle ne va plus chaque année en vacances au même endroit. En comparant ces caractéristiques (ou même des caractéristiques plus « brutes », il s’agit déjà d’inférences) à celle de milliers d’autres profils, on commencera à envoyer des propositions commerciales pour des automobiles plus grandes, moins consommatrices mais moins haut de gamme ; et dans beaucoup de cas, on tapera à côté : trop tôt, trop tard, bien vu pour l’attention environnemental mais pas pour la famille (elle s’est séparée)… Tandis que l’approche « small data » consisterait à permettre au consommateur de dire en une fois à plusieurs interlocuteurs « Je vais changer de voiture. Voici mon modèle et la manière dont je l’utilise. Voici quelques informations sur moi, ma famille recomposée, où je vis et où je travaille, mes revenus. Attention, je cherche plutôt une petite voiture très peu polluante, je louerai quand on voyagera en famille. Je ne suis pas pressé, elle roulera encore bien un an, mais si vous me proposez une offre globale alléchante, crédit et assurance compris, je peux être intéressé. Je peux aussi être intéressé par des propositions de mobilité carrément alternatives : étonnez-moi ! Ces données sont confiées à un intermédiaire qui les a anonymisées mais qui vous garantit que j’existe et que ces informations sont exactes. Vous pouvez vous en servir pendant 2 semaines. »

D’un point de vue technique, on passerait de la « force brute » (mobiliser toujours plus de données et de puissance informatique pour attaquer les problèmes) à une forme de subsidiarité : tenter de traiter les questions à la source, là où toutes les informations existent sans doute, pour peu qu’on leur donne une raison de raconter leur histoire. D’un point de vue économique, il s’agirait de passer de l’économie de l’attention à « l’économie de l’intention« , titre du dernier ouvrage de Doc Searls. Une économie qui se focalise sur l’idée d’aider les individus (plutôt que les organisations) à décider, choisir et agir ; une économie frugale en information, qui équipe la demande pour lui permettre de s’exprimer de manière simple, directe et non ambiguë.

Alan Mitchell n’a pas entièrement raison. Pour commencer, les Big Data dont il traite concernent les humains et leurs pratiques et pas, par exemple, les sciences « dures » qui ont déjà beaucoup bénéficié de ces techniques. On trouve aussi dans les Big Data autre chose que des statistiques, par exemple des analyses de réseaux, des correspondances sémantiques, des cartes (pas seulement géographiques)…

Mais il vise juste quand il désigne la focale fondamentalement organisationnelle et asymétrique de la dynamique Big Data telle qu’elle se développe aujourd’hui, alors même que l’équipement des « foules » peut désormais rivaliser avec celui des plus grandes organisations. On pourrait ainsi s’interroger sur les manières d’en mettre les outils à disposition du plus grand nombre, ce qui nécessiterait de répandre également une culture critique des données (dont beaucoup de décideurs pourraient également bénéficier).

Et surtout, il faut prendre au sérieux l’agenda alternatif de recherche et d’innovation que décrit Mitchell : celui d’une informatique, de flux d’information et de calculs centrés sur les individus, et de la frugalité informationnelle que ce changement de focale rendrait à la fois possible et nécessaire.

Daniel Kaplan

bonjour l’article souleve le vrai probleme a savoir que les big data legitiment un cadre de reference que lon soit orientee sur la donnee ou centree sur les mediations a l’information. accenture a dans une etude recente relevee des tendances autour des big data dont les services contextualises. des lors, que veut reellement dire proposer la bonne info. produit service au bon moment au bon endroit selon le bon canal sans sursolliciter le consommateur. les big data soulevent des enjeux qui vont plus loin que les arguments souleves dans larticle. ces arguments abordent tout de meme ces enjeux des lors qu’ils nous interrogent sur la societe de l’information. je reponds a ces deux arguments. tout d’abord, j’aime faire le lien entre la thermodynamique de levolution et led big data. schematiquement, le monde est un espace de competition ou les entreprises maximisent leur depense d’energie pour s’adapter. en sadaptant elles modifient leur environnement physique(utilisation des ressources energetiques : ex concevoir des processeurs, stocker davantage). tout cela participe a leffet de la reine rouge dans le principe dune course aux technologies et quil faille courir de plus en plus vite pour rester sur place. plus de stockage + de traitement + de production = un futur big data crunch. aussi. je peux faire le lien avec le second argument, tout dabord avons nous besoin de grands volumes de donnees pour prendre une bonne decision? dautre part, plutot que de penser la relation dans un sens, les entreprises ne pourraient elles pas donner les moyens a leur client d’arbitrer leurs propres donnees. big data se lie alors a un autre concept celui de vrm (vendor relationship management) et pkoi pas un peu plus en amont au concept de quantified self soit la mesure des donnees de soi. je remarquais que cela commencait a se faire pour lanalyse du genome a des fins de prevention aux usa…. autour des big data, il y a donc un vrai debat. l’article est interssant car il ouvre des perspectives meme si les conclusions me laissent sur ma faim.

0 commentaires

lacassaigne philippe dit :

12/04/2012 à 7:59

bonjour l’article souleve le vrai probleme a savoir que les big data legitiment un cadre de reference que lon soit orientee sur la donnee ou centree sur les mediations a l’information. accenture a dans une etude recente relevee des tendances autour des big data dont les services contextualises. des lors, que veut reellement dire proposer la bonne info. produit service au bon moment au bon endroit selon le bon canal sans sursolliciter le consommateur. les big data soulevent des enjeux qui vont plus loin que les arguments souleves dans larticle. ces arguments abordent tout de meme ces enjeux des lors qu’ils nous interrogent sur la societe de l’information. je reponds a ces deux arguments. tout d’abord, j’aime faire le lien entre la thermodynamique de levolution et led big data. schematiquement, le monde est un espace de competition ou les entreprises maximisent leur depense d’energie pour s’adapter. en sadaptant elles modifient leur environnement physique(utilisation des ressources energetiques : ex concevoir des processeurs, stocker davantage). tout cela participe a leffet de la reine rouge dans le principe dune course aux technologies et quil faille courir de plus en plus vite pour rester sur place. plus de stockage + de traitement + de production = un futur big data crunch. aussi. je peux faire le lien avec le second argument, tout dabord avons nous besoin de grands volumes de donnees pour prendre une bonne decision? dautre part, plutot que de penser la relation dans un sens, les entreprises ne pourraient elles pas donner les moyens a leur client d’arbitrer leurs propres donnees. big data se lie alors a un autre concept celui de vrm (vendor relationship management) et pkoi pas un peu plus en amont au concept de quantified self soit la mesure des donnees de soi. je remarquais que cela commencait a se faire pour lanalyse du genome a des fins de prevention aux usa…. autour des big data, il y a donc un vrai debat. l’article est interssant car il ouvre des perspectives meme si les conclusions me laissent sur ma faim.
Jean Luc BERNARD dit :

13/04/2012 à 12:28

Analyse lucide et très intéressante. Merci de ce courrant d’air fias dans un domaine où l’on entend tout et son contraire. La plupart des réponses apportées au phénoimène Big Data ressortent en effet de l’illusion qu’il est pertinent pour conférer aux données un sens comportementalement exploitable de vouloir 1/ les stocker 2/ les traiter, le tout dans le double registre de l’exhaustivité et de la statistique.
Il apparaît de plus en plus que pour pouvoir les exploiter de manière réellement opérationnelle (c’est à dire 1/ vite 2/ de manière essentielle) il importe de s’attacher plus à l’analyse des flux de données (et non des stocks) et à l’identification de singularités plus que de constantes.
Gestion des flux, principes d’essentialité, singularités: l’émergence d’un nouveau paradigme qui s’imposera du fait de l’incapacité des ressources financières des entreprises à suivre l’explosion des données à gérer.
Hubert Guillaud dit :

17/04/2012 à 3:09

La réponse d’Henri Verdier : http://www.henriverdier.com/2012/04/peut-on-etre-contre-les-big-data.html
Louise dit :

30/05/2012 à 10:37

Je reconnais que l’analyse du Big Data est ici très pointue et intéressante.
En revanche, il me semble qu’il est toujours difficile de différencier ce phénomène avec celui de l’Open Data.
Pour ceux qui ressentent la même chose, je vous invite à lire ce court article différenciant les deux mouvements http://123opendata.com/blog/big-data-open-data/
Hubert Guillaud dit :

18/06/2012 à 9:51

Les phénomène Big data commence à se craqueler effectivement. Nous avions évoqué déjà les limites de l’extrême ciblage comportemental, qui montrait que le marketing appliqué aux big data ne donnait pas nécessairement les résultats tant attendus. Voilà que se sont les promesses du high frequency trading qui craquent à leur tour.

De nombreuses compagnies de trading à haute fréquence, dont l’activité a changé la nature des opérations de Bourse au cours des récentes années, sont en train de se restructurer en raison des faibles volumes et de la férocité de la concurrence nouvellement apparue, explique Forbes. Paul Jorion avait donc raison quand il expliquait que l’introduction des robots pour analyser et produire les cours de bourse risquait surtout d’étouffer le marché, en montrant les résultats de plus en plus décevant de Nanex à mesure que les échanges à haute fréquence devenaient la norme. Face à la concurrence, il faut démultiplier les ressources pour générer des profits sur les marchés surveillés par les algorithmes… Ce qui devient vite impossible ou trop cher…
lcb dit :

18/09/2012 à 6:48

Des artiles et des dossiers complets sur ce sujet http://www.silicon.fr/tag/big-data
mary dit :

25/09/2012 à 3:22

article plutot intéressant, votre analyse laisse réfléchir effectivement.
OlivierAuber dit :

15/02/2013 à 7:20

Les trois neurones qui me restent dans la tête prédisent l’émergence d’une BIG DADA attitude 🙂 qui prendra un malin plaisir à tourner au ridicule tous les modèles prédictifs centrés sur les BIG DATA.