Big Data : le grand déséquilibre ?

Pour Stéphane Grumbach (blog, @sgrumbach), directeur de recherche à l’Inria, les Big Data sont désormais un sujet important et dont les enjeux sont régulièrement médiatisés, comme le soulignait la semaine dernière le New York Times en s’intéressant à la consommation énergétique des centres de données. Souvent, le sujet est abordé sous l’angle (important) de la protection des données personnelles. Sur la scène de Lift France 2012, Stéphane Grumbach propose lui de l’aborder sous l’angle de la géographie. Est-ce que l’endroit où se trouvent les données est important ?

Le sujet semble iconoclaste, car la caractéristique même de ces données numériques est d’être par essence reproductibles, liquides, disponibles partout et tout le temps… Pas si sûr estime le chercheur (voir sa présentation).

La taille de l’univers numérique est estimée à 2,7 Zettabytes de données et il devrait atteindre 35 Zettabytes en 2020. C’est un univers en croissance exponentiel, pour l’essentiel entièrement géré par des entreprises. L’exemple emblématique de l’usage des Big Data demeure celui du profilage publicitaire, permettant d’adresser aux gens des publicités adaptées. C’est bien dans l’industrie du numérique qu’est né le Big Data… Pourtant, celui-ci peut s’appliquer à bien d’autres domaines : l’administration publique, la santé…

grumbachInria
Image : Stéphane Grumbach sur la scène de Lift France 2012, photographié par Loup Cellard pour la Fing.

Les Big Data adressent deux défis : celui de la collecte des données, que ce soit les données produites par les individus (e-mails, photos, écrits… qui composent 70 % des données) et les données indirectes (traces, transactions… dont nous n’avons le plus souvent pas même connaissance). Ces données sont pour l’essentiel obtenues par la gratuité : l’utilisateur accepte d’utiliser un service en échange de ses données et s’engage avec les conditions générales d’utilisations présentes et futures du service, même si le plus souvent il ne les lit pas.

Le second est de tirer du sens des données, comme le fait le profilage. Les profils d’utilisateurs génèrent de la connaissance à l’image de Google Flu, le service de Google qui cartographie l’évolution de la grippe en puisant dans les requêtes associées aux symptômes de la maladie que les utilisateurs font sur le moteur de recherche. Lancé en 2003, l’année de la crise du Sras en Chine, Google Flu permet d’obtenir des résultats précis avec deux semaines d’avance sur les données recueillies par les Instituts de veille sanitaire existants. « Si Google connaît l’état de la santé mondiale, on peut imaginer qu’il connait bien d’autres choses sur nous », souligne Stéphane Grumbach. Or, ce qui est intéressant dans Google Flu, c’est que cette connaissance n’est pas individuelle, mais mondiale, régionalisée. L’important n’est pas de savoir que monsieur X a la grippe, mais que telle ou telle région du monde est touchée par l’épidémie. Le géographe Yves Lacoste affirmait que « la géographie, ça sert d’abord à faire la guerre ». Les données également. La sécurité est l’une des applications principales des Big Data, rappelle le chercheur de l’Inria. La NSA américaine, l’agence de sécurité nationale a récemment annoncé investir dans un centre pour traiter des YottaBytes de données, une échelle encore jamais atteinte !


Présentation de Stéphane Grumbach.

La donnée est devenue une matière première, comme le pétrole au XXe siècle. Mais pour des raisons géologiques, le pétrole est concentré dans certaines régions du monde. Il est extrait, transporté, raffiné et consommé ailleurs. Pour les données, c’est exactement l’inverse. Elles sont produites par des utilisateurs partout sur l’internet, transportées sur le net, accumulées et analysées à certains endroits. Si la concentration du pétrole est due à la formation de la terre, les données sont tout aussi concentrées, mais par le fait d’une volonté humaine. Les données sont à 85 % détenues par de très grosses entreprises qui définissent les règles changeantes du jeu auxquelles elles sont soumises. Quand on regarde l’implantation géographique de ces entreprises, elles sont presque toutes américaines. Et cette tendance va s’accentuer avec le développement de l’informatique en nuage, le Cloud computing. Un tiers des données du monde seront stockées dans le cloud en 2020.

Stéphane Grumbach a tenté de regarder la géopolitique des Big Data. Quand on regarde les 25 premiers sites par pays, on se rend compte que très peu de ces succès proviennent de son propre pays, hormis aux Etats-Unis, où les 25 premiers sites sont américains. En France, seulement 36 % des 25 premiers sites sont des sites nationaux, et parmi ces 36 % beaucoup sont des sites de presses, assez faiblement captateurs de données de leurs lecteurs. Si on élargi aux 50 plus gros sites web mondiaux, on se rend compte que 72 % sont américains, 16 % chinois, 6 % russes, 2 % israéliens, britanniques et hollandais… Une répartition qui pose une question de fond : quelles informations sont extraites de nos données si elles sont confiées à nos voisins ?

En France, Google a le monopole de l’activité des moteurs de recherche. Google en sait plus que l’Insee sur les Français, estime Stéphane Grumbach. En Chine, Baidu est le premier moteur national (78 %). Aux Etats-Unis, trois grands moteurs se partagent les requêtes des internautes. Le monopole de Google, moteur de recherche non national, pose un problème majeur, estime Stéphane Grumbach. On souhaite défendre la diversité, dans un endroit où il n’y en a pas beaucoup. On souhaite utiliser la fiscalité, là où ce n’est peut-être pas l’enjeu majeur. Car l’enjeu est celui de la dissymétrie de l’information, comme l’expliquait le prix Nobel d’économie Joseph Stiglitz (Wikipédia) : « L’asymétrie de l’information correspond à une asymétrie de pouvoir économique sur le marché ».

Cette asymétrie de l’information pose de nombreux problèmes. Un problème de régulation, toujours limité sur des sociétés qui sont hors de nos frontières économiques. Un problème de sécurité et notamment de sécurité économique qui nous rend dépendant d’une puissance étrangère… La carte de l’asymétrie de l’information ressemblerait beaucoup à une carte isomorphe du monde de la consommation mondiale.

Pourquoi une telle asymétrie ? Pour des raisons liées notamment à notre histoire récente, l’Europe semble avoir peur des données. Sans compter que l’Europe dispose d’un faible environnement industriel capable de faire émerger de grandes sociétés dans le domaine de l’information, nous nous livrons à des systèmes étrangers sur lesquels nous n’avons pas notre mot à dire. Les alternatives sont possibles bien sûr. L’alternative décentralisée est certainement utopique, estime Stéphane Grumbach, parce qu’il n’y a pas de modèle économique associé à cette décentralisation. Une alternative comme Diaspora ne comporte pas en elle-même de possibilité de générer de la connaissance à partir des données. Peut-être existe-t-il un autre chemin alternatif entre le modèle centralisé actuel et le modèle décentralisé utopique permettant de développer une plus grande symétrie d’information et une économie concurrentielle.

L’Europe est pourtant le symbole de la diversité culturelle et du rôle fort du pouvoir public. C’est à elle de s’impliquer dans les nouveaux équilibres qui s’inventent, conclut Stéphane Grumbach.

Le paysage n’est pas figé. L’industrie du numérique chinoise par exemple va nécessairement s’étendre à l’international. Que se passera-t-il si un jour Baidu devient le premier moteur de recherche national ? Serons-nous aussi tolérants avec lui que nous le sommes avec Google ?

L’idée du grand moteur de recherche européen, Quaero, même poussé et soutenu par les institutions européennes, n’a pas marché, rappelle Daniel Kaplan, animateur de la conférence. Oui, reconnaît Stéphane Grumbach. L’enjeu de pouvoir a toujours été évident. A une époque, l’Europe a investi dans l’acheminement des matières premières vers l’Europe, car elle pensait que c’était un enjeu primordial. Nous ne faisons pas le même effort sur les données, malgré les enjeux que cela induit. Il est pourtant urgent de capter la donnée européenne. Mais nous semblons incapables de faire naître en Europe des opérateurs géants. Cela n’est pas uniquement lié à l’absence de volonté de l’Etat. Aux USA, celle-ci n’a pas joué. Quel est le levier pour faire de l’industrie de l’information européenne une industrie globale ? Stéphane Grumbach laisse la question ouverte.

Hubert Guillaud

À lire aussi sur internetactu.net

0 commentaires

  1. Que Diaspora ne possède pas nativement de système d’analyse de données, certainement, mais il est bien possible de faire de la fouille de données globale de manière décentralisée. Voir la biblio récente. En tout cas nous on essaie de bosser là-dessus…

  2. Selon Wikipedia au sujet de Quaero:

    [quote]D’après l’INRIA, toutefois, ces critiques résultent en partie d’une incompréhension du projet, celui-ci n’ayant aucune vocation à devenir un moteur de recherche Européen, mais bien un projet de recherche destiné à fédérer universitaires, industriels et PME pour le développement d’outils en recherche d’information multimédia[/quote]

    Cette incompréhension semble perdurer…