L’histoire vue par les réseaux sociaux

L’anthropologie computationnelle est cette branche des « humanités numériques » qui cherche à comprendre la mentalité des peuples en utilisant les ressources de l’ordinateur et du Net. La Technology Review nous apprend que Peter Gloor (@pgloor, blog), du centre du MIT pour l’intelligence collective, et son équipe ont ainsi utilisé la Wikipédia pour établir quels étaient, pour chaque culture, les personnages les plus importants (le papier original est disponible chez ArXiv).

A cette fin, ils ont effectué des recherches sur les pages « célébrités » de quatre Wikipédia différentes : l’anglo-saxonne, l’allemande, la chinoise et la japonaise.

Les chercheurs ont donc commencé par télécharger les pages « personnalités » de chacune des encyclopédies (pour la Wikipedia en anglais : 800 000 entrées). Ils ont ensuite cherché à créer un « réseau social » des personnes en question, en analysant les liens qui pointaient dans chaque page vers un de leurs contemporains (et en enregistrant, bien entendu, également les liens d’autres célébrités vers le personnage analysé). Cela a permis d’utiliser un algorithme de type page rank afin de classer les grands « influenceurs ». Les anthropologues se sont bien assurés que n’étaient liés au sein d’un même réseau que les gens qui ont vécu à la même époque et étaient donc susceptibles de se connaître. Par exemple, nous explique le papier, en ce qui concerne l’historien Plutarque, les noms de César, Néron ou Hadrien sont conservés, tandis que ceux pointant vers Pyrrhus, mort longtemps avant la naissance de Plutarque, ou vers les historiens plus tardifs comme George le Syncelle ou Paul Pisani (historien français qui n’a pas sa page dans Wikipédia francophone !) sont éliminés.

p1Les chercheurs espèrent ainsi cartographier les personnes les plus influentes de tous les temps.

On découvre ainsi que les résultats sont très différents entre l’Est et l’Ouest. Si l’on prend le top 10 des Wikipédia allemande et anglaise, par exemple, il existe un relatif équilibre entre personnalités politiques et militaires d’un côté, et les artistes, figures religieuses, scientifiques ou intellectuelles. Au contraire, dans les Wikipédia chinoise et japonaise, les places les plus influentes sont réservées presque uniquement aux conquérants, bâtisseurs d’empires et figures militaires. Précisons bien que de telles statistiques reflètent les conceptions des contributeurs de la Wikipédia, et non la réalité de l’histoire culturelle d’un pays : la Chine et le Japon ne manquent pas de penseurs ou d’artistes, loin de là. A noter d’ailleurs que, sans grande surprise, d’après les recherches de l’équipe du MIT, la plupart des contributeurs appartiennent à la culture de la Wikipédia qu’ils modifient : ce sont surtout des Chinois ou des Taiwanais qui écrivent dans la Wikipédia chinoise, des Anglais et des Américains dans l’anglo-saxonne, etc.

Un examen poussé permet aussi de repérer les relations d’une culture avec ses voisins. Ainsi, 80 % des « grands personnages » de la Wikipédia anglaise n’appartiennent pas à la sphère culturelle anglo-saxonne. En revanche, dans la Wikipédia chinoise, on ne trouve que deux personnages issus d’une culture étrangère à se hisser dans le hit-parade : Napoléon III et le shogun Tokugawa Ieyasu. La Wikipédia japonaise, elle, reconnaît 40 % d’étrangers parmi ses influenceurs les plus notables.

Reste bien sûr à savoir si l’état de la Wikipédia reflète réellement certains aspects de la culture dont elle est issue, c’est-à-dire savoir si la carte correspond au territoire. Avez-vous entendu parler par exemple de Sidney Lee ? Il s’agit d’un obscur historien de l’époque victorienne qui arrive à se hisser à la troisième place du top 10 de la Wikipédia anglaise. Mais pourquoi lui, et pas (pour citer des historiens de langue anglaise bien plus connus), Arnold Toynbee ou Will Durant ? Probablement parce que Lee était très prolifique et a signé 800 articles pour le Dictionary of national biographies. Pourtant, nous dit la Wikipédia, la plupart de ses écrits concernent surtout des personnages de l’époque élisabéthaine, qui ne peuvent donc pas appartenir à son « réseau social ». Autant dire que le mystère demeure…


Vidéo : la dynamique sociale de l’histoire du monde vue à travers Wikipédia, par Peter Gloor et son équipe.

Mesurer la « production culturelle »

Le MIT n’abrite pas qu’une seule entreprise d’anthropologie computationnelle. Le projet Pantheon, lui, utilise aussi la Wikipédia, mais part sur de tout autres prémisses.

Pantheon Visualizations
Image : les personnages de l’histoire de France les plus célèbres selon Pantheon.

Pantheon ne se concentre pas sur les influenceurs, mais sur la « production culturelle globale ». Autrement dit, il s’agit de savoir, pour tout pays à telle date, quel est le nombre de personnalités connues qui y sont apparues et quelle était leur activité. Cette production culturelle est dite globale, parce qu’elle ne prend en compte que les personnalités dont la réputation à franchi les frontières de leur contrée et les limites de leur époque. Sont donc éliminés plusieurs aspects de la culture qui, précisent les chercheurs, sont largement aussi importants, mais bien plus difficiles à cartographier : l’ensemble des données culturelles passant par la famille ou d’autres institutions sociales, ou la culture locale propre à un lieu ou une période donnée.

Pantheon utilise deux sources principales d’information. Comme pour l’équipe de Gloor, l’équipe de Pantheon recourt beaucoup à la Wikipédia. Elle se repose notamment sur 11 340 fiches biographiques présentes dans 25 langages de la Wikipédia. La deuxième source est un livre paru en 2003,Human Accomplishment, The pursuit of excellence in the Arts and Sciences, 800BC to 1950, par Charles Murray, qui offre lui 4 002 biographies. Le site de Pantheon est interactif et permet à tout un chacun de profiter des recherches du groupe et de naviguer entre les pays et les époques, en commençant en 4000 av. J.-C.. Par exemple, si je veux savoir quels sont les Français les plus connus, j’obtiens en premier Napoléon Bonaparte et j’apprends qu’il possède une fiche Wikipédia dans 145 langues différentes, et qu’il a bénéficié de 57 559 307 pages vues depuis 2008. Mais si on analyse sa position parmi les politiciens du monde entier, il n’arrive que cinquième, et il est moins connu que César, Hitler, Charlemagne ou l’empereur Auguste (mais coiffe Cléopatre au poteau).

Mais comme l’a expliqué l’un des développeurs du projet, Kevin Zheng Hu, lors d’une interview à BetaBoston, l’intérêt de Pantheon réside moins dans le classement des célébrités,finalement assez anecdotique, que dans l’analyse des patterns de cette production culturelle globale. Le groupe à l’origine de Pantheon, le Macro Connection Group, dirigé par Cesar Hidalgo, a également développé le « Global Language Network« , qui cartographie les relations entre les langues à partir du nombre de traductions de livres d’un idiome vers un autre. « La position d’une langue au sein du Global Language Network est fortement corrélée avec le nombre de personnes célèbres nées dans les territoires qui lui sont associés« , nous explique-t-on, ce qui implique un lien entre les data explorées par ce projet et celles révélées par Pantheon. Egalement élaboré par le même groupe, l’Observatoire de la complexité économique propose lui « une narration visuelle sur les échanges entre pays« .

Ces deux expériences ne sont bien sûr que des exemples de ce domaine en pleine expansion que sont les sciences humaines computationnelles. Par exemple, à l’université de Dallas, l’équipe de l’historien de l’art Maximilien Schich s’est essayée à analyser les mouvements de population au cours de l’histoire (vidéo) en se basant sur les lieux de naissance et de mort de 120 000 personnes célèbres, en commençant par Solon (né vers -637 à Athènes et mort vers -553 à Chypre) et en allant jusqu’à Jett Travolta, fils de l’acteur, né en 1992 à Los Angeles et décédé en 2009 aux Bahamas. Ils ont pour cela utilisé Freebase, une version « sémantisée » de la Wikipédia.


Vidéo : Le film de l’équipe de Maximilien Schich présente les mouvements de population à travers les siècles vu à travers les personnages célèbres de la Wikipédia selon leurs lieux de naissance et de morts.

Rappelons qu’il y a peu, un groupe de chercheurs avaient eux aussi utilisé les réseaux sociaux pour évaluer le degré de véracité des mythes !

Rémi Sussan

À lire aussi sur internetactu.net

0 commentaires

  1. La science des réseaux, cette analyse des relations entre différents éléments pour estimer leur importance, leur influence ou leur autorité, comme le proposent ces exemples, repose sur le principe même du page rank de Google. En ce sens, comme le souligne Jessica Leber sur FastCoExist, ce type d’analyse agit comme une lentille qui permet d’être adaptée à de nombreux autres objets. Rémi souligne ici leur usage dans le monde des humanités numériques, mais on pourrait l’élargir à bien d’autres objets comme le sport, la circulation, la santé ou les neurosciences permettant de mieux comprendre la manière dont les différentes régions du cerveau se connectent entre elles (voir le projet HumanConnectome) ou à comprendre les relations entre les gènes impliquées dans certaines formes de cancer (cf. Google goes cancer)

  2. Petite parenthèse emmerdante : il n’existe pas de « Wikipédia France », mais par contre il existe une « Wikipédia francophone ». Nos amis belges, suisses et québécois apprécieront qu’on ne les oublient pas dans les contributeurs de WP-fr…