Se balader sur le graphe du territoire : Linkfluence cartographie la rive droite de Bordeaux

Linkfluence vient de publier une cartographie des sites de la rive droite de Bordeaux (que nous évoquions hier dans notre billet sur L’hyperlocal révélé). Après une exploration de quelque 13 000 pages, sites et blogs du territoire, la société d’analyse a retenu 524 sites pour une indexation plus fine, géographique et thématique.

Cette analyse permet d’observer autrement le territoire numérique local, en montrant les connexions (ou l’absence de connexions) entre les sites locaux selon leur thématique et leur positionnement géographique, comme l’explique l’analyse de l’agence.

Presentation resultats linkfluence étude GPV

La cartographie interactive est accessible en ligne, ainsi que la base de sites qui a servi à l’accomplir. En attendant d’en faire une lecture plus approfondie, rencontre avec Guilhem Fouetillou, fondateur de l’institut d’étude Linkfluence, pour regarder ce que le graphe du territoire apporte comme connaissance du territoire. Un éclairage qui semble spécifique, puisqu’il évoque un ensemble de communes particulières, mais qui doit être lu également dans une vision plus globale, comme un mode d’analyse des territoires.

La cartographie interactive de la rive droite de Bordeaux réalisée par LinkFluence

InternetActu.net : S’intéresser à un territoire physique, c’est plutôt original pour des cartographes comme vous, qui vous intéressez plutôt à des mots clefs, à des thématiques, à des réseaux, à des sites web, à des territoires documentaires et à leurs liens entre eux ?

Guilhem Fouetillou : On a trouvé la problématique que nous posait la Fing intéressante, parce qu’elle s’intéresse à comparer le territoire physique et numérique. Face à notre travail cartographique, les gens nous demandent souvent si nous géolocalisons les sites… Mais ce n’est pas ce que nous faisons. On ne rend pas compte de l’organisation spatiale des sites sur un territoire, mais des liens de l’espace documentaire qui figure un réseau social sur le web. Notre travail consiste à construire l’espace des chemins et des navigations en ligne. La problématique posée par la cartographie de la rive droite de Bordeaux était de savoir si le territoire numérique, c’est-à-dire le réseau social des sites de la rive droite, a une cohérence topologique, c’est-à-dire de savoir si les sites locaux se lient entre eux. Et de regarder si cette dynamique a une cohérence par rapport à la division physique du territoire ou par rapport aux thématiques qu’abordent les sites qui composent ce territoire.

Or, c’est ce que la carte révèle. On voit apparaître des structures signifiantes par rapport à l’organisation hyperlocale comme la galaxie de pages MySpace sur Floirac, très liées entre elles, qui constitue un cluster cohérent, à la fois topologiquement, géographiquement et thématiquement.

A l’inverse, le nuage de points isolés est un artefact, un no man’s land, qui ne détermine pas un ensemble à proprement parler, mais qui ne fait que représenter des sites qui n’ont pas de liens entre eux. Les blogs de la plateforme Netblog qui le constituent en partie sont un univers visiblement spécifique à Cénon, de blogs créés sans dynamique de réseau [en fait, apprendrons-nous à Guilhem Fouetillou, ces blogs Netblogs correspondent à la plateforme utilisée par les animateurs de la Cyberbase de Cenon pour leurs formations au blog : si les utilisateurs découvrent les fonctionnaltés, les blogs ne sont pas mis en réseau les uns les autres]. Quand on bascule sur la visualisation géographique et qu’on regarde Cenon, on constate qu’il a peu de liens en interne et que ces liens sont faibles, contrairement à Floirac, où, si le nombre de sites est moindre, la dynamique de réseau est très présente. L’analyse permet de dresser la carte de l’offre informationnelle de ce territoire.

Autre constat, la catégorie géographique « Carrefour rive droite » rassemble des sites qui traitent de la Rive droite sans être spécifiquement rattachés à un territoire particulier. On constate que sur un même espace on a plusieurs niveaux territoriaux qui ne coexistent pas forcément. La rive droite a une existence sur le web, elle est un sujet en soi, c’est une unité de traitement de l’information qui a sa cohérence propre, distincte de la cohérence communale.

InternetActu.net : Comment avez-vous constitué votre base ?

Guilhem Fouetillou : Un expert humain a d’abord fait un travail de sourcing, constituant un ensemble de sites pertinents : sites associatifs, blogs, skyblogs, groupes Facebook, sites institutionnels… A partir de cette petite base constituée, nous avons fait tourner nos moteurs. L’idée est de nous appuyer sur les propriétés du web pour étendre la liste des sites initiaux à d’autres sites pertinents. Le plus souvent, les sites qui parlent de sujets proches ont des liens entre eux. On fait donc regarder à nos robots les sites que lient et qui se lient à notre premier échantillon. En fait, on se balade sur le graphe…

De cette balade, on ramène des centaines de milliers de sites qu’il nous faut trier. Là encore, on accomplit un tri automatique grâce à un lexique de 500 à 600 termes et expressions discriminants de sujets liés à la rive droite (noms de lieux, d’associations, de personnalités…) et de termes liés à des thématiques (culture, sport, politique, musique…), permettant de caractériser (ou rejeter) chaque site en vérifiant la présence de ces termes. Nos 13 000 sites de départ sont donc uniquement ceux qui avaient un des termes de nos lexiques. Pour ce travail, nous avions une problématique d’exhaustivité (alors que d’habitude, notre travail est plutôt de faire de la sélectivité, de retenir les 0,3 % de sites qui cumulent 95 % des audiences) qui nous a conduit à faire un travail plus en profondeur. On a établi des filtres et une distribution de loi de puissance à partir des lexiques permettant d’isoler 3 500 sites qu’on a ensuite explorés à la main.

Notre logique a été ensuite d’éliminer les sites selon leur contenu éditorial. Celui-ci devait traiter de la rive droite ou d’une des thématiques que nous avions identifiées. Il devait rendre compte du dynamisme numérique de la rive droite et être sur la thématique du territoire. Ainsi, le skyblog d’une collégienne du territoire qui ne parlerait que de High School Musical par exemple aurait été éliminé.

InternetActu.net : Qu’est-ce que la carte ne montre pas ? Que rate-t-elle selon vous – et à l’inverse que réussit-elle ?

Guilhem Fouetillou : Elle montre le décalage immense entre les usages réellement inscrits sur le territoire et les usages des early adopters sur lesquels se focalisent les spécialistes du net. La réalité de l’hyperlocale montre qu’on est très loin des Foursquare.

Quand on s’appuie sur la structure communautaire du web, on connait la pertinence de nos résultats. La, il y a avait un défi, car on ne savait pas si la superposition du découpage géographique allait donner une structure hypertextuelle lisible… Ca faisait longtemps qu’on n’avait pas fait dériver nos crawlers pour être le plus exhaustif possible. La difficulté est qu’il se pouvait qu’il n’y ait pas de structure hypertextuelle visible. Au final, elle est là. Elle n’est pas dense, mais elle est visible.

Il y a une vraie lecture à faire en parallèle des connaissances du terrain, physiques, quant à la vivacité des associations ou de l’engagement citoyen par exemple, avec les connaissances qu’apporte cette carte. La carte rate tout ce qui existe sur le territoire et qui n’a pas de traduction numérique. Et cette absence-là devient un manque, surtout quand il s’agit de construire du social et de la culture sur un espace physique. La carte manifeste les liens hypertextes, avec toute la limite de cet exercice. Les liens ne sont pas typés et ne disent rien de la relation qui se tisse entre deux sites. Cette relation est-elle de nature commerciale ? Documentaire ?… On ne peut pas interpréter chacun des liens d’une carte de ce type, car on ne dispose pas de l’information pour cela. Par contre, on peut interpréter une carte et la densité de liens. Elle donne une vision macroscopique, mais n’est pas un instrument d’interprétation de chacune des entités prises individuellement.

On commence à savoir mieux catégoriser les liens, notamment dans nos études de marketing d’opinion. On commence à savoir dire si les liens viennent de billets, de blogrolls ou de commentaires par exemple… Mais cette technique ne peut pas encore être déployée partout et est plus facile à faire sur certains CMS structurés (type WordPress ou Spip par exemple). Personne ne sait encore très bien le faire, mais la technique pour mieux comprendre l’intensité des liens progresse…

La carte ne rend pas compte des audiences des différents sites qui composent cet espace. Il faut dire qu’il est difficile de connaître l’audience des sites et les outils permettant de l’estimer ne sont pas réellement performants, comme je le disais il y a quelque temps. De plus, étant sur des sites à très faible audience pour la plupart, nous n’aurions pas eu assez de données disponibles pour le faire.

La carte ne rend pas compte non plus de la possibilité, qu’il y ait, sur cet espace, des sites à très forts trafics, produits localement, mais peu reliés au territoire physique. On peut difficilement détecter un Presse-Citron ou un Ventes-Privées locales…

L’intérêt pourtant de ce type de cartes est de parvenir à mieux révéler les communautés non réciproques. Quand on regarde la carte du web politique français par exemple, on constate que les militants se réfèrent beaucoup à la sphère des commentateurs politiques, alors que ceux-ci ne se réfèrent pas du tout aux contenus produits par les militants ou les partis politiques. C’est typiquement une démonstration qui montre qu’on a basculé d’une économie de la communication à une économie de l’attention. Dans l’une de nos dernières cartographies, celle de la dernière élection politique britannique, on pouvait observer que la totalité des liens pointant vers les 3 camps était assez proche du niveau de rapport de force qui s’est dégagée de l’élection. Et cela, c’est un phénomène qui commence à s’observer sur la plupart des élections. En regardant qui parle de quoi, on arrive à mesurer l’intérêt des gens et demain peut-être à mieux prédire le niveau des rapports des forces politiques en présence.

Propos recueillis par téléphone par Hubert Guillaud, le 2 juillet 2010.

À lire aussi sur internetactu.net

0 commentaires

  1. Article très intéressant, surtout la réponse à la question « Comment avez-vous constitué votre base ? ». En fait l’outil Linkfluence va automatiser le sourcing dans un premier temps et vous aller l’affiner manuellement dans un second temps.

    Par contre cette phrase m’interpelle : « en règle générale, 0,003 % de sites cumulent 95 % des audiences ». Ce chiffre me parait vraiment faible, comment l’expliquez-vous ?

    Merci !