L’avenir de l’information : le web de données

A l’occasion d’ICT 2008, la conférence européenne sur les technologies de l’information et de la communication qui s’est tenu à Lyon du 25 au 27 novembre 2008, retour sur quelques ateliers qui ont ponctué ces trois jours.

A quoi ressemblera le monde de l’information demain ? Pour Amanda West de Thomson Reuters, l’agence de presse canadienne spécialisée dans l’information financière, l’information demain sera intelligente. C’est-à-dire qu’elle utilisera des applications sémantiques, des métadonnées pour donner de l’information sur les données, pour aider à structurer ce qui ne l’est pas (structuring the unstructured). Les bases de données permettent de lier les documents, les gens, les lieux, les produits, les informations sur les sociétés : mais pour cela, il est nécessaire de structurer les données pour comprendre les relations entre les documents, entre les mots, les concepts, les noms. L’idée qui sous-tend ce glissement vers l’intelligence des données, c’est qu’elles puissent être lisibles non seulement par des hommes, mais aussi par des machines. OpenCalais, développé par Thomson Reuters est un web service, une plateforme qui accueille des données non structurées sur lesquelles le système applique un traitement en langage naturel sophistiqué et des techniques de machines apprenantes pour rendre les contenus intelligents, c’est-à-dire, par exemple, pour que les données soient capables de repérer un nom ou un lieu dans un ensemble de documents et établir par ce biais des liens entre eux. OpenCalais sait structurer les données pour repérer dedans les sujets, les entités ou les types de contenus (évènements, comptes rendus, etc.). En s’appuyant sur OpenCalais, Reuters a développé de nombreux outils comme un outil de messagerie collaborative, Reuters Real State, une plateforme communautaire pour surveiller les marchés, ou encore OneSource Tax, un outil d’analyse des marchés.

Wilfried Runde de la Deutsche Welle est confronté aux mêmes types de difficultés. Pour alimenter les médias du groupe média allemand il faut être capable de diffuser sur une multitude de tuyaux (le téléphone mobile, la radio, la télé, le web, etc.) et via une multitude de canaux (sur YouTube, iTunes, MySpace, Facebook, Netvibes…). Un média aujourd’hui se doit d’être disponible sur toutes les plateformes. Mais cela pose quelques problèmes, parce qu’il faut jongler avec de plus en plus de plateformes, de systèmes, de technologies. Il y a un réel besoin d’optimiser les outils et la gestion des flux d’information, de mieux gérer les métadonnées, de créer des filtres, de rendre les archives à la demande disponible, etc.
Selon le Foreign Policy de Novembre-Décembre 2008 (enregistrement obligatoire), YouTube aura bientôt une plus grande influence mondiale sur la façon de raconter les évènements internationaux que n’importe quel média. D’où le besoin de regarder les outils qui permettent dès à présent de chercher dans les contenus vidéos comme Blinkx, VideoSurf ou Hulu. Et inventer de nouveaux médias en ligne, remarquable, comme Monocle, MediaStorm.

Frank van Harmelen, de l’université d’Amsterdam, s’est lui interrogé sur ce à quoi ressemblera l’univers de l’information demain. Comment le construirons-nous ?
Aujourd’hui, l’univers de l’information est fait de pages web liées, écrites pas les gens pour les gens et utilisées seulement par les gens. Même si beaucoup de ces pages proviennent pourtant de données utilisables par des ordinateurs, force est de constater qu’elles ne sont pas encore totalement utilisables par les ordinateurs parce que nous ne savons pas encore lier les données entre elles. Pour cela, il faut parvenir à lier les métadonnées entre elles pour qu’elles soient utilisables par les ordinateurs et utiles aux gens.

Pour Frank van Harmelen cet avenir n’est plus si loin. Et d’évoquer le Linked Open Data Cloud qui montre aujourd’hui les liens existants entre les différents types de structures de métadonnées. Les normes sont là et elles se multiplient. On sait aujourd’hui accéder à des bases permettant d’identifier des chercheurs, des noms d’artistes, des noms de lieux géographiques, des livres ou des albums de musiques existants… On pourrait par exemple faire une requête sur une personne via tous ces protocoles pour trouver un scientifique, les articles qui parlent de lui, les livres qu’il a écrits, ses collaborateurs voire son réseau social, etc. Ces bases de données de métadonnées sont chaque jour plus nombreuses et sont utilisables à distance, directement via des services web.

OpenLinkedData, le schéma des différents types de structures de métadonnées pouvant être reliées entre elles. N'importe quelle information peut utiliser ces structures pour faire des mashups de descriptions de données

« En 2006, on se demandait où nous allions trouver les données. En 2008, on se demande lesquelles nous allons choisir », résume le chercheur. « Le succès de ces entrepôts de données, de ces bases de connaissances et de ces web services ne risque-t-il pas d’ailleurs de devenir un problème ? » D’où l’idée de développer un Large Knowledge Collider (LarkC), une plateforme évolutive en permanence capable de comprendre le web des données, à l’image du Large Hadron Collider du Cern. Et d’évoquer également MaRVIN, une plateforme distribuée pour la déduction massive de données en RDF, le standard de description des données développé par le programme qu’il dirige. Pas sûr que cela permette à l’internaute moyen de mieux comprendre l’enjeu de cette complexité grandissante des répertoires décrivant les données.

« L’univers de l’information de demain sera assurément un web de données », conclut Frank van Harmelen. Un web à première vue complexe pour l’internaute, mais pas pour les machines. Or c’est en utilisant mieux les machines que nous parviendrons à nous simplifier la compréhension de l’information.

À lire aussi sur internetactu.net