Freebase, la machine à “créer les synapses du cerveau global”

Par le 22/03/07 | 5 commentaires | 11,859 lectures | Impression

Logo de Metaweb “Créer les synapses du cerveau global” : c’est ainsi que Tim O’Reilly, appelé à réagir pour le New York Times, salue la création de Freebase. Cette première réalisation de Metaweb, la nouvelle société du spécialiste des “machines intelligentes” Danny Hillis et de Robert Cook, se fixe en effet pour mission, selon ses propres termes, de créer “une base de connaissances communes, une base de données structurée, interrogeable, constituée et modifiée par une communauté de contributeurs“, ou encore “un espace public des données” (data commons).

L’objectif est en effet ambitieux : créer en quelque sorte un Google du web sémantique, un répertoire global d’informations structurées, intelligibles et exploitables autant par des machines que par des humains – et donc capables d’extraire et d’interpréter les relations entre des données pour, par exemple, répondre à des requêtes par des solutions plutôt que des listes de documents.

Mais le web sémantique, qui repose sur l’ajout organisé de “métadonnées” chargées de décrire chaque document ou élément d’information (“cette vidéo dure X mn Y secondes, elle parle des sujets A et B, son réalisateur se nomme C, M. D et Mme E y apparaissent, sa référence est F…”), s’avère difficile à mettre en œuvre à grande échelle : il est traditionnellement difficile, y compris au sein d’une même entreprise, d’obtenir des acteurs, pris par les tâches quotidiennes qu’ils accomplissent, l’investissement nécessaire pour décrire correctement (et de manière cohérente) leurs propres productions.

C’est pourquoi les applications du web sémantique demeurent, soit cantonnées à des univers relativement fermés (une entreprise, une certaine catégorie d’échanges entre les entreprises d’un même secteur, une catégorie d’objets tels que les livres ou les films…), soit très limitées (l’usage basique de XML dans le standard RSS, des “tags” dans de nombreux sites du “web 2.0″…). D’où l’émergence de ce qu’on nomme parfois “web 3.0″, qui cherche à associer, d’une part, la dimension collective et la légèreté des outils du web 2.0 et d’autre part, la puissance des concepts du web sémantique.

Comment fonctionne Freebase ?

Comment Freebase compte-t-il s’en sortir ? De deux manières.

D’une part, Freebase structure les documents qu’il contient, il les décrit sous la forme de champs, chaque information recevant une signification particulière selon l’espace qu’elle occupe : ceci est un nom, ceci une date de création, une autre de modification, un montant, une adresse, etc.

Capture d'écran de Freebase d'un article sur O'Reilly Media issu de Wikipédia. En haut, on voit les champs de donner à renseigner
Illustration : capture d’écran de Freebase d’un article sur O’Reilly Media issu de Wikipédia. A droite de la photo, on voit les champs de données à renseigner.

D’autre part, Freebase s’appuie sur ses utilisateurs – eux-mêmes aidés par des outils simples et faciles d’accès ainsi que par des listes préétablies – pour remplir ses champs et catégoriser ses documents. Les internautes sont donc appelés à compléter les informations disponibles et à fournir des éléments pour mieux les indexer. Si les “ontologies” (les vocabulaires structurés de description et classement) proposées ne suffisent pas, ils pourront les compléter ; s’il manque un champ pour associer de l’information, par exemple à la fiche d’un film, ils pourront (sous contrôle, apparemment) le créer. Le tout sera mis en commun, à la manière d’un Wikipedia des micro-faits. Et de ce travail émergeront les relations entre informations, donc le sens…

C’est un peu comme si tous les champs d’une fiche d’un acteur sur IMDB, la base de données des films, étaient intelligents. La taille des acteurs par exemple serait alors non plus une valeur, mais une donnée qui permettrait de les classer du plus grand au plus petit et de comparer ce classement à celui de leurs revenus par exemple.

En un sens, on est très proche du wiki sémantique et du fonctionnement de Semantic Mediawiki, que nous évoquions en octobre dernier. La différence principale est que le code est devenu invisible, caché par des champs de données.

Pour comprendre comment marche Freebase, on se reportera au long article à visée pédagogique de Tim O’Reilly. Et pour tenter d’en imaginer certains usages et d’en percevoir la portée – potentielle – on se tournera vers Esther Dyson, enthousiaste :

“Freebase est avant tout un outil chargé de représenter le monde d’une manière intelligible par les ordinateurs que par les gens. Il peut améliorer les outils de recherche mais s’il suscite autant d’intérêt, c’est parce qu’il formera l’infrastructure d’applications beaucoup plus puissantes. (…)

Imaginons que vous deviez organiser un voyage à Moscou. Vous pouvez chercher des informations sur les centres de conférence et les hôtels, vérifier votre emploi du temps pour y caser vos rendez-vous, pourquoi pas recourir à Google ou Yandex [le moteur de recherche russe, NDT] pour optimiser vos déplacements… Mais au bout du compte, vous ne demandez pas des résultats de recherche : vous voulez réserver des hôtels, fixer des rendez-vous, communiquer avec les personnes que vous allez rencontrer. Tout ceci demande une compréhension fine de la manière dont s’articulent les lieux, les agendas, les personnes, les réunions et même les formulaires de remboursement de frais. (…)

Ce n’est qu’un exemple… mais il montre précisément combien les choses les plus simples peuvent être compliquées. L’idée (et le but de Metaweb) est de représenter cette complexité avec suffisamment de spécificité et de précision qu’un ordinateur puisse la manipuler. Vous ne vous contentez plus de trouver de l’information : vous pouvez demander à l’ordinateur de l’exploiter pour vous. [Vous] passez de la recherche à l’action.”

Ainsi, Freebase associerait le meilleur de deux mondes, l’intervention libre des acteurs du web 2.0 (une expression qui a d’abord émergé en réaction à la lourdeur du “web sémantique”) d’un côté et de l’autre, des structures et des grammaires précises pour faire émerger les relations entre informations.

Les enjeux de freebase

Esther Dyson encore :

“Une école de pensée dit que si vous collectez suffisamment de données et les bombardez de suffisamment d’algorithmes, la structure inhérente de ces données – et la compréhension de cette structure – émergera. (…) La récente explosion du tagging [mots-clés qu'associent les utilisateurs à toutes sortes d'informations et de contenus, NdT] en serait la démonstration : avec leurs tags, les utilisateurs créent des relations implicites entre les objets en ligne, et, par là, des réseaux complexes de relations émergent, avec leurs noeuds, regroupements et autres structures riches. Mais les relations elle-mêmes sont pauvrement définies, par leur seul caractère “faible” ou “fort”, les liens établis par mes amis ou par des autorités de confiance face à des liens créés par n’importe qui.

Par contraste, le point de vue opposé tient qu’il faudrait concevoir à la main les relations et les structures. Metaweb diffère de cette approche en ayant conçu intelligemment la grammaire à partir de laquelle les relations sont spécifiées, tout en s’appuyant sur la sagesse (ou la connaissance spécifique) et les efforts des foules pour créer le contenu – un contenu qui se compose, non seulement de données, mais de relations entre objets.”

Freebase, en version alpha, balbutie encore. Les bases de données sont pauvres et peu originales, les outils en construction, les testeurs rares. Il est donc trop tôt pour savoir si ses concepteurs, qui sont des visionnaires, des entrepreneurs et des ingénieurs très reconnus, parviendront vraiment à dépasser les difficultés structurelles du web sémantique.

Pour autant, comme le note Denny Vrandecic, l’un des concepteurs de Semantic MediaWiki, la force du système proposé est qu’il repose sur des API ouvertes, ce qui signifie que le système peut venir demain augmenter une application web existante, comme Wikipédia, LMDB ou le un catalogue de livres d’une bibliothèque par exemple. Denny Vrandecic note d’ailleurs d’autres différences entre son propre logiciel, dont le but est d’ajouter des relations et des attributs aux données, et Freebase : “Semantic MediaWiki est un wiki enrichi de certaines fonctions pour en structurer le contenu à partir d’un vocabulaire flexible, modifiable et collaboratif. Metaweb est une base de données, avec un schéma flexible, modifiable et collaboratif. Semantic MediaWiki permet d’étendre le vocabulaire plus facilement que MetaWeb (juste en écrivant une nouvelle relation), alors que Metaweb permet une plus facile mise en oeuvre du schéma du fait de sa structuration et de son interface sous forme de formulaire. Metaweb vient du monde des données structurées, même si la structure est ici flexible et changeante. Semantic Media Wiki vient du monde des données non structurées, qui peuvent être améliorées par quelques éléments de structure pour mettre en relation plusieurs éléments non structurés.”

Freebase, le slogan

Freebase montre ce qu’il se passe quand on ajoute une couche sémantique dans de vastes champs de données. Au-delà du web 2.0 et des web services, c’est-à-dire de l’assemblage ad hoc d’applications et de données, Metaweb tente une approche systémique, beaucoup plus ambitieuse.

Y parviendra-t-il ? On identifie facilement deux obstacles : d’une part, la résistance des propriétaires de grandes bases de données (organismes scientifiques, entreprises, médias…) devant la perspective d’une mise en commun “profonde” de leurs informations ; d’autre part, les limites pratiques auxquelles se heurte habituellement la “sémantisation” : l’incohérence des structures et des vocabulaires, la redondance, la polysémie, le multilinguisme, la qualité extrêmement variable des indexations…

Metaweb, c’est son originalité, s’attaque à ces problèmes en s’appuyant sur trois réels atouts :

Quel que soit son avenir, Freebase mérite d’être suivi de près. L’enjeu en vaut la chandelle.

Hubert Guillaud et Daniel Kaplan

Rétroliens

  1. Le Blogueur » Blog Archive » Web sémantique : y aura-t-il une application qui tue ?
  2. Développements du Web « pintiniblog
  3. Analyses | Pearltrees

2 commentaires

  1. par Vautier

    Petite correction : la base de données des films est IMDB, et non pas LMDB. Heureusement le lien est correct.

  2. Merci, c’est corrigé