Webfountain : la rolls des moteurs

Faire en sorte que les moteurs de recherche fournissent des réponses les plus pertinentes possibles, tel est l’objectif du projet Webfountain d’IBM. Localisé à l’IBM Almaden Research Center de San Jose, le projet consiste tout d’abord en un énorme complexe de processeurs, de routeurs, de disques et de logiciels occupant la superficie d’un demi-terrain de football. Comme l’essentiel des documents publiés sur l’internet ne sont pas structurés, le système convertit tout ce qu’il parcourt en un format qui en permet l’analyse automatique. Webfountain parcours le web en une semaine, l’archive et « l’annote » avec des tags XML via plusieurs programmes spécialisés. Une fois les documents labellisés (ce qui peut multiplier leur longueur par 10), ils sont stockés dans des bases de données et soumis à des procédures de fouille de données (datamining) : des procédures permettent de repérer les ambiguïtés, de chercher les liens entre les documents et les sites… Les résultats sont alors rendus disponibles dans des bases de connaissances vendues aux clients d’IBM. Le service sera bientôt fourni par abonnement, dans un premier temps par Factiva, une société spécialisée dans la vente d’information économique, pour un coût variant entre 150 000 et 300 000 dollars par an.
L’info : http://www.automatesintelligents.com/actu/index.html#actu2 et http://www.spectrum.ieee.org/WEBONLY/publicfeature/jan04/0104comp1.html
WebFountain : http://www.almaden.ibm.com/webfountain
Factiva : http://www.factiva.com

À lire aussi sur internetactu.net