Et si l’on pouvait construire son propre Google – O’Reilly Radar

Martin Kleppmann (@martinkl) pour O’Reilly Radar (@radar) se demande ce que nous ferions si nous pouvions avoir notre propre index du web. Pour l’instant, cet index est caché à l’intérieur des datacenters de Google. Nous sommes autorisés à faire des requêtes individuelles dessus, mais nous n’avons pas accès aux données. Imaginez que vous ayez votre propre copie du web et que vous pouviez y faire ce que vous voulez… On pourrait par exemple rassemblé les meilleurs articles écrits sur un sujet et créer un outil qui suggère des lectures tierces… C’est ce que propose, d’une certaine façon, Wayfinder (@wayfinder) lancé par Justin Wohlstadter (@justpw), qui propose un système de références croisées entre URL basée sur une sélection humaine (un peu à la manière d’un Pearltrees). Mais s’il est facile de récupérer les liens sortants d’une URL, il est plus difficile de récupérer les liens entrants : pour cela, il faut une copie de l’ensemble du web. Mais il existe Common Crawl, un index partagé du web, qui deux fois par mois, récupère quelques 2,8 milliards de pages pour les rendre accessibles et analysable par qui le souhaite (c’est certes beaucoup moins que Google qui référence 60 trillions de pages). Et Martin Kleppmann d’en profiter pour s’interroger s’il ne faudrait pas mieux financer CommonCrawl pour disposer d’un index du web public ? Mais on pourrait aussi imaginer un projet d’indexation du web décentralisé en P2P… s’interroge le développeur en pesant les difficultés d’un tel projet : comment s’assurer que les robots indexeurs demeurent honnêtes et ne manipulent pas les résultats à leur propre avantage ? comment répartir la création et la gestion de l’index ? 

Kleppmann estime que le projet serait intéressant à plus d’un titre. Aujourd’hui, l’indexation n’est possible que pour très peu d’entreprises du fait de son coût et de sa taille. De nombreuses entreprises pourraient proposer des utilisations très différentes de cette indexation, notamment au niveau des interfaces utilisateurs. Et Kleppmann d’évoquer la réussite et l’impact de Wikipédia ou OpenStreetMap comme modèles. 

Intéressant, bien sûr. Il manque néanmoins à la démonstration une chose essentielle, qui justement a fait le succès des modèles qu’il évoque. Les gens avaient un intérêt direct à participer. Le processus technique d’indexation, qui consiste à faire fonctionner sa machine pour une cause n’est peut-être pas encore suffisant pour en faire un équivalent des modèles auxquels il se réfère. Mais il suffit d’y réfléchir un peu… Quel pourrait-être la contrepartie directe des utilisateurs à l’indexation du web ?

À lire aussi sur internetactu.net

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.