Le web est-il encore une bibliothèque universelle ?

Si l’on a de bonnes raisons de s’inquiéter de l’impossibilité de supprimer nos données personnelles du web, et leur souhaiter une date de péremption, l’inverse est tout aussi préoccupant. Comment s’assurer que les documents en ligne resteront accessibles ? C’est la question que pose la journaliste Adrienne LaFrance dans un long article de The Atlantic.

Le web a souvent été comparé à une bibliothèque où l’on conserverait le savoir universel, nous rappelle-t-elle. Mais il n’est rien de tout cela. Au contraire : « C’est un patchwork en constante évolution dans un présent perpétuel. Vous ne pouvez pas compter sur le web. Il est instable. Vous devez le savoir. »

Red-Book

Tout doit disparaître

Pour illustrer son propos, Adrienne LaFrance nous raconte l’histoire du journaliste Kevin Vaughan, qui enquêta sur une collision entre un train et un bus qui avait tué 20 enfants en 1961. Il s’efforça de ramener à la mémoire les événements qui accompagnèrent cette tragédie. Cette tâche lui prit plusieurs années, et ce n’est qu’en 2006, alors qu’il était journaliste pour le Rocky Mountain News, qu’il put créer autour de cette tragédie une expérience interactive, « The Crossing », avec l’aide de tout un staff multimédia. A l’époque, cette nouvelle forme de journalisme fit sensation. Au point qu’en 2008, Vaughan se retrouva finaliste du prix Pulitzer.

Mais malheureusement, rappelle LaFrance : « L’année suivante, le Rocky ferma ses portes. Les mois qui suivirent, le site web se délita peu à peu. Et un jour, sans avertissement, The Crossing s’évapora de l’internet. »

Et de constater : « Si un article nommé pour le prix Pulitzer, publié par un des plus anciens journaux du pays, en vient à disparaître du web, alors c’est possible pour n’importe quoi. »

Dans le cas de Vaughan, il y a un happy end. L’auteur a finalement réussi à remettre en ligne, après plusieurs années, son œuvre originale, telle qu’elle avait été conçue à l’époque (c’est-à-dire avec l’omniprésence de Flash, aujourd’hui en voie de disparition), mais ce cas est loin de refléter la norme. C’est, souligne LaFrance, une « anomalie ». Dans la plupart des cas, ce qui quitte la toile ne revient jamais.

CrossCoverJPG
Cette obsolescence rapide est-elle une caractéristique du web ? Pas vraiment. En fait, c’est un phénomène assez récurrent. Ainsi, précise la journaliste, la plupart des films produits aux E.U. entre 1912 et 1929 ont été perdus. Et de citer l’historienne du numérique Abby Rumsey : « Ce n’est pas parce que nous ne savions pas comment les préserver, c’est parce que nous ne pensions pas qu’ils étaient précieux… De même, la plupart des livres imprimés cinquante ou cent ans après l’invention de l’imprimerie ont été perdus. Les gens considéraient les livres comme ayant moins de valeur, en partie parce qu’ils avaient été imprimés si rapidement et distribués si vite qu’ils en paraissaient éphémères. »

Et LaFrance de conclure : « A toutes les époques, les technologies transformatrices ont été initialement accueillies avec scepticisme, et cette attitude accroît l’indifférence envers les efforts de conservation. »

Une bibliothèque d’Alexandrie numérique

Mais on ne peut peut parler de préservation du web sans se pencher sur le fonctionnement de la « machine à voyager dans le temps de la toile », la Wayback Machine, plus connue sous le nom du site qui l’héberge, archive.org. Un article du New Yorker nous éclaire sur les défis que rencontre cette gigantesque bibliothèque numérique.

L’idée de l’internet comme bibliothèque universelle ne date pas d’aujourd’hui. Elle était déjà présente chez l’un des pionniers d’Arpanet, Joseph Carl Robnett Licklider, qui avait dès 1965 considéré dans son livre Libraries of the Future (.pdf) que nous devions « nous préparer à abandonner le modèle du livre physique » et qu’il fallait également rejeter la « page imprimée comme un système de stockage à long terme. » Il considérait que les bibliothèques de demain seraient constituées d’ordinateurs reliés en réseau et non plus de livres. En fait on peut remonter plus loin que Licklider, jusqu’à Paul Otlet, abordé dans un article précédent (on trouvera des informations supplémentaires intéressantes fournies par nos lecteurs dans la section commentaires). Ce qu’on sait moins, c’est que lorsque Tim Berners-Lee a créé le protocole http, il envisageait d’introduire dans le système des coordonnées temporelles afin de permettre aux internautes d’accéder à l’historique de tout document web, un peu comme cela se passe avec la section « histoire » dans la Wikipedia. Il y a renoncé pour des raisons de facilité de mise en œuvre et d’utilisation.

Internet_Archive_logo.ai
Même si, comme on l’a vu, l’obsolescence des informations est un phénomène ancien, il faut reconnaître que les nouveaux archivistes, comme ceux d’archive.org, se heurtent à des difficultés inédites que le texte imprimé et le cinéma ne connaissaient pas. Tout d’abord l’extraordinaire expansion du web. Il n’existait que 3000 sites en 1994, aujourd’hui leur nombre dépasse le milliard.

Un autre problème accroît la difficulté de la sauvegarde. Dans les premiers temps, les pages web étaient de « vrais » documents. Désormais, il s’agit plutôt de « pages web dynamiques », dont le contenu est créé à la volée.

De fait une forte proportion des données du web est aujourd’hui inaccessible, et chercher à les consulter n’entraîne pas seulement un message d’erreur (ce qui serait déjà bien, parce qu’on saurait que la page a disparu). La plupart du temps, le site a été mis à jour, et l’adresse pointe sur un nouveau document.

Et n’allez pas imaginer que cela ne concerne que les pages perso d’ados ou de photos de chats. Tous les domaines sont touchés, y compris celui des publications scientifiques. Comme nous l’explique le New Yorker, une étude parue en 2014 et commanditée par l’école de droit de Harvard montre que 70 % des références données par la Harvard Law Review et d’autres journaux de droit, et 50 % des URLs pointant sur les opinions de la Cour Suprême ne fournissent pas les liens corrects vers l’information originale citée. » Par ailleurs, continue le New Yorker, une équipe de l’institut de Los Alamos a étudié plus de trois millions d’articles universitaires parus dans les domaines scientifiques médicaux et technologiques entre 1997 et 2002. Un lien sur cinq était mort.

En dehors d’archive.org, diverses institutions se constituent leur propre fonds d’archivage, comme par exemple les bibliothèques nationales. Selon le New Yorker, La bibliothèque du Congrès a sauvegardé 9 milliards de pages, la British Library, 6 milliards. A la BNF, environ 4,1 millions de sites à extension .fr ont été archivés en 2014 par des robots. A cela s’ajoutent 20 000 sites web spécifiquement choisis et sélectionnés par les bibliothécaires.

Mais précise le New Yorker ces collections se font souvent en lien avec archive.org. Les bibliothèques nationales française et britannique auraient recouru à la Wayback Machine pour compléter leurs collections. Quant à la bibliothèque du congrès, elle n’utiliserait même pas de robots et laisserait ce soin à l’équipe d’archive.org. En France, on apprend sur le site de la BNF que les archives internet peuvent être consultés, non pas en ligne mais dans les salles de lecture. Le New Yorker nous explique pourquoi : il s’agit essentiellement d’une question de droit d’auteur et de dépôt légal. Archive.org enregistre tout, et permet à tout le monde d’y accéder, sans demander l’autorisation de quiconque. La BNF est bien plus prudente sur ce point et cette limitation serait, toujours selon le New Yorker, le produit d’un compromis entre les partisans de l’archivage et ceux de la vie privée. En conséquence : « Les archivistes à la BNF capturent les pages web qu’ils veulent, mais ces collections ne peuvent être consultées que dans le bâtiment physique lui-même. (…) Il en résulte que les archives web de la BNF sont utilisées par une poignée de chercheurs, quelques dizaines par mois ; tandis que des centaines de milliers de personnes par jour recourent à la Wayback Machine. » Mais la politique d’archive.org posera certainement un jour des questions de « droit à l’oubli ».

Enfin, en dehors des institutions nationales, il existe aussi des groupes ou des entreprises qui archivent leur propre activité. On a déjà parlé de la Wikipedia. Mais Twitter fait de même et conserve tous ses messages, qu’il communique à la bibliothèque du Congrès. Inutile toutefois d’espérer pouvoir les consulter, ils sont indisponibles et probablement encore pour un moment.

Quel peut être notre rôle dans cette tâche d’archivage ? Les robots ne sont pas les seuls à compléter archive.org. Les humains peuvent aussi être mis à contribution. Si vous entrez l’adresse d’une page qui n’est pas archivée par la Wayback Machine, mais disponible sur le web, archive.org vous propose de la sauver.

Il est donc possible à tout à chacun de contribuer à l’effort de préservation. Cette combinaison d’humains et de robots suffira-t-elle pour créer une bibliothèque d’Alexandrie moderne ? Ou faut-il définitivement renoncer aux ambitions encyclopédiques des pionniers du web ?

Rémi Sussan

À lire aussi sur internetactu.net

0 commentaires

  1. Il ne s’agit pas seulement de pouvoir supprimer nos données du web ou de s’assurer que les documents restent en ligne, il s’agit d’agencer l’information dans le temps.
    Quelle est la valeur d’une information hors d’un contexte temporel, d’un flux ?! Une information a une durée de vie, elle est utile pendant certaines périodes, elle prend du sens selon ses emplacements dans le temps, selon les informations qui la précèdent, selon ses connections (temporelles) avec d’autres informations.
    Je travaille sur cette question de temps depuis 20 ans. Il m’a fallu mettre au point un modèle de donnée capable d’intégrer la notion de temps, puis d’en faire la preuve par une application (https://youtu.be/hRdL4sb5C1M). Demain le web sera temporel, chaque site racontera une histoire, il sera possible de glisser des curseurs-temps pour naviguer dans le temps, de retrouver l’information par concomitance, de se souvenir, de rappeler de l’information dans le présent, puis de l’oublier lorsqu’elle n’est plus pertinente.

  2. On pourrait presque dire que la probabilité de retrouver une information sur le web au bout de dix ans équivaut à celle de retrouver en montagne, après la fonte des neiges, un bâton de ski perdu en décembre…