Brewster Kahle, Internet Archive : “Le meilleur du web est déjà perdu”

Par le 28/06/11 | 4 commentaires | 3,891 lectures | Impression

Dans le dernier numéro de Place de la Toile, Xavier de la Porte recevait Brewster Kahle, fondateur depuis 1996 et président de l’Internet Archive, cette organisation non gouvernementale américaine à but non lucratif consacrée à l’archivage du Web. Pour traduire ses propos, l’équipe de Place de la Toile a rédigé le transcript de son interview. Pour ceux qui ne l’auraient pas déjà écouté, le voici. L’occasion de revenir sur le rôle de l’archivage du web dans un monde où la circulation de l’information est toujours plus rapide et durée de vie de l’information toujours plus courte.

Place de la Toile : Qu’est-ce que l’Internet Archive, et comment fonctionne-t-elle ?

Brewster Kahle : L’ Internet Archive est une bibliothèque numérique à but non lucratif. Elle est située aux États-Unis et sa visée, à la fois sociale et technologique, est de permettre un accès universel à l’ensemble de la connaissance : tous les livres, toute la musique, toutes les vidéos, accessibles partout, par tous. Notre but est de collecter le travail de l’humanité et de le rendre accessible à ceux qui voudraient l’utiliser pour s’instruire. Notre base, c’est ce qui a été publié, c’est-à-dire les choses qui ont été pensées pour être publiques : un livre, une page web ou un billet de blog ; même les tweets… A l’inverse, le contenu de Facebook est censé être privé… et de fait ça devient plus confus quand on aborde des publications qui s’adressent à une certaine communauté… On se cantonne par conséquent au domaine public : donc les blogs, oui, c’est fondamental, les tweets, Flickr ou Youtube… Mais Facebook et autres communautés privées, c’est pour une prochaine étape du projet, qui supposerait des conditions d’accès différentes…

Brewster Kahle
Image : Brewster Kahle par l’équipe de #pdlt.

Pour donner une idée de l’étendue de ce projet : la bibliothèque du Congrès, c’est une collection de 26 millions de livres. Un livre, en document Word, représente 1 mégaoctet – …dans l’ordre méga, giga, téra… – donc 26 millions de livres, ça nous fait 26 téraoctets… Or désormais, dans le magasin du coin, vous pouvez acheter un disque dur de 2 téraoctets pour environ 150 euros ; si vous achetez 13 de ces disques durs – ça rentre dans un caddie ! -, vous pouvez disposer de tous les livres de la bibliothèque du Congrès… A condition de respecter les étapes de la numérisation, il est donc possible de disposer de tout ce qui a jamais été publié : livres, musique, vidéo, et même les pages web et la télévision en ligne.

En ce qui concerne les pages web, on utilise un crawler semblable à celui des moteurs de recherche comme Google, c’est-à-dire un robot qui parcoure les pages, les télécharge, les entrepose, puis repère les liens qui s’y trouvent et les ajoute a une liste. On répète alors le processus avec les pages auxquelles renvoient les liens de cette liste, etc. jusqu’à épuisement.

Eh oui, c’est sûr, au final on rate beaucoup de choses, mais on tente d’avoir la meilleure collection possible. Car la durée de vie moyenne d’une page web avant qu’elle ne soit supprimée ou modifiée est d’environ 100 jours ! … Le web est constamment en train d’évoluer et de disparaître : on peut dire qui si on s’en tient aux statistiques, le meilleur du web est déjà perdu…

Quant a ceux qui veulent échapper au crawler, hé bien il existe des conventions qui sont utilisées par les moteurs de recherche pour dire au robot de passer son chemin : cela s’appelle les protocoles d’exclusion des robots.

Place de la Toile : Comment cette Archive en ligne est-elle financée ? Je pense notamment au rôle joué par la Fondation Kahle/Austin, que vous avez fondée avec votre femme ?

Brewster Kahle : L’Internet Archive, à l’heure actuelle, c’est environ 200 personnes dont 50 programmeurs, bibliothécaires et administrateurs, et 150 personnes qui scannent des livres… 23 bibliothèques dans 6 pays différents travaillent à cette numérisation. Le coût, pour l’ensemble de l’organisation, ordinateurs compris, est d’environ 15 millions de dollars par an. Les fonds proviennent des bibliothèques nationales qui nous donnent de l’argent pour archiver le web de leur pays et leur livrer, et aussi des plus petites qui nous payent 10 cents pour chaque page scannée – c’est bien meilleur marché qu’ailleurs, sachant que les pages sont accessibles en permanence ; on numérise ainsi 1000 livres par jour : ça représente 7 millions de dollars sur l’année. On reçoit aussi quelques subventions fédérales pour la bande passante, et les Fondations, elles, financent de nouveaux projets, comme la fondation « Kahle-Austin » qui s’assure avant tout que la lumière reste allumée.

Place de la Toile : Tant qu’elle le reste, le volume de données augmente de 100 téraoctets par mois, je crois : autant dire que la tâche semble infinie. D’où ma question Brewster Kahle, ne craignez-vous pas d’atteindre une masse critique ?

Brewster Kahle : On essaie de construire la bibliothèque d’Alexandrie, 2e version. La première version avait deux limites que l’on voudrait éviter cette fois-ci : d’abord, pour consulter, on devait se déplacer à Alexandrie, merveilleux centre de la connaissance du monde ancien. A présent nous voulons rendre cette connaissance accessible à tous, qu’il s’agisse d’un enfant kenyan – ou français – qui s’intéresserait aux mathématiques et voudrait accéder d’où il veut, quand il veut, aux conférences de la Sorbonne ou de Harvard. C’est un projet gigantesque… je ne pense pas qu’il y ait un risque de saturation.

L’autre limite bien connue de la bibliothèque d’Alexandrie, hé bien c’est d’avoir… brulé. Elle a existé environ 500 ans ce n’est pas négligeable, mais si des copies avaient été faites, les œuvres cachées d’Aristote ou les autres pièces de théâtre d’Euripide seraient encore disponibles. Comment éviter cela ? Enfouir ces œuvres dans le désert, ou les copier et les mettre dans plusieurs endroits ?! Si des copies d’Alexandrie avaient été entreposées en Inde ou en Chine, elles auraient été sauvées, car pendant que l’Europe connaissait alors des temps sombres, ces civilisations, elles, s’en sortaient très bien…

Aujourd’hui on est à San Francisco, ville connue pour ses tremblements de terre : donc, on a mis des copies partielles de nos fichiers à Amsterdam, ici à l’European Archive et aussi dans la nouvelle bibliothèque d’Alexandrie, en Égypte. Voilà notre stratégie à long terme : le tout c’est d’avoir un ego enclin au partage…

Place de la Toile : Ego qui lui, ne serait pas vraiment en partage si je vous comprends bien… C’est vrai qu’Internet Archive n’est pas le seul projet de bibliothèque numérique… or il y a forcément des contenus qui se recoupent entre ces différents projets : n’auriez-vous pas plutôt intérêt à unir vos efforts ?

Brewster Kahle : Si seulement on pouvait travailler ensemble… Mais pour cela il faut un certain degré d’ouverture. OCLC ne nous a pas offert ses fichiers qui contiennent les catalogues de titres de toutes les bibliothèques du monde… Ils ne l’ont pas rendu vraiment utilisable par le public sur internet… Donc, nous avons dû trouver une autre solution : et on a construit OpenLibrary.org, un site où chaque livre dispose de sa page web et où les bibliothèques peuvent envoyer leur catalogue respectif. C’est un site amusant, car il fonctionne en mode wiki, c’est une sorte de Wikipédia des livres… On espère pouvoir un jour fusionner avec le catalogue OCLC…

Google a aussi opté pour une approche privée, mais comme bon nombre des livres que Google a numérisé relèvent du domaine public, des gens se sont mis à les télécharger dans l’Internet Archive… On voudrait encourager cela, c’est une super idée ! On a pu ainsi récupérer environ 800 000 livres, mais il y en a encore un million qui attend, donc si vos auditeurs veulent faire quelque chose : “s’il vous plaît, téléchargez des livres du domaine public dans le monde OpenSource, dans le monde du libre…”

En un sens c’est un d’affrontement du type Microsoft VERSUS Linux : d’un côté ceux qui veulent contrôler l’information, de l’autre ceux qui s’emploient à la garder libre et ouverte…

Le monde du libre – Linux, Wikipédia, Internet Archive, Mozilla qui fabrique Firefox, la fondation Linux – tout ce monde s’en sort très bien… cet univers non lucratif qui paie les gens pour leur travail, et les bibliothèques qui paient les gens et les éditeurs s’en sortent très bien sur internet. Nous on voudrait plus de données interconnectées, une création plus active, et moins de barrières entre les informations… Je pense que même les organisations qui cherchent le profit sont en mesure de laisser leurs contenus ouverts et disponibles, tout en continuant à rapporter de l’argent a leurs actionnaires… Bon… maintenant, il suffit d’y aller…

Place de la Toile : Quelle volonté, quelle philosophie président à cette entreprise immense ?

Brewster Kahle : Juste de construire une bibliothèque ! Il y a beaucoup de gens pour dire que tout est nouveau… qu’avec toutes ces nouvelles technologies, il n’y aurait pas besoin de se tourner vers le passé. Je ne pense pas… : au contraire, grâce à elle, nous devrions tirer les avantages de tout ce que nous avons construit en tant qu’humain… Cela peut sembler bizarre d’avoir une archive internet, une bibliothèque de l’internet… ça parait un peu “rétro” n’est-ce pas ?

Mais ça tombe sous le sens… Il faut juste que nous actualisions ce que nous savons des archives et des bibliothèques. On encourage toutes les structures à le faire, et c’est quelque chose qui nous enthousiasme beaucoup : on a des réunions avec la Bibliothèque Nationale de France par exemple, à qui on dit : aux États-Unis et au Canada, on commence à prêter en ligne des livres du 21e siècle, mais de telle façon qu’une seule personne à la fois puisse le lire… “Mais, mon dieu, pourquoi faites-vous cela aujourd’hui, a l’ère numérique ?!”

Hé bien, répondent-ils : c’est une histoire de “copyright”…. On veut juste agir comme une bibliothèque est censée le faire, et pas comme le font les éditeurs : on veut rendre ces livres disponibles en format électronique…

Je suis très inquiet de l’oubli du passé. Plus exactement, il ne sera pas oublié, il sera juste insignifiant. Dans les bibliothèques du futur, nos enfants apprendront uniquement avec ce qui est a portée de leurs doigts ; notre mission, en tant qu’adultes, c’est d’y mettre le meilleur ; aujourd’hui ils apprennent avec internet, mais il ne contient pas le meilleur : pour le mettre entre les mains de nos enfants, il faut le numériser. Il y a bien des choses qui s’opposent à cette tentative : de vieilles idées pour la plupart, comme le copyright, qui ont besoin d’être actualisées, de telle façon que les gens soient payés, certes, mais payés en fonction de cette nouvelle conception de l’accès ; sinon les œuvres finissent par disparaître.

Or il faut les rendre non pas moins accessibles, mais davantage, et trouver de nouvelles façons de rétribuer tout le monde. Donc non, je n’ai pas peur que les choses disparaissent complètement, mais bien qu’elles deviennent insignifiantes.

Place de la Toile : Une célèbre citation du Faust de Goethe dit ceci : “ce que tu hérites acquiert-le, afin de le posséder” ; pour ce qui relève de l’héritage, on voit bien tout ce que peut apporter l’internet Archive Brewster Kahle, mais comment se l’approprier, pour que ça ne soit pas seulement réservé aux savants, aux historiens et scientifiques ?

Brewster Kahle : Devoir se débrouiller avec cette masse d’informations qui nous entoure, c’est périlleux… Et maintenant, en plus, on sait que tout cela nous entoure… Et l’on est constamment sollicité, arrosé par des flux… Ce qui nous fait sentir en retard, ou stupide ou que sais-je. Cela implique de penser différemment. Je le vois par rapport à mes propres années d’étude, où il suffisait de lire les manuels pour croire que l’on savait distinguer le bon du mauvais ; désormais on peut lire de nombreux points de vue sur à peu près tous les sujets… Les choses deviennent plus complexes.

Mes enfants sont très au fait de toutes ces informations qui leur sont transmises, pourtant certaines d’entre elles ne conviennent pas ! Et ils sont beaucoup plus jeunes, alors que moi, j’ai eu beaucoup plus de temps pour m’en rendre compte.

Je pense que les gens s’adaptent… Mais comment le font-ils dans cette abondance d’informations ? Tout dépend de la façon dont nos technologies nous aident à trouver des choses afin que ça ne soit pas simplement au petit bonheur la chance… Y arrivons-nous ? Ça nous rend anxieux, stressés, de faire face à des désastres à l’autre bout du monde, à des atrocités que l’on aurait peut-être ignorées dans d’autres circonstances. Nous nous sentons davantage coupables… Est-ce pour le mieux ? Je pense qu’à long terme, c’est une chance que d’avoir cette information disponible, tant qu’elle reste précise, et tant qu’il y a encore de vrais auteurs qui ne sont pas juste employés à relayer la vision d’une entreprise…

Place de la Toile : Que pensez-vous du projet d’archivage total d’une vie entrepris par Gordon Bell, vétéran de Microsoft : un projet comme celui-ci, appelé MyLifeBits présente-t-il un intérêt pour vous à l’Internet Archive ?

Brewster Kahle : C’est un projet fantastique… Gordon Bell fut l’un des grands architectes des ordinateurs. Il a entrepris de tout numériser de sa vie, toutes ses conversations, tout ; nous on a numérisé ses livres donc il peut déjà les mettre sur son ordinateur et les parcourir de n’importe où…

Il essaie de vivre le monde virtuel, mais de le vivre physiquement je veux dire, il interagit avec des personnes, mais il numérise tout, et tâche d’en tirer un sens… C’est totalement avant-gardiste !

Nous avons tenu une conférence sur les archives numériques personnelles il n’y a pas très longtemps, Gordon Bell était là, ce fut très instructif. Désormais, les gens conservent leur vie en ligne, leurs photos sur Fickr, leurs vidéos sur Youtube ; ils partagent sur telle ou telle plateforme, mais comment faire pour que cela dure ? Nous sommes en train d’inventer les outils pour numériser non seulement ce que contiennent les cartons de nos garages, mais également l’ensemble du matériau qui nous entoure, pour que notre descendance y ait accès.

Place de la Toile : Mais Brewster Kahle, vivre sa vie, n’est-ce pas aussi savoir oublier ?

Brewster Kahle : Même aujourd’hui je ne trouve pas qu’il soit si difficile d’oublier ! Je ne sais pas pour vous, mais j’ai déjà du mal à trouver ce que je cherche ! Je ne sais pas… il y a bien des gens pour penser que nous vivons un âge sombre, que l’on ne retiendra rien de cette époque du numérique, où nos merveilles sont rédigées avec Microsoft Word et simplement enregistrées.

Aussi je suis plutôt inquiet de perdre quantité d’information, alors même que nous pouvons aujourd’hui tout sauvegarder. Nous vivons une ère paradoxale : il est grand temps de devenir maître de notre avenir, en créant les logiciels du monde dans lequel nous voulons vivre…

Un monde qui ne s’impose pas à nous, qui ne nous est pas offert voire vendu par une grande entreprise. Il nous faut choisir la vie que nous souhaitons mener, et nous donner les moyens d’y parvenir.

Propos recueillis, traduits et retranscrits par Thibault Henneton en mars 2011.

Pour écouter Brewster Kahle sur Place de la Toile, c’est par là !

Rétroliens

  1. Ca a commencé par une injonction « fluxetfixe

3 commentaires

  1. par Mathieu Andro

    Signalons, en complément de cet article que la Bibliothèque Sainte-Geneviève est la première bibliothèque de France a diffuser les documents qu’elle numérise sur Internet Archive :
    archive.org/details/bibliothequesaintegenevieve

    Mathieu Andro
    Chargé du programme de numérisation
    Bibliothèque Sainte Geneviève

  2. Je suis particulièrement inquiet pour Flickr qui est de faco devenu la mémoire visuelle ouverte de l’humanité (5 milliards de photos publiques en septembre 2010). Beaucoup de gens ont des comptes “pro” (dont moi et mes quelques 9000 photos). Lorsque les comptes ne sont plus payés Flickr n’affiche plus que 200 photos. Avec les metadonnées et la géolocalisation de nombreuses photos c’est une véritable mémoire de l’humanité qui part quand les personnes actives ne renouvellent pas leur compte ou lorsqu’elles mourront. Des données qui auraient pu être très utilent pour voir l’évolution d’un lieu au cours des années, les modes de vie, ou simplement pour ce que les individus voulaient partager publiquement.

    Comme l’article mentionnait Flickr je suis allé voir sur Internet Archive et je n’y trouve pas grand chose quantitativement venant de Flickr (Results: 1 through 50 of 848).

    Quelqu’un saurait si il y a des projets de sensibilisation à ce problème (en particulier pour les usagers de Flickr) ? un projet d’archive systématique des photos publiques (au moins Creative Commons?)?

  3. Bonjour! je suis un étudiant du Département de Sciences Sociales/UF/Madagascar.J’ai besoin d’aide au niveau de la documentation;surtout les œuvres de grands auteurs classiques de Sociologie/Anthropologie.En plus je suis encore faible en rédaction alors qu’en ce moment,je prépare un mémoire