Google et le défi de l’indexation

En décembre 2004, Google annonçait avoir passé un accord avec cinq des plus grandes bibliothèques anglo-saxonnes pour numériser et rendre accessibles – dans quelques années – plus de 15 millions de livres sur le net.

Réagissant à cette annonce dans une tribune publiée par le quotidien Le Monde du 22 janvier 2005, Jean-Noël Jeanneney, président de la Bibliothèque nationale de France s’alarmait du danger que représente cette initiative qui donnerait en volume un avantage certain aux idées et aux contenus anglo-saxons : « La production scientifique anglo-saxonne, déjà dominante dans une quantité de domaines, s’en trouvera forcément survalorisée, avec un avantage écrasant à l’anglais par rapport aux autres langues de culture, notamment européennes. »

Le président de la BNF, après avoir souligné les efforts de son programme Gallica – qui ne représentent en budget qu’un millième de ceux alloués par Google à cette aventure -, en appelle solennellement à une politique d’envergure et à un plan pluriannuel européen pour que le monopole culturel de demain ne soit pas américain.

On peut approuver ou rester sceptique face à un tel projet, mais en lui-même, il ne résout rien. Dans la bataille du volume et du nombre, face aux mondes anglophone et hispanophone aujourd’hui, chinois et indien demain, nous serons toujours perdants. Poser le problème en terme de lutte culturelle nous condamne à l’échec.

Nous ne manquons pas tant de moyens ou de grands projets, que d’une capacité (ou d’une volonté) de comprendre l’écologie du web. Google ou Amazon sont des portes d’entrée parmi d’autres sur des systèmes ouverts, interopérables et indexables. Pour exister dans cet univers, il faut s’y ouvrir, rendre ses contenus accessibles, mais aussi repérables (par des machines comme par des humains) par la multitude des intermédiaires, des moteurs, des répertoires, des sites et autres blogs.

Or c’est là que le bât blesse : car Gallica, si ardemment défendue par le président de la BNF, n’est pas un modèle d’indexation ouverte [1].

Pourtant, Google et Amazon sont clairs, l’internet limpide : ceux qui se barricaderont derrière des fausses forteresses (systèmes fermés, formats propriétaires, non intéropérables, non indexables…) resteront exclus du web. Il ne faut y voir aucun complot, mais la logique profonde d’un système ouvert. Produire plus de contenus francophones sans modifier cette attitude ne changera rien.

Google et Amazon jouent un rôle croissant dans l’accès à l’information, la connaissance, la culture. On peut légitimement s’en inquiéter, mais ces entreprises n’ont pas pour objectif de nous exclure de leurs bases de données : si nous ne sommes pas suffisamment présents sur leurs sites, la faute nous en incombe. C’est à nous d’utiliser leurs services, de les comprendre, de les enrichir, voire de les concurrencer et les dépasser. C’est à nous de devenir encore plus réactifs pour compenser notre petitesse. C’est à nous d’apporter encore plus au pot commun : pour exister, nos contenus doivent être « plus » et « mieux » indexables que les autres.

Aujourd’hui, en France, l’édition numérique souffre surtout d’être incomprise dans ses enjeux, d’être délaissée tout le long de la chaîne du livre ou des médias. Le manque d’intérêt pour la technique, notre faible compréhension des nouvelles technologies et de leurs enjeux, notre allergie à l’anglais et aux langages informatiques, constituent les premiers facteurs de notre « retard ».

Ce n’est pas avec de grands projets patrimoniaux ni en numérisant nos contenus que nous renforcerons de manière significative notre position dans la société de la connaissance, mais en veillant à rendre nos contenus disponibles et indexables sur le web [2]. Et qu’on arrête de dire qu’ils n’existent pas ! Depuis l’informatisation de la presse, de la chaîne du livre, des médias, ils dorment dans des piles de disques durs, de cédéroms et de disquettes.

Autrement dit, ce n’est pas cette spectaculaire numérisation de vieux livres entreprise par Google qui doit nous inquiéter, mais bien le fait que ces livres vont être accessibles alors que les nôtres ne le seront pas. Nous n’avons pas tant besoin d’un moteur de recherche européen, comme l’appel de ses voeux Jean-Noël Jeanneney, que de contenus accessibles et indexés, quel que soit le moteur.

Aucun programme public de numérisation des contenus n’aura de sens si nous ne nous attachons pas d’abord à rendre nos données indexables [3].

Hubert Guillaud

[1] L’absence d’URL simple et explicite pour ses contenus, les frames du site, la multiplication des serveurs lors d’une recherche d’un même document, l’absence de métadonnées, la numérisation en mode image… Rien n’optimise l’indexation des contenus par des moteurs extérieurs.
[2] Qu’on s’entende bien : rendre des contenus accessibles et indexables ne veut pas dire que ces contenus doivent obligatoirement être libres et gratuits. Cela signifie que les moteurs de recherche, quels qu’ils soient, doivent pouvoir exploiter leurs métadonnées et leurs données pour pouvoir rendre des résultats pertinents à ceux qui s’en servent. Que la consultation finale du contenu soit payante ou non, accessible ou pas, est un tout autre problème dont les modalités n’appartiennent qu’aux éditeurs.
[3] Quelles qu’elles soient d’ailleurs. Cela ne concerne pas que les livres et les données textuelles. Nos programmes télévisuels par exemple devraient aussi être référencés et référençables dans des moteurs novateurs comme l’incroyable Blinkx.

0 commentaires

lieven dit :

03/02/2005 à 7:24

J’approuve JM Jeanneney.
Défendons notre langue, notre patrimoine et notre culture sinon dans 20 ans on parlera anglo-américo-spannish en « bouffant » des hamburgers et des sodas, dans une chaise roulante car on sera trop gros pour bouger.
zid dit :

04/02/2005 à 12:59

D’accord pour la frilosité concernant l’édition électronique… mais l’indexation et l’interopérabilité ne résolvent pas tout. Il faut sortir d’une logique purement technologique. Gallica est un instrument bien désuet, mais pour les chercheurs, qui savent très bien où et comment y dénicher les pièces intéressantes, c’est une mine inespérée. Avez-vous déjà essayé de consulter des imprimés anciens en bibliothèque publique ou universitaire ? D’en faire photocopier une page pour l’étudier à son aise chez soi ? A côté de cela, utiliser Gallica, c’est le paradis. Du point de vue technologique, les spécialistes NTIC font la moue… mais je vous assure que les utilisateurs des documents eux-mêmes sont plutôt contents!
Le problème est donc à prendre de deux côtés:
-développer l’édition électronique, voire des partenariats avec les Grands Numérisateurs qui ont le vent en poupe.
-avoir une vraie politique raisonnée, sur des bases scientifiques (et non politiques), de numérisation d’ensembles documentaires jugés et choisis comme « culturellement essentiels ». En fait et paradoxalement, ce sera ce dernier point qui sera le plus âpre à discuter…
olivier ertzscheid dit :

04/02/2005 à 11:46

Je suis à 200 % d’accord avec H. Guillaud à cette nuance près ques les logiques commerciales qui opposent Google et son récent rival Microsoft sont arrivées à un tel paroxysme qu’il ne faut pas sombrer dans une trop naïve confiance : oui Google indexera nos pages si nous l’autorisons et produisons des contenus indexables, non nous n’éviterons pas la surreprésentation des fonds anglo-américains et cela pose problème, non pas tant pour le « web » mais plutôt pour le web académique et universitaire représenté par exemple sur Google Scholar (scholar.google.com). En effet si les logiques bibliométriques sont saines pour de tels contenus (indices de cocitation et autres) et si elles offrent une visibilité non biaisée quand elles s’appliquent à des bases de données et à de l’information structurée, en revanche, le pagerank (algorithme de Google qui s’inspire très fortement de cette logique en l’appliquant au web et à des contenus non-structurés) ce pagerank est « potentiellement dangereux » car il encourage et renforce une logique de type « on ne prête qu’aux riches ». Tant qu’il s’agit de cocitation « encadrée » par des décennies de pratique scientifique, il est possible de se prémunir de certains biais : si un article est cité dans une bibliographie, il y a de bonnes raisons à cela. Mais s’il s’agit de cocitation « sauvage », alors la donne est singulièrement différente.
En tout état de cause, mettons du contenu dans Google et pour cela la page suivante peut nous y aider : http://www.earlham.edu/~peters/fos/googlecrawling.htm intitulée « How to facilitate Google crawling
Notes for open-access repository maintainers »
Marino dit :

04/02/2005 à 6:23

Eh, oui… Quasiment rien en français sur la toile. Il suffit de faire le ratio anglais/français dans le projet gutemberg…
Autant les anglo-saxons seront prompts à rendre disponible quelque chose tombé dans le domaine public, autant nous nous accrocherons aux droits d’auteur.
Moi qui ne lit plus que de la littérature anglo-saxonne (eh oui), j’ai été étonné de trouver en tête d’archives téléchargées sur le web, que celles-ci étaient mises à disposition par l’éditeur lui-même, qui ne se réservait les droits QUE pour la copie imprimée. Et je ne vous parle pas de Shakespeare ou autre livres anciens, mais d’ouvrages des années 80-90. Et même des BD. Il y a même des auteurs qui ne publient les leur que sur leur site.
Etant un professionnel de l’accessibilité des sites Internet, je me demande ce que va faire le responsable de Gallica lorsque son site devra être rendu accessible aux personnes non voyantes… Peu ou pas de frames, tous les textes au format texte ou HTML (et pas PDF ou image). Sans trop taper sur ce site, son développement témoigne plus d’une volonté de cacher les livres, comme dans le nom de la rose, que de les rendre disponibles aux profanes. Une page comme (http://visualiseur.bnf.fr/Visualiseur?Destination=Gallica&O=NUMM-109062) est un contresens vis à vis des pratiques de l’Internet.
Guibert jean-pierre dit :

04/02/2005 à 7:35

Je suis un ardent défenseur de Gallica et un internaute heureux de pouvoir y trouver gratuitement et aisément des textes rares sur toutes sortes de sujets (au moins 100 000 ouvrages, sans compter les images, ce n’est pas rien !). Il n’existe, à ma connaissance, aucun équivalent, loin s’en faut, à l’étranger et la France donne là un merveilleux exemple de diffusion libre de la culture, et de transmission du savoir et des trésors du passé.
Le mode de recherche et d’indexation sur Gallica est-il aussi en retard que l’éditorial veut le faire croire ? Ce n’est pas mon impression mais je ne suis pas spécialiste.
Il serait naturellement agréable d’avoir les ouvrages en mode texte plutôt qu’en mode image et il est à souhaiter que la technique permette un jour de réaliser ce souhait.
leblase dit :

04/02/2005 à 8:55

que Guibert trouve des qualités inégalables à Gallica n’est pas contestable, mais ne répond pas au vrai point de l’article, que Marino semble avoir bien condensé: quelque soit le contenu, ce qui compte c’est aussi l’accès à ce contenu…
Et c’est un facteur qui prime dans un monde où les réseaux sont planétaires, une chose que les spécialistes et doctes français n’ont toujours pas l’air d’avoir pigé, baignés qu’ils sont dans l’illusion que Savoir c’est Pouvoir
zid dit :

04/02/2005 à 9:03

Mais, cher leblase, pour communiquer, faut avoir quelque chose à dire…
Mon trackback manuel, puisque l’automatique ne fonctionne pas sur 20six: http://www.20six.fr/blitztoire/archive/2005/02/04/qjjofp8saozy.htm
Ceci dit, une fois qu’il y a du contenu, se pose la question de l’accessibilité, et là, d’accord, à 100%… Mais, n’en déplaise aux obsédés du « ranking », c’est le contenu qui prime sur le contenant. Du moins, je l’espère. 😉
Malo Girod de l'Ain dit :

04/02/2005 à 9:47

Bravo pour l’article qui devrait, espérons-le, lancer le débat de l’ouverture au numérique de l’édition française. Il faut savoir qu’en France, encore en 2005, pour enregistrer un livre dans les bases de la profession, les bases Electre, il est interdit d’en avoir le contenu en ligne sous quelque forme que ce soit. Cf http://www.electre.com/ModalitesReferencement.asp

J’espère que cela pourra évoluer car cette interdiction est dommageable pour l’industrie elle-même.

Malo Girod de l’Ain
M2 Editions
Jerome dit :

04/02/2005 à 10:00

On peut être à la fois d’accord avec Hubert Guillaud et Jean-Noël Jeanneney : oui il faut que les contenus soient « ouverts », non la domination technologique américaine ne doit pas être une fatalité et il ne faut surtout pas se résigner.

Google pose le même type de problème que le GPS. C’est une technologie de localisation apparemment neutre et nous pouvons tout à fait vivre sans l’ombrelle technologique américaine dans un confort grandissant et un peu anesthésiant.
Mais dès qu’une technologie devient un tant soit peu « pervasive » et commence à générer sa propre économie en créant un nouvel écosystème, il faut se poser la question de l’effet de la dépendance technologique vis à vis des américains. Le GPS est utilisé dans des applications civiles et militaires, comme les moteurs de recherche.
L’histoire récente de Google et des moteurs précédents déjà oubliés (remember AltaVista) montre que la domination écrasante de Google reste intrinsèquement fragile. Faisons en sorte que le prochain Google soit européen et non américain : la tribune de Jean-Noël Jeanneney ne plaidait d’ailleurs pas uniquement pour un soutien à la numérisation mais aussi pour un soutien au développement technologique des moteurs de recherche et ne sous-entendait pas qu’un effort européen devait être basé sur des standards fermés. De la même manière, le GPS et le futur Galiléo seront interopérables, me semble-t-il.
Fredrik Wengelin dit :

05/02/2005 à 10:23

We live in an open world, the more open the more free, so why this constant « chip-on-the-shoulder » reaction? Vive la Culture Francaise!
Soulage Saint-Jean Véronique dit :

07/02/2005 à 1:42

Ce qui vaut pour la l’édition vaut aussi pour les bases de données économiques et scientifiques. Que sont devenues les bases de données initiées avant l’ère d’internet ? Pratiquement plus moyen de se procurer de l’information de source française, même payante, et si elles existent encore, que pèsent-elles face à des fournisseurs comme Yankee Group, Gartner, Datamonitor et j’en passe ?
S’est-on soucié de politique publique en la matière ?
Sebastien Billard dit :

07/02/2005 à 2:21

On ne peut pas comparer GPS et Google : le GPS est un service du Ministère de la Défense américain, il est controllé par l’état. Google est une entreprises privée.
Dominique dit :

08/02/2005 à 2:57

Je suis tout à fait d’accord avec cette analyse et la majorité des commentaires.

Ne serait-il pas possible de procéder par étape à une mise à disposition et indexation en utilisant Internet et les internautes pour les concrétiser ?

Il est envisageable de faire participer les internautes à la numérisation, à l’indexation, et à la vérification du travail. Le tout centralisé et supervisé par un organisme. Il est intéressant de rassembler les projets existants et leurs contenus, de rationaliser ceux-ci et ensuite d’enrichir cette bibliothèque virtuelle de nouveaux livres numérisés, indexés et vérifiés ainsi que divers, textes personnels, T.F.E., mémoires, etc..

La seule vraie question est de savoir qui va superviser ce colossal projet et le financer. Mais je n’ai aucun doute sur une participation massive et gratuite des internautes.

La coordination est nécessaire pour éviter toutes duplications du travail en coordonnant les efforts individuels et en assignant les tâches au mieux des capacités et désir de chacun, centraliser celui-ci et gérer ce qui est libre de droits ou non. Contacter de manière efficace les organismes d’états ou professionnels capables de fournir l’information.

Cela peut paraître utopique, mais comment le savoir sans essayer. Un gigantesque centre de documentation distribué, gratuit et alimenté par de la bonne volonté. Ça ne serait pas ça Internet ?
BugMaster dit :

08/02/2005 à 6:17

Je suis sûr que si ça avait été un autre pays que les Etats-Unis, personne n’aurait rien dit. Mais voilà, tout ce qui est américain est forcément (!) une menace.
Sebastien Billard dit :

09/02/2005 à 1:22

« Un gigantesque centre de documentation distribué, gratuit et alimenté par de la bonne volonté. »

Peut être connaissez vous le projet Wikipedia ? http://fr.wikipedia.org/wiki/Accueil
François dit :

09/02/2005 à 11:51

C’est un véritable travail qui doit associer les bibliothèques et des équipes qui travaillent sur le référencement et l’indexation qui permettra de proposer une offre francophone sur la toile. Je suis entièrement d’accord sur l’importance de l’interopérabilité et de l’indexation. Où en sont les travaux de l’AFNOR sur ce point ? S’agit il de faire un profil français d’une norme internationale ou de créer une nouvelle norme française ? Il est urgent d’agir sur ce terrain là car il va déterminer ce qui va en découler dans les années à venir.
Alexis Mons dit :

17/02/2005 à 10:44

Désolé pour les problèmes d’accents
Alex dit :

21/02/2005 à 12:13

Pour Info, voici le mail que j’ai envoyé à JN Jeanneny, contenant mon avis sur le sujet.
————————-

Bonjour M. Jeanneney,

Je voulais réagir (avec un peu de retard) à votre tribune dans Le Monde et votre intervention sur France Inter au sujet du projet de Google de numériser 15 millions d’ouvrages de bibliothèques universitaires anglo-saxonnes.

– Je partage votre vision multiculturelle du monde ;
– votre intervention sur France Inter m’a plutôt rassurée après avoir été choqué par la pauvreté de l’argumentation de votre texte dans Le Monde ;
– en effet, cet article surfait sur l’anti-américanisme de base, à savoir celui qui n’est pas constructif, qui se nourrit essentiellement de la frustration française de ne plus être la première puissance mondiale et qui fait preuve d’une méconnaissance importante de l’Autre ;
– l’article faisait allusion à des arguments type « lutte contre le grand capital » que je croyais d’une autre époque : Le Monde, qui publie votre essai est financé exactement de la même façon que Google, à savoir la publicité ;
– Google étant une entreprise privée, sa seule vocation est de créer de la valeur et Google n’a aucune mission d’étendre la domination culturelle américaine (l’un des 2 fondateurs de Google n’est pas américain d’ailleurs).
– Cela m’amène à ma principale suggestion : plutôt que de réinventer la roue en créant un moteur de recherche Européen, ne serez-t-il pas plus efficace d’appeler Google (ils ont même un bureau à Paris) et leur demander si en plus des 5 universités américaines, ils ne voudraient pas numériser le contenu de la BNF ? L’objectif de Google dans cette opération est de faire un peu de relation publique, un peu d’idéalisme de la part des fondateurs (doctorants) et beaucoup d’intérêt économique, puisque comme vous le dîtes, plus il y a de contenu, plus il y a de recherche, plus Google peut diffuser de publicité. Mais tous ces objectifs seraient remplis également avec la numérisation de la BNF ; le public faisant des recherches en langue française est sûrement un peu plus faible que le public anglophone, mais cela pourrait aisément être compensé par quelques aides pratiques de la BNF
– Vous l’avez presque dit sur France Inter, mais n’ayons pas peur de le dire franchement : « le monde est meilleur avec Google qu’il ne le serait sans Google ! » ; il n’est certes pas parfait, mais ne mélangeons pas tout.

Cordialement,
Alexandre Haag
Jerome dit :

27/02/2005 à 3:33

Un post sur le sujet d’Hervé Le Crosnier de l’Université de Caen.

http://listes.cru.fr/wws/arc/biblio-fr/2005-02/msg00168.html
Dominique Lahary dit :

27/04/2005 à 5:51

[message posté le 27 avril 2005 dans la liste de diffusion biblio-fr, listes.cru.fr/wws/info/biblio-fr)
Le médecin :
Il sera une page dans un livre de 10 000 pages que l’on
mettra dans une bibliothèque qui aura un million de livres,
une bibliothèque parmi un million de bibliothèques.

Juliette :
Pour retrouver cette page, ce ne sera pas commode.

Le médecin :
Mais si. Ça se retrouvera dans le catalogue, par ordre
alphabétique et par ordre de matières… jusqu’au jour où
le papier sera réduit en
poussière… et encore, cela brûlera certainement avant. Il
y a toujours des incendies dans les bibliothèques.

Eugène Ionesco, « Le roi se meurt ».

Le médecin, bien sûr, ment. On ne retrouve pas une page d’un livre dans un catalogue « par ordre alphabétique et par ordre de matières ».

Beaucoup a été écrit sur biblio-fr et ailleurs à propos du projet de numérisation de Google et du projet qu’a annoncé Jean-Noël Jeanneney et pour lequel il a obtenu l’appui deJacques Chirac. Je propose tout simplement, et sans angélisme, de nous réjouir des initiatives des uns et des autres. Et de revenir brièvement sur quelques thèmes.

L’indexation tout d’abord. Lisez ou relisez le texte d’Hubert Guilland « Google et le défi de l’indexation » paru le 3 février 2005 sur Internetactu dont il est le rédacteur en chef (https://www.internetactu.net/index.php?p=5810) et qu’il a posté sur biblio-fr le 7 février (http://listes.cru.fr/wws/arc/biblio-fr/2005-02/msg00104.html).
On n’a pas à mon sens assez souligné que le projet de Google est d’abord un projet d’indexation, puisqu’il ne s’agit pas forcément d’accéder à l’intégralité d’un livre sur écran ni même de le décharger.
Il s’agit tout simplement d’ENTRER DANS UN LIVRE PAR L’INTERIEUR. Voilà la nouvelle fondamentale.
Cela fait quand même bientôt 15 ans que le web a changé la donne en matière d’indexation : la logique dominante, c’est l’indexation du texte intégral. Que les livres, les livres imprimés, soient enfin accessibles de cette façon, signifierait tout simplement qu’ils rejoignent le mouvement général. Il n’est que temps.

Indexation d’abord, mais aussi feuilletage. Dans une librairie, ne rentrez-vous pas dans les livres par l’intérieur ? Ne feuilletez-vous pas ? Enfin tomberaient les intimidantes murailles que sont les notices bibliographiques, précieuses quand il s’agit de décrire, mais si pauvres quand il s’agit d’accéder. Que Google ou quelque autre dominant d’un moment n’ait pas le monopole de la constitution de ces nouveaux accès, il pourra s’en réjouir. Mais il faudra s’en désespérer si les autres projets misent sur des logiques d’accès désormais dépassées.
Voilà mon premier point.

Le second, c’est que le web, qu’on s’en réjouisse ou s’en lamente, est un espace unique de recherche. La plupart des internautes n’usent pour l’essentiel que d’un outil. Quiconque peaufine une collection séparée interrogeable sur son seul site se coupe du mouvement général et condamne ses données à une vie marginale au bord de la société de l’information d’aujourd’hui. Je cite Hubert Guilland :
« C’est à nous d’apporter encore plus au pot commun : pour exister, nos contenus doivent être « plus » et « mieux » indexables que les autres. »

« Indexables par les autres », absolument ! Nous raisonnons en collections séparées et entendons garder le monopole de leur indexation, dont nous vantons l’ordonnance et la cohérence qui nous assimilons à l’ordre de la culture et de l’esprit. J’ai lu sur ce sujet ces derniers mois, sous des plumes illustres, des propos qui m’inquiètent et dénotent d’une méconnaissance du changement de paradigme que nous sommes en train de vivre. Et qui se manifeste par deux phénomènes complémentaires : la déconnexion du stockage et de l’indexation (laissez donc indexer vos données par les autres) et le dialogue direct entre l’utilisateur et le document, sans le détour par nos langages documentaires.

Le troisième point devrait découler à l’évidence du précédent, et je me désole que la religion des décideurs ne semble pas encore faite à ce sujet : le texte ne peut exister dans la société de l’information qu’en mode texte. Mieux vaut moins de texte, mais du texte, que d’avantage de texte glacé en mode image, quels que soient les progrès que pourraient faire leur indexation : ça ne vaudra jamais le texte intégral.

Le quatrième point c’est qu’on ne peut plus raisonner collection par collection. L’usager, quel qu’il soit, du chercheur au curieux ou à l’amateur, raisonne global et n’entend pas se limiter aux ressources d’un seul organisme. Voilà pourquoi les indexations de bases sont mondiales. Cest seulement dans un second temps qu’on peut s’intéresser éventuellement à telle collection particulière, et user de son indexation spécifique. Il n’est de cohérence que construite au coup par coup par l’utilisateur, en fonction de ses besoins et de ses désirs. Cela ne signifie pas que les cohérences partielles de collections soient inutiles, à condition que leurs gardiens en saisissent la relativité.

Le cinquième point, évidemment, est essentiel. Qui constitue des collections ?
Ce qui signifie également aujourd’hui : Qui constitue des collections numériques indexables ?
Dans l’édition du« Monde » du 20 avril 2005 débute en première un article d’Olivier Ertzscheid intitulé « Le jour où notre disque dur aura disparu ». En voici le début :
« Quand les moteurs de recherche sont venus indexer le contenu des disques durs, je n’ai rien dit parce que ce n’était pas mon disque dur. Quand ils sont venus regarder le contenu des courriels pour afficher des publicités en rapport avec leur contenu, je n’ai rien dit car ce n’était pas mes courriels. Quand ils ont commencé à numériser des

livres et à en proposer des extraits en finançant l’opération grâce à la pub, je n’ai rien dit car ce n’était pas mes livres. Et puis, quand le disque dur de mon ordinateur ayant disparu je n’ai plus eu d’autre choix que de m’en remettre à des services distants en ligne, quand ma machine n’a plus été qu’une clé d’accès à mes espaces informationnels

on line, je n’ai rien eu à dire, car il était déjà trop tard. »
Cet article est important à divers égards, mais je vais ici privilégier ce qui est en rapport avec notre propos.
Je cite plus loin :
« A la fin du XIXe siècle, le bibliographe belge Paul Otlet souhaitait réunir dans un même lieu, baptisé Mundaneum, toutes les connaissances du monde. Aujourd’hui, les grands espaces du Web mettent cette utopie à portée de main. La bibliothèque universelle regroupant tous les savoirs est pour bientôt. Google, mais aussi Yahoo! s’y emploient, avec leurs projets pharaoniques de numérisation d’ouvrages de bibliothèques publiques. Comme viennent de le comprendre les Français, la question n’est plus desavoir s’il faut en être ou non. Il le faut ! »

On voit ici que la bataille qui s’amorce, c’est celle du stockage. Elle est essentielle. Que ceux qui veulent avoir une influence sur ce qui sera indexé par les outils communs de la société de l’information construisent des politiques de stockage numérique et en gardent la maîtrise. Leurs efforts auront un effet relatif : ce qui est accessible est la résultante d’initiatives les plus diverses, y compris bénévoles, comme le rappelait Livres-Hebdo (« Google : qui a peur du grand numérisateur ? », Livres hebdo, 11/02/2005, p. 6-9) : gloire aux précurseurs l’ABU (http://abu.cnam.fr/) et à tant d’autres. Mais il n’est pas indifférent que dans cette cour chamarrée, les initiatives publiques concertées pèsent du poids qu’elles voudront bien peser.

Ma conclusion, puisque nous sommes ici dans une listesde diffusion concernant les bibliothèques, c’est que la période passionnante et dangereuse que nous vivons mer à mal bien des certitudes et bien des identités. Moi qui ne cesse de répéter que l’important c’est l’accès, non le stockage, que les bibliothèques sont des donneuses d’accès à des contenus sur lesquels elles ne peuvent rêver de maintenir une maîtrise absolue, voilà que viens de tenir des propos inverses : « laissons aux autres l’indexation, maîtrisons le stockage ». Reformulons

L’important n’est pas de concevoir les accès mais de les faciliter. Facilitons donc l’indexation ouverte, et dans celles de nos bases de données notamment bibliographiques qu’il est encore utile d’entretenir, changeons ce qui doit l’être pour tenir compte de tout l’acquis de la décennie écoulée sur le web en matière de mode de recherche, et surtout de trouvaille.

Et si nous ne raisonnons plus bibliothèque par bibliothèque mais sur un plan global, alors oui, la maîtrise des données est un enjeu capital. La législation sur la société de l’information doit permettre aux bibliothèques, archives et centres de documentation de constituer par numérisation, copie et transfert des collections d’intérêt public. Dois-je rappeler qu’au mois de juin l’Assemblée nationale doit examiner en première lecture un projet de loi sur le droit d’auteur et les droits voisins dans la société de l’information ?

Rendez-vous sur http://droitauteur.levillage.org

Dominique Lahary – dominique.lahary@valdoise.fr
S’exprimant à titre personnel

(Dernière minute : paraît ce mercredi 27 avril 2005 en librairie « Quand Google défie l’Europe : Plaidoyer pour un sursaut » de Jean-Noël Jeanneney, éd. Mille et une nuits, 120 pages, 9 euros. cf. http://www.radiofrance.fr/divers/thematiques/radiodulivre/actualite/index.php?numero=165051377)