Internet : l’impossible archivage

Par le 28/01/13 | 2 commentaires | 2,784 lectures | Impression

La lecture de la semaine est un post de blog sur le site de la New York Review of books (@nybooks), on le doit à James Gleick (Wikipédia, @JamesGleick) et il s’intitule : “les bibliothécaires de la twittosphère”.

“Dans les années 1850, les compagnies de télégraphe anglaises et américaines eurent l’idée, vite abandonnée, qu’elles pourraient (et devraient) archiver chaque message qui passait par leurs câbles. Des millions de télégrammes à l’abri du feu dans des coffres forts. Imaginez l’apport historique ! “Ne pourrait-on, au 21e siècle, tirer profit de la correspondance conservée de tout un peuple ?” demandait en 1854 Andrew Wynter, médecin et vulgarisateur scientifique célèbre.


Image : La marche de l’intellect (1829) par William Heath (1795-1840) du British Museum, est l’un des premiers dessins qui montre les inventions technologiques comme marque du progrès.

Cela vous rappelle quelque chose ?” demande James Gleick. Aujourd’hui, au 21e siècle, la Bibliothèque du Congrès compile la Twittosphère, un corpus constitué par tous les tweets publics. Et ça fait beaucoup. La Bibliothèque s’est lancée dans ce projet en avril 2010, alors que Twitter n’avait que 4 ans et avait produit 21 milliards de messages. Depuis, Twitter a grandi et 21 milliards de messages, c’est ce qui est publié chaque mois. En décembre, la Bibliothèque en a reçu 170 milliards : chacun sous la forme d’une capsule recouverte de métadonnées indiquant la provenance, le destinataire et le moment d’émission. La Bibliothèque doit capter un flux d’informations qui jaillit des 500 millions de comptes existants (y compris les doublons, les morts, les comptes parodiques, les amis imaginaires et les robots), qui tapent leurs épitres pressées sur les claviers de leur téléphone, de leur tablette ou de leur ordinateur ; les tweets se déversant dans les serveurs de Twitter par milliers à chaque seconde – par dizaines de milliers pendant les pics que représentent les matchs de Coupe du Monde, les élections présidentielles ou la grossesse de Beyonce – puis suivant leur chemin en temps réel jusqu’à une entreprise du nom de Gnip, située à Boulder dans le Colorado. Gnip organise les tweets en lots d’une heure sur un serveur sécurisé, où ils sont comptés, vérifiés et finalement copiés sur bande magnétique, et où ils sont ensuite rangés dans des classeurs. Dans différents lieux par sécurité. S’il vous est déjà arrivé de twitter, soyez rassurés, chacune de vos perles connaîtra la postérité. Bien sûr, la chance que même le meilleur tweet soit lu un jour par des yeux humains est proche de zéro.

Il s’agit là d’un océan de l’éphémère. Une bibliothèque de Babel. Personne ne s’illusionne sur la qualité – le sérieux, la véracité, la sagesse, l’originalité – d’aucun de ces tweets. La Bibliothèque du Congrès prend le mauvais comme le bon : les rumeurs et les mensonges, les bavardages, les blagues, les huées, les railleries, les fanfaronnades, les invectives, les élans de débauche, les vils potins, les épigrammes, les anagrammes, les quolibets et les moqueries, les rumeurs et les ragots, les plaidoyers, les chicaneries, les jacasseries, les pinaillages, les morceaux de littérature et les oeuvres d’art miniatures, les autopromotions et les élans de modestie, les grandiloquences et les chuchotements. Des nouvelles choses à chaque milliseconde.

Appelez ça comme vous voulez, le corpus de Twitter forme aujourd’hui un morceau de ce qui émane des esprits américains, et son enregistrement entre parfaitement dans les missions de la Bibliothèque du Congrès. Les historiens voient comme des trésors les journaux intimes du 19e siècle : pourquoi ne pas en faire de même avec les tweets du 21e siècle ?

Plusieurs centaines de chercheurs ont déjà demandé accès à ce corpus, mais il n’est pas aisé de leur donner. Les enregistrements ne sont pas en ligne. Ils sont organisés par date et heure. Pour les mettre en ligne, et les indexer de manière à ce qu’on puisse faire des recherches, il faudrait des fermes de serveurs gigantesques, comme Google en a beaucoup, mais pas le gouvernement américain.”

L’article détaille ensuite la difficulté à effectuer des recherches avec ces données particulières que sont les tweets. Il explique que ce serait le rêve de la Bibliothèque du Congrès de donner aux chercheurs des réponses instantanées à leurs requêtes, mais on en est loin. Même en passant par Gnip, il est possible de faire des recherches, mais la réponse à une question peut prendre des jours. Bref, cela va coûter de l’argent et représente un vrai défi.

Au moins, précise Gleick, le coût de la préservation en elle-même est assez bas, quelques dizaines de milliers de dollars d’après la Bibliothèque du Congrès. Et prends assez peu de place, par rapport aux télégrammes qu’il s’est avéré impossible de conserver dès qu’ils ont gagné en popularité.

“O, historien de demain, seras-tu capable de trouver des pierres précieuses dans la boue ? s’interroge l’auteur. Peut-être que cela ne vaudra pas la peine que tu y perdes ton temps – à moins que tu en aies plus que moi. Peut-être pourras-tu t’en délecter, ou les écouter sur un support de pensée pure, scintillante, comme un objet fixe dans l’univers vaste et sombre. En tout cas, moi, je me régale de ma toute petite part, moins d’un cinq millionième, en temps réel. J’entends de nouvelles choses chaque jour. Je ne crois pas tout ce que j’entends, et je ne suis pas à l’affût des statistiques et des tendances. Je crois plutôt que Twitter est un mirage, comme l’écrit l’écrivaine Joyce Carol Oates dans un tweet : “Twitter est le mirage qui, à mesure que vous approchez, s’éloigne. Et pourtant, vous approchez.”

Voilà pour ce beau texte qui me fait penser à ce qui fut un moment un rêve de savant fou. Postulant que les machines servant aux potiers de l’Antiquité réagissaient aux vibrations des sons qui les entouraient, certains ont cherché la machine qui pourrait traduire ces vibrations et faire renaître l’ambiance des ateliers, nous faire entendre les voix de nos aïeux, leurs cris et leurs conversations. Autant que je sache, cette machine n’existe toujours pas. Peut-être que ce sera le cas un jour.

Xavier de la Porte

Xavier de la Porte (@xporte), producteur de l’émission Place de la Toile sur France Culture, réalise chaque semaine une intéressante lecture d’un article de l’actualité dans le cadre de son émission.

L’émission du 26 janvier 2013 était consacrée à aux faces cachées de l’immatérialité en compagnie de Philippe Balin, consultant à Solcap21 spécialisé dans les questions de l’impact écologique des technologies de l’information et de la communication, Françoise Berthoud, ingénieure de recherche en informatique au CNRS et de Cédric Gossart, maître de conférences à l’Institut Mines-Telecom, qui ont tous participé à l’ouvrage collectif Impacts écologiques des Technologies de l’Information et de la Communication rassemblé par le Groupement de Service ÉcoInfo qui a pour objet d’étudier l’ensemble des impacts environnementaux et sociétaux des équipements concernés par les TICs.

Rétroliens

  1. Revue de presse : Internet : l’impossible archivage | InternetActu.net

1 commentaire

  1. par arnaud

    Pour ma part, je soutiens sans condition cette initiative de la bibliothèque du congrés. Etant moi même un chercheur en fouille de données textuelles sur le Web (web mining). Twitter, qui a bien entendu ses limites au niveau de la qualité du contenu, est une ressource incontournable. Nombre de publications existent sur l’utilisation de Twitter, dont l’exemple le plus connu est le « sentiment analysis » ou analyse de sentiment. Dans notre labo, nous avons eu plusieurs projets, utilisant les données de Twitter, dont la surveillance de la réputation pour différents produits de consommations ou encore de pharmaco-vigilance (très expérimentale). Une fois le bruit évacué (faisable à plus de 95% de réussite), le problème provient plus de la catégorisation de la population des “tweeters” qui est quasi-impossible. L’approche de la bibliothèque du congrès me semble vraiment judicieuse puisqu’il est vrai qu’actuellement l’infrastructure pour exploiter les plus de 340 millions de tweets par jour est très couteuse mais pas irréalisable. Cependant dans un futur relativement proche, les coûts auront encore baissé et ses données auront certainement une plus grande valeur qui pourrait même les rendre (au pire) commercialisables. Twitter apparaît actuellement comme une des meilleures ressources gratuites (grâce à leur API ouverte) pour étudier les variations dans le temps de sujets qui animent tout à chacun, passer à coté de cette opportunité pour ma part serait une erreur. Et les archiver pour des études futures est une très bonne idée surtout si le coût est ridicule.