Quand Google Books permet de comprendre notre génome culturel

Pour une fois, on va dire du bien de Google dans cette lecture de la semaine. A travers un article paru sur le site de Discover Magazine en décembre 2010, sous la plume de Ed Young. Le titre de cet article : « Le génome culturel ; Google Books révèle les traces de la notoriété, de la censure et des changements de la langue ».

« De la même manière qu’un fossile nous dit des choses sur l’évolution de la vie sur terre, explique Ed Young, les mots inscrits dans les livres racontent l’histoire de l’humanité. Ils portent une histoire, pas seulement à travers les phrases qu’ils forment, mais aussi par la fréquence de leur occurrence. Découvrir ces histoires n’est pas facile – cela requiert de convertir les livres en format numérique pour que les textes puissent être analysés et comparés. Et cela requiert d’en numériser des millions. »

Heureusement, poursuit Young, c’est exactement ce que fait Google depuis 2004 avec Google Books. 15 millions de livres ont été numérisés aujourd’hui, soit 12 % de l’ensemble des livres qui ont été publiés à ce jour. Et depuis 2004, une équipe de l’université de Harvard, dirigée par Jean-Baptiste Michel et Erez Lieberman Aiden, analyse cette masse de données. Leur premier compte-rendu est disponible depuis quelques temps. Il est très partiel évidemment, mais selon Young, il donne une idée du pouvoir du corpus constitué par Google Books. Comme l’explique l’équipe de chercheur, le corpus « fournira une bonne réserve d’os à partir desquels on pourra reconstruire le squelette d’une science nouvelle ». Ed Young reprend : il y a des parallèles évidents avec le décodage du génome humain. De la même manière que le décodage complet du génome fournit aux biologistes une ressource incommensurable, le corpus de Google permettra aux chercheurs en sciences humaines d’étudier la culture humaine de manière rigoureuse. C’est pourquoi l’équipe a nommé son champ la « culturomique » (sur le modèle de la génomique).

Le projet, nous explique Young, est né en 2007, l’équipe cherchait alors à montrer que les verbes anglais avaient tendance à devenir de plus en plus réguliers : « Nous avons compris, explique l’un des chercheurs, que l’étude de l’évolution de la culture nécessitait quelque chose comme un génome, une base de données si puissante qu’elle permettrait à de telles analyses d’être faites rapidement, sur toutes sortes de sujets, pas seulement les verbes irréguliers. Et on a remarqué que certains des livres très obscurs que nous utilisions apparaissaient sur Google Books. On a fait le lien. » Et voici comment Harvard et Google Books se mettent à travailler ensemble.

L’équipe a travaillé sur un tiers du corpus total. 5 millions de livres publiés en Anglais, Français, Espagnol, Allemand, Chinois, Russe et Hébreu, et remontant au 16e siècle. Ce qui revient à 500 milliards de mots. L’un des chercheurs explique que le corpus ne peut pas être lu par un humain. Si vous vous mettiez à lire seulement les entrées correspondant à l’année 2 000, au rythme de 200 mots à la minute, sans vous interrompre pour vous nourrir et dormir, il vous faudrait 80 ans. La séquence totale de lettres est mille fois plus longue que celle du génome humain (le génome humain, c’est 3,5 milliards de caractères).

Maintenant, quelques résultats de ce travail :

1. La langue anglaise s’enrichit. Pendant les 50 dernières années, le vocabulaire anglais a augmenté de 70 %, et on considère que 8 500 nouveaux mots s’ajoutent chaque année. Je vous passe la méthode de calcul, mais les chercheurs estiment que l’anglais comptait 544 000 mots en 1900 contre un peu plus d’un million en 2 000. Comme on peut s’y attendre, les dictionnaires ne prennent acte qu’avec retard de cette croissance. Les livres recèlent toujours plus de mots que ceux que les dictionnaires recensent.

Image : La croissance de la variété des mots et la difficulté des dictionnaires à en rendre compte.

2. La grammaire évolue. C’est la fameuse étude sur les verbes. En deux cents ans, 16 % des verbes irréguliers sont devenus réguliers. Et ce sont les verbes les plus couramment utilisés qui sont les plus rétifs au changement. Malgré tout, explique un chercheur, « chaque année, une population de la taille de Cambridge adopte burned au lieu de burnt« . Ce qui n’est pas rien en termes d’évolution.

Image : L’évolution de la conjugaison des verbes dans les corpus de livres et notamment le passage de « burnt » à « burned » (brûlé, incendié).

3. La présence historique. Les chercheurs se sont intéressés à l’occurrence des années. Par exemple, l’année 1951 n’était que très rarement mentionnée avant 1951. Elle apparaît beaucoup en 1951, est mentionnée encore quelques fois pendant les 3 années qui suivent, puis les occurrences diminuent de moitié chaque année pendant les 15 ans qui suivent. « Mais la forme du graphe évolue, notent les chercheurs. Le pic est plus haut pour chaque année, mais nous oublions notre passé plus vite. » L’année 1880 met 32 ans à être moitié moins mentionnée dans les livres. Il ne faut plus que 10 ans à l’année 1973 pour arriver au même niveau. Ceci alors même que les mots désignant des innovations technologiques intègrent de plus en plus vite le discours commun.

Image : Nous intéressons-nous de plus en plus à notre histoire récente ?

4. La durée de la notoriété diminue. Les chercheurs ont aussi remarqué qu’une personne célèbre l’était plus aujourd’hui qu’auparavant, mais le restait moins longtemps. En croisant ces données avec les dates de naissance, ils ont observé qu’au début du 19e siècle, les gens commençaient à devenir célèbres en moyenne à 43 ans et mettaient 8 ans à doubler leur popularité. Au milieu du 20e siècle, la célébrité commençait vers 29 ans et doublait en 3 ans seulement. Mais la chute est plus rapide. Il y a un siècle, pour que la fréquence d’un nom célèbre diminue de moitié, cela prenait 120 ans, c’est 71 ans aujourd’hui.

D’autres résultats sont mentionnés par Young, comme l’usage des mots pendant certaines périodes historiquement marquées, le Nazisme par exemple. Bref, selon les chercheurs, ce ne sont là que quelques exemples des possibilités offertes par le traitement de cet immense corpus. On peut regarder comment les gens mangeaient en sélectionnant le vocabulaire de la nourriture, on peut tracer l’adoption d’un concept scientifique, comme l’Evolution, en regardant quand et comment il s’impose dans les livres.

Image : l’évolution de ce que nous mangeons…

Image : l’évolution de certains termes dans les livres comme l’Evolution, la cellule, la bactérie, l’ADN…

Mais de toute façon, plus il y a de livres qui sont numérisés par Google Books, plus les langues sont nombreuses, plus les périodes historiques sont vastes, plus les données auront de valeur pour les chercheurs.

Avec une limite cependant, que l’équipe de Harvard mentionne : « Les livres ne sont pas représentatifs de l’ensemble de la culture, même si le corpus contient 100 % des livres publiés. Seules certaines catégories de personnes écrivent des livres et les publient, et cette petite classe a changé au cours du temps, avec les progrès de l’alphabétisation… Il faudrait aussi numériser les journaux, les manuscrits, les cartes, les œuvres d’art et une myriade d’autres créations humaines. »

Et puis, évidemment, comme le note un chercheur de l’université de Pennsylvanie, le seul critère de l’occurrence donne des résultats pas inintéressants, certes, mais le corpus atteindra toute sa valeur le jour où on pourra analyser comment les mots prennent leur sens dans la phrase, ce qui est une tâche autrement plus difficile.

Xavier de la Porte

Xavier de la Porte, producteur de l’émission Place de la Toile sur France Culture, réalise chaque semaine une intéressante lecture d’un article de l’actualité dans le cadre de son émission.

L’émission du 19 juin 2011 était consacrée d’abord au droit de réponse du Service hydrographique et océanographique de la Marine suite à l’émission de la semaine dernière sur l’ouverture des données publiques et surtout à A-t-on encore besoin des journalistes ? avec son auteur, Eric Scherer directeur de la prospective et de la stratégie numérique du groupe France Télévisions.

0 commentaires

JM Salaun dit :

20/06/2011 à 11:02

Sur le même sujet, voir le reportage de Nature du 17 juin 2011 : http://www.nature.com/news/2011/110617/full/474436a.html
Capello dit :

22/06/2011 à 7:50

« certains des livres très obscures »

Etonnant qu’un tel projet soit fait par un anaphabète.

A anaphabète, analphabète et demi. 😉 Merci d’avoir repéré cette faute. – HG
PMM dit :

26/06/2011 à 8:06

et n’oublions pas cet article de l’excellente revue Books qui relate les approximations de googlebooks : http://www.booksmag.fr/philo-et-idee/le-musee-des-erreurs-de-google-books/
ML dit :

18/02/2013 à 1:46

il reste une coquille

« Le pique est plus haut pour chaque année »

il faudrait lire

« Le pic est plus haut pour chaque année »

une pique désigne une arme

Corrigé, merci ! – HG
Byblos dit :

03/03/2013 à 4:13

«Anglais, Français, Espagnol, Allemand, Chinois, Russe et Hébreu».

Dans la même veine mais plus en surface, on pourrait se demander quel intérêt présente cette recherche pour une langue ayant quelques dizaines de millions de locuteurs, alors que l’Arabe ou le Chinois sont ignorés.

Étranges, les choix des savants occidentaux. Exclusivement inspirés par un esprit scientifique, évidemment.