Ngram, un bon outil pour les Sciences Humaines ?

Depuis quelque temps maintenant Google Ngram apparaît comme l’outil de choix des fameuses « humanités digitales ». Basé sur la base de livres numérisés par Google Books, Ngram permet d’analyser la fréquence des mots et suites de mots selon les époques, et ainsi de constater la montée (ou le déclin) de certains concepts au fil des décennies, comme l’explique remarquablement, ceux qui en sont à l’origine, Erez Aiden (@erezaterez) et Jean-Baptiste Michel (@jb_michel) dans leur excellent livre, Uncharted (2013) qui a été récemment traduit sous le titre Culturama (voir l’article d’Hubert Guillaud). Dans nos colonnes, nous avons déjà présenté des recherches basées sur Ngram.

ngramfrench2

Trop de sciences ?

Une récente étude parue dans PLosOne jette cependant un doute sur l’efficacité du procédé, remarquée par le blog du « neuroskeptic » dans Discover Magazine ainsi que par Wired. En effet, pour s’assurer de la pertinence d’une tendance, il faut être certain que le corpus sur lequel s’effectue la recherche est bien équilibré. Or ce ne serait pas le cas. Les textes techniques seraient surreprésentés dans les décennies récentes. Pour exemple nous explique le « neuroskeptic », la montée en puissance du mot « Figure » (avec la majuscule) au cours des années alors que son équivalent tout en minuscules « figure », ne bouge pas. Or il y a très peu de raisons d’utiliser Figure écrit ainsi, hormis si le mot est en début de phrase… Sauf si on a affaire à un texte scientifique ou technique bourré d’illustrations légendées de type « Figure 1 », « Figure 2 ». La nature du corpus suffit donc a expliquer cette « tendance »…

Le neuroskeptic, citant encore l’étude de PLosOne mentionne aussi quelques autres termes dont la montée en puissance est suspecte, par exemple « model » « data », et aussi les accolades [ et ] qu’on a franchement peu de chances de rencontrer dans un ouvrage littéraire (mais qui sont fréquentes dans le code informatique, par exemple).

Certes, comme le rappelle dans Wired la psychologue californienne Jean Twenge, on ne peut oublier le fait que la montée des publications scientifiques soit, elle aussi, le signe d’une évolution de la littérature contemporaine. Mais souligne le magazine, il existe un autre risque lié à cette tendance. Certains mots courants n’appartenant pas au vocabulaire scientifique risquent, eux, de se retrouver analysés comme en perte de vitesse. Par exemple, Wired donne le mot « automne » (« autumn »), en chute selon Ngram. Les gens écrivent-ils moins au sujet des saisons, ou tout simplement ce terme subit-il un déclin parce qu’il a rarement sa place au sein d’une publication scientifique (par curiosité j’ai fait aussi une recherche sur le terme américain « fall », parce qu’il me semblait le rencontrer plus souvent dans les textes en anglais que le mot « autumn », mais sa courbe aussi est descendante) ?

Mais cette critique n’est-elle pas injustifiée ? Lorsque vous ouvrez le Google Ngram Viewer, vous pouvez remarquer qu’il est possible de choisir entre différents corpus. Par exemple French, Italian, English ou English fiction. Cela ne devrait-il pas permettre aux anglophones de filtrer les publications scientifiques pour se centrer exclusivement sur la littérature ?

Apparemment cela ne marche pas très bien. Comme nous l’apprennent les auteurs de la publication de PLosOne, le corpus de Google Books a été constitué en deux fois. Une première en 2009, la seconde en 2012. Si vous observez les différentes options du menu Ngram vous remarquerez qu’effectivement vous avez le choix entre « English Fiction » et « English Fiction (2009) ». Si vous faites une recherche sur la version 2009, vous observerez que le mot « Figure » est là aussi plus utilisé que « figure », ce qui laisse à penser que le premier groupe de données, en 2009, n’a pas été correctement filtré. En revanche, si vous choisissez l’option « English Fiction », vous avez là des courbes qui semblent à peu près correctes et logiques. Mais si vous prenez l’option « All », alors là, c’est bien « Figure » qui se trouve largement en tête.

journal.pone.0137041.g002J’ai voulu faire la même recherche (« figure, Figure ») sur le corpus français. Et là, surprise ! Le mot « figure » est bien plus utilisé que sa contrepartie avec majuscule. Qu’en déduire ? Peut-être qu’en français le nombre de publications « littéraires » indexées est plus important que celui des écrits scientifiques ? Ou alors que le mot « figure » (sans majuscule) est plus employé en français qu’en anglais ? Ou que les textes de recherche francophones sont moins illustrés ?… Allez savoir. A noter qu’il n’existe pas de corpus « French fiction ».

La quantité est-elle un bon indicateur ?

Un autre point : la question de la popularité. Les livres sont tous indexés au même niveau et un best-seller mondial au long cours, comme le « Seigneur des anneaux », sera classé de la même manière qu’une publication plus obscure.

« Un n-gram, dont la fréquence d’utilisation décline au fil du temps peut-être en fait plus souvent lu par une population particulière concentrée sur un genre spécifique. Par exemple, « Frodon » apparaît pour la première fois dans le second corpus Google Books English Fiction au milieu des années 1950 et diminue par la suite en popularité avec parfois quelques remontées. » Or, la célébrité du personnage ne s’est jamais démentie dans la culture populaire.

Il existe encore d’autres sources d’erreur, moins importantes, mentionnées par Wired. En premier lieu les problèmes d’OCR sur les textes anciens. Les documents anciens représentent par exemple souvent la lettre « s » par un caractère ressemblant fortement à un « f », ce qui peut perdre le logiciel. Autre source de confusion, de livres incorrectement datés ou disposant de mauvaises métadonnées. Selon Wired, Geoff Nunberg, un linguiste de l’université de Californie, a remarqué ainsi la présence de 29 références à Barak Obama datant d’avant sa naissance. Mais ce genre de soucis mineurs ne devrait pas affecter de façon profonde les tendances repérées par Ngram.

Faut-il pour autant abandonner Ngram ? Probablement pas, mais il faudra l’utiliser avec prudence. La surabondance de littérature scientifique peut être corrigée, et cela a été fait lors de la mise à jour du corpus en 2012. De toutes les sources de malentendus, la question de la « popularité », comme dans le cas de Frodon et du Seigneur des Anneaux, s’avère peut-être la plus grave. Car le fait de juger toutes les publications « à égalité » n’est pas un simple « bug », mais semble bien faire partie de la nature même d’un outil comme Ngram. En s’intéressant à la popularité des termes dans les publications, l’outil de Google pose la question de la popularité elle-même. La résumer au nombre de mentions dans des cohortes des publications, sans pouvoir estimer leur propre popularité, peut montrer rapidement bien des limites. En fait, le problème principal ne repose-t-il pas sur le fait que le corpus est une boîte noire !

Rémi Sussan

À lire aussi sur internetactu.net

0 commentaires

  1. Un de nos lecteurs, « eldams », qui a eu des soucis pour poster son message dans la section commentaires, m’a fait part d’une observation très intéressante, la voici :
    « Bonjour,
    Un commentaire sur l’analyse liée au mot « Figure ». Dans les articles scientifiques anglophones, on met la majuscule, même à l’intérieur du texte (par ex. « Results showed in Figure X… »).
    Il me semble probable que cet usage typographique (de la majuscule, même sans être en début de phrase) soit récent, ce qui expliquerait la tendance observée.
    Pour s’en convaincre, il suffit de faire la même requête en comparant « table » et « Table » qui présente exactement les mêmes courbes.
    Je vous laisse vérifier et demander à des typographes, mais il est possible qu’il n’y ait rien de plus mystérieux là-dedans qu’un simple changement d’usage typographique. Ce qui pose d’autres questions, certes, mais est assez facilement explicable. »