De l’analyse textuelle à la compréhension de l’ADN et du cerveau…

Qu’est-ce qu’un « langage » ? Comment reconnaître le signal du bruit ? L’ADN, les oeuvres littéraires, les connexions neuronales possèdent-ils une structure commune qui peut être soumise à la même analyse et donc être considérée comme du « texte » ? On trouve parfois des études sur des sujets marginaux, peu connus, qui pourtant apparaissent comme des avancées vers les réponses à ces questions fondamentales. C’est le cas du travail de Marcelo Montemurro sur le manuscrit Voynich, relaté par le New Scientist.

Marcelo Montemurro n’est pas un spécialiste de la cryptographie et des livres anciens. C’est un neuroscientifique. La plupart de ses publications portent des titres poétiques, comme « Relations des propriétés dynamiques et fonctionnelles des neurones intrinsèquement activés » (ou quelque chose comme ça). C’est pourquoi il est étonnant de voir ce chercheur se pencher sur un tel texte.

Le manuscrit Voynich, ce livre étrange, est l’une des plus grandes énigmes littéraires de tous les temps. Il a fait rêver plus d’un Indiana Jones en herbe. Il s’agit d’un manuscrit rédigé dans un alphabet inconnu qu’il n’a jamais été possible de déchiffrer. A coté de ces écrits mystérieux, on trouve des illustrations assez bizarres de plantes, de constellations et des images qui se rapprochent de celles des écrits alchimiques.

En 1912, un collectionneur bibliophile, Wilfrid Voynich, fait l’acquisition de l’ouvrage. Inclus, une lettre datant de 1666 adressée à Athanasius Kircher, qui contiendrait la première mention historique du manuscrit. Kircher était un jésuite d’une culture étonnante, fasciné par les civilisations antiques. On lui attribue aussi l’invention de la lanterne magique, et donc de la première forme de cinéma, mais cela est contesté. Officiellement, le livre aurait appartenu à Roger Bacon (ne pas confondre avec Francis, le philosophe, et encore moins avec l’autre Francis, le peintre), ce moine et érudit du Moyen Age, était expert dans les sciences du moment, occultes ou non (à l’époque, de toute façon, toutes les sciences étaient plus ou moins occultes). La lettre nous explique que le manuscrit aurait été acquis par l’empereur Rodolphe II, lui-même grand amateur de magie et d’alchimie, pour la « modique » somme de 600 ducats (environ 50 000 euros actuels). On ignore le nom du vendeur. On a soupçonné John Dee, autre grande figure du romantisme occulte de la fin de la Renaissance, mathématicien et cryptographe de première classe, astrologue de la reine Elizabeth, inventeur de l’expression Empire britannique et espion à ses heures. Il signait du sigle 007 ses lettres à la reine – ça ne s’invente pas !

On n’en sait pas beaucoup plus sur l’origine réelle du manuscrit. Les datations au carbone 14 nous apprennent que le papier utilisé aurait été fabriqué vers 1400, mais cela ne signifie pas que le texte et les illustrations n’ont pas été rajoutés bien plus tard.

Depuis 1912, beaucoup se sont attelés à l’étude du manuscrit, nombreux sont ceux qui ont cru en avoir trouvé la clé, mais tous se sont cassé les dents. Outre Roger Bacon, auquel on l’a probablement faussement attribué, on a soupçonné une multitude d’auteurs : Voynich lui-même (qui aurait donc aussi rédigé la pseudo lettre à Kircher), Dee, ou plus exactement son « médium » Edward Kelley alchimiste qui n’aurait pas manqué de compétences de faussaire, d’autres encore, moins connus…

Le mystère Voynich

Une page du manuscrit VoynichMais que signifie le Voynich ? Quel langage cache ce mystérieux alphabet ? Latin ? Langue « exotique » comme le chinois ? Pseudo égyptien ? Idiome artificiel ? A ma connaissance, le klingon et l’elfique comptent parmi les seules solutions à n’avoir pas été envisagées…

Reste l’autre hypothèse : le manuscrit Voynich est un grand n’importe quoi. Il n’a aucune signification. C’est un pur canular, fabriqué de toutes pièces, pour soutirer 600 ducats à ce grand benêt de Rodolphe II.

Il existe bien sûr déjà des analyses statistiques du contenu du Voynich. Elles révèlent une certaine régularité de fréquence dans les lettres et les mots utilisés, ce qui a été considéré pendant longtemps comme la preuve que le document n’était pas un pur galimatias. On pourra objecter que le codex Séraphinianus, autre texte écrit dans un alphabet incompréhensible, rédigé par l’artiste Luigi Serafini, mais sans prétention autre qu’artistique, semble montrer qu’il est possible de créer un fake de ce genre. Mais surtout, cette thèse a été démontée en 2004 par Gordon Rugg, qui a montré qu’en utilisant une technologie déjà bien connue à la Renaissance, la grille de Cardan, il était possible d’écrire un pseudo-texte dénué de sens, mais possédant les apparences et la complexité d’un message réel.

Les travaux de Montemurro relancent le débat. Comme les analyses précédentes du manuscrit, ils reposent sur la théorie de l’entropie : rappelons que ce qui est inattendu possède plus de sens que ce qui ne l’est pas. Un texte purement aléatoire ne possède aucune redondance. L’information est partout. Un texte complètement redondant comme ababababab est aisément prévisible, mais contient un degré d’information très faible. Un « vrai » message possède donc un rapport signal/bruit équilibré, il se trouve, comme le dit le biologiste Henri Atlan, quelque part « entre le cristal et la fumée ».
Pages du manuscrit Voynich

Vers l’analyse sémantique

Gordon Rugg a donc démontré qu’il était possible de générer de manière aléatoire un pseudo-message possédant les caractéristiques d’un véritable contenu. Montemurro, cependant, prend l’analyse à un autre niveau. Il n’a pas observé les corrélations au plan phonologique ou syntaxique, mais bel et bien au niveau sémantique : comment les mots se situent au sein d’un contexte. Et ce qui est particulièrement intéressant, c’est qu’il a comparé le Voynich à un corpus d’autres textes, comme L’Origine des espèces de Darwin, mais aussi, et c’est peut-être le plus excitant, à des séquences d’ADN, et même, à du code informatique.

Le New Scientist explique ainsi la technique : « La méthode reconnaît que les mots qui sont particulièrement importants apparaîtront plus fréquemment, et fait aussi la distinction entre des mots pauvres en information comme « et », dont vous vous attendriez aussi à être inondés et des mots au niveau élevé d’information comme « langage », qui pourraient seulement apparaître dans des sections traitant de ce sujet. »

Les résultats sur d’autres textes permettent ainsi de repérer un ensemble de mots hautement significatifs : pour L’Origine des espèces, ce serait « espèces » « variétés », « hybrides » et « genres ». Dans Moby Dick, le terme le plus important, serait – qui l’eût cru – « baleine ».

Montemurro aurait ainsi repéré plusieurs « mots » dans le Voynich dont la fréquence semblerait indiquer que texte a véritablement un sens. Lui et son équipe sont allés encore plus loin. Ils ont comparé les différentes sections du livre et les ont examinées en correspondance avec les illustrations qui les accompagnent. Ainsi, celles auxquelles correspondent des illustrations botaniques possèdent entre elles une corrélation plus forte qu’avec celles qui exhibent des images tirées de l’astronomie, ou l’alchimie, par exemple.

Encore plus loin dans l’analyse statistique, l’équipe de Montemurro a examiné des ensembles de mots importants, et comment ces différents ensembles se retrouvent dans les « textes » étudiés. Ils ont donc pris, pour l’anglais, L’Origine des espèces, pour le chinois, Les Archives du grand historien, pour le latin, Les Confessions de Saint Augustin, pour la biologie, de l’ADN de levure, et enfin, pour l’informatique, un extrait de code fortran (Montemurro aurait peut être besoin d’une mise à jour sur les langages de programmation modernes).

Dans un vrai livre, nous explique le New Scientist, ces ensembles comptent généralement un nombre de mots assez élevé. Au contraire, les écrits composés de citations révèlent des ensembles bien moins volumineux.
Après analyse, il s’avère que le texte anglais comportait des ensembles de 800 mots environ. Le chinois et le latin, autour de 500. Le code Fortran révélait des ensembles d’environ 300 mots, tandis que la levure tournerait autour d’une dizaine.

Quant au Voynich il contiendrait des ensembles d’environ… 800 mots. Ce qui, pour Montemurro, est une preuve supplémentaire du caractère linguistique du code Voynich.

Les différences entre le chinois, l’anglais et le latin seraient dues essentiellement à des syntaxes différentes impliquant un vocabulaire plus ou moins conséquent. L’important est de savoir que les langages humains se situent au-delà de 500 mots précise Montemurro dans son papier.

Évidemment, ces recherches ne font pas l’unanimité. Gordon Rugg, nous explique le New Scientist, pense que bien des résultats de Montemurro peuvent être recréés spontanément de manière aléatoire à l’aide la grille de Cardan.
A noter que Rugg a pris la peine de répondre dans les commentaires de l’article du New Scientist. Pour lui, s’il est bien entendu inimaginable que les créateurs du « canular » aient pris la peine de créer volontairement de telles corrélations, il est tout à fait possible que les structures ainsi découvertes soient un effet secondaire des techniques de cryptage utilisées à la Renaissance, et produites de manière totalement involontaire.

Cela dit, sans être expert sur le sujet, le fait que les pages correspondant à des images issues de la botanique possèdent le même type de fréquences, par opposition à celles illustrant un autre domaine, me paraît quand même constituer une sacrée coïncidence. Le débat illustre en tout cas la difficulté que nous avons à faire la distinction entre le repérage de patterns déjà existantes et l’invention de celles-ci par un lecteur ou un observateur.

Au delà du texte

Les recherches sur le Voynich entrent donc complètement dans le nouveau champ de l’analyse statistique de corpus textuels dont nous avons déjà parlé. Mais il ne s’arrête pas à un travail d’ordre littéraire. Le New Scientist conclut que « Montemurro espère maintenant analyser d’autres séquences porteuses d’informations qui ne sont pas nécessairement des langues, comme l’ADN, voire des signaux neuraux. Ceci pourrait aider des généticiens à se focaliser sur les portions d’ADN ayant le plus de valeur et révéler si les différentes parties du cerveau « communiquent » l’une avec l’autre via un code. » Vu le métier de Montemurro, on se doute que c’est vers ce type de recherche qu’il va s’orienter.

C’est peut-être le plus intéressant. Le mystère du manuscrit Voynich est encore loin d’être levé. Mais des recherches sur un livre mystérieux du Moyen Age ou de la Renaissance pourraient nous aider à comprendre le vivant et le cerveau. Qui sait !

En attendant, si vous désirez vous lancer dans le décryptage du manuscrit Voynich, vous en trouverez une version en ligne, la reproduction publiée en 2005 par l’éditeur J.C. Gawsewitch semble malheureusement épuisée.

Rémi Sussan

À lire aussi sur internetactu.net