Les statistiques au secours de la traduction

Tout récemment, le Nist américain (National Institute of Standards and Technology) a publié un rapport évaluant les capacités des meilleurs logiciels de traduction automatique à traiter le Mandarin et l’Arabe. Et c’est Google qui se retrouve classé premier devant les trente neuf autres compétiteurs. L’origine de ce succès ? L’usage d’une technique qui court-circuite les difficultés liées traditionnellement à la compréhension de la syntaxe et de la sémantique, domaines trop complexes pour nos machines actuelles : les bonnes vieilles statistiques.

Le principe en est le suivant. Dans un texte, l’algorithme isole des morceaux de phrases, puis recherche dans sa base de données les traductions précédentes de ces groupes de mots, pour choisir enfin la version la plus vraisemblable, sans tenir compte de la syntaxe. Evidemment, cette méthode aura d’autant plus de chances de réussir que les exemples figurant dans la mémoire du programme seront nombreux. Elle est donc très adaptée à un moteur de recherche qui dispose d’une quantité impressionnante de textes dans ses archives !

Le rapport du Nist trouve son origine dans les travaux de la Darpa, section R&D de l’armée américaine, ce qui n’est pas spécialement étonnant lorsqu’on connaît l’importance qu’elle accorde à ce type d’applications (voir InternetActu.net : « Quand l’armée américaine recourt à la traduction automatique« ).

Via la Technology Review.

À lire aussi sur internetactu.net

0 commentaires

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *