Comment Google traduit les images en mots – Technology Review

image

Les ingénieurs de Google ont mis au point un algorithme auto-apprenant capable de décrire et légender des images, en utilisant les mêmes techniques que celles qu’ils utilisent pour Google Translate, rapportent la Technology Review et Google Research. L’approche classique de la traduction est un processus itératif qui commence par traduire les mots individuellement puis les réorganise pour l’améliorer. L’approche de Google est différente. Ils comptent le nombre de fois ou les mots apparaissent les uns à côté des autres ou à proximité pour définir des espaces vectoriels et les représente par des combinaisons de vecteurs. Google fait là une hypothèse importante : les mots spécifiques ont une même relation indépendamment de la langue. Par exemple, le vecteur “roi-homme+femme=reine” devrait être vrai dans toutes les langues. Le but : passer d’un problème de traduction à un problème mathématique d’espaces vectoriels. C’est ainsi que fonctionne Google Translate : il génère des vecteurs de phrases puis les utilise pour générer un équivalent dans une autre langue (ainsi, ce n’est pas tant l’anglais qui est la langue pivot dans Google Translate, comme le soulignait récemment Frédéric Kaplan, que les mathématiques, ce qui pose certainement les mêmes problèmes et effets…). 

Oriol Vinyals et ses pairs à Google utilisent une approche similaire pour traduire les images en mots. Plutôt que de produire des mots qui décrivent l’image, leur algorithme produit des vecteurs qui représentent la relation entre les mots. Et ce vecteur peut ensuite être branché sur l’algorithme de traduction pour produire des légendes en n’importe quelle langue. 

Pour tester l’efficacité de la méthode, les chercheurs ont recrutés des gens sur Mechanical Turk pour évaluer la qualité des légendes ainsi produites. Le résultat montre que le nouveau système, Google Neural Image Caption (NIC), fonctionne plutôt bien. NIC a totalisé un taux de 59 %, alors que les techniques de reconnaissance d’image actuelles plafonnent à 25 % et que l’homme atteint plutôt les 69 %. 

À lire aussi sur internetactu.net

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *