Reconnaissance des images : quand les humains se trompent aussi

Malgré les progrès dans l’algorithmique et l’évolution de la puissance des machines, le domaine de la reconnaissance d’images est loin d’avoir atteint la perfection. Les ordinateurs ne reconnaissent le sujet que dans 30 % à 40 % des cas, nous apprend MIT News qui relate le travail d’une équipe de chercheurs (.pdf) qui a trouvé un moyen original de réfléchir au problème, à défaut de le résoudre.

Les limites de la reconnaissance d’images pourraient s’expliquer de deux manières. Soit les algorithmes sont incorrects, soit il existe un problème de Big Data : il manque trop d’informations pour que le programme puisse accomplir sa tâche.

La technique la plus utilisée dans ce domaine, nous apprend le communiqué du MIT, est le HOG (pour Histogramme de gradient orienté). Il s’agit de diviser l’image en petits carrés en général de 8 pixels de côté. Ensuite, pour chacun de ces carrés, le système assigne un « gradient », c’est-à-dire un changement de couleur, de direction, d’orientation, etc. Pour caractériser le gradient, on utilise jusqu’à 32 variables. Et 32 variables, pour des milliers de petits carrés, ça fait vraiment beaucoup. Avec pour conséquence que les développeurs ne savent plus très bien ce que leur programme produit et sur quoi il travaille.


Image : Rémi Sussan « Hogisé ».

Au final, comme l’explique Alexei Efros, professeur associé d’informatique et d’ingénierie électrique à l’université de Berkeley : « Je pense qu’avoir une grande quantité de data est une chose importante en science informatique, mais l’effet secondaire négatif c’est que les nouveaux étudiants et chercheurs… ne regardent plus les pixels. Ils sont tellement engloutis par les data, il y a tant d’images, qu’ils les traitent comme s’il s’agissait de données boursières, ou bio-informatiques, ou n’importe quel autre type de data. Ils se contentent de regarder des graphes, des courbes, des tableaux. »

Avec pour résultat, continue en substance Efros, qu’en cas d’erreur, la seule chose que puisse faire un développeur est de regarder ses données et son code et de clamer « je ne comprend pas pourquoi ça ne marche pas ! »

Voir comme un ordinateur

C’est là que se situe l’innovation de l’équipe du MIT. Les chercheurs se sont demandé comment les humains se débrouilleraient s’ils voyaient les mêmes images que les machines. Autrement dit, ils ont inversé le processus. Une fois l’image « préparée » et filtrée par l’algorithme HOG, ils l’ont retransformée en une illustration susceptible d’être regardée par chacun d’entre nous.

Le résultat est significatif : lorsque ces images traitées sont présentées aux spectateurs humains, ceux-ci font aussi de nombreuses erreurs, et pratiquement les mêmes que celles commises par les machines.

Le plus simple est de se rendre sur le site des expérimentateurs, où l’on trouve toute une série d’images cliquables. Par exemple, il y a toute une série de photos représentant une visualisation HOG et ressemblant, parfois de façon très claire, à un être humain. Si vous cliquez sur ces images, vous découvrirez, ô surprise, que les silhouettes humaines en question représentent en réalité toute autre chose : par exemple, la première d’entre elles semble nous montrer, de manière assez explicite, une jeune femme se tenant devant un miroir. Il s’agit en réalité d’une aile d’avion sur un fond nuageux. Une autre image nous montre une silhouette humaine debout. Il s’agit en fait… des jambes d’une vache. Dans la rubrique « voiture », l’image traitée d’un véhicule provient en fait des mouvements de l’eau au sein d’une mare.


A noter que sur le même site vous pouvez vous amuser à soumettre au système des images de votre cru, et voir en quelques secondes la vision qu’en aurait un ordinateur.

Selon MIT news, l’incompétence des ordinateurs à reconnaître les images ne serait dû ni à une fausseté des algorithmes de reconnaissance et d’apprentissage, ni à un manque de données. Ce serait plutôt les caractéristiques choisies pour décrypter l’image qui seraient en cause. Comme le souligne le communiqué du MIT, cette recherche réintroduit le rôle de la perception intuitive dans un domaine jusqu’ici trop dominé par les chiffres. Un argument supplémentaire en faveur de l’idée que le regard humain restera encore longtemps irremplaçable, même dans le domaine très abstrait de l’intelligence artificielle.

via Machines like us

À lire aussi sur internetactu.net

0 commentaires

  1. La conclusion me paraît un peu hâtive. On pourrait, en effet, traiter les images comme « la perception intuitive », de manière « vectorielle ». Les algorithmes sont peut-être justes, sauf pour traiter des images …