Combien faut-il d’ordinateurs pour identifier un chat ?

Par le 09/07/12 | 1 commentaire | 3,214 lectures | Impression

La lecture de la semaine, il s’agit d’un article du New York Times, sous la plume de John Markoff (@markoff), il s’intitule : “Combien faut-il d’ordinateurs pour identifier un chat ?”

“A l’intérieur du très secret Laboratoire X de Google, commence Markoff, laboratoire connu pour inventer des voitures automatiques et des lunettes à vision augmentée, un petit groupe de chercheurs a commencé il y a plusieurs années déjà à travailler sur la simulation du cerveau humain. Ils ont créé une machine apprenante, composée du plus grand circuit neuronal existant, 16 000 processeurs d’ordinateur connectés les uns aux autres, une machine qu’ils laissent se perdre sur Internet afin qu’elle apprenne par elle-même. En contact avec 10 millions d’images numériques trouvées sur les vidéos de Youtube, qu’a fait le cerveau de Google ? Ce que font des millions d’êtres humains sur Youtube : il a cherché des chats.

cat-videos-20110415-144546

Le réseau neuronal a appris par lui-même à reconnaitre les chats, ce qui n’est pas une activité frivole. Si les chercheurs n’ont pas découvert à cette occasion que l’internet était rempli de chats, la simulation les a surpris. Elle a beaucoup mieux fonctionné que toutes celles qui l’ont précédée, en doublant à peu près sa précision dans la reconnaissance d’objets. Ce travail est représentatif d’une nouvelle génération de la science informatique qui exploite la chute des coûts du matériel et la disponibilité de gigantesques centres de données. Et cela permet des avancées significatives dans des champs aussi différents que la vision par ordinateur, la reconnaissance vocale et la traduction. Bien que certaines des idées de la science informatique ne soient pas neuves, la simple échelle des simulations logicielles mène à des systèmes apprenants qui étaient inimaginables auparavant. Et les chercheurs de Google ne sont pas seuls à exploiter ces techniques qu’on appelle des modèles de deep learning, “apprentissage profond”. L’an dernier, des chercheurs de Microsoft ont présenté une étude montrant que ces techniques pouvaient s’appliquer aussi bien à la construction de systèmes informatiques qui peuvent comprendre le langage humain.

Et puis, bien sûr, il y a les chats. Pour les trouver, l’équipe de recherche a utilisé un assemblage de 16 000 processeurs pour créer un réseau neuronal avec plus d’un milliard de connexions. Ils les ont ensuite alimentés au hasard de vignettes extraites de 10 000 millions de vidéos Youtube. Ce qui rend ce travail particulièrement saisissant, c’est que le réseau neuronal à base logicielle créé par les chercheurs est assez proche des théories des neurones miroirs développés par les biologistes, théories selon lesquelles les neurones individuels sont entraînés dans le cerveau à détecter des objets signifiants. La plupart des technologies de vision par ordinateur existantes supposent des êtres humains qui supervisent le processus d’apprentissage en labellisant les traits distinctifs. Dans la recherche de Google, les machines le font sans aucune aide. Un des scientifiques explique : “L’idée est qu’au lieu d’avoir des équipes de chercheurs qui essaient de trouver comment identifier des contours, vous envoyez une tonne de données à l’algorithme, vous laissez parler les données et le logiciel apprend automatiquement des données.” Un autre ajoute : “Pendant l’entraînement, nous n’avons jamais dit à a machine « Ceci est un chat » elle a fondamentalement inventé le concept de chat.” Ce qui en fait, selon les scientifiques qui ont mené l’expérience, une sorte de cousin cybernétique de ce qui tient lieu de cortex visuel dans le cerveau.

Mais, il y a une différence, note un des chercheurs : malgré l’immense capacité informatique utilisée, ça n’est rien comparé au nombre de connexions ayant lieu dans le cerveau. “Notre réseau est encore petit comparé au cortex visuel de l’homme, qui est un million de fois plus gros en termes de nombre de neurones et de synapses”, indique le compte-rendu de l’étude. Malgré cette différence, l’étude de Google apporte une nouvelle preuve que les algorithmes des machines apprenante qui existent aujourd’hui s’améliorent nettement quand on fournit à ces machines un grand nombre de données. L’expérience menée sous l’égide de Google est une avancée manifeste, à tel point qu’un chercheur en Informatique de Georgia Tech prédit que l’aptitude à modéliser un cortex visuel humain dans sa totalité pourrait être atteinte d’ici dix ans. Malgré ce succès, les chercheurs de Google demeurent prudents sur le fait qu’ils aient atteint le Saint Graal de machines qui peuvent apprendre par elles-mêmes. La conclusion du chercheur qui a mené l’expérience : “Ce serait fantastique qu’il suffise d’utiliser des algorithmes connus et de les faire tourner avec plus de données, mais mon sentiment profond est que n’avons pas encore le bon algorithme.”

Xavier de la Porte

Xavier de la Porte (@xporte), producteur de l’émission Place de la Toile sur France Culture, réalise chaque semaine une intéressante lecture d’un article de l’actualité dans le cadre de son émission.

L’émission du 7 juillet était consacrée aux Monnaies à l’heure du numérique, en compagnie de Jean-Michel Cornu (@jmichelcornu), auteur De l’innovation monétaire aux monnaies de l’innovation (voir notre dossier) et animateur du groupe de travail de la Fing dédié à ces questions.

Il n’y aura pas d’émission le 14 juillet (contrairement à ce qui était prévu initialement, il y a eut une émission le 14 juillet) et vous retrouverez Xavier de la Porte pour une dernière émission de l’année (sans lecture) le 21 juillet qui accueillera Clive Thompson (@pomeranian99), le célèbre éditorialiste du magazine américain Wired. Toute l’équipe de Place de la Toile vous souhaite de bonnes vacances et vous retrouvera à la rentrée !