On parle de plus en plus d’une nouvelle technique d’intelligence artificielle (IA), le deep learning, qui ferait des miracles en matière de reconnaissance et classification de données. En 2012, Google créa l’événement en utilisant cette série d’algorithmes pour reconnaître des chats sur les images (activité principale des internautes, comme chacun sait), avec un taux de succès de 70 % supérieur aux méthodes concurrentes. Depuis, le deep learning est employé, entre autres, par Microsoft (afin de permettre une traduction en temps réel des conversations Skype) ou encore Facebook, qui a engagé récemment l’un des plus grands spécialistes du domaine, le français Yann LeCun. Dans un récent article, Wired fait le point sur les succès de cette technologie, mais pointe surtout un aspect peu connu et particulièrement intéressant : non, pas besoin d’être un GAFA, un des géants du net disposant des milliers de machines pour faire du deep learning !
Un réseau de neurones sophistiqué
Mais c’est quoi, le deep learning ? La Wikipedia (anglo-saxonne, il n’existe pas d’entrée sur le sujet en français) commence l’article consacré au sujet ainsi : « Le deep learning est un ensemble d’algorithmes de machine learning cherchant à modéliser des abstractions de haut niveau au sein des données en utilisant des architectures de modèles composés de multiples transformations non linéaires. »
Comment peut-on être plus clair ?
Une meilleure (et surtout plus simple !) explication du deep learning se trouve dans un article du New Yorker écrit en 2012 par le psychologue Gary Marcus, qui écrit souvent sur ces sujets pour le magazine.
A l’origine, il y avait les « réseaux de neurones », des programmes qui cherchaient à modéliser le cerveau en recourant à des neurones formels, qui étaient susceptibles de s’activer en fonction des inputs qu’ils recevaient de leurs congénères. Marcus en raconte l’histoire, faite, comme souvent dans ce domaine, de hauts et de bas. Le premier type de réseau de neurones, le perceptron, a été créé en 1957. Le perceptron avait des défauts de conception graves, ainsi que le prouva, en 1969, Marvin Minsky, ponte bien connu de l’IA. Par exemple, il n’était pas capable d’effectuer un OU exclusif (fromage OU dessert). Le principal défaut du perceptron est qu’il était grosso modo constitué de seulement deux couches de neurones, les capteurs, qui recevaient des informations du monde extérieur, et des « neurones de décision » activés par la première couche.
L’échec du perceptron a bloqué un moment la recherche sur ce type de modèle. Mais dans les années 80, les réseaux de neurones sont revenus en force, en partie grâce aux travaux de Geoffrey Hinton. Le secret de leur nouvelle efficacité était l’adjonction d’une couche de neurones intermédiaire, entre la perception et la décision.
Mais, continue à nous expliquer Marcus, les nouveaux réseaux de neurones ne résolvaient pas tous les problèmes. L’apprentissage, notamment, était difficile et, là aussi, les limites étaient rapidement atteintes. Gary Marcus (qui n’est pas seulement un auteur, mais aussi un chercheur) montra ainsi en compagnie du fameux psychologue Stephen Pinker que ces réseaux de neurones avaient la plus grande difficulté à acquérir la conjugaison des verbes au passé, par exemple.
En 2006, Geoffrey Hinton revint avec encore un nouveau modèle de réseau neuronal, celui qui est justement appelé « deep learning ». Cette fois, les différentes couches de neurones effectuent un apprentissage hiérarchique. Autrement dit, elles cherchent d’abord à catégoriser les éléments les plus simples de l’information avant de passer aux plus compliqués. Il faut comprendre, continue Marcus, que le système apprend à reconnaître les « lettres » avant de s’attaquer aux mots. Lorsque le programme a accumulé les informations sur les éléments de base, « atomiques », il peut alors les réorganiser de différentes manières en blocs plus complexes. Cela permet ce qu’on appelle l’apprentissage non supervisé : pas besoin d’une cohorte de programmeurs derrière l’ordinateur pour lui indiquer quoi apprendre et si ses catégorisations sont bonnes. Le système apprend tout seul.
Le jeu vidéo au secours de l’IA
Le deep learning est donc devenu la coqueluche des GAFAs, comme on l’a vu, mais cet engouement a un coût. Pour reconnaître les chats, Google n’a pas mis en branle moins de 16 000 serveurs. Cela signifie-t-il pour autant que seules les grosses entreprises peuvent utiliser cet algorithme ?
Pour Wired, ce n’est pas le cas. En effet, nous raconte-t-on, l’année même ou Google enregistrait son fameux succès sur la reconnaissance des chats, un chercheur, Alex Krizhevsky, se montrait capable de faire mieux avec une seule machine (.pdf). Du moins lorsqu’il s’agissait de reconnaître une image particulière. Comment Krizhevsky a-t-il accompli cette prouesse ?
On l’a vu, le « deep learning » repose sur les réseaux de neurones. Cela implique des centaines, voire des milliers d’unités actives fonctionnant en parallèle : dans le cas de Google, 16 000 processeurs égalent donc 16 000 neurones.
Mais en plus du processeur central (la CPU : Central Processsing Unit), les ordinateurs sont munis de cartes graphiques, les GPU (Graphic Processing Units). Celles-ci contiennent un grand nombre de processeurs fonctionnant simultanément afin d’exécuter rapidement les tâches réservées à l’affichage. Selon Wired, un ordinateur spécialisé dans le graphisme contient environ 2 000 processeurs graphiques (par exemple, la Radeon 5 8702 possède 1 600 unités). Or, rien n’empêche d’utiliser les cartes graphiques pour effectuer des calculs qui n’ont rien à voir avec l’affichage…
Inutile de souligner que la machine de Krizhevsky n’était pas un PC de base : il a utilisé pour sa démonstration une machine avec deux GPUs. La proximité des deux cartes avait aussi son importance. Les deux unités pouvaient rapidement travailler de concert, sans envoyer constamment des données via le réseau, avec les limites inhérentes à la bande passante. Mais il faut être réaliste. Comme le souligne l’article de Wired, des sociétés comme Google ont l’avantage de posséder un énorme dataset, et lorsqu’on traite des millions d’informations, il vaut mieux avoir beaucoup d’ordinateurs à disposition… L’expérience de Krizhevsky ne portait que sur l’identification d’une seule image !
Ceci dit, continue l’article, il est possible à des sociétés modestes ou à des chercheurs, de recourir à des algorithmes de deep learning avec des machines uniques tant que la quantité de données qu’ils traitent reste limitée. Cela permet à de petites startups d’utiliser ces systèmes à l’ombre de Google ou de Facebook. L’article mentionne ainsi Kaggle, un site sur lequel des « data scientists » du monde entier entrent en compétition pour résoudre des problèmes posés par des organisations ou des entreprises (sur ce sujet, voir aussi cet article du Monde ou celui d’InternetActu). Nombre de ces chercheurs utilisent les algorithmes (souvent en open source) du deep learning avec des machines uniques dotées d’une seule carte graphique. Comme l’a expliqué Ben Hamner, qui dirige la section scientifique de Kaggle : « Nous prenons la technologie utilisée pour les graphismes et les jeux vidéos et l’appliquons à des fins scientifiques ».
Reste à savoir jusqu’où va ce « deep learning ». Est-ce enfin l’avènement de l’intelligence artificielle « forte » susceptible de concurrencer l’esprit humain ? Pour une petite piqûre de sobriété, rien de mieux que retourner à l’article de Marcus dans le New Yorker. Et celui-ci de nous rappeler que si la technique du deep learning a obtenu des performances de 70 % supérieures à celles recourant à d’autres méthodes, les ordinateurs n’ont quand même reconnu qu’un sixième de leurs cibles en moyenne. C’est fou comme on leur fait dire ce qu’on veut, aux chiffres.
Le deep learning permettra-t-il par exemple à une machine de comprendre une histoire ? Marcus en a discuté avec Peter Norvig, qui dirige les recherches chez Google et qui est devenu un enthousiaste du deep learning : « Le groupe de Norvig travaille actuellement avec Hinton, et Norvig est évidemment très intéressé de voir ce que va apporter Hinton. Mais même Norvig ne voit pas comment on pourrait construire une machine susceptible de comprendre des histoires en utilisant uniquement le deep learning. »
L’article de Marcus date de 2012. Il serait intéressant de savoir ce que Norvig pense aujourd’hui !
Rémi Sussan
0 commentaires
Le « deep learning » est un terme marketing qui vise à faire croire que les algorithmes à vendre ont quelque chose de nouveau par rapport à leurs prédécesseurs. En réalité, il n’y a pas un avant et un après le deep learning, comme ça pu être le cas avec certaines techniques de machine learning. Les techniques du deep learning existent depuis longtemps. Elles ont bien sûr été améliorées mais par petites touches : il n’y a pas eu de révolution. Ça ne change rien aux prospectives sur l’IA forte.
342929 723399Its like you read my mind! You appear to know a whole lot about this, like you wrote the book in it or something. I believe which you could do with several pics to drive the message home a bit, but other than that, this really is wonderful weblog. A fantastic read. I