Les limites du deep learning et comment les dépasser

Un très long article de la Technology Review pointe les problématiques actuelles des technologies du deep learning et ouvre quelques portes sur les nouvelles recherches en IA. En fait, l’article est largement consacré à Geoffrey Hinton l’inventeur de cette technologie, et met l’accent sur un point généralement oublié : le deep learning n’est pas une nouvelle technologie, elle est assez ancienne au contraire.

Pourquoi l’IA a besoin du big data


Au centre du « deep learning » se trouve la technique dite de rétropropagation, développée par Hinton dans un papier de 1986. C’est cette méthode qui permet à un programme d’apprendre. Un réseau neuronal est composé de petites unités, les « neurones » qui s’activent lorsqu’elles reçoivent suffisamment d’inputs de la part d’autres neurones pour dépasser un certain seuil. Par exemple nous explique la Technology Review, un tel système peut être utilisé pour reconnaitre la présence d’un hot-dog dans une image.

Au sommet du réseau, nous explique encore l’article, se trouvent par exemple deux neurones, l’un s’activant à la vue d’un hot-dog, l’autre quand on contraire il n’y en pas. On entraine ensuite le système en lui montrant une série d’images, le plus grand nombre possible. Si, une fois en situation, le programme se trompe, s’il voit un hot-dog là où il ne s’en trouve pas, on voit quels sont les neurones de l’avant-dernière couche qui ont activé par erreur le mauvais signal. On change alors leur niveau d’activation. Puis on passe au niveau précédent, l’avant-avant-dernier niveau, pour voir là encore comment de « mauvais » neurones ont été activés, et ainsi de suite jusqu’à la première couche.

C’est en 2012 que Hinton a pu démontrer sa capacité à effectuer une reconnaissance d’images très efficace. Toutefois, comme le précise la revue du MIT, le caractère plutôt ancien du « deep learning » nous conduit à nous interroger sur la signification de son explosion actuelle :

« L’IA aujourd’hui, c’est le deep learning. Et le deep learning c’est la rétropropagation – ce qui est étonnant lorsqu’on pense que cette technique a plus de 30 ans d’âge…. Peut-être ne sommes-nous pas au commencement d’une révolution, mais à sa fin. »

Car, continue le magazine, ces systèmes ne constituent guère une avancée sur la façon dont les machines peuvent comprendre le monde. Ce sont juste des systèmes de reconnaissance de patterns, de schémas.

Un ordinateur qui voit une pile de beignets empilés sur une table et la décrit automatiquement comme « une pile de beignets empilés sur une table » semble comprendre le monde ; mais quand ce même programme voit une fille se brosser les dents et dit «Le garçon tient une batte de baseball», vous réalisez à quel point cette compréhension est faible, si même elle n’a jamais existé.

L’intelligence des machines si toutefois on peut l’appeler ainsi, repose avant tout sur le big data : pour entraîner la machine à reconnaître des hot-dogs, il faut lui montrer des milliers d’images de hot-dogs. Au contraire, un bébé peut reconnaître un hot-dog après en avoir vu un seul.

Le gros problème, c’est qu’on n’a pas de théorie de l’intelligence, nous permettant de comprendre comment elle fonctionne. C’est pourquoi depuis les travaux de Hinton les progrès en IA ont été plus le fait de l’ingénierie (voire, nous dit le magazine, du « bricolage » ) que de la science proprement dite. On ajoute tel ou tel perfectionnement à l’algorithme, et on procède par essai et erreur.

Donner aux machines une connaissance du monde


Comment aller plus loin ? Manifestement le deep learning est insuffisant pour créer une véritable intelligence artificielle, analogue à celle des êtres humains. Autrement dit, comment la doter de « sens commun » ?, une question qui se pose depuis l’invention du domaine en 1956 et qui n’a jamais été résolue.

Une problématique d’autant plus importante lorsque la sécurité physique des personnes est en jeu, comme c’est le cas avec les voitures autonomes. Un autre article de la Technology Review nous présente une startup issue du MIT, ISee.ai qui cherche à s’inspirer des sciences cognitives et donc de la psychologie humaine, pour équiper les futurs véhicules.

La plupart des humains utilisent le sens commun pour conduire, d’une manière qu’un système de reconnaissance de patterns basé sur le big data ne peut égaler, précise l’article : les conducteurs humains « savent, par exemple, que les autobus prennent plus de temps pour s’arrêter et peuvent soudainement produire beaucoup de piétons. Il serait impossible de programmer une voiture autonome avec tous les scénarios possibles qu’elle pourrait rencontrer. Mais les gens sont capables d’utiliser leur compréhension commune du monde, construite à travers l’expérience de la vie, pour agir judicieusement dans toutes sortes de nouvelles situations. »

Mais comment faire ? On sait que les fondateurs de ISee sont issus du labo d’un professeur du MIT, Joshua Tenenbaum, qui travaille sur une technique qui permet d’éviter à la fois l’écueil de la programmation IA traditionnelle, qui repose sur des règles figées et les techniques de big learning qui exigent un entraînement sur des milliers de données. Celui-ci a réussi, en compagnie de deux autres chercheurs, Brenden Lake et Ruslan Salakhutdinov à créer un système logiciel capable de reconnaître un caractère manuscrit après avoir été mis en face d’un seul exemple. La méthodologie impliquée se nomme le Bayesian Program Learning Framework. En gros, si l’on suit cet autre article de la Technology Review, le système génère pour chaque caractère un programme spécifique susceptible de le générer puis infère une série de probabilités pour définir quel sera l’action suivante à accomplir. « La clé de la programmation probabiliste – et plutôt différente de la façon dont fonctionne le deep learning – est qu’elle commence par un programme qui décrit les processus causaux qui existent dans le monde… Ce que nous essayons d’apprendre n’est pas une signature ou un pattern de caractéristiques. Nous essayons d’apprendre à un programme comment générer ces caractères. » Autrement dit on apprend à l’ordinateur à « écrire » le caractère en question pour qu’il puisse le reconnaître. A l’aide de ce genre de méthode, on espère que l’ordinateur sera en mesure d’observer un comportement nouveau, de le subdiviser en sous-parties, puis d’être capable de prédire les résultats d’une action, même si celle-ci se présente pour la première fois. Le but de telles recherches est de deviner l’intention derrière une action, ce qui bien évidemment est vital dans le domaine de la conduite autonome. Dans son labo, Tenenbaum s’intéresse aux mécanismes de la cognition chez les enfants et les adultes, et pas uniquement à l’intelligence artificielle : « Ces deux programmes sont inséparables, écrit-il sur sa page personnelle : rapprocher les algorithmes d’apprentissage automatique des capacités d’apprentissage humain devrait conduire à des systèmes IA plus performants ainsi qu’à des paradigmes théoriques plus puissants pour comprendre la cognition humaine« .

Retour aux sciences cognitives


L’avenir de l’IA dépendrait donc d’un retour aux sciences cognitives, à la psychologie humaine. Si la Technology Review se concentre sur les chercheurs du MIT et assimilés (ce qui est normal vu que ce magazine est une publication du MIT), c’est un sentiment partagé par d’autres membres de la communauté IA ; c’est le cas par exemple de l’auteur et chercheur Gary Marcus, qui écrit, dans un article publié cet été dans le New York Times : « Il n’y a pas si longtemps, par exemple, alors que j’étais assis dans un café, ma fille de 3 ans réalisait spontanément qu’elle pouvait descendre de sa chaise d’une nouvelle manière : vers l’arrière, en glissant entre le dossier et le siège de la chaise. Ma fille n’avait jamais vu quelqu’un d’autre agir de cette façon ; elle l’a inventée seule – et sans le bénéfice d’essais et d’erreurs, ou avoir besoin de téraoctets de données étiquetées. »

Et, continue-t-il, « Je suppose que ma fille s’est basée sur une théorie implicite sur la façon dont son corps se déplace, ainsi qu’une théorie implicite sur la physique – comment un objet complexe passe par l’ouverture d’un autre. Je défie n’importe quel robot de faire de même. »

Pour Marcus, il faut maintenant apprendre à joindre les approches « bottom-up » et « top-down » de l’intelligence : « La connaissance bottom-up, c’est le genre d’informations brutes que nous recevons directement de nos sens, comme des motifs de lumière tombant sur notre rétine. La connaissance top-down comprend les modèles cognitifs du monde et comment celui-ci fonctionne. »

Finalement, ne sommes-nous pas face à un serpent qui se mord la queue ? Pendant des années on a cherché à donner aux machines de tels modèles du monde, à leur enseigner le « sens commun ». Un projet comme Cyc de Douglas Lenat (qui date tout de même de 1984 !) n’avait pas d’autre but. Puis on a abandonné cette voie en faveur des réseaux de neurones, pour découvrir peut-être qu’aujourd’hui on a jeté le bébé avec l’eau du bain.

Rémi Sussan

À lire aussi sur internetactu.net