Deux articles, publiés dans Nature et dans le New Scientist, se penchent sur les problèmes posés par les nouvelles technologies du « deep learning » et suggèrent quelques solutions. En effet, les nouvelles IA basées sur les réseaux neuronaux complexes du deep learning, ont pour caractéristique d’avoir un fonctionnement opaque pour les humains, y compris pour leurs concepteurs. Une situation qui présente de nombreux désavantages : le premier, évident, est celui de la confiance que nous pouvons accorder aux résultats présentés par ces algorithmes. Si on ignore comment la machine est arrivée à ses conclusions, pouvons-nous être sûrs de la valeur de celles-ci ?
En 2014, nous explique Nature, une équipe dirigée par Jeff Clune, du Laboratoire sur l’évolution de l’IA de l’université du Wyoming, nous a appris que ce problème de « boite noire » est rendu encore plus délicat à cause des erreurs que peuvent commettre les programmes de deep learning. Les machines auraient trop tendance à « voir » des structures significatives au sein d’images abstraites ou aléatoires. A considérer, continue Nature, « que des lignes ondulées décrivent une étoile de mer, ou que des rayures noires et jaunes correspondent à un bus scolaire ». Selon Clune, de tels défauts pourraient même être exploités par des hackers et produire des effets très dangereux. Il serait ainsi possible de « pousser une voiture sans conducteur à confondre un panneau d’affichage avec la route, ou de truquer un système de détection rétinien pour permettre à un intrus d’entrer dans la Maison Blanche, en faisant croire au programme qu’il s’agit de Barak Obama ».
Rendre lisibles les programmes d’IA
Peut-être alors les réseaux neuronaux ne constituent-ils pas la solution optimum ? Nature nous cite ainsi le cas d’Eureqa, un algorithme créé par Hod Lipson et Michael Schhmidt à l’université de Cornell. Ce programme a pu recréer les lois du mouvement de Newton en observant un système de pendules. Nature nous explique qu’Eureqa commence par « une combinaison aléatoire de blocs de construction mathématiques, comme +,-, sinus ou cosinus, puis suit une méthode d’essais et d’erreurs inspirée par l’évolution darwinienne, modifiant les termes de la formule jusqu’à obtenir une équation décrivant au mieux les données. (…) Un des avantages d’un tel procédé est la simplicité, selon Lipson. Un modèle produit par Eureqa ne possède qu’une douzaine de paramètres, un réseau neuronal en a des millions ».
A noter d’ailleurs que la technique utilisée par Eureqa n’est pas née de la dernière pluie : c’est la bonne vieille méthodologie des algorithmes génétiques inventée par John Holland en 1975 et dont Hod Lipson a régulièrement fait usage, comme nous l’avons raconté dans nos colonnes il y a déjà quelque temps.
Une autre possibilité serait de demander au programme d’expliquer ce qu’il fait, comme nous le pointions récemment. Nature mentionne comme exemple le « statisticien automatique » de Zoubin Ghahramani à l’université de Cambridge. Ce programme de Big data repère les patterns significatives, et surtout se montre en mesure de produire un rapport lisible par un humain expliquant les conclusions auquel il est arrivé. Selon Ghahramani un tel niveau de transparence est important non seulement dans le domaine scientifique, mais également dans le domaine commercial. « Par exemple, dit-il, dans de nombreux pays, les banques qui refusent un prêt ont l’obligation légale d’expliquer leurs raisons – quelque chose qu’un algorithme de deep learning pourrait ne pas être en mesure de fournir ».
Revenir à l’IA symbolique
Si Nature s’est surtout posé la question de la confiance et de la lisibilité, le New Scientist, lui, aborde d’autres désavantages typiques des réseaux neuronaux : à cause de leur opacité, il est difficile de transférer les connaissances d’un programme à un autre.
Autre souci, ils sont lents à comprendre et ont besoin d’une énorme masse d’exemples, à l’opposé des êtres humains. Le New Scientist cite à ce propos une phrase du chercheur Andrej Karpathy (blog), qui exprime très bien le problème : «Je ne dois pas jeter ma voiture contre un mur plusieurs centaines de fois avant de me mettre lentement à éviter de le faire. » Sans oublier que parfois, les données sont trop rares pour permettre la mise en œuvre d’un programme de deep learning, comme dans le cas de domaines de recherche très récents, telle l’informatique quantique.
Quelle solution à ces questions, se demande le New Scientist, qui envisage une possible voie de sortie : appeler au secours l’IA « à la papa », ce qu’on appelle « l’intelligence artificielle symbolique ». En effet, si les réseaux de neurones ont déjà une histoire assez ancienne (leur ancêtre, le perceptron, date de 1957), ils n’ont eu le vent en poupe que bien plus tard. Pendant plusieurs décennies, la principale façon de travailler en Intelligence Artificielle était d’accumuler des règles logiques afin de créer des systèmes experts. Dans les années 80, par exemple, le Japon avait promis la création d' »ordinateurs de la cinquième génération » basés sur un tel type d’IA et recourant d’ailleurs à un langage de programmation d’origine française, le Prolog (langage tout à fait original et fascinant, d’ailleurs). Un projet qui n’a jamais vu le jour… Les systèmes experts connurent un certain succès dans les domaines professionnels ou les jeux de stratégies comme les échecs (mais pas le Go), mais rencontrèrent leurs limites lorsqu’il fallut tenter de simuler certaines des fonctions les plus fondamentales du cerveau humain, comme la reconnaissance des formes ou de la parole. Depuis, les réseaux de neurones, notamment sous la forme du deep learning, ont non seulement connu un essor fulgurant, mais se sont même attaqués à des territoires jusqu’ici réservés à l’IA symbolique, comme le jeu de stratégie avec AlphaGo.
Mais l’IA symbolique conserve l’avantage de pouvoir être lue et debuggée. Si on ne peut revenir au passé, peut-être peut-on créer une IA hybride, réunissant le meilleur des deux mondes ? C’est l’essence du travail de Murray Shanahan présenté par le New Scientist. Celui-ci dans un papier récemment publié dans Arxiv, propose un système basé sur ce qu’il appelle le « Deep symbolic reinforcement learning » (« apprentissage profond par renforcement symbolique »). Autrement dit, un programme capable, non pas de rédiger un rapport comme dans le travail de Ghahramani, mais de créer un programme d’IA « symbolique » exprimant de façon lisible un ensemble de principes logiques, de « règles ». Cela revient, nous explique le Guardian qui s’est également penché sur les travaux de Shanahan, à « entraîner le système à enseigner à une autre machine les règles d’un jeu et l’état du monde qui l’entoure, afin que cette dernière puisse formuler en des termes plus abstraits ce qui est en train de se passer ». Ce système aurait un net avantage sur le deep learning. Il aurait besoin de beaucoup moins de data pour apprendre.
Pour vérifier cette capacité à apprendre plus vite, Shanahan et son équipe ont opposé leur programme à l’algorithme « Deep Q-Network » issu du Deepmind de Google, dans un jeu mêlant le tic-tac-toe et Pacman. En gros il s’agit pour un curseur de gagner des points chaque fois qu’il heurte un rond et d’éviter de rencontrer des croix, ce qui lui en fait perdre. Il a fallu 1000 sessions à DQN pour être en mesure de gagner la moitié de ses parties. En revanche l’algorithme de Shanahan n’a eu besoin que de 200 tournois pour vaincre dans 70 % des cas.
Que ce soit l’usage d’algorithmes génétiques par Hod Lipson, ou de l’IA symbolique par Shanahan, ces exemples nous montrent qu’en IA, une technologie n’est jamais complètement obsolète ou abandonnée. C’est par l’hybridation de différentes méthodes les unes anciennes, les autres toutes récentes, qu’on arrivera peut être, un jour, à produire un programme réellement « intelligent ».
Rémi Sussan
0 commentaires
Très bon papier. Deux commentaires.
1/ l’IÀ symbolique n’a pas disparue mais continue son déployement massif massivement entamé au début des années 2000. La montée en visibilité de l’apprentissage cache cette large forêt, c’est tout.
2/ On peut noter que l’automatisation d’une tâche préalablement opérée par une bureaucratie opaque crée la demande sociale et l’espoir de l’ellicitation des critères de décision (voir par exemple l’effet ABP)
Je viens de voir que Murray Shanahan, dont je cite les travaux dans cet article, vient de publier dans Aeon un papier sur la « conscience non-humaine » qui m’a l’air fort intéressant (je ne l’ai pas encore décortiqué). J’y reviendrai probablement bientôt.
Enfin un article qui discute l’opacité et le manque de contrôle du deep-learning. Cogiflex possède une AI hybride. symbolique + machine learning.
– Comme le souligne Patrick Albert, les arbres de décisions (ou plutôt des forêts) sont toujours ce qui se fait de mieux dans certains domaines.
– Les arbres de décision sont certes plus faciles à analyser que les réseaux de neurones, mais d’expérience ça reste difficile car le nombre de noeuds atteint rapidement le millier. Les grands arbres ont tendance à faire du sur-apprentissage (faible généralisation) mais les forêts contre-balancent très bien ces effets
Pour compléter les signalements de Rémi, notons que le MIT News revient sur une autre recherche menée par le Computer Science and Artificial Intelligence Laboratory (CSAIL) pour que les réseaux de neurones fournissent non seulement des prédictions et des classifications, mais aussi des justifications de leurs décisions.