Réchapper d’un labyrinthe : le nouvel entraînement des intelligences artificielles

Une équipe de chercheurs en science informatique de l’Université du Michigan entraîne désormais ses intelligences artificielles à sortir d’un labyrinthe.

La recherche comportementale (behaviorism, ou comportementalisme) a subit un retour de flamme dans l’après-guerre avec l’essor d’une école scientifique appelée behavioraliste. Cette école s’appropriant les modèles scientifiques psychologiques est née dans un souci de compréhension du comportement des individus au prisme des sciences sociales. Elles y trouvaient de bons outils pour appuyer leurs modèles explicatifs et notamment pour comprendre les dynamiques du vote. Très vite ces théories se sont révélées difficiles à démontrer dans la réalité des choses, et d’autres écoles notamment sociologiques et économiques lui ont succédé.

Le comportementalisme n’a pour sa part pas disparu. De nombreux chercheurs s’y intéressent grandement et ses techniques permettent encore aujourd’hui des avancées dans les divers champs de la psychologie et reste également présente en sociologie.

Jusqu’à présent cette discipline prenait pour sujet d’étude des hommes ou des souris, pour des expériences on ne peut plus lourdes qui visaient à étudier le comportement des souris face aux degrés et variétés de stimulations qu’on pouvait bien leur appliquer. Aujourd’hui, la science informatique a pris une ampleur considérable et ses champs de recherche sont de plus en plus divers. Avec le récent essor de l’intelligence artificielle, il n’en fallait pas plus pour que les ingénieurs en machine learning se saisissent de ces questions comportementales.

Le béhaviorisme, consiste à se concentrer sur le comportement observable d’un individu, comportement qui est déterminé par l’environnement direct dans lequel cet individu est plongé. Aussi, des chercheurs de l’Université du Michigan se servent du jeu-vidéo Minecraft, réputé pour son univers quasi infini de possibilités et où les seules limites sont votre imagination, pour créer des labyrinthes. Un labyrinthe constitue un environnement aux contraintes très fortes et qui déterminent grandement le potentiel de déplacement d’un individu. Ainsi, il est plus facile d’y plonger une intelligence artificielle que dans un univers complètement ouvert et infini comme cela peut être le cas dans Minecraft. Plus le monde est petit et plus le nombre de choix y est proportionnellement réduit. Le labyrinthe offre donc un terrain de jeu rêvé pour les concepteurs d’intelligences artificielles. Dans cet espace circonscrit, et même fortement contraignant, il est plus facile d’y mettre en oeuvre les principales théories de l’apprentissage qui montrent que le processus d’apprentissage, propre aux animaux et surtout à l’Homme se fait des suites d’une confrontation avec des stimulis. Par exemple, si soudainement une contrainte s’efface ou apparaît, l’intelligence, quelle qu’elle soit, va pouvoir réviser la compréhension qu’elle se fait de son environnement. C’est le même procédé qui entre en action lorsqu’un enfant touche le feu pour la première fois. Le stimuli extérieur -la brûlure- lui permettra d’intégrer que le feu peut être dangereux.

Si l’on en croit le MIT Review, les labyrinthes ont d’ailleurs joué un rôle très important dans les études comportementales au cours du siècle dernier. Les scientifiques se sont beaucoup intéressés à la capacité des rats et des souris à apprendre et se souvenir du chemin pour sortir d’un labyrinthe. Avant même l’apparition de l’informatique, les chercheurs s’intéressaient déjà à l’apprentissage par renforcement qui consistait comme aujourd’hui à livrer un rat à son sort dans un environnement complexe et à y placer une récompense quelconque comme un bout de fromage pour motiver la souris à s’y rendre par tous les moyens. Très vite, ils ont appliqué différentes contraintes sensorielles pour voir si les rats pouvaient toujours s’en sortir. Résultat, même avec les yeux bandés, une patte cassé ou les oreilles bouchées, les rats parvenaient à mobiliser d’autres capacités pour s’en sortir. C’est pourquoi nos contemporains s’intéressent de nouveau aux labyrinthes. Sauf qu’ici, leur cobayes ce sont des programmes informatiques.

Il y a déjà plusieurs mois que Microsoft s’est approprié le jeu-vidéo Minecraft pour entraîner ses programmes informatiques à survivre dans un environnement ouvert. Mais dans leur article de recherche, Junhyuk Oh, Valliappa Chockalingam, Satinder Singh et Honglak Lee introduisent une nouvelle technique d’apprentissage par renforcement reposant sur le monde flexible en trois dimensions de Minecraft pour les comparer aux méthodes existantes. Cette méthode permet également de poser des contraintes supplémentaires au programme informatique comme « l’observabilité partielle » qui à l’instar de ses créateurs ne pourra observer son environnement que de son seul point de vu. Cela l’oblige donc à composer avec des informations incomplètes qu’il doit justement chercher à compléter par lui-même en s’aventurant dans le labyrinthe.

Les chercheurs ont commencé par entraîner leur IA sur des labyrinthes très simples…

ai-labyrinthe-simplee

Puis, plus compliqués…

ai-labyrinthe-complexe

Et même très compliqués.

ai-labyrinthe-complexe2

En conclusion de leurs recherches, les scientifiques affirment que leur technique parvient à des résultats meilleurs qu’avec les techniques existantes dans le cadre d’environnements inconnus par le programme. Le but de cette démarche ? Montrer qu’il est possible de livrer une intelligence artificielle à son propre sort dans un environnement partiellement inconnu. Car si de grandes avancées ont été faites dans les domaines de l’apprentissage supervisé et de l’apprentissage par renforcement, il reste beaucoup de chemin avant de pouvoir recréer des systèmes doués d’intelligence véritablement cognitive. L’avantage des labyrinthes conçus sur Minecraft, c’est qu’ils sont très facilement reproductibles et donc partagés et testés par tout utilisateur qui le souhaiterait. Ce n’est pas pour rien que Microsoft l’avait choisi pour créer sa plate-forme open-source AiX.

Dans un avenir proche, l’équipe prévoit « de profiter de l’incroyable flexibilité offerte par le jeu Minecraft pour construire des épreuves cognitives de plus en plus redoutables et entraîner toujours plus nos modèles d’IA » déclarait Junhyuk Oh.

N’ayez crainte nos chercheurs n’en ont pas pour autant abandonné leurs rats. Dernière expérience en date ? Sortie de labyrinthe en réalitié virtuelle…

Lien vers l’article de recherche de l’Université du Michigan.


Laisser un commentaire