Un robot qui apprend par le toucher ? L’incroyable pari des chercheurs de Carnegie Mellon

la main robotique de Yong-lae Park

De la voiture autonome aux fintech en passant par le Big Data, l’intelligence artificielle promet de révolutionner l’organisation des activités humaines dans de multiples domaines. Pour la première fois, des chercheurs de l’Université Carnegie Mellon ont fait le pari de nourrir leur machine grâce au sens du toucher, sans recourir à des banques de données.

L’apprentissage automatique ou machine learning est un champ de la recherche dont on entend de plus en plus parler. Il consiste à ce qu’un programme informatique, appelé réseau de neurones, apprenne par lui-même à force d’entraînement. C’est ainsi qu’un réseau de plus de trois millions de neurones connectés par Google parvenait dès 2012 à faire la différence entre un chat et une personne, juste en se basant sur des images tirées de vidéos youtube. Et c’est là toute la puissance du géant américain. Il dispose probablement de la plus grande bibliothèque d’informations au monde. Des cartes aux livres numériques en passant par les images et les vidéos, Google a de quoi nourrir ses algorithmes. Plus récemment, sa filiale d’intelligence artificielle Deep Mind a réussi l’exploit de vaincre l’un des tous meilleurs joueurs de Go du monde. Pour arriver à ce niveau, AlphaGo, le programme de DeepMind s’est entraîné seul, au cours de millions de parties, jusqu’à définir les meilleures stratégies et les meilleures réponses à apporter à un nombre incalculable de situations.

Mais cet apprentissage a ses limites puisqu’il ne s’exerce que dans un domaine précis, ce qu’a réussi AlphaGo, même s’il a battu l’un des meilleurs joueurs de Go, son intelligence est incomparable avec l’intelligence humaine, beaucoup plus souple et malléable. Notre intelligence a une capacité d’adaptation dans tous les domaines, que n’a pas la machine, et qui n’excelle par conséquent, pour l’instant, que dans un domaine très restreint.

L’apprentissage par le toucher

Des chercheurs de l’Université Carnegie Mellon travaillent depuis plusieurs années sur l’apprentissage automatique. Mais pour nourrir leur machine, ceux-ci se sont attaqués à une information beaucoup plus difficil à mesurer : le toucher. Pour ce faire, les mains robotisées qu’ils ont créées sont équipées de capteurs optiques. Ils ont mis au point un système nerveux artificiel qui repose sur des interactions physiques. Il permet au robot de sentir ou de détecter les contacts tout du moins.

la main robotique de Yong-lae Park

Dans leur papier intitulé « Drôle de robot : l’apprentissage de représentations visuelles grâce à l’interaction physique » les chercheurs mettent ainsi l’accent sur l’interactivité et le toucher, par opposition à l’utilisation de banques de données et de l’étiquetage comme c’est habituellement le cas (cf Google et les chats). C’est à dire que la machine qu’ils ont conçue apprend grâce au toucher. Leur constat ? Les « être biologiques recourent à l’exploration active et les interactions physiques avec le monde pour concevoir des représentations visuelles » à l’inverse des « systèmes actuels qui reposent sur l’observation passive (images et vidéo)« . Face à ce constat, ils ont créé un robot qui touche, repousse et attrape des objets. Conclusion, grâce à cette méthode, le programme construit un univers visuel plus précis que s’ils avaient utilisé des données externes.

En clair, les chercheurs de Carnegie Mellon ont mis leur robot et programme dans une posture beaucoup plus pro-active, qui ne nécessite pas la supervision d’un être humain. Il ne s’agit pas de nourrir la machine avec des quantités innombrables de données, mais de l’amener à se construire ses propres représentations visuelles grâce au toucher, comme nous le faisons nous-mêmes. « Dans cet article, nous brisons le paradigme traditionnel qui aborde le visual learning depuis l’observation passive de données : images ou vidéos. Nous défendons l’idée que l’avenir du visual learning repose sur l’exploration active de notre monde ».

Pour cela, ils ont créé un système physique, par le biais d’un robot Baxter, muni d’un crochet et de capteurs sensibles. A mesure que le robot interagit avec le monde, il développe une compréhension visuelle. Concrètement, le robot attrape des objets, tourne autour pour les saisir par différents endroits et nourrit ainsi progressivement son imaginaire visuel grâce aux mesures haptiques. Il peut ainsi déterminer précisément si l’objet est courbé, plus ou moins robuste, plus ou moins grand etc…

Le professeur Yong-lae Park, qui supervise la recherche est également le créateur de capteurs optiques particulièrement innovants. L’année dernière il présentait ses capteurs optiques qui mesurent le contact, la courbure et même l’étirement d’un objet. Constatnt que les capteurs optiques conventionnels en fibre de verre étaient trop rigides, l’ingénieur a inventé un capteur étirable en combinant différents caoutchouc que l’on trouve dans le commerce. Les dispositifs en silicone sont parcourus d’or. Ainsi quand le silicone est étiré ou courbé, la lumière intérieure s’échappe plus ou moins facilement. Et c’est en mesurant la perte de luminosité que les chercheurs peuvent calculer le degré d’étirement ou de déformation.

les capteurs optiques de la main robotique de Yong-lae Park

carnegie-mellon-robot-toucher-2016-3

A ce jour, l’échantillon de test des chercheurs de la Carnegie Mellon University est composé de 40 287 prises, 5 472 poussées, 1372 observations tactiles et 84 430 points de vues, ce qui donne plus de 130 000 datapoints pour alimenter leur architecture ConvNet. Cette architecture est l’aboutissement de ces entraînements. C’est le programme nourri par les expériences et qui a développé une certaine compréhension du monde physique, un programme appelé « réseau de neurones convolutionnel ». L’efficacité de ce super algorithme a ensuite été testée au cours d’une épreuve de classification d’images. Il lui était demandé de classer des images d’objets, par catégorie, en se basant sur ce qu’il avait appris grâce à ses nombreuses interactions. Résultat, le programme ConvNet avait un taux de précision de 33%, contre 25% pour le même programme dépourvu de l’expérience sensorielle, et ce, en utilisant une base d’images appelée ImageNet (100 objets). Les chercheurs ont renouvelé le test avec une autre base d’environ 300 objets rentrants dans 51 catégories. Résultat encore plus bluffant, avec un taux de réussite de 58,7% contre 46,8% pour le programme sans entraînement tactile.

Ci-dessous, vous pouvez voir un aperçu du tri des objets réalisé par le programme. Fait notable : la machine assimile par elle-même les tasses à des bols alors que rien n’y prêtait, si ce n’est l’aspect sphérique et creux.

catégorisation des objets ConvNet après apprentissage

Lien vers l’article de recherche de Lerrel Pinto, Dhiraj Gandhi, Yuanfeng Han, Yong-Lae Park et Abhinav Gupta.


Laisser un commentaire