Watson Beat : la création musicale artificielle par IBM

Le laboratoire de recherche de la firme américaine, IBM Research, travaille depuis de nombreuses années sur les réseaux de neurones et les systèmes cognitifs. Depuis peu, le laboratoire travaille à développer un programme capable de jouer de la musique.

Après le Chef de cuisine Watson, voici Watson Beat, l’apprenti musicien. L’experte en machine learning Janani Mukundan n’a rien d’une rockstar. En fait c’est tout l’inverse. Elle n’a aucune compétence quelconque en musique, mais ce qu’elle sait faire mieux que quiconque, c’est de programmer des machines. En s’association avec Richard Daskas, compositeur professionnel, Janani Mukundan va pouvoir donner vie à ses ambitions musicales.

Actuellement, la chercheuse travaille tout spécialement sur la Machine Boltzmann restreinte (RBM), qui consiste en un type particulier de réseau de neurones artificiels. Le concept est né en 1986 sous la plume de Paul Smolensky, professeur de sciences cognitives à l’université Johns-Hopkins et a depuis été utilisé en deep learning. « Très simplement, une RBM, c’est un réseau de neurones stochastique. C’est une couche d’unités neuronales visibles, superposée d’une couche d’unités cachées. L’idée étant que la couche visible capture l’information de variation de pitch et autres variables tandis que la couche cachée extrait une partie des ces informations pour qu’ensuite le programme les digère » précise-t-elle.

Cette fine équipe, associant deux profils bien distincts, s’est donnée pour mission d’apprendre à Watson l’art de la musique. Le rythme, les gammes, les genres, les différents pitchs… ils ont absolument tout appris à l’intelligence artificielle. Le tout a débouché sur une série d’algorithmes permettant de trier et de digérer toutes ces informations a priori non objectives. A priori, car c’est bien là le but de cette démarche que de parvenir à traiter ces données.

Grâce à cet entraînement intensif, Watson Beat est supposé être en mesure de dire ce qui plaît et ne plaît pas à l’Homme, comme un rythme saccadé ou des mélodies trop irrégulières… « Watson Beat sait ce qui sonne bien. Partant de cet input, il sait par exemple que si un utilisateur cherche une chanson « sombre » ou « mélancolique », il faut lui proposer une mélodie en clé mineure » explique Janani.

Car en réalité, si la musique est un art et comporte une part de subjectivité, elle est avant tout une science du son, qui lui permet donc d’être interprétée mathématiquement. Puisque le son ne consiste en fait qu’en une vibration créant des ondes, elles peuvent donc être mesurées empiriquement. Chaque variation rythmique et sonore peut être exprimée en chiffres et donc comprise par Watson. « En réalité, c’est beaucoup plus simple d’apprendre la grammaire musicale à un programme que le langage naturel, car ses règles sémantiques et grammaticales sont beaucoup plus simples » ajoute-t-elle.

Et puis à force de requêtes et d’expériences, comme tous les programmes cognitifs d’IBM, Watson apprend et renforce sa compréhension des demandes. Soumettez vos envies à Watson et en moins de 15 secondes, il sera capable de vous sortir une chanson à plusieurs instruments et de plusieurs minutes.

Avec cette méthode de traduction du langage musical en langage informatique, les chercheurs sont tout à fait en mesure de copier au décibel près un morceau de musique. « Mais ce n’est pas ce que nous voulons. Ce que nous cherchons à faire, c’est tout simplement de créer une toute nouvelle musique« . Pour cela, il leur suffit de bousculer un peu le modèle de manière à ce que la chanson soit familière tout en étant différente.

Quels débouchés pour un tel outil ? Des tonnes ! « Imaginons que vous en ayez assez d’écouter toujours les mêmes musiques, il suffirait de laisser l’ordinateur en créer une toute nouvelle« . Mieux que les algorithmes de ciblage dont raffolent le web, un programme informatique de musique suffisamment fin serait capable non seulement de mieux proposer des musiques qui seraient susceptibles de nous plaire, mais il pourrait carrément en créer des originales, en prenant en compte nos goûts. Selon la chercheuse, certains grands musiciens pourraient également profiter d’un tel outil pour tenter des variations et arranger leurs compositions beaucoup plus finement selon des inputs bien précis. Vous pourriez lui demander de vous jouer un tube de Claude François à la sauce hip-hop ! Car comme l’explique Mokundan, l’avantage d’un tel programme serait « de pouvoir mélanger une multitude de genres de musiques pour obtenir un genre inédit« .

Il est incontestable que les services de streaming en ligne sauteront sur un tel outil pour proposer toujours plus de service personnalisés à leurs utilisateurs, passant carrément outre les problématiques de droits d’auteurs. Un nouveau débat pourrait d’ailleurs surgir ? Qui détiendra ces droits d’auteurs ? Le programme ou bien le constructeur ?

L’idée de ces travaux de recherche, c’est de pouvoir appliquer ce modèle d’extraction de l’information pour comprendre le langage naturel et non plus seulement musical. Même si la grammaire et la sémantique seront beaucoup plus complexes, les chercheurs en sont persuadés, il sera bientôt possible d’appliquer ce modèle d’apprentissage au langage (par exemple en soumettant des tas de livres à Watson) et donc de comprendre de manière très fine le sens des mots et des phrases.


Laisser un commentaire