Comment DeepMind révolutionne le text to speech avec l’IA

La société de recherche Deep Mind a une nouvelle fois montré l’étendue de son savoir-faire avec un modèle de génération sonore imbattable.

DeepMind et l’intelligence artificielle

DeepMind s’est rendue célèbre aux yeux du monde pour avoir conçu le super-ordinateur AlphaGo. Digne successeur de Deep Blue, l’intelligence artificielle d’IBM qui avait vaincu pour la première fois un champion du monde aux échecs, AlphaGo a réitéré l’exploit au célèbre jeu de Go, un jeu de plateau chinois aux innombrables combinaisons. La machine l’avait largement emporté 4 manches à 1 sur le champion coréen Lee Sedol. A l’époque, cette prouesse avait provoqué un véritable raz-de-marée médiatique. L’intelligence artificielle, souvent reléguée à la presse tech ou aux articles à sensations, pénétrait alors avec fracas dans le débat public et médiatique en suscitant de vives réactions, craintes et autres scénari apocalyptiques sur l’avenir de l’espèce humaine. Une mise en scène digne des grands maîtres de cinéma pour cette petite entreprise britannique spécialisée dans la recherche la plus fondamentale et rachetée par Google en janvier 2014.

Son second coup d’éclat remonte au mois de mai dernier, lorsque DeepMind recevait du NHS les données médicales de millions de britanniques. Les craintes concernant la protection de la vie privée, repartaient – à juste titre – de plus belle. L’objectif étant toutefois de servir une cause plus noble : en soumettant cette montagne d’informations capitales à ses logiciels, DeepMind veut parvenir à détecter les signes avant-coureurs de maladies du foie.

Plus récemment, l’entreprise a de nouveau fait la une de la presse. En s’associant au département de radiothérapie des hôpitaux de Londres, DeepMind veut pouvoir prévenir les cancers du cou et de la tête grâce à l’automatisation du diagnostic. Un procédé long et méticuleux qu’ils espèrent raccourcir significativement grâce à des algorithmes nourris des données de près de 700 scanners.

Un nouvel algorithme de génération de discours

Trois chercheurs du laboratoire de DeepMind, Aäron van den Oord, Heiga Zen et Sander Dieleman ont conçu un modèle d’entraînement pour machines qui leur permettrait de générer automatiquement une diversité de sons en se basant sur des ondes brutes. Et par diversité, la société entend du discours oral aux notes de musiques. Leur modèle permettrait notamment de réduire l’écart entre le discours généré par la machine et celui d’un véritable être humain d’environ 50%.

L’info n’a pas manqué de faire le tour des réseaux sociaux de la recherche en IA. En témoigne le commentaire de François Chollet, chercheur en deep learning chez Google.

Et très vite la nouvelle a fait le tour, suscitant admiration et fascination pour les découvertes de DeepMind. Car les discours générés par leur modèle appelé WaveNet sonnent en effet beaucoup plus naturel que ceux de la concurrence.

Dans leur publication, les chercheurs britanniques ont comparé les résultats obtenus par Wavenet à ceux des anciennes techniques.

Parametric :

WaveNet (version de DeepMind) :

Un algorithme qui ne connaît pas de frontières puisqu’il est aussi efficace avec le mandarin :

L’amélioration est moins flagrante pour le chinois, mais si l’on prête attention à la qualité audio, on sent moins de grésillements sur la deuxième version, celle de WaveNet.

Un écart que les deux chercheurs ont bien identifié, en atteste le schéma comparatif ci-dessous.

graphique-comparaison-qualite-speech

Comment s’y sont-ils pris ?

Le plus surprenant est que les ingénieurs sont parvenus à reproduire une grande variété de voix, et dans plusieurs langues qui plus est, avec un seul et même modèle. Une condition essentielle à leur utilisation commerciale dans des applications ou autres robots intelligents.

Pour y parvenir, les trois scientifiques ont développé une nouvelle méthode, qui ne dérive donc pas des méthodes actuelles fondées sur le concatenative TTS (text-to-speech) inventé par Andrew Hunt et Alan Black en 1996. Cette technique consiste à puiser dans une importante base de données rassemblant de petits fragments de discours émanant d’une seule et unique personne. Si elle a permis de grandes avancées dans l’imitation de la voix, elle n’autorise que très difficilement la génération de mots avec une voix différente, à moins de reconstruire toute une base de données avec un autre locuteur. Elle pose donc de lourdes contraintes techniques.

Des contraintes en partie levées par la nouvelle vague du parametric TTS. Ici, toutes les informations nécessaires à la génération des données sont hébergées directement dans les paramètres du modèle génératif. Néanmoins, comme le précise DeepMind, quand bien même cette méthode serait plus souple et polyvalente, elle est en réalité moins efficace en terme de qualité sonore.

Aussi, le nouveau modèle génératif développé par DeepMind apparaît comme un changement de paradigme. Celui-ci s’attaque au cœur du problème en générant directement des signaux audio à partir des ondes sonores brutes. Cela veut surtout dire que cet algorithme peut traiter et calquer n’importe quelle piste audio.

Selon l’équipe de scientifiques, la recherche évite de s’attaquer directement aux ondes brutes car elles déroulent trop rapidement (environ 16 000 éléments par seconde). Jusqu’à récemment, les ordinateurs n’étaient pas assez puissants et intelligents pour réussir à traiter autant d’éléments audio dans un délai convenable. Néanmoins, c’est déjà ce que l’on pensait du traitement des images. Et pourtant, en début d’année, ils ont montré que leurs modèles PixelRNN et PixelCNN étaient capables de générer des images complexes non pas pixel par pixel, mais par gamme entière de couleurs. Ils n’ont donc pas eu peur de reproduire leur performance de l’image au son.

Ainsi, leur tout nouveau réseau convolutif WaveNet est parvenu à rivaliser avec les techniques de concatenative et de parametric TTS.

Mais pour arriver à ce résultat, il a fallu indiquer à la machine les mots qu’elle devait prononcer. Toutefois, le modèle s’avère efficace même si cette condition cruciale n’est pas remplie. Comme on peut l’entendre ci-dessous, la machine se contentera de copier l’intonation et la dynamique phonétique du locuteur mais en inventant des mots :

Un algorithme si efficace qu’il est possible de lui soumettre n’importe quelle bande sonore brute pour qu’il génère des sons proches, et même des notes de musique. Si le résultat n’est pas particulièrement agréable, c’est parce que les ingénieurs ont laissé libre cours à l’imagination de la machine qui pouvait générer ce qu’elle souhaitait.

Et pour finir d’enfoncer le clou, en apprenant de plusieurs locuteurs, WaveNet est même capable de générer un texte oral empruntant différentes voix :

Tous les détails de cette découverte sont à retrouver sur le blog de DeepMind ainsi que dans l’article de recherche.


Laisser un commentaire