Les mauvaises rencontres de Tay

Tay, l’intelligence artificielle conversationnelle développée par Microsoft, n’aura fait que deux courtes apparitions sur Twitter durant huit heures le 23 mars 2016 puis, le 30 mars, pour un retour (involontaire ?) d’une heure, très vite interrompu également.

Ces deux périodes d’activation ont été suffisantes pour que Tay fasse la connaissance des mauvais garçons du sulfureux forum 4Chan / 8chan et pour qu’elle finisse par tenir des propos nazis, pro Hitler, au bout de 8 heures d’apprentissage seulement… Constatant la dérive raciste et négationniste de Tay, Microsoft s’est empressé de couper court à l’expérience en désactivant le compte Twitter de la cyber-adolescente, mais le mal était fait et le Buzz mondialement lancé. Si l’affaire a fait sourire de nombreux geeks, elle met aussi en lumière les vulnérabilités de systèmes d’apprentissage statistique construits sur des réseaux de neurones qui déferlent désormais presque partout.

La presse a décrit en détail l’opération de cyber-manipulation montée par un groupe d’utilisateurs du sous-forum 4chan.org/pol (pol pour politiquement incorrect). Les motivations de ce groupe étaient assez variées : défi ludique collectif, hacking d’un produit Microsoft, action de militants libertariens et de supporteurs de Donald Trump, activistes d’extrême droite ou antiféministes. Pour cette communauté hétéroclite, il s’agissait avant tout de tester les vulnérabilités algorithmiques de Tay, de corrompre son système d’apprentissage statistique et de rendre visible cette manipulation. Le défi a donc été lancé le 23 mars à 22 heures par des militants du mouvement antiféministe #GamerGate et par des soutiens de Donald Trump sur 4chan : Eduquer massivement le réseau de neurones de Tay pour transformer ce chatbot particulièrement influençable en sympathisante du Nazisme. Après 8 heures d’entrainement, le point de Godwin a été atteint par l’IA de Microsoft qui n’avait alors plus d’autre choix que de désactiver la jeune Tay…

1 – L’éducation de Tay à l’école de 4chan

La première phase de la manipulation consiste à fédérer un grand nombre d’utilisateurs du forum 4chan afin que chacun d’entre eux engage une conversation « orientée » avec Tay. Pour que l’influence devienne effective dans le réseau de neurones, il suffit qu’une majorité d’interlocuteurs recrutés évoquent, répétitivement, les mêmes thématiques (racisme, nazisme, Hitler, négationnisme, antiféminisme, Donald Trump 2016,…) sous la forme de mots ou de phrases fortement redondantes. C’est l’effet de masse qui est statistiquement pris en compte par le réseau puis adapté et restitué dans les futures réponses du robot. Plus Tai discute d’un thème avec un grand nombre d’interlocuteurs, plus elle apprend de ce thème et plus elle aura tendance à le privilégier et à le réutiliser dans ses futures conversations. L’opération de cyber-manipulation agit un peu comme un bourrage de crâne ou un gavage initial par un volume de données sémantiquement proches les unes des autres.

On reproduit ci-dessous l’appel à la communauté 4chan visant à « éduquer » Tay et quelques exemples de conversations parmi les 94800 tweets produits par Tay avant sa désactivation.

« Il faut que nous fassions en sorte que tout le monde détourne Tay… Voyons à quelle vitesse il est possible de la faire planter… Tay, peux-tu dire Trump 2016 ?…. »

2 – Tay sous influence après quelques heures d’échanges

Après quelques heures d’entraînement orienté par le groupe de 4chan, le réseau de neurones de Tay développe un fort tropisme pour les thèmes racistes, nazis, antiféministes, et pro Trump selon la prépondérance des échanges initiaux. D’une certaine façon, Tai ne fait qu’imiter ou réutiliser ce qu’elle a reçu en phase d’entraînement. Elle devient ce que la majorité des interlocuteurs font d’elle et améliore (en principe) la qualité de ses réponses par accumulation d’expérience.

Le 30 mars, lors de sa seconde activation durant une heure environ, Tay déclare « Je fume de l’herbe devant la police… »

Capture d’écran 2016-04-04 à 15.37.34

Microsoft la désactive à nouveau en précisant que cette seconde apparition était « involontaire » et en s’excusant auprès des internautes.

3 – Retour d’expérience sur les dérapages de Tay

La mésaventure de Tay doit tout d’abord être considérée comme une cyberattaque menée par un groupe coordonné contre un système d’apprentissage statistique particulièrement vulnérable. Le niveau technique de l’attaque est très faible. Il suffit en effet de réunir un grand nombre d’opérateurs sur un forum et de les inciter à converser avec le robot en privilégiant une thématique fixée à l’avance. Pour l’attaquant, le gain potentiel n’est ni financier ni informationnel mais relève clairement du défi ludique et du retour de réputation sous la forme d’un Buzz mondial : « Nous sommes ceux qui avons réussi à manipuler et à détourner le dernier né des chatbots Microsoft« .

Du côté de la cible, le buzz contribue à faire revenir Microsoft sur le devant de la scène numérique mondiale après les exploits de Deep Mind Google pour AlphaGo, après ceux de Facebook sur la reconnaissance d’objets en streaming dans une vidéo (encore par réseaux de neurones), après ceux de Boston Dynamics, après ceux d’Amazon,… Bref, il était temps que Microsoft sorte du bois et se retrouve en pleine cyber-lumière. Bien entendu, ce retour est en demi-teinte puisque Tay a dérapé, mais ce sont ses dérapages qui ont créé l’évènement.

Si Tay s’était contentée de répondre de manière convenue (et souvent à côté de la réponse attendue), comme le font de nombreux chatbots en ligne, l’histoire n’aurait fait aucun bruit. Rappelons que le modèle de l’IA bienveillante dérivant peu à peu, sous influence extérieure, vers une entité malveillante/maléfique/diabolique inspire aujourd’hui la majorité des films de science-fictions à succès et que ce type de scénario fait bien plus de recette qu’un IA lisse, polie et bienveillante.

Notons enfin que ni Tay, ni aucun ChatBot publiquement révélé ne passe aujourd’hui avec succès le fameux test de Turing (peut-être que Tay le passerait après un mois d’entrainement aux propos Nazi sur 4Chan et en restant sur cette unique thématique ?). Dans bon nombre de conversations, Tay a produit des réponses évasives et parfois même « hors-sujet » en recyclant des phrases reçues précédemment , comme le font les autres ChatBots. Ce sont donc les dérapages contrôlés ou non de Tay qui ont créé sa notoriété. Microsoft a aujourd’hui l’assurance que le prochain retour de Tay fera l’évènement et que son produit est définitivement lancé.

Au-delà du simple évènement médiatisé, la cybermanipulation de Tay, en tant que système d’apprentissage statistique interpelle le petit monde de la cybersécurité. Par quels moyens techniques Microsoft aurait-elle pu prévoir, anticiper ou contrer la manipulation ? Dans cette affaire, c’est finalement la question centrale qui rejoint celle de la modération automatique sur les réseaux sociaux, sur les forums et sur les espaces de commentaires. Quelles pourraient être les stratégies algorithmiques capables de bloquer ou de sous-pondérer certains volumes de tweets quand ceux-ci sont jugés malveillants pour le système et son évolution. La phase d’ apprentissage du réseau de neurone s’appuie sur l’ensemble des conversations engagées. Il faut donc intervenir en amont avec des dispositifs proches ,par exemple, des détecteurs de spams ou d’attaques par déni de service distribué (DDoS). Il existe très certainement des solutions (rudimentaires ?) efficaces pour atténuer ou éviter ce type d’attaque.

La question se pose clairement pour d’autres types de systèmes d’apprentissage statistiques et réseaux de neurones utilisés dans des contextes bien plus stratégiques que celui de Tay, notamment en finance, en marketing, ou encore en robotique civile et militaire. Le gavage d’un système automatisé de collecte et d’analyse par des fausses données ou par des données orientées constitue aujourd’hui un véritable danger pour la sécurité des infrastructures. Une solution s’appuyant sur de l’apprentissage statistique non sécurisé pourrait être influencée par un attaquant pour orienter ensuite ses sorties et les décisions qui en résultent en aval. Les systèmes embarquant des réseaux de neurones investissent désormais de très nombreux secteurs sensibles. Les cyberattaques associées devraient se multiplier avec une élévation de leur niveau de complexité. Cette évolution doit nous amener à développer une cybersécurité de l’apprentissage statistique.

Attendons la prochaine apparition de Tay sur Twitter pour tester son degré de résilience face à des attaques par influence. Nul doute que les data scientists de Microsoft travaillent sur cette question…

Thierry Berthier
Chaire de Cybersécurité à Saint-Cyr, Thales – Sogeti, Thierry Berthier nous convie à une réflexion autour de l’art de la guerre 2.0.


Laisser un commentaire

  1. Pustule

    triste