Abonnez-vous Identifiez-vous

Identifiez-vous

Vos codes d'accès sont erronés, Veuillez les saisir à nouveau. Mot de passe oublié ?

Comment le deep learning vous transforme en danseur étoile

Manuel Moragues ,

Publié le

Vidéo Une simple vidéo en ligne d’un danseur en action suffit pour générer une vidéo de M. Tout-le-monde en train de répliquer les mouvements du danseur. Une nouvelle prouesse du deep learning version GAN et de nouveaux deepfakes à combattre.

Comment le deep learning vous transforme en danseur étoile
les mouvements d'une danseuse filmée (à g.) sont transférés sur une personne quelconque.
© D.R.

Toujours plus fort. Le deep learning, les réseaux de neurones profonds qui révolutionnent l'intelligence artificielle, fait encore la démonstration de sa puissance surprenante avec ces travaux de chercheurs de l'Université de Californie Berkeley. "Everybody Dance Now" est à la fois le titre de leur article de recherche et celui de la vidéo qu'ils ont mise en ligne.

On y voit d'un côté un danseur professionnel en action et, de l'autre, une autre personne en train d'effectuer les mêmes mouvements que le danseur. Cette deuxième vidéo est un faux. Elle est générée par le logiciel des chercheurs qui est capable de transférer les mouvements du danseur – la "source" - sur le corps d'une personne – la "cible" - préalablement filmée en train d’exécuter une série de mouvements standards.

Prolonger la série des deepfakes

Amusant, mais aussi troublant. Car cela prouve que l'on peut générer des vidéos de personnes effectuant n'importe quel geste, y compris du genre insultant, embarrassant voire illégal. Les travaux des chercheurs de Berkeley viennent ainsi prolonger la série des "deepfakes". Soit ces vidéos trafiquées au deep learning qui ont émergé en 2016 et dont le nom vient du pseudonyme d'un internaute ayant publié fin 2017 sur Reddit la recette – basée sur des ingrédients open source – pour les réaliser.

Il s'est d'abord agi de plaquer le visage d'une cible – au hasard une célébrité féminine -  sur le corps d'une actrice en action – au hasard dans un film pornographique. Grand succès, au point qu'aux Etats-Unis comme au Royaume-Uni des lois ciblant les auteurs de ces montages sont en discussion. L'étape d'après, toujours focalisée sur les visages, a consisté à transférer le discours et le mouvement des lèvres de la personne source vers une personne cible. D'où des vidéos surprenantes de discours d'Obama, de mimiques de Poutine ou d'éructations de Trump – très difficiles à distinguer des vraies.

Les Generative adversarial networks à la manoeuvre 

Avec "Everyone Dance Now", c’est maintenant le corps auquel s’attaque le deep learning. Derrière tous ces cas, une même technologie, celle des GANs ou Generative adversarial networks, inventée en 2014 par le "GANfather" Ian Goodfellow, jeune chercheur chez Google, et qui connaît un engouement depuis 2017.

Les GANs excellent dans la génération d’images. Le principe ? Un tandem de réseaux de neurones. L’un, le générateur, essaye de créer des images réalistes en partant de pixels aléatoires (du bruit). L’autre, le discriminateur, tente de détecter si ces images sont des faux. Lors de leur entraînement conjoint, ces deux réseaux progressent peu à peu. Le générateur crée des images de plus en plus réalistes tandis que le regard du discriminateur s’aiguise. Vient un moment où le générateur arrive à tromper suffisamment le discriminateur : les images qu’il produit sont trop proches de la réalité pour être détectées comme des faux. Ce sont de vrais fakes.

Image par image

C’est ce même principe qui est à la base d’"Everyone Dance Now", qui travaille image par image. Petite subtilité, les chercheurs sont passés par l’intermédiaire d’une représentation de la posture du corps sous la forme de "bonhomme bâton". Partant d’une séquence vidéo de la personne cible en train d’exécuter une série de mouvements standardisés, ils ont utilisé un réseau de neurones (P) disponible sur étagère pour faire correspondre à chaque image une représentation de la posture sous forme bâton. A partir de ces correspondances image-posture obtenues avec P, le réseau de neurones générateur (G) est alors entraîné, en tentant de tromper un réseau discriminateur (D), à créer une image réaliste du corps cible à partir de sa posture-bâton.

Ne reste plus qu’à faire tourner le tout sur une vidéo du danseur "source" : chaque image est transcrite par (P) en posture-bâton à partir de laquelle G crée une image de la personne "cible" adoptant cette posture. Et voilà M. Tout-le-monde transformé en danseur étoile ! En réalité, quelques raffinements sont nécessaires pour assurer les entrechats. D’abord une étape intermédiaire de normalisation de la posture-bâton pour tenir compte des différences de taille et de position au sein du cadre de l’image entre le danseur et la cible. Ensuite, une contrainte est ajoutée lors de l’apprentissage de G pour assurer la cohérence temporelle des images. Enfin, un GAN dédié au visage est utilisé pour obtenir des visages détaillés et réalistes.

La Darpa cherche la contre-attaque

Si le résultat est encore imparfait avec des mouvements paraissant parfois peu naturels, ce qui est bluffant c’est qu’il n’y a pas besoin de dispositif de captage vidéo 3D sophistiqué. "Notre approche est conçue pour des vidéos sources qui peuvent être trouvées en ligne ou capturées personnellement", pointent les chercheurs. Et avec la démocratisation des outils open source de machine learning, nul doute que ces deepfakes vont être accessibles à un grand nombre de personnes, plus ou moins bien intentionnées.

La Darpa, l’agence de recherche du ministère américain de la Défense, ne s’y est pas trompée : son programme de recherche MediFor (pour Media Forensics), lancé il y a presque deux ans et visant à développer des outils pour détecter les manipulations de médias digitaux, s’est attaqué aux deepfakes. Avec des premiers résultats cet été, rapportés par le MIT Technology Review, qui exploitent la difficulté pour les deepfakes à reproduire de façon naturelle certains signaux physiologiques comme la couleur des yeux, un mouvement de tête ou un clignement d’œil... Quand la réalité ne tient qu’à un cil.

Réagir à cet article

Créez votre compte L’Usine Connect

Fermer
L'Usine Connect

Votre entreprise dispose d’un contrat
L’Usine Connect qui vous permet d’accéder librement à tous les contenus de L’Usine Nouvelle depuis ce poste et depuis l’extérieur.

Pour activer votre abonnement vous devez créer un compte

Créer votre Compte
Suivez-nous Suivre Usine Nouvelle sur Facebook Suivre Usine Nouvelle sur Twitter RSS Usine Nouvelle