[Avis d'expert] L’ère du faux, et si la prochaine pandémie était numérique ?

Qu'est ce que le deepFake, est-il possible de s'en prémunir, quelles menaces ce phénomène fait-il peser sur la société ? Amine Kacete, ingénieur de recherche en intelligence artificielle chez b<>com, livre son avis sur la question.

Partager

[Avis d'expert] L’ère du faux, et si la prochaine pandémie était numérique ?

Depuis plusieurs années, le contenu numérique ne cesse de s’accroître notamment via les réseaux sociaux et les plateformes de partage numérique. En 2020, Youtube compte environ 500 heures de vidéos publiées par minute. Sur Instagram, les utilisateurs postent en moyenne 100 millions de photos et vidéos par jour !

Alors que le numérique prend chaque jour une part plus importante dans nos sociétés modernes, l’authenticité des données devient une condition sine qua none pour préserver leur équilibre. Hélas, l’émergence de certaines technologies comme le deepFake altère considérablement cette authenticité et menace notre confiance dans le numérique. En 2021, on estime que plus d’une vidéo sur deux sera un faux contenu.

Qu’entend-on par "deepFake" ?

Truquer, photoshoper, manipuler ou retoucher une image ou une vidéo est une pratique présente depuis quelques décennies : la première version Photoshop 4.0 est sortie en 1996. Alors que ce logiciel génère des contenus multimédia synthétiques avec une forte implication manuelle de l’utilisateur, les nouvelles techniques de génération sont à la fois complètement automatiques et extrêmement réalistes en termes de rendu. On parle alors d’hyper-trucage. Le deepFake fait partie de ces nouvelles technologies.

DeepFake est composé de "deep" désignant le "deep learning" pour l’apprentissage profond, et "fake" pour désigner un contenu falsifié, donnant ainsi la définition suivante : la création de contenu falsifié, basée sur l’intelligence artificielle de type deep learning.

À l’origine, ce terme est apparu à l’automne 2017 en référence à une technologie de remplacement hyperréaliste d’un visage cible par un autre visage dans une vidéo.

Le principe de base est d’apprendre les caractéristiques faciales de deux personnes, source et cible, par un paradigme d’auto-encodage [1]. Pour placer le visage source, on utilise son décodeur cascadé avec l’encodeur de la cible. En d’autres termes, on cherche à calquer la dynamique des mouvements faciaux de la source sur la cible.

Depuis, d’autres approches ont émergé, comme celui du génératif adversaire [2] donnant naissance à quatre familles principales : la synthèse intégrale de visage [3], la modification d'un ou plusieurs attributs du visage |4], le remplacement d'une expression du visage par une autre [5] ainsi que l'échange de visage [6]. Les mêmes stratégies peuvent aussi être transposées sur une autre modalité comme l'audio, en synthétisant ou en changeant l'expressivité d'une voix.

Quels sont les impacts du deepFake sur la société ?

En 2019, les utilisateurs passaient en moyenne 144 minutes par jour sur les réseaux sociaux, un chiffre en hausse de 60% depuis 2012 [7]. L’influence du contenu numérique sur le comportement individuel et collectif devient alors inéluctable. En injectant le deepFake comme ingrédient supplémentaire, la confiance dans le numérique est fortement menacée.

Prenons l’exemple de la sphère politique. Si le deepFake s’immisce dans celle-ci, l’influence de l’opinion publique deviendrait plus importante et plus complexe à tracer, conduisant ainsi à des décisions et choix stratégiques biaisés.

L’omniprésence de deepFakes risque de créer un sentiment d’impuissance de discernement et d’analyse du contenu, menant vers une perte de confiance dans l’information numérique. L’ancrage progressif de ce sentiment entraînerait une vision très frivole dans les procédés classiques de prise de décision commune, comme par exemple le vote, catalysant ainsi une entropie démocratique maximale.

Et si le deepFake s’invitait au tribunal ? Toute preuve visuelle inculpant une personne se verrait considérablement fragilisée, plongeant ainsi l’outil juridique dans des paradigmes de raisonnement encore jamais explorés.

Le deepFake serait alors synonyme d’incertitudes et de confusions permanentes dans les domaines utilisant le contenu numérique comme métaphore d’information.

Cette technologie, initialement pensée pour répondre à des besoins cinématographiques, comme par exemple en créant le jumeau numérique d’un acteur décédé pour le maintenir dans le tournage [8], prend alors une dimension bien plus sombre.

Peut-on parler d’une pandémie numérique ?

La majorité des programmes de deepFake est aujourd’hui en accès libre, alimentant ainsi le risque de généralisation de cette technologie. Pour comprendre la propagation des deepFakes, trois temps forts de son développement peuvent être dégagés :

DeepFake acte 1, la découverte 2017 : un utilisateur reddit anonyme applique cette technologie dans des films pornographiques, en remplaçant les visages originaux par des visages de célébrités sans consentement.

DeepFake acte 2, la prise de conscience 2018 : un discours d’Obama intégralement synthétique a été généré par Jordan Pelee. Le niveau de réalisme atteint était tel, que la falsification est alors devenue indiscernable par l’œil humain. La vidéo avait pour objectif d’alerter et de sensibiliser le plus grand nombre à la contamination du contenu numérique.

DeepFake acte 3 : la prolifération 2019 : un nouvel utilisateur anonyme lance une application appelée deepNude permettant de calquer le même raisonnement de manipulation de visage, mais cette fois sur le corps entier. Ainsi, à partir d’une image habillée d’une personne, il était possible de produire son équivalent, complètement nu. La propagation de cette application a été tellement rapide que le créateur a été obligé de la clore et Github a décidé de condamner l’accès à son code source.

À travers ces trois actes, on constate une ascension de la contamination du contenu multimédia. Celle-ci se nourrit, en parallèle, d’une amélioration continue de la qualité du rendu [9] et de la projection du raisonnement deepFake sur d’autres modalités comme la voix [10][11]. Ce contexte représente un milieu favorable à une importante propagation et à une complexité de dépistage toujours plus élevée.

Existe-il un remède à cette nouvelle maladie numérique?

Le deepFake est soumis à une philosophie d’entraînement adversaire [2], c’est-à-dire qu’un programme de détection ciblé joue le rôle d’un acteur adversaire permettant d’améliorer la qualité de la génération. En théorie, le générateur et le détecteur (ou deepFake et anti-deepFake) atteignent un équilibre, où aucun des acteurs ne prend le pas sur l’autre : c’est l’équilibre de Nash.

Aujourd’hui, plusieurs détecteurs ont été mis au point [12][13] montrant des résultats réconfortants, mais qui s’inscrivent malheureusement dans le cercle adversaire permettant ainsi une nouvelle génération deepFake toujours plus poussée…

À l’heure actuelle, aucun détecteur ne sort de ce cercle adversaire.

Pour converger vers un remède à long terme, d’excellentes initiatives ont été lancées pour encourager la communauté de recherche à redoubler d’efforts dans la lutte contre le deepFake à l’instar du challenge de détection lancé par Facebook [14]. D’autres challenges ont été lancés depuis, représentant ainsi un signe d’espoir de décontamination des contenus multimédia. Plus récemment, dans son Defending Democracy Program, Microsoft a annoncé la sortie de nouveaux outils pour lutter contre les faux contenus et autres campagnes de désinformation.

Au-delà de la conception d’un « remède », c’est la conscience collective qui doit évoluer. Nous devons nous former pour devenir des cybercitoyens éclairés. Chacun doit prendre le recul nécessaire vis-à-vis de l’information numérique qui lui est proposée. L’adoption d’un scepticisme systématique doit devenir un réflexe.

Amine Kacete, ingénieur de recherche en intelligence artificielle chez b<>com

Les avis d'expert et tribunes sont publiés sous la responsabilité de leurs auteurs et n'engagent en rien la rédaction de L'Usine Nouvelle.

Références :

[1] Reddit users., https://github.com/deepfakes/faceswap

[2] Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., ... & Bengio, Y. (2014). Generative adversarial nets. In Advances in neural information processing systems (pp. 2672-2680).

[3] Karras, T., Laine, S., & Aila, T. (2019). A style-based generator architecture for generative adversarial networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 4401-4410).

[4] Shen, Y., Gu, J., Tang, X., & Zhou, B. (2020). Interpreting the latent space of gans for semantic face editing. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 9243-9252

[5] Thies, J., Zollhofer, M., Stamminger, M., Theobalt, C., & Nießner, M. (2016). Face2face: Real-time face capture and reenactment of rgb videos. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 2387-2395).

[6] Nirkin, Y., Keller, Y., & Hassner, T. (2019). FSGAN: Subject agnostic face swapping and reenactment. In Proceedings of the IEEE international conference on computer vision (pp. 7184-7193).

[7] Statista., https://www.statista.com/statistics/433871/daily-social-media-usage-worldwide/

[8] Giardina, Carolyn (2015-03-25). "'Furious 7' and How Peter Jackson's Weta Created Digital Paul Walker". The Hollywood Reporter. Retrieved 2017-05-24.

[9] Naruniec, J., Helminger, L., Schroers, C., & Weber, R. M. (2020, July). High?Resolution Neural Face Swapping for Visual Effects. In Computer Graphics Forum (Vol. 39, No. 4, pp. 173-184).

[10] Jia, Y., Zhang, Y., Weiss, R., Wang, Q., Shen, J., Ren, F., ... & Wu, Y. (2018). Transfer learning from speaker verification to multispeaker text-to-speech synthesis. In Advances in neural information processing systems (pp. 4480-4490).

[11] Corentin Jemine, https://github.com/CorentinJ/Real-Time-Voice-Cloning

[12] Afchar, D., Nozick, V., Yamagishi, J., & Echizen, I. (2018, December). Mesonet: a compact facial video forgery detection network. In 2018 IEEE International Workshop on Information Forensics and Security (WIFS) (pp. 1-7). IEEE.

[13] Rossler, A., Cozzolino, D., Verdoliva, L., Riess, C., Thies, J., & Nießner, M. (2019). Faceforensics++: Learning to detect manipulated facial images. In Proceedings of the IEEE International Conference on Computer Vision (pp. 1-11).

[14] https://ai.facebook.com/datasets/dfdc/

Partager

NEWSLETTER Innovation
Nos journalistes sélectionnent pour vous les articles essentiels de votre secteur.

Recevez directement leurs décryptages et analyses dans votre boîte mail:

Votre demande d’inscription a bien été prise en compte.

L'inscription aux newsletters vaut acceptation des Conditions Générales d'Utilisation. Lire la suite

Votre email est traité par notre titre de presse qui selon le titre appartient, à une des sociétés suivantes du : Groupe Moniteur Nanterre B 403 080 823, IPD Nanterre 490 727 633, Groupe Industrie Service Info (GISI) Nanterre 442 233 417. Cette société ou toutes sociétés du Groupe Infopro Digital pourront l'utiliser afin de vous proposer pour leur compte ou celui de leurs clients, des produits et/ou services utiles à vos activités professionnelles. Pour exercer vos droits, vous y opposer ou pour en savoir plus : Charte des données personnelles.

Fermer
LES ÉVÉNEMENTS L'USINE NOUVELLE

Formation

Manager de l'environnement de travail

Paris - 16 mars 2021

Services Généraux

Maîtriser les aspects de sécurité au travail de votre fonction

Trophée

TROPHÉES DES USINES 2021

Live et replay - 27 mai 2021

Gestion industrielle et Production

Déposez votre dossier avant le 5 février pour concourir aux trophées des usines 2021

Formation

Espace de travail et bien-être des salariés

Paris - 01 juin 2021

Services Généraux

Optimiser l’aménagement du bureau

LES SERVICES DE L'USINE NOUVELLE
ARTICLES LES PLUS LUS