[Avis d'expert] L’ère du faux, et si la prochaine pandémie était numérique ?

Qu'est ce que le deepFake, est-il possible de s'en prémunir, quelles menaces ce phénomène fait-il peser sur la société ? Amine Kacete, ingénieur de recherche en intelligence artificielle chez b<>com, livre son avis sur la question.

Depuis plusieurs années, le contenu numérique ne cesse de s’accroître notamment via les réseaux sociaux et les plateformes de partage numérique. En 2020, Youtube compte environ 500 heures de vidéos publiées par minute. Sur Instagram, les utilisateurs postent en moyenne 100 millions de photos et vidéos par jour !

Alors que le numérique prend chaque jour une part plus importante dans nos sociétés modernes, l’authenticité des données devient une condition sine qua none pour préserver leur équilibre. Hélas, l’émergence de certaines technologies comme le deepFake altère considérablement cette authenticité et menace notre confiance dans le numérique. En 2021, on estime que plus d’une vidéo sur deux sera un faux contenu.

Qu’entend-on par "deepFake" ?

Truquer, photoshoper, manipuler ou retoucher une image ou une vidéo est une pratique présente depuis quelques décennies : la première version Photoshop 4.0 est sortie en 1996. Alors que ce logiciel génère des contenus multimédia synthétiques avec une forte implication manuelle de l’utilisateur, les nouvelles techniques de génération sont à la fois complètement automatiques et extrêmement réalistes en termes de rendu. On parle alors d’hyper-trucage. Le deepFake fait partie de ces nouvelles technologies.

DeepFake est composé de "deep" désignant le "deep learning" pour l’apprentissage profond, et "fake" pour désigner un contenu falsifié, donnant ainsi la définition suivante : la création de contenu falsifié, basée sur l’intelligence artificielle de type deep learning.

À l’origine, ce terme est apparu à l’automne 2017 en référence à une technologie de remplacement hyperréaliste d’un visage cible par un autre visage dans une vidéo.

Le principe de base est d’apprendre les caractéristiques faciales de deux personnes, source et cible, par un paradigme d’auto-encodage [1]. Pour placer le visage source, on utilise son décodeur cascadé avec l’encodeur de la cible. En d’autres termes, on cherche à calquer la dynamique des mouvements faciaux de la source sur la cible.

Depuis, d’autres approches ont émergé, comme celui du génératif adversaire [2] donnant naissance à quatre familles principales : la synthèse intégrale de visage [3], la modification d'un ou plusieurs attributs du visage |4], le remplacement d'une expression du visage par une autre [5] ainsi que l'échange de visage [6]. Les mêmes stratégies peuvent aussi être transposées sur une autre modalité comme l'audio, en synthétisant ou en changeant l'expressivité d'une voix.

Quels sont les impacts du deepFake sur la société ?

En 2019, les utilisateurs passaient en moyenne 144 minutes par jour sur les réseaux sociaux, un chiffre en hausse de 60% depuis 2012 [7]. L’influence du contenu numérique sur le comportement individuel et collectif devient alors inéluctable. En injectant le deepFake comme ingrédient supplémentaire, la confiance dans le numérique est fortement menacée.

Prenons l’exemple de la sphère politique. Si le deepFake s’immisce dans celle-ci, l’influence de l’opinion publique deviendrait plus importante et plus complexe à tracer, conduisant ainsi à des décisions et choix stratégiques biaisés.

L’omniprésence de deepFakes risque de créer un sentiment d’impuissance de discernement et d’analyse du contenu, menant vers une perte de confiance dans l’information numérique. L’ancrage progressif de ce sentiment entraînerait une vision très frivole dans les procédés classiques de prise de décision commune, comme par exemple le vote, catalysant ainsi une entropie démocratique maximale.

Et si le deepFake s’invitait au tribunal ? Toute preuve visuelle inculpant une personne se verrait considérablement fragilisée, plongeant ainsi l’outil juridique dans des paradigmes de raisonnement encore jamais explorés.

Le deepFake serait alors synonyme d’incertitudes et de confusions permanentes dans les domaines utilisant le contenu numérique comme métaphore d’information.

Cette technologie, initialement pensée pour répondre à des besoins cinématographiques, comme par exemple en créant le jumeau numérique d’un acteur décédé pour le maintenir dans le tournage [8], prend alors une dimension bien plus sombre.

Peut-on parler d’une pandémie numérique ?

La majorité des programmes de deepFake est aujourd’hui en accès libre, alimentant ainsi le risque de généralisation de cette technologie. Pour comprendre la propagation des deepFakes, trois temps forts de son développement peuvent être dégagés :

DeepFake acte 1, la découverte 2017 : un utilisateur reddit anonyme applique cette technologie dans des films pornographiques, en remplaçant les visages originaux par des visages de célébrités sans consentement.

DeepFake acte 2, la prise de conscience 2018 : un discours d’Obama intégralement synthétique a été généré par Jordan Pelee. Le niveau de réalisme atteint était tel, que la falsification est alors devenue indiscernable par l’œil humain. La vidéo avait pour objectif d’alerter et de sensibiliser le plus grand nombre à la contamination du contenu numérique.

DeepFake acte 3 : la prolifération 2019 : un nouvel utilisateur anonyme lance une application appelée deepNude permettant de calquer le même raisonnement de manipulation de visage, mais cette fois sur le corps entier. Ainsi, à partir d’une image habillée d’une personne, il était possible de produire son équivalent, complètement nu. La propagation de cette application a été tellement rapide que le créateur a été obligé de la clore et Github a décidé de condamner l’accès à son code source.

À travers ces trois actes, on constate une ascension de la contamination du contenu multimédia. Celle-ci se nourrit, en parallèle, d’une amélioration continue de la qualité du rendu [9] et de la projection du raisonnement deepFake sur d’autres modalités comme la voix [10][11]. Ce contexte représente un milieu favorable à une importante propagation et à une complexité de dépistage toujours plus élevée.

Existe-il un remède à cette nouvelle maladie numérique?

Le deepFake est soumis à une philosophie d’entraînement adversaire [2], c’est-à-dire qu’un programme de détection ciblé joue le rôle d’un acteur adversaire permettant d’améliorer la qualité de la génération. En théorie, le générateur et le détecteur (ou deepFake et anti-deepFake) atteignent un équilibre, où aucun des acteurs ne prend le pas sur l’autre : c’est l’équilibre de Nash.

Aujourd’hui, plusieurs détecteurs ont été mis au point [12][13] montrant des résultats réconfortants, mais qui s’inscrivent malheureusement dans le cercle adversaire permettant ainsi une nouvelle génération deepFake toujours plus poussée…

À l’heure actuelle, aucun détecteur ne sort de ce cercle adversaire.

Pour converger vers un remède à long terme, d’excellentes initiatives ont été lancées pour encourager la communauté de recherche à redoubler d’efforts dans la lutte contre le deepFake à l’instar du challenge de détection lancé par Facebook [14]. D’autres challenges ont été lancés depuis, représentant ainsi un signe d’espoir de décontamination des contenus multimédia. Plus récemment, dans son Defending Democracy Program, Microsoft a annoncé la sortie de nouveaux outils pour lutter contre les faux contenus et autres campagnes de désinformation.

Au-delà de la conception d’un « remède », c’est la conscience collective qui doit évoluer. Nous devons nous former pour devenir des cybercitoyens éclairés. Chacun doit prendre le recul nécessaire vis-à-vis de l’information numérique qui lui est proposée. L’adoption d’un scepticisme systématique doit devenir un réflexe.

Amine Kacete, ingénieur de recherche en intelligence artificielle chez b<>com

Les avis d'expert et tribunes sont publiés sous la responsabilité de leurs auteurs et n'engagent en rien la rédaction de L'Usine Nouvelle.

Références :

[1] Reddit users., https://github.com/deepfakes/faceswap

[2] Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., ... & Bengio, Y. (2014). Generative adversarial nets. In Advances in neural information processing systems (pp. 2672-2680).

[3] Karras, T., Laine, S., & Aila, T. (2019). A style-based generator architecture for generative adversarial networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 4401-4410).

[4] Shen, Y., Gu, J., Tang, X., & Zhou, B. (2020). Interpreting the latent space of gans for semantic face editing. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 9243-9252

[5] Thies, J., Zollhofer, M., Stamminger, M., Theobalt, C., & Nießner, M. (2016). Face2face: Real-time face capture and reenactment of rgb videos. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 2387-2395).

[6] Nirkin, Y., Keller, Y., & Hassner, T. (2019). FSGAN: Subject agnostic face swapping and reenactment. In Proceedings of the IEEE international conference on computer vision (pp. 7184-7193).

[7] Statista., https://www.statista.com/statistics/433871/daily-social-media-usage-worldwide/

[8] Giardina, Carolyn (2015-03-25). "'Furious 7' and How Peter Jackson's Weta Created Digital Paul Walker". The Hollywood Reporter. Retrieved 2017-05-24.

[9] Naruniec, J., Helminger, L., Schroers, C., & Weber, R. M. (2020, July). High?Resolution Neural Face Swapping for Visual Effects. In Computer Graphics Forum (Vol. 39, No. 4, pp. 173-184).

[10] Jia, Y., Zhang, Y., Weiss, R., Wang, Q., Shen, J., Ren, F., ... & Wu, Y. (2018). Transfer learning from speaker verification to multispeaker text-to-speech synthesis. In Advances in neural information processing systems (pp. 4480-4490).

[11] Corentin Jemine, https://github.com/CorentinJ/Real-Time-Voice-Cloning

[12] Afchar, D., Nozick, V., Yamagishi, J., & Echizen, I. (2018, December). Mesonet: a compact facial video forgery detection network. In 2018 IEEE International Workshop on Information Forensics and Security (WIFS) (pp. 1-7). IEEE.

[13] Rossler, A., Cozzolino, D., Verdoliva, L., Riess, C., Thies, J., & Nießner, M. (2019). Faceforensics++: Learning to detect manipulated facial images. In Proceedings of the IEEE International Conference on Computer Vision (pp. 1-11).

[14] https://ai.facebook.com/datasets/dfdc/

SUR LE MÊME SUJET

Sujets associés

NEWSLETTER Innovation

Nos journalistes sélectionnent pour vous les articles essentiels de votre secteur.

Votre demande d’inscription a bien été prise en compte.

Votre email est traité par notre titre de presse qui selon le titre appartient, à une des sociétés suivantes...

Votre email est traité par notre titre de presse qui selon le titre appartient, à une des sociétés suivantes du : Groupe Moniteur Nanterre B 403 080 823, IPD Nanterre 490 727 633, Groupe Industrie Service Info (GISI) Nanterre 442 233 417. Cette société ou toutes sociétés du Groupe Infopro Digital pourront l'utiliser afin de vous proposer pour leur compte ou celui de leurs clients, des produits et/ou services utiles à vos activités professionnelles. Pour exercer vos droits, vous y opposer ou pour en savoir plus : Charte des données personnelles.

LES ÉVÉNEMENTS L'USINE NOUVELLE

LES PODCASTS

Le Mans, capitale du son

Le Mans, capitale du son

Dans ce nouvel épisode de La Fabrique, Olivier James nous emmène au Mans pour nous faire découvrir un écosystème surprenant : celui de l'acoustique. En quelques années, la...

Écouter cet épisode

Le design dans le monde d'après

Le design dans le monde d'après

L'ancien secrétaire d'Etat socialiste, Thierry Mandon, est président de la Cité du Design de Saint-Etienne. Dans ce nouvel épisode du podcast Inspiration, il présente la Biennale...

Écouter cet épisode

Viande in vitro, végétal... Frédéric Wallet dresse le menu de demain

Viande in vitro, végétal... Frédéric Wallet dresse le menu de demain

Dans ce nouvel épisode de « Demain dans nos assiettes », notre journaliste reçoit Frédéric Wallet. Chercheur à l'Inrae, il est l'auteur de Manger Demain, paru aux...

Écouter cet épisode

La fin du charbon en Moselle

La fin du charbon en Moselle

Dans ce nouvel épisode de La Fabrique, Cécile Maillard nous emmène à Saint Avold, en Moselle, dans l'enceinte de l'une des trois dernières centrales à charbon de...

Écouter cet épisode

Tous les podcasts

LES SERVICES DE L'USINE NOUVELLE

Trouvez les entreprises industrielles qui recrutent des talents

VILLE DE CALLAC

Technicien des Services Techniques H/F

VILLE DE CALLAC - 31/03/2022 - CDD - CALLAC DE BRETAGNE

+ 550 offres d’emploi

Tout voir
Proposé par

Accédez à tous les appels d’offres et détectez vos opportunités d’affaires

74 - Annecy

Services d'assurances

DATE DE REPONSE 16/06/2022

+ de 10.000 avis par jour

Tout voir
Proposé par

ARTICLES LES PLUS LUS