« Les modèles génératifs changent la donne », tranche Joelle Pineau, directrice de la recherche en IA de Meta

À la tête d’une équipe de quelque 400 chercheurs en IA, Joelle Pineau, la directrice générale de la recherche fondamentale en IA de Meta, décrypte pour « Industrie & Technologies » les ingrédients clés qui font la puissance des modèles génératifs, dont le fameux ChatGPT. Et appelle à prendre la mesure des changements qu’ils vont provoquer.

Réservé aux abonnés
Image d'illustration de l'article
Joelle Pineau, la directrice générale de la recherche fondamentale en IA de Meta.

En 2022, on a assisté à une profusion de nouveaux modèles d’intelligence artificielle très étonnants... jusqu’au phénomène ChatGPT. Que se passe-t-il ?

Avec un peu de recul, on a vraiment l’impression qu’il y a des moments charnières dans l’intelligence artificielle (IA). La période actuelle me rappelle l’arrivée des réseaux de neurones dans le traitement des images en 2012. Ils ont déclenché une vague qui nous porte toujours mais qui a pris une nouvelle ampleur. Cette année, ça a été énorme avec l’arrivée des modèles génératifs, capables de produire des conversations, des images, des vidéos, des sons, des musiques… Il y avait déjà eu une percée dans la fabrication d’images avec les GANs, ou réseaux antagonistes génératifs, introduits en 2014, mais cela avait peu marqué les esprits en dehors de la communauté de l’IA. Il n’y avait pas vraiment eu de passage à l’échelle alors qu’aujourd’hui c’est vraiment sorti partout, ça a explosé.

Qu’est-ce qui a permis l’arrivée de ces nouveaux modèles génératifs ? Y a-t-il eu des ruptures ?

Les grandes vagues d’IA sont souvent précipitées par une combinaison d’innovations en algorithmie, de nouveaux jeux de données et de puissance de calcul. Il faut ces trois ingrédients pour créer un genre de déclic et donner cette impression de révolution. En algorithmie, il n’y a pas vraiment eu de grands sauts, mais plutôt des avancées progressives et une utilisation à plus grande échelle, sur de meilleurs jeux de données, de techniques déjà connues. La vague actuelle s’appuie sur une poignée d’ingrédients clés : les modèles dits «Transformers» et ceux dits «à diffusion» du côté de l’architecture des réseaux de neurones ; l’apprentissage autosupervisé, utilisé pour le pré-entraînement des modèles ; puis de nombreuses techniques permettant de finaliser le modèle pour son usage – en particulier l’apprentissage par renforcement à partir de rétroaction humaine, ou RLHF (Reinforcement learning from human feedback).

Certains, comme Yann Lecun, s’inscrivent à rebours du buzz actuel autour des grands modèles de langage comme ChatGPT, affirmant qu’il ne s’agit pas d’une révolution. Qu’en pensez-vous ?

Comme je viens de le dire, il n’y a effectivement pas de saut technologique. Surtout, je pense que l’un des points sur lequel Yann insiste le plus – et je suis tout à fait d’accord avec lui –, c’est que ces modèles n’ont toujours pas de capacité de raisonnement développée. Ils ne font que compléter l’information qu’on leur donne. Contrairement à Cicero, notre agent capable de jouer – avec succès ! – au jeu Diplomatie, fondé sur la négociation d’alliances entre joueurs. Cicero intègre un modèle de raisonnement stratégique, qui explore des scénarios et choisit les meilleurs, couplé à un modèle de langage pour négocier avec les autres joueurs.

Les grands modèles de langage affichent tout de même une maîtrise impressionnante de la conversation. Or le langage est étroitement lié à l’intelligence, du moins à une certaine forme d’intelligence. Qu’arrive-t-on à capter avec ce genre d’IA ?

Je dirais que l’on saisit trois éléments : la syntaxe, la cohérence globale et l’intérêt. La syntaxe, car on capte bien les propriétés statistiques de la langue grâce à de très grands jeux de données et à l’apprentissage autosupervisé. Cet apprentissage intervient lors du pré-entraînement du modèle : on donne par exemple une phrase au modèle, qu’il voit sous la forme d’une séquence de petits groupes de lettres appelés «tokens» [des jetons, ndlr], dont une partie a été cachée. Et on lui enseigne à prédire la partie cachée en le pénalisant s’il se trompe via une fonction de «loss» [de perte, ndlr]. Avec une quantité et une qualité suffisantes de données, on dote ainsi le modèle d’une représentation de la langue qui a bien capté ses propriétés statistiques.

Ces modèles captent aussi la cohérence globale, dites-vous. C’est-à-dire ?

Il s’agit d’avoir une certaine suite dans les idées. Avant, les textes générés à partir d’une idée soit tournaient en rond autour de celle-ci, soit dérivaient sur des propos hors sujets. Il n’y avait qu’une cohérence locale dans la génération, pas la cohérence globale qui est indispensable pour être performant sur l’aspect sémantique. On arrive aujourd’hui à cette cohérence globale grâce aux Tranformers. Il s’agit d’une architecture de réseau de neurones introduite par Google, en 2018 je crois, qui est particulièrement performante pour les données en séquences car elle utilise un mécanisme dit d’attention qui lui permet de relier un «token» à d’autres pouvant être situés bien plus en amont ou en aval sur la séquence. La compréhension du token intègre ainsi le contexte qui l’accompagne, même éloigné sur la séquence. C’est cela qui permet de générer de longs textes gardant du sens. Tous les grands modèles de langage utilisent l’architecture Transformer. Celle-ci peut aussi se montrer intéressante pour traiter des images... On est encore en phase d’exploration. 

Les grands modèles de langage parviennent à capter trois éléments : la syntaxe de la langue, la cohérence globale du discours et l’intérêt des gens.

Troisième élément des grands modèles de langage, selon vous : l’intérêt. Cela sonne comme une boutade…

Les grands modèles de langage arrivent aujourd’hui à capter l’intérêt des gens. C’est-à-dire qu’on sait cibler les réponses qui vont être intéressantes, éviter celles qui vont choquer ou être inintéressantes. On y parvient grâce à des techniques appliquées au modèle pré-entraîné pour le finaliser. On parle de «fine tuning»  (réglage fin), d’«instruction tuning»  (réglage par instruction), de «prompt engineering» (ingénierie de la commande texte). L’apprentissage par renforcement est très utilisé. Il consiste à laisser le modèle explorer ses choix et à le récompenser quand le choix est bon. Reste que, si pour un jeu il est assez simple de définir une fonction de récompense – un choix est estimé bon quand il amène à la victoire –, c’est plus complexe avec le langage. On ne sait pas dire de façon simple que telle conversation est bonne ou mauvaise. C’est pour cela qu’on utilise du renforcement par feedback humain, le RLHF.

Comment fonctionne ce renforcement par feedback humain ?

Des humains vont évaluer, en les annotant, un grand nombre de réponses du modèle. À partir de ces réponses annotées, de ces exemples, on va entraîner un réseau de neurones à prédire si une réponse est plus ou moins bonne. On obtient ainsi un modèle d’évaluation de la qualité d’une réponse que l’on va pouvoir utiliser comme fonction de récompense pour le modèle de langage. Ce dernier va tester ses réponses, obtenir une rétroaction pour chacune et apprendre, par renforcement, à donner de bonnes réponses. Cela fait plusieurs années qu’on essaie de faire du renforcement par-dessus des modèles de langage. On n’y arrivait pas bien, je pense, car on ne le faisait pas à assez grande échelle. La fonction de récompense – le signal de supervision – n’était pas assez riche. Il faut bien comprendre l’importance de ce signal : il n’y a pas d’apprentissage sans supervision. Il faut un signal de rétroaction pour changer les paramètres du modèle et l’améliorer. Au début, quand on indiquait au modèle la classe d’un élément – c’est l’image d’un chat, d’un chien... –, la supervision était évidente. Avec l’apprentissage autosupervisé – un terme un peu trompeur, à mes yeux –, ça l’est moins : le signal est la donnée d’entrée elle-même, la séquence. Mais ce signal est un peu diffus. Avec le renforcement par feedback humain, c’est un signal de supervision très ciblé qui s’ajoute. Plus le signal est riche, mieux on apprend.

Il y aura toujours besoin du travail humain. C’est le niveau d’abstraction auquel se situe ce travail qui va changer.

Ces modèles génératifs de textes, d’images... sont bien partis pour, a minima, bousculer bon nombre de métiers.

Que pensez-vous des futurs impacts ?

Ces modèles changent la donne, c’est certain. Mais je pense qu’il ne faut pas être trop inquiet, il y aura toujours besoin du travail humain. C’est le niveau d’abstraction auquel se situe ce travail qui va changer. Ce niveau a déjà évolué : avoir une belle écriture et une bonne orthographe constituait il y a quelque temps des compétences clés ; aujourd’hui, avec les autocorrecteurs, c’est plutôt la capacité d’articuler des idées pour exprimer une thèse qui prime. Cette capacité commençant à être maîtrisée par les grands modèles de langage, il va falloir passer au niveau supérieur. Le sens critique reste propre à l’humain, notamment. La créativité aussi, d’ailleurs : les modèles sont juste des miroirs qui reflètent l’existant ; créer quelque chose de profondément nouveau repose sur l’humain. En outre, avec les modèles qui génèrent une image à partir d’une description, on est passé de la créativité du pinceau à celle des mots. C’est toujours de la créativité. Certains, il est vrai, ne sont pas prêts à ces changements. Peut-être parce qu’ils ne sont pas outillés, pas aidés ? Je pense en tout cas que cela ne sert à rien de se buter.

Image d'illustration de l'articleeardog.com / kimberly@eardog.com
Pineau Pineau (KIMBERLY M WANG EARDOG.COM)

Quels sont les grands défis qui se posent encore pour ces IA ?

Les modèles génératifs posent une question essentielle qui n’est pas seulement technique : comment décide-t-on du comportement des agents que l’on construit ? On sait contrôler ce comportement, même s’il faut encore gagner en finesse. On peut filtrer les données d’entrées – un chatbot entraîné sur Wikipédia se comportera différemment que s’il avait été entraîné sur un forum comme Reddit. On peut aussi filtrer les sorties du modèle. On a toutes sortes de techniques au niveau de l’algorithmie, qu’on a notamment mises en œuvre avec notre système Blender Bot, sorti en open access en août dernier. Reste qu’il faut décider quel est le comportement souhaité de ces modèles qui génèrent des contenus. Quelles valeurs met-on dans ces systèmes-là ? Ceux qui développent ces outils doivent avoir ce type de questions en tête, mais la réponse ne leur appartient pas. C’est un débat à mener avec la société en général, même si la conversation est le plus souvent ardue. Il y a pas mal d’appréhension face à l’arrivée de ces modèles, parfois aussi un manque de compréhension de la technologie...

Quelle est la position de Meta AI sur le comportement des modèles ?

Nous misons beaucoup sur la transparence de nos modèles et évitons d’arriver avec un point de vue très affirmé sur ce que doit être leur comportement, afin d’inviter dans la conversation toutes sortes de points de vue. Quand nous sortons un modèle comme Blender Bot ou Cicero, nous publions le code, l’architecture... Meta a une grande expérience de la modération de contenus produits par des humains. C’est une tâche qui n’est déjà pas facile, avec toutes sortes d’enjeux qui s’opposent, et il faut maintenant traiter les contenus générés par des algorithmes... On n’a toujours pas de réponses définitives, mais nous avons au moins développé un certain nombre d’outils ! Plusieurs approches peuvent d’ailleurs être possibles suivant les applications : on peut par exemple imposer au système un comportement précis ou lui laisser pas mal de libertés et donner à l’usager, ou à une tierce partie, la possibilité de définir et de contrôler ce comportement.

Dans quels autres domaines de recherche Meta AI est-il très impliqué ?

Nous travaillons beaucoup sur les technologies du métaverse, un espace de création très riche. Tout ce qui se fait en termes de création d’images, de vidéos, de conversation... s’applique au métaverse. Mais il y a aussi toute la production d’objets 3D et l’interaction avec le monde physique, avec la volonté d’offrir une continuité entre le virtuel et le physique. Nous avons par exemple créé un doigt robotique, doté de capteurs tactiles extrêmement fins, qui offre des milliers de pixels du toucher afin de pouvoir reproduire les sensations. Si nous avions cette conversation dans le métaverse, le café n’aurait peut-être pas le même goût, mais vous pourriez avoir la sensation de la tasse dans votre main !

Un parcours de roboticienne

Chez Meta (ex-Facebook) depuis 2017, Joelle Pineau est d’abord une universitaire. Cette Canadienne de 48 ans, professeure à l’université McGill de Montréal, est l’un des piliers de l’écosystème montréalais de l’intelligence artificielle (IA). Une discipline à laquelle elle est venue via son doctorat en robotique, obtenu en 2004 à l’université Carnegie Mellon, à Pittsburgh. Après avoir mis en place le laboratoire de recherche en IA de Facebook (Fair) à Montréal, elle a pris la codirection globale de la recherche en IA du groupe. Elle en est devenue la directrice générale à l’automne 2022. Aujourd’hui, elle est à la tête d’environ 400 chercheurs spécialistes du deep learning, de l’apprentissage par renforcement et de la robotique... Est-ce son origine universitaire ? Joelle Pineau met en avant la transparence et l’ouverture des travaux menés à Fair, que ce soit en matière de publication des modèles d’IA et des codes informatiques ou de l’ajustement des comportements des agents d’IA. 

 
Newsletter La Quotidienne
Nos journalistes sélectionnent pour vous les articles essentiels de votre secteur.
Ils recrutent des talents
Chez Framatome, façonnons les réacteurs nucléaires de demain !

Un avenir énergétique 100% électrique et bas carbone ? Tout le monde en rêve, mais le défi est bien vaste ! Entreprise industrielle de la métallurgie, au service de la filière nucléaire, chez Framatome, chaque innovation, chaque calcul d’ingénierie, chaque soudure, contribue à cet objectif.

Le témoignage
Les webinars
Les services L'Usine Nouvelle
Détectez vos opportunités d’affaires
Trouvez des produits et des fournisseurs