Écrire aux machines
Plus de dix millions. C’est le nombre d’images collectées, mi-septembre, avec le « prompt » – la commande textuelle–, qui correspond à chacune, sur le site Lexica.art depuis la mise à disposition du public, le 22 août, de Stable Diffusion. C’est dire l’engouement pour ce modèle d’intelligence artificielle open source, pouvant tourner sur un simple PC, qui génère une image à partir d’une commande constituée d’un court texte décrivant le résultat désiré. Sans surprise, Stable Diffusion est venu s’ajouter à GPT-3, Dall-E et Midjourney sur PromptBase. Créée en juin, cette place de marché commercialise un produit d’un nouveau genre : le prompt.
Si le prompt a de la valeur – quelques dollars sur PromptBase –, c’est que les images générées sont souvent bien loin du résultat escompté. Si la beauté ou le photoréalisme des images sur Lexica impressionnent, un troisième bras ou des yeux mal placés peuvent surgir facilement quand le débutant s’essaie à demander un portrait. En cause, la nature de ces modèles d’IA, reposant sur les réseaux de neurones profonds, le deep learning.
Pas question de règles préétablies ni de syntaxe explicite, c’est à partir d’un apprentissage sur de gigantesques bases de données que ces IA ont développé leurs capacités. Exploiter leur potentiel demande d’explorer à tâtons leurs arcanes. Avec parfois des découvertes surprenantes, comme celle de ces chercheurs de l’université du Texas, à Austin, qui ont constaté que Dall-E 2 générait une image d’oiseau quand le prompt était «Apoploe vesrreaitais»...
Tout un savoir-faire baptisé «prompt engineering » se développe à grande vitesse depuis à peine deux ans.
Tout un savoir-faire baptisé « prompt engineering » se développe à grande vitesse depuis à peine deux ans et l’essor du pionnier GPT-3 d’OpenAI. Aux compilations de trucs, astuces et autres guides s’ajoutent des outils de génération de prompt. Un domaine scientifique est né, avec déjà plusieurs centaines de publications sur le sujet. La création d’images –et bientôt de vidéos et de musiques– est loin d’être le seul enjeu de tous ces efforts.
GPT-3 permet toutes sortes d’actions sur du texte. Sa déclinaison pour le codage informatique, Codex, intégré par Microsoft dans GitHub Copilot, génère du code. Le tout récent Act-1, d’Adept AI, manipule pour nous les logiciels d’un PC. Ils ont tous en commun d’être commandés par des prompts. L’interface textuelle en langage naturel s’impose dans cette génération de grands modèles d’IA dont la puissance rime avec polyvalence. Mais toujours pas avec bon sens. Il faut les guider, en apprenant à leur écrire.