Google Duplex : une discussion plus naturelle avec les machines
Sauriez-vous distinguer la voix d’un être humain de celle d’une machine ? Lors de sa conférence annuelle, Google a réalisé une démonstration assez impressionnante : la conversation de son nouvel assistant vocal Google Duplex avec des commerçants. Une belle avancée qui soulève cependant quelques problèmes…
Oui, d’un point de vue technologique, les prouesses de l’assistant vocal Google Duplex sont impressionnantes. Lors de sa conférence I/O qui s’est déroulée le 8 mai en Californie, Google a fait la démonstration d’une conversation entre l’homme (des commerçants) et la machine (son assistant). De quoi en émerveiller plus d’un… ou de les effrayer. « D’un point de vue technologique, l’assistant vocal Google Duplex est très impressionnant, remarque Manuel Davy, fondateur de Vekia, une entreprise française spécialisée dans l’intelligence artificielle. Reconnaissance vocale, interprétation du langage naturel, synthèse vocale, recherche dans l’agenda… c’est au moins un enchaînement de cinq technologies dont chacune dispose de ses propres algorithmes. » Pour la reconnaissance de parole, précise cet ancien chercheur CNRS en IA, c’est le deep learning qui a permis son amélioration. Tandis que pour la prise de rendez-vous, il s’agirait plutôt de technologies relativement simples dites d’optimisations, c’est-à-dire de la recherche sous contrainte.
Sur son blog, Google explique que la conversation de Google Duplex est naturelle grâce à un réseau de neurones récurrent construit en utilisant TensorFlow Extended (TFX), une plateforme d'IA. Le réseau de neurones a réalisé son apprentissage en s’appuyant sur des données de conversations téléphoniques anonymisées. Il utilise également une technologie de reconnaissance vocale automatique de Google ainsi que d’autres paramètres comme l’historique de conversation. L’assistant utilise également deux outils de synthèse vocale lui permettant de contrôler l’intonation de la voix en fonction du contexte. Pour paraître plus naturel encore, le système intègre des petites réponses du type « hmm hmm », un peu comme le ferait naturellement une personne au téléphone.
A lire également : Google Lens, l'application qui scanne les objets du quotidien
Qu’est-ce qui fait donc la différence chez Google ? « Ce qui est remarquable avec Google, ajoute Manuel Davy, c’est la qualité d’interaction orale avec la machine. Cela nécessite pour les chercheurs de savoir imiter le rythme de parole, trouver des réponses à des questions anodines. Pour cela, il faut avoir une base de données d’exemples d’échanges standards gigantesque permettant de savoir comment les gens interagissent de manière informelle. » Il faut une base de données suffisamment grande pour que le système puisse apprendre et avoir un comportement naturel. Cette base doit être multipliée au nombre de pays existant.
Bonne ou mauvaise chose ?
« Toute technologie est porteuse de bonne et mauvaise choses », relativise Manuel Davy. « Encadrer la technologie est donc légitime, mais la question doit se poser pour toutes les technologies et non uniquement pour l’intelligence artificielle. » L’homme ajoute d’ailleurs que ce qui est assez difficile avec l’intelligence artificielle, c’est qu’elle n’est pas comprise par le grand public et qu’il est nécessaire de faire un travail pour différencier ce qui est la réalité et le fantasme.
Aujourd’hui, l’intelligence artificielle apporte différentes avancées, par exemple en médecine ou pour l’agriculture. En revanche, « il ne faudrait pas faire passer le robot pour un être humain », ajoute Manuel Davy. « Ce n’est pas parce que c’est une machine qu’elle peut faire n’importe quoi. »