[Avis d'expert] Deux minutes pour comprendre l’avènement des assistants vocaux

Depuis maintenant quelques années, la voix est au centre de l’attention pour révolutionner l’interface entre l’Homme et la machine. L’apparition des assistants vocaux est la matérialisation la plus évidente de ce phénomène. William Simonin, PDG de Vivoka, entreprise spécialisée dans l'intelligence artificielle et la reconnaissance vocale, revient sur les grandes lignes de ces technologies qui ont modifié nos habitudes et notre vision du futur.

Partager
TESTEZ GRATUITEMENT L'ABONNEMENT À L'USINE NOUVELLE

15 jours gratuits et sans engagement

[Avis d'expert] Deux minutes pour comprendre l’avènement des assistants vocaux

Tout d’abord, il est primordial de comprendre comment la machine est en mesure de comprendre le langage de l’Homme. Pour ce faire, cette dernière se repose sur plusieurs briques technologiques agissant à l’unisson. En première ligne se trouvent le Wake-up Word et le STT (Speech-to-Text), tous deux basés sur les technologies de reconnaissance de la parole. Le Wake-up Word (également appelé Hotword) est, vulgairement, le on/off de la reconnaissance vocale. Son objectif principal et d’analyser les fréquences sonores ambiantes jusqu’à reconnaître celle qui a été paramétrée : à l’image du “Ok Google” ou “Dis Siri”. Tant que ces mots n’ont pas été reconnus, la reconnaissance vocale à proprement parler ne pourra pas démarrer afin d’optimiser le fonctionnement du système.

Suite à cela, le STT finalement activé, va enregistrer l’ensemble des requêtes qui lui sont adressées, sous forme de fréquence sonore également. A travers des algorithmes issus du Machine Learning, ces données audio peuvent être assimilées à des mots et des phrases interprétables à l’étape suivante. Celle-ci n’est autre que le NLP (Natural Language Processing), un système souvent basé sur le Deep Learning, un algorithme prenant la forme d’un réseau neuronal, à l’instar du cerveau humain (1). Son but principal n’est autre que d’interpréter les mots et phrases issus du STT afin d’en déduire le sens et surtout l’intention. Cette fonctionnalité est réalisée à travers des analyses linguistiques (du lexique, de la syntaxe et de la sémantique) et également statistiques afin de fournir les estimations les plus précises.

Une fois l’ordre interprété, l’intention de l’utilisateur est traduite en une commande pouvant être assimilée par l’intelligence artificielle qui constitue l’assistant vocal. Cette dernière va ainsi communiquer avec les différents éléments qu’elle a en sa possession. Des services externes comme la météo ou les recherches sur internet, au contrôle d’appareils connectés au système, l’IA est en mesure de faire le lien entre l’objet de la requête et l’action à effectuer afin de donner le résultat le plus satisfaisant compte tenu de la demande. Plus largement, les assistants vocaux disposent d’une intelligence artificielle, façonnée par l’humain en fonction des usages auxquels ils seront destinés et confrontés. Pour aller plus loin, avec les différentes méthodes de machine learning, les systèmes d’aujourd’hui ont largement été influencés par l’arrivée des Big Data. Ils sont en mesure d’apprendre par eux-mêmes afin d’améliorer le service rendu à l’utilisateur et ce en apprenant à connaître ses habitudes et préférences. L’objectif final restant le même, garantir la meilleure qualité de service.

Ainsi, il serait facile de penser que les limites des assistants vocaux disposant d’intelligences artificielles sont quasi infinies. Et c’est en réalité presque vrai, actuellement seuls les aspects techniques freinent leur progression. Sont en cause notamment la précision de la compréhension des requêtes vocales, aujourd’hui à 94% en moyenne, mais aussi l’interprétation de ces dernières par les modules NLP (2).


D’autre part, il y a des limites inhérentes à l’utilisation des assistants vocaux. Dans l’ensemble il existe deux grands axes : l’utilisation du Cloud, et les technologies embarquées. Le premier permet à l’IA d’avoir accès à une multitude d’informations en ligne pouvant servir de ressource. En contrepartie, la dépendance à Internet est très forte. Tandis que le second est totalement autonome vis-à-vis de la connexion, mais verra son champ d’action réduit. Cependant, le choix de ces technologies relève d’un simple arbitrage concernant les utilisations prévues. L’exemple typique est le cas de l’automobile : un véhicule purement citadin sera très souvent équipé en Cloud, lui offrant de nombreuses possibilités, tandis qu’un véhicule amené à parcourir de longues distances, sera équipé de technologies embarquées pour pallier le manque de réseau.

Pour autant, les assistants vocaux sont toujours au centre de l’attention quand il s’agit de données personnelles. Les questions les plus récurrentes relèvent de la conservation et de l’utilisation de ces informations. Le RGPD (Règlement Général sur la Protection des Données) instauré le 25 Mai 2018 (3) a permis d’encadrer très largement ce sujet en Europe. A travers cette directive européenne, plusieurs grands principes ont émergé :

- L’utilisateur doit donner son consentement explicite dès lors qu’il est sujet à l’exploitation de ses données personnelles.
- L’utilisateur a un accès permanent à l’ensemble de ces informations.
- L’utilisateur est en droit de supprimer ou modifier les données récoltées à tout moment.
- Le principe du Privacy by Design, impliquant que les solutions technologiques doivent respecter les données personnelles dès leur conception.
- La présence d’un DPO (délégué à la protection des données) au sein des entreprises.

Grâce à ces différentes mesures, il est aujourd’hui très facile de gérer, à notre convenance, l’ensemble des données personnelles transmises aux assistants vocaux. Par ailleurs, pour faire écho à un terme mentionné auparavant, le Wake-up Word, il est bon de noter qu’il est également utilisé dans une optique de préservation de l’intimité des utilisateurs.

En définitive, enceintes connectées et assistants vocaux de tous types sont de plus en plus nombreux à partager notre quotidien. Mais, le révolutionnent-ils vraiment ? Aux Etats-Unis, c’est une certitude. La démocratisation de la reconnaissance vocale est en pleine croissance et ne montre aucun signe de relâchement. En Europe cependant, les sociétés commencent seulement à s’y tourner. En effet, contrairement à nos voisins Outre-Atlantique, la ruée vers les assistants vocaux n’a commencé que cette année. De façon similaire, les différents domaines et secteurs d’activités concernés ont des cycles d’évolution très hétérogènes. Certains ont déjà fait le pas vers cette révolution, comme l’automobile ou la Smart Home et voient déjà les retombées positives, tandis que d’autres en sont encore à la genèse de cette transition.

Nous estimons aujourd’hui n’être qu’à 2% du potentiel maximal de l’utilisation de la voix. Une chose est sûre, la reconnaissance vocale intégrée à nos différents appareils est en passe de devenir le standard de l’interaction Homme-Machine, apportant par la même occasion de nombreux usages et fonctionnalités.

William Simonin, PDG de Vivoka, entreprise spécialisée dans l'intelligence artificielle et la reconnaissance vocale

----------------------------------------------------------------------------------------------------------------

{C}{C}{C}{C}{C}{C}{C}{C}[1] https://vivoka.com/livre-blanc-n1/

[2] https://www.nextinpact.com/news/104990-reconnaissance-vocale-ia-egale-humain-nouvelle-fois.htm

[3] https://www.associations.gouv.fr/le-rgpd-est-entre-en-application.html

Les avis d'experts sont publiés sous la seule responsabilité de leurs auteurs et n'engagent pas la rédaction de L'Usine Nouvelle

0 Commentaire

[Avis d'expert] Deux minutes pour comprendre l’avènement des assistants vocaux

Tous les champs sont obligatoires

Votre email ne sera pas publié

Sujets associés

SUR LE MÊME SUJET

NEWSLETTER Innovation

Nos journalistes sélectionnent pour vous les articles essentiels de votre secteur.

Votre demande d’inscription a bien été prise en compte.

Votre email est traité par notre titre de presse qui selon le titre appartient, à une des sociétés suivantes...

Votre email est traité par notre titre de presse qui selon le titre appartient, à une des sociétés suivantes du : Groupe Moniteur Nanterre B 403 080 823, IPD Nanterre 490 727 633, Groupe Industrie Service Info (GISI) Nanterre 442 233 417. Cette société ou toutes sociétés du Groupe Infopro Digital pourront l'utiliser afin de vous proposer pour leur compte ou celui de leurs clients, des produits et/ou services utiles à vos activités professionnelles. Pour exercer vos droits, vous y opposer ou pour en savoir plus : Charte des données personnelles.

LES ÉVÉNEMENTS L’USINE NOUVELLE

LES PODCASTS

La vision d'un manager... de brigade en cuisine

La vision d'un manager... de brigade en cuisine

Nouveau

Dans le Podcast Inspiration, Cyril Bosviel, chef à l'institut Paul Bocuse à Lyon, répond aux questions de Christophe Bys. Il revient sur ses débuts, son parcours de chef cuisinier mais...

Écouter cet épisode

Auto et économie circulaire

Auto et économie circulaire

Dans ce nouvel épisode du podcast La Fabrique, Julie Thoin-Bousquié revient sur la prise en compte des enjeux d'économie circulaire dans l'automobile. En toile de fond, l'impératif de...

Écouter cet épisode

La mobilité de demain selon Clotide Delbos et Christel Bories

La mobilité de demain selon Clotide Delbos et Christel Bories

Lors des Assises de l'industrie 2021 organisées par L'Usine Nouvelle, Clotilde Delbos, directrice générale adjointe de Renault et DG de Mobilize (marque du groupe au losange) et Christel Bories,...

Écouter cet épisode

Une bête curieuse

Une bête curieuse

Dans cet épisode d'Industry Story, Guillaume Dessaix nous raconte le parcours de Temple Grandin.  Autiste, experte en psychologie des animaux, ingénieure, chef d’entreprise... Temple Grandin...

Écouter cet épisode

Tous les podcasts

LES SERVICES DE L’USINE NOUVELLE

Trouvez les entreprises industrielles qui recrutent des talents

LE CNAM

Ingénieur chef de projet bâtiment H/F

LE CNAM - 06/12/2021 - CDD - PARIS

+ 550 offres d’emploi

Tout voir
Proposé par

ARTICLES LES PLUS LUS