Abonnez-vous Identifiez-vous

Identifiez-vous

Vos codes d'accès sont erronés, Veuillez les saisir à nouveau. Mot de passe oublié ?

Informatique : IBM lance le traitement de texte vocalCe "kit" pour micro-ordinateur a l'ambition de transformer une technique de laboratoire en un outil aussi commun que le clavier ou la souris.

,

Publié le

Les entreprises citées

En partenariat avec Industrie Explorer

Informatique : IBM lance le traitement de texte vocal

Ce "kit" pour micro-ordinateur a l'ambition de transformer une technique de laboratoire en un outil aussi commun que le clavier ou la souris.



Avec son système de "dictée personnelle", IBM veut mettre la technologie de reconnaissance vocale à la portée du grand public. Son principe: en parlant devant un micro connecté à un PC, l'utilisateur voit ses paroles s'afficher immédiatement à l'écran, et peut ensuite les imprimer, ou les reprendre dans un traitement de texte. Communiquer avec un ordinateur par la parole, ce n'est pas nouveau, au moins dans les laboratoires. Les recherches dans ce domaine, notamment chez IBM, se poursuivent depuis plus de vingt ans. Aujourd'hui, le pari du constructeur informatique est de proposer cette technologie sur un simple PC486 (sous OS/2), comme une nouvelle interface, au même titre qu'une souris ou un clavier. Le système accepte une cadence de soixante-dix mots par minute, et son taux de réussite atteint 95% (le reste doit être corrigé au clavier). Mais il impose une contrainte non négligeable: les mots doivent être prononcés séparément, sans aucune liaison. Selon IBM, les performances sont toutefois suffisantes pour que la "dictée personnelle" soit bien acceptée par le grand public. Le constructeur informatique a d'ailleurs décidé de commercialiser son produit en kit (une carte électronique pour micro-ordinateur, un logiciel et un microphone) par les canaux de grande diffusion à un prix situé autour de 9000francs.Aux Etats-Unis, la dictée personnelle a été lancée l'année dernière. Sa version française a été développée par le Centre scientifique IBM de Paris, qui travaille sur la reconnaissance vocale depuis 1985. Au coeur du système, une carte d'acquisition et de traitement du signal, dotée d'un processeur spécialisé DSP (Digital Signal Processor). "Le traitement du signal acoustique est déterminant pour obtenir un bon taux de reconnaissance", explique Jean-Christophe Marcadet, ingénieur au Centre scientifique IBM de Paris. L'identification des mots prononcés s'appuie sur un dictionnaire de 32000mots. "C'est un compromis raisonnable, estime Jean-Christophe Marcadet. Avec un lexique plus complet, le système devient plus lent. De plus, en enrichissant le dictionnaire, on augmente les risques d'ambiguités."L'analyse acoustique et le dictionnaire ne suffisent d'ailleurs pas à transcrire un texte parlé, surtout en français, particulièrement redoutable en homophones. Un modèle de langue est donc chargé de faciliter le processus de reconnaissance et de veiller à sa cohérence. Tiré d'un énorme corpus de textes, il est constitué d'un modèle statistique décrivant les probabilités d'occurrences de suites de trois mots. Pour plus d'efficacité, ces modèles sont en fait spécialisés: lettres commerciales standards, comptes rendus médicaux, etc.Enfin, point essentiel pour une reconnaissance efficace, le système commence par s'adapter à l'élocution de son utilisateur (accents, tics de prononciation...) au cours d'un apprentissage effectué à partir de cent soixante phrases types.A l'aide de modèles de langue plus élaborés, et en améliorant le traitement du signal, IBM compte faire encore progresser le taux de reconnaissance de la dictée personnelle.



VERS LA PAROLE CONTINUE

Le traitement de la parole continue est souvent considérée comme une condition indispensable à l'acceptation des systèmes de dictée. C'est en tout cas l'opinion des spécialistes du Limsi (CNRS, Orsay), qui depuis 1990 ont focalisé leurs efforts sur la parole continue. Les systèmes actuels sont encore trop lents et leurs taux d'erreur trop élevés pour déboucher immédiatement sur des produits commercialisables. Mais la situation devrait évoluer d'ici à deux ans grâce à des modèles de langue plus complexes, associés à des stations de travail nettement plus puissantes. Philips a déjà commercialisé en langue allemande un système en parole continue pour des secteurs spécialisés.



LA RECONNAISSANCE MULTILOCUTEUR

Dans certaines applications, le système doit impérativement s'accommoder de multiples utilisateurs, dont il ne connaît pas a priori l'élocution. Ainsi, au Cnet, le centre de recherche de France Télécom, on travaille surtout sur des applications d'interrogation à la voix de serveurs téléphoniques (télématique vocale). En revanche, dans ce cas, un vocabulaire restreint à quelques dizaines de mots suffit (mais la mauvaise qualité du son téléphonique et les ambiances bruitées posent d'autres difficultés). Pour rendre l'application indépendante du locuteur, un modèle statistique de chaque mot est créé à partir des prononciations d'un échantillon aussi diversifié que possible d'un millier de personnes. Une méthode longue, coûteuse et peu souple. La prochaine génération travaillera en reconnaissant les phonèmes de base et non plus les mots. Pour qu'un nouveau mot soit pris en compte par la reconnaissance vocale, il suffira alors de l'introduire au clavier.

USINE NOUVELLE - N°2473 -

Créez votre compte L’Usine Connect

Fermer
L'Usine Connect

Votre entreprise dispose d’un contrat
L’Usine Connect qui vous permet d’accéder librement à tous les contenus de L’Usine Nouvelle depuis ce poste et depuis l’extérieur.

Pour activer votre abonnement vous devez créer un compte

Créer votre Compte
Suivez-nous Suivre Usine Nouvelle sur Facebook Suivre Usine Nouvelle sur Twitter RSS Usine Nouvelle