imprimer

GramLab, un nouveau socle de traitement du langage en open source

Par Christophe Dutheil - Publié le
Langage
© Tochis - Flickr - C.C.

Avec l'aide d'un financement européen, quatre entreprises et une université françaises viennent de développer conjointement plusieurs composants open source de traitement linguistique. L'objectif : faciliter le développement d’applications s'appuyant sur des outils de traitement automatique du langage.

"Faire du traitement de la langue un monde normal dans le monde de l'informatique". C'est l'objectif ambitieux affiché par Gaëlle Recourcé, directeur scientifique de la start-up Kwaga, spécialiste de l'analyse sémantique des e-mails, lorsqu'on l'interroge sur la raison d'être du nouveau projet de recherche GramLab auquel participe sa société.

Financé par le Fonds Européen de Développement Economique (FEDER) et labellisé par le pôle de compétitivité francilien Cap Digital, GramLab vise à développer une plate-forme de création rapide de grammaires locales pour l'extraction automatique d'informations en entreprise.

Ce projet français réunit deux spécialistes du traitement de la langue (Kwaga et Lingway), un éditeur de logiciels de veille (Qwam Content Intelligence), le développeur d'une application de voyage pour l'iPhone (Actimos), et, côté centre de recherche, le Laboratoire informatique Gaspard Monge (LIGM) de l'université de Paris-Est Marne-La-Vallée.

Extraction automatique de langage

Ensemble, ces partenaires viennent de développer un premier lot de composants open source, gratuits, et "manipulables par tous développeurs sans qu'ils aient à être spécialistes de cette discipline." Et en particulier un "annotateur" s'appuyant sur le standard open source UIMA (pour "Unstructured Information Management Architecture"), inventé par IBM pour faciliter l'analyse d'importants volumes de données non structurée. Il intègre une version "remaniée et simplifiée" du logiciel de traitement de corpus développé à l’Université de Marne-la-vallée.

Quelle est l'utilité ? Le nouvel outil CityAnnotator, issu des mêmes recherches, offre un premier exemple. Il s'agit d'un "démonstrateur" permettant de repérer des noms de communes françaises dans un ensemble de textes en HTML (par exemple sur un ou plusieurs sites Web de tourisme).

D'autres exemples devraient suivre, si l'on en croit les responsables du projet de recherche, qui soulignent, dans un communiqué, que de nouvelles versions devraient permettre de "modifier la grammaire de reconnaissance", voire de "créer puis d’utiliser sa propre grammaire", notamment pour "repérer un nom de marque sous ses différentes déclinaisons sur le web."

Autant d'informations qui devraient s'avérer précieuses pour gérer la masse d'informations disponible sur la Toile. "L'idée est de fournir des outils pour exploiter le texte et en extraire automatiquement des informations sur les séquences, les dates, les noms, voire la tonalité des commentaires", explique Gaëlle Recourcé.

Un progrès important pour les entreprises, mais aussi pour les éditeurs. Il est probable qu'un jour, ceux qui traitent des données en français et en anglais pourront par exemple utiliser les outils GramLab pour intégrer à leurs solutions des services de reconnaissance automatique de dates et de lieu ou d'extraction automatique d’informations (noms de personnes, numéros de téléphone...).

Partagez l’info :

Partager cet article avec mon réseau profesionnel sur Viadeo linkedin Partager cet article sur Wikio envoyer à un ami

Effectuer une autre recherche

Rechercher
À la une
Jean-Baptiste Collin de Sussy

La sémantique de l'industrie

Ne dites plus industrie, mais redressement productif. C'est désormais le nom de ce ministère qui a vu le jour pour la...

Neri Oxman

L'impression 3D détournée par l'artiste Neri Oxman

L'architecte et designer Neri Oxman expose au Centre Georges Pompidou, à Paris, ses sculptures...

Guillaume Klossa

"Je suis fasciné par les technologies sans fil"

Guillaume Klossa, qui vient de publier un rapport sur l'impératif industriel, répond à notre...

Arnaud Montebourg

La semaine chargée d’Arnaud Montebourg, et le reste de l’actualité industrielle

On le savait déjà. Ministre est un métier à plein temps. Arnaud...


© L'Usine Nouvelle    - Publicité- Conditions générales d'utilisation - RSS - Pour nous contacter