Abonnez-vous Identifiez-vous

Identifiez-vous

Vos codes d'accès sont erronés, Veuillez les saisir à nouveau. Mot de passe oublié ?

GramLab, un nouveau socle de traitement du langage en open source

Publié le

Avec l'aide d'un financement européen, quatre entreprises et une université françaises viennent de développer conjointement plusieurs composants open source de traitement linguistique. L'objectif : faciliter le développement d’applications s'appuyant sur des outils de traitement automatique du langage.

GramLab, un nouveau socle de traitement du langage en open source © Tochis - Flickr - C.C.

"Faire du traitement de la langue un monde normal dans le monde de l'informatique". C'est l'objectif ambitieux affiché par Gaëlle Recourcé, directeur scientifique de la start-up Kwaga, spécialiste de l'analyse sémantique des e-mails, lorsqu'on l'interroge sur la raison d'être du nouveau projet de recherche GramLab auquel participe sa société.

Financé par le Fonds Européen de Développement Economique (FEDER) et labellisé par le pôle de compétitivité francilien Cap Digital, GramLab vise à développer une plate-forme de création rapide de grammaires locales pour l'extraction automatique d'informations en entreprise.

Ce projet français réunit deux spécialistes du traitement de la langue (Kwaga et Lingway), un éditeur de logiciels de veille (Qwam Content Intelligence), le développeur d'une application de voyage pour l'iPhone (Actimos), et, côté centre de recherche, le Laboratoire informatique Gaspard Monge (LIGM) de l'université de Paris-Est Marne-La-Vallée.

Extraction automatique de langage

Ensemble, ces partenaires viennent de développer un premier lot de composants open source, gratuits, et "manipulables par tous développeurs sans qu'ils aient à être spécialistes de cette discipline." Et en particulier un "annotateur" s'appuyant sur le standard open source UIMA (pour "Unstructured Information Management Architecture"), inventé par IBM pour faciliter l'analyse d'importants volumes de données non structurée. Il intègre une version "remaniée et simplifiée" du logiciel de traitement de corpus développé à l’Université de Marne-la-vallée.

Quelle est l'utilité ? Le nouvel outil CityAnnotator, issu des mêmes recherches, offre un premier exemple. Il s'agit d'un "démonstrateur" permettant de repérer des noms de communes françaises dans un ensemble de textes en HTML (par exemple sur un ou plusieurs sites Web de tourisme).

D'autres exemples devraient suivre, si l'on en croit les responsables du projet de recherche, qui soulignent, dans un communiqué, que de nouvelles versions devraient permettre de "modifier la grammaire de reconnaissance", voire de "créer puis d’utiliser sa propre grammaire", notamment pour "repérer un nom de marque sous ses différentes déclinaisons sur le web."

Autant d'informations qui devraient s'avérer précieuses pour gérer la masse d'informations disponible sur la Toile. "L'idée est de fournir des outils pour exploiter le texte et en extraire automatiquement des informations sur les séquences, les dates, les noms, voire la tonalité des commentaires", explique Gaëlle Recourcé.

Un progrès important pour les entreprises, mais aussi pour les éditeurs. Il est probable qu'un jour, ceux qui traitent des données en français et en anglais pourront par exemple utiliser les outils GramLab pour intégrer à leurs solutions des services de reconnaissance automatique de dates et de lieu ou d'extraction automatique d’informations (noms de personnes, numéros de téléphone...).

Réagir à cet article

Créez votre compte L’Usine Connect

Fermer
L'Usine Connect

Votre entreprise dispose d’un contrat
L’Usine Connect qui vous permet d’accéder librement à tous les contenus de L’Usine Nouvelle depuis ce poste et depuis l’extérieur.

Pour activer votre abonnement vous devez créer un compte

Créer votre Compte
Suivez-nous Suivre Usine Nouvelle sur Facebook Suivre Usine Nouvelle sur Twitter RSS Usine Nouvelle

Les cookies assurent le bon fonctionnnement de nos sites et services. En utilisant ces derniers, vous acceptez l’utilisation des cookies.

OK

En savoir plus