imprimer

L'industrie s'empare du web sémantique

Par Par aurélie barbaux - Publié le | L'Usine Nouvelle n° 3186

Encore invisibles pour les internautes, les technologies du web sémantique permettent à des centaines de bases de données dans le monde de s'interconnecter et d'agréger leurs informations. La recherche médicale l'utilise déjà. L'aérospatial s'y met.

Après la recherche médicale, l'aérospatial. L'industrie aéronautique et spatiale compte à son tour tirer parti des technologies du web sémantique, qui lui permettront de partager plus facilement des données de conception et de production réparties dans différents systèmes d'information. A la demande d'Airbus, la société de conseil Vinci Consulting a en effet planché sur la convergence des données contenues dans les différents progiciels de gestion des informations de conception ou PLM (Product Lifecycle Management). « Avant même de se poser le problème d'interopérabilité technique des systèmes, nous avons dû résoudre celui de la compréhension des concepts contenus dans ces outils, observe Michel Maurino, le président fondateur de Vinci Consulting. Par exemple, suivant le métier, le terme "prestation" pourra désigner un livrable pour le client, ou une caractéristique particulière d'un système. »

RÉSOUDRE UN PROBLÈME RÉCURRENT

La solution, Vinci Consulting l'a trouvée dans les normes du web sémantique, basées sur des langages et formats permettant de décrire une « ontologie », c'est-à-dire un ensemble de concepts et de paramètres caractéristiques d'un domaine spécialisé (dans le médical : la génétique, par exemple), de définir le sens des mots (thesaurus, synonymes...) et d'échanger ces informations sous un format unique (RDF). Et comme la question d'interopérabilité des bases de données est récurrent dans l'industrie, Vinci Consulting a décidé de transformer son travail en un progiciel en créant, pour l'occasion, un nouveau concept, le SDM, pour Semantic Data Management (gestion de données sémantiques). « Nous sommes en phase de prototype industriel et le progiciel pourrait être commercialisé d'ici à la fin de l'année 2010 », précise Michel Maurino.

Sur ces mêmes bases, d'autres progiciels sont également en chantier. « Le web sémantique a atteint un point de maturité. Depuis deux ans, les idées sont enfin claires : on sait mieux ce qu'il est, et ce à quoi il peut effectivement servir. Ses standards sont eux aussi bien définis par le consortium de standardisation du web, le W3C », observe Fabrice Lacroix, le président fondateur d'Antidot, un fournisseur de moteurs de recherche pour les entreprises.

Première étape : se doter d'ontologies, pour avoir des bases de données au contenu exploitable. Il en existe déjà dans presque tous les domaines. Et si le secteur médical reste encore le mieux couvert, avec des ontologies pour décrire tous les concepts liés notamment à la génétique, on en trouve désormais dans presque tous les secteurs industriels. « Il en existe même une pour tout ce qui touche à l'univers du pneu. Elle décrira, par exemple avec des balises du langage OWL (lire ci-dessus), qu'un pneu peut être défini par son diamètre, sa composition et sa vitesse d'usure », remarque Fabrice Lacroix. Tâche méticuleuse et fastidieuse, la définition des ontologies a été entamée depuis des années, principalement par les chercheurs académiques. Elles sont donc généralement publiques. Mais, à l'exception des acteurs de la génomique, chacun travaille dans son coin : il n'existe pas d'organisation mondiale pour coordonner ce travail fondamental et indispensable.

UN FORMAT STANDARD

Décrivant des concepts, une ontologie ne peut à elle seule faire fonctionner le web sémantique. Pour définir les mots, les professionnels de la sémantique disposent du langage SKOS, qui permet de lier aux concepts des corpus de termes (synonymes, thésaurus...). Par ailleurs, un nouveau langage, FOAF, (Friend of a Friend), est utilisé pour décrire les personnes qui interviennent dans un domaine donné (experts...), et les liens qu'elles entretiennent entre elles. Enfin, toutes ces informations doivent être codées au format RDF (Ressource Description Framework) pour être compréhensibles par toutes les applications informatiques qui voudraient effectuer des recherches dans les bases de données et les agréger, dans le but de former une réponse provenant de plusieurs sources différentes. « Le RDF est aux données ce que le HTML est aux pages web », explique Tim Berners-Lee, l'inventeur du web et président du World Wide Web Consortium (W3C) (lire l'encadré p. 50). « RDF dit comment on échange et OWL dit ce qui doit être échangé », précise Fabrice Lacroix, d'Antidot. SKOS ou FOAF organisent les informations.

DES APPLICATIONS DE RECHERCHE INTELLIGENTES

Pour se faire une idée du résultat possible, on peut consulter l'encyclopédie en ligne Wikipedia. Elle utilise déjà ces technologies pour renseigner automatiquement les cadres informatifs présentés à droite de la plupart de ses pages de résultats liés à des sujets géographiques, botaniques ou concernant les hommes célèbres. Ces informations sont automatiquement extraites de la base de données sémantique DBPedia, qui puise sans intervention humaine ses informations au format RDF dans d'autres bases de données, scientifiques ou culturelles.

L'objectif du web sémantique est avant tout de faciliter l'échange des données structurées entre ordinateurs et non de construire un moteur de recherche en langage naturel puisant ses réponses dans des pages du web non structurées, comme son nom pourrait le laisser penser. C'est pourquoi le désigner sous le nom de « web des données » serait plus pertinent que de parler de web sémantique. Mais comme le reconnaît lui-même Tim Berners-Lee, qui a lancé l'idée du web sémantique il y a dix ans, « c'est trop tard » ! En revanche, le web sémantique permet de développer des applications de recherche plus intelligentes, travaillant sur plusieurs bases de données à la fois. Antidot travaille ainsi à une solution permettant d'extraire à la demande, à partir des multiples dossiers médicaux d'une personne, les informations indispensables aux urgentistes (groupe sanguin, allergies médicamenteuses...).

Il reste encore beaucoup à faire pour simplifier le travail des développeurs. Car les standards OWL, RDF et autres SKOS ne suffisent pas. « Nous travaillons à l'alignement des ontologies », explique Jérôme Euzenat, directeur de recherche de l'Inria à Grenoble. Il s'agit par exemple de faire converger les ontologies utilisées par les statisticiens et par les géographes. « Leurs descriptions d'une commune ne sont pas identiques », précise Jérôme Euzenat. Il faut donc trouver des correspondances, les exprimer et développer les outils logiciels pour les appliquer aux ontologies. Un projet européen, Tones (Thinking Ontologies), se consacre à ce type de problèmes. Un travail équivalent est réalisé sur les thésaurus des bibliothèques aux Pays-Bas et, aux Etats-Unis, la convergence des thésaurus des ouvrages sur l'agriculture avec les bases de la FAO (Food and Agriculture Organisation) des Nations unies est lancée. De son côté, l'université de Berlin a développé un outil, le D2R Server, qui automatise la transcription aux formats du web sémantique de bases de connaissances suivant une ontologie donnée. Enfin l'Université polytechnique de Madrid a développé la plate-forme Seals (Semantic Evaluation at Large Scale), pour tester à grande échelle les applications professionnelles du web sémantique.

LINKED DATA, LE GRAND PROJET DES DONNÉES LIÉES

Mais le grand projet de la communauté du web sémantique est celui des données liées, ou Linked Data. Son but est d'interconnecter les bases de données au format web sémantique entre elles, sans passer par une application centralisatrice. Des dizaines de bases sont déjà connectées. (voir l'encadré ci-contre). Son application la plus aboutie se trouve chez Thomson-Reuters, le groupe international d'informations économiques et financières. Celui-ci a en effet développé une interface, appelée OpenCalais, qui transforme du code HTML non structuré en données sémantiques balisées... Les ordinateurs vont donc commencer à comprendre les informations qu'ils traitent. Bientôt des robots journalistes ?

Partagez l’info :

Partager cet article avec mon réseau profesionnel sur Viadeo linkedin Partager cet article sur Wikio envoyer à un ami

Effectuer une autre recherche

Rechercher
À la une
Jean-Baptiste Collin de Sussy

La sémantique de l'industrie

Ne dites plus industrie, mais redressement productif. C'est désormais le nom de ce ministère qui a vu le jour pour la...

Neri Oxman

L'impression 3D détournée par l'artiste Neri Oxman

L'architecte et designer Neri Oxman expose au Centre Georges Pompidou, à Paris, ses sculptures...

Guillaume Klossa

"Je suis fasciné par les technologies sans fil"

Guillaume Klossa, qui vient de publier un rapport sur l'impératif industriel, répond à notre...

Arnaud Montebourg

La semaine chargée d’Arnaud Montebourg, et le reste de l’actualité industrielle

On le savait déjà. Ministre est un métier à plein temps. Arnaud...


© L'Usine Nouvelle    - Publicité- Conditions générales d'utilisation - RSS - Pour nous contacter