L'industrie s'empare du web sémantique

Encore invisibles pour les internautes, les technologies du web sémantique permettent à des centaines de bases de données dans le monde de s’interconnecter et d’agréger leurs informations. La recherche médicale l’utilise déjà. L'aérospatial s'y met.

Partager

TESTEZ GRATUITEMENT L'ABONNEMENT À L'USINE NOUVELLE

15 jours gratuits et sans engagement

L'industrie s'empare du web sémantique
BIO2RDF: des dizaines de bases pour la santé. Réparties sur des dizaines de bases de données,des millions de

Après la recherche médicale, l’aérospatial. L’industrie aéronautique et spatiale compte à son tour tirer parti des technologies du web sémantique, qui lui permettront de partager plus facilement des données de conception et de production réparties dans différents systèmes d’information. A la demande d’Airbus, la société de conseil Vinci Consulting a en effet planché sur la convergence des données contenues dans les différents progiciels de gestion des informations de conception ou PLM (Product Lifecycle Management). "Avant même de se poser le problème d’interopérabilité technique des systèmes, nous avons dû résoudre celui de la compréhension des concepts contenus dans ces outils, observe Michel Maurino, le président fondateur de Vinci Consulting. Par exemple, suivant le métier, le terme “prestation” pourra désigner un livrable pour le client, ou une caractéristique particulière d’un système."

Résoudre un problème récurrent

Un concept inventé il y a dix ans

L’inventeur du web a lancé l’idée du web sémantique il y a dix ans, afin de faciliter l’échange de données structurées entre ordinateurs. Depuis, des standards ont été définis par le W3C et les applications se répandent. Seul regret de Sir Timothy John Berners-Lee: le web sémantique est parfois confondu avec un moteur de recherche, et il préférerait le rebaptiser « web des données ».

Sir Timothy John Berners-Lee Président du World Wide Web Consortium (W3C)
La solution, Vinci Consulting l’a trouvée dans les normes du web sémantique, basées sur des langages et formats permettant de décrire une « ontologie », c’est-à-dire un ensemble de concepts et de paramètres caractéristiques d’un domaine spécialisé (dans le médical: la génétique, par exemple), de définir le sens des mots (thesaurus, synonymes…) et d’échanger ces informations sous un format unique (RDF). Et comme la question d’interopérabilité des bases de données est récurrent dans l’industrie, Vinci Consulting a décidé de transformer son travail en un progiciel en créant, pour l’occasion, un nouveau concept, le SDM, pour Semantic Data Management (gestion de données sémantiques). "Nous sommes en phase de prototype industriel et le progiciel pourrait être commercialisé d’ici à la fin de l’année 2010", précise Michel Maurino.

Sur ces mêmes bases, d’autres progiciels sont également en chantier. « Le web sémantique a atteint un point de maturité. Depuis deux ans, les idées sont enfin claires: on sait mieux ce qu’il est, et ce à quoi il peut effectivement servir. Ses standards sont eux aussi bien définis par le consortium de standardisation du web, le W3C », observe Fabrice Lacroix, le président fondateur d’Antidot, un fournisseur de moteurs de recherche pour les entreprises.

Première étape: se doter d’ontologies, pour avoir des bases de données au contenu exploitable. Il en existe déjà dans presque tous les domaines. Et si le secteur médical reste encore le mieux couvert, avec des ontologies pour décrire tous les concepts liés notamment à la génétique, on en trouve désormais dans presque tous les secteurs industriels. "Il en existe même une pour tout ce qui touche à l’univers du pneu. Elle décrira, par exemple avec des balises du langage OWL, qu’un pneu peut être défini par son diamètre, sa composition et sa vitesse d’usure", remarque Fabrice Lacroix. Tâche méticuleuse et fastidieuse, la définition des ontologies a été entamée depuis des années, principalement par les chercheurs académiques. Elles sont donc généralement publiques. Mais, à l’exception des acteurs de la génomique, chacun travaille dans son coin : il n’existe pas d’organisation mondiale pour coordonner ce travail fondamental et indispensable.



Un format standard

Décrivant des concepts, une ontologie ne peut à elle seule faire fonctionner le web sémantique. Pour définir les mots, les professionnels de la sémantique disposent du langage SKOS, qui permet de lier aux concepts des corpus de termes (synonymes, thésaurus…). Par ailleurs, un nouveau langage, FOAF, (Friend of a Friend), est utilisé pour décrire les personnes qui interviennent dans un domaine donné (experts…), et les liens qu’elles entretiennent entre elles. Enfin, toutes ces informations doivent être codées au format RDF (Ressource Description Framework) pour être compréhensibles par toutes les applications informatiques qui voudraient effectuer des recherches dans les bases de données et les agréger, dans le but de former une réponse provenant de plusieurs sources différentes. « Le RDF est aux données ce que le HTML est aux pages web », explique Tim Berners-Lee, l’inventeur du web et président du World Wide WebConsortium (W3C). "RDF dit comment on échange et OWL dit ce qui doit être échangé", précise Fabrice Lacroix, d’Antidot. SKOS ou FOAF organisent les informations.

Des applications de recherche intelligentes

Pour se faire une idée du résultat possible, on peut consulter l’encyclopédie en ligne Wikipedia. Elle utilise déjà ces technologies pour renseigner automatiquement les cadres informatifs présentés à droite de la plupart de ses pages de résultats liés à des sujets géographiques, botaniques ou concernant les hommes célèbres. Ces informations sont automatiquement extraites de la base de données sémantique DBPedia, qui puise sans intervention humaine ses informations au format RDF dans d’autres bases de données, scientifiques ou culturelles.

Qu'est-ce que c'est ?

Le web sémantique est un ensemble de techniques permettant aux ordinateurs de donner du sens aux données accessibles sur le web, afin de les partager ou de les agréger plus efficacement.

A quoi ça sert ?

Industrie
Interconnecter des progiciels de gestion de données

Santé
Centraliser des informations médicales personnelles

Recherche
Préparer une bibliographie exhaustive

Médias
Structurer des informations du web et des médias sociaux
L’objectif du web sémantique est avant tout de faciliter l’échange des données structurées entre ordinateurs et non de construire un moteur de recherche en langage naturel puisant ses réponses dans des pages du web non structurées, comme son nom pourrait le laisser penser. C’est pourquoi le désigner sous le nom de "web des données" serait plus pertinent que de parler de web sémantique. Mais comme le reconnaît lui-même Tim Berners- Lee, qui a lancé l’idée du web sémantique il y a dix ans, « c’est trop tard » ! En revanche, le web sémantique permet de développer des applications de recherche plus intelligentes, travaillant sur plusieurs bases de données à la fois. Antidot travaille ainsi à une solution permettant d’extraire à la demande, à partir des multiples dossiers médicaux d’une personne, les informations indispensables aux urgentistes (groupe sanguin, allergies médicamenteuses...).

Il reste encore beaucoup à faire pour simplifier le travail des développeurs. Car les standards OWL, RDF et autres SKOS ne suffisent pas. "Nous travaillons à l’alignement des ontologies", explique Jérôme Euzenat, directeur de recherche de l’Inria à Grenoble. Il s’agit par exemple de faire converger les ontologies utilisées par les statisticiens et par les géographes. "Leurs descriptions d’une commune ne sont pas identiques", précise Jérôme Euzenat. Il faut donc trouver des correspondances, les exprimer et développer les outils logiciels pour les appliquer aux ontologies. Un projet européen, Tones (Thinking Ontologies), se consacre à ce type de problèmes. Un travail équivalent est réalisé sur les thésaurus des bibliothèques aux Pays-Bas et, aux Etats-Unis, la convergence des thésaurus des ouvrages sur l’agriculture avec les bases de la FAO (Food and Agriculture Organisation) des Nations unies est lancée. De son côté, l’université de Berlin a développé un outil, le D2R Server, qui automatise la transcription aux formats du web sémantique de bases de connaissances suivant une ontologie donnée. Enfin l’Université polytechnique de Madrid a développé la plate-forme Seals (Semantic Evaluation at Large Scale), pour tester à grande échelle les applications professionnelles du web sémantique.

Linked data, le grand projet des données liées

Mais le grand projet de la communauté du web sémantique est celui des données liées, ou Linked Data. Son but est d’interconnecter les bases de données au format web sémantique entre elles, sans passer par une application centralisatrice. Des dizaines de bases sont déjà connectées. Son application la plus aboutie se trouve chez Thomson-Reuters, le groupe international d’informations économiques et financières. Celui-ci a en effet développé une interface, appelée OpenCalais, qui transforme du code HTML non structuré en données sémantiques balisées... Les ordinateurs vont donc commencer à comprendre les informations qu’ils traitent. Bientôt des robots journalistes ?

%%HORSTEXTE:%%

Partager

NEWSLETTER Innovation
Nos journalistes sélectionnent pour vous les articles essentiels de votre secteur.

Recevez directement leurs décryptages et analyses dans votre boîte mail:

Votre demande d’inscription a bien été prise en compte.

L'inscription aux newsletters vaut acceptation des Conditions Générales d'Utilisation. Lire la suite

Votre email est traité par notre titre de presse qui selon le titre appartient, à une des sociétés suivantes du : Groupe Moniteur Nanterre B 403 080 823, IPD Nanterre 490 727 633, Groupe Industrie Service Info (GISI) Nanterre 442 233 417. Cette société ou toutes sociétés du Groupe Infopro Digital pourront l'utiliser afin de vous proposer pour leur compte ou celui de leurs clients, des produits et/ou services utiles à vos activités professionnelles. Pour exercer vos droits, vous y opposer ou pour en savoir plus : Charte des données personnelles.

Fermer
LES ÉVÉNEMENTS L'USINE NOUVELLE

LES SERVICES DE L'USINE NOUVELLE

ARTICLES LES PLUS LUS