Abonnez-vous Identifiez-vous

Identifiez-vous

Vos codes d'accès sont erronés, Veuillez les saisir à nouveau. Mot de passe oublié ?

L'industrie s'empare du web sémantique

Aurélie Barbaux , ,

Publié le

Repères Encore invisibles pour les internautes, les technologies du web sémantique permettent à des centaines de bases de données dans le monde de s’interconnecter et d’agréger leurs informations. La recherche médicale l’utilise déjà. L'aérospatial s'y met.

L'industrie s'empare du web sémantique
BIO2RDF: des dizaines de bases pour la santé. Réparties sur des dizaines de bases de données,des millions de

Après la recherche médicale, l’aérospatial. L’industrie aéronautique et spatiale compte à son tour tirer parti des technologies du web sémantique, qui lui permettront de partager plus facilement des données de conception et de production réparties dans différents systèmes d’information. A la demande d’Airbus, la société de conseil Vinci Consulting a en effet planché sur la convergence des données contenues dans les différents progiciels de gestion des informations de conception ou PLM (Product Lifecycle Management). "Avant même de se poser le problème d’interopérabilité technique des systèmes, nous avons dû résoudre celui de la compréhension des concepts contenus dans ces outils, observe Michel Maurino, le président fondateur de Vinci Consulting. Par exemple, suivant le métier, le terme “prestation” pourra désigner un livrable pour le client, ou une caractéristique particulière d’un système."

Résoudre un problème récurrent

Un concept inventé il y a dix ans

L’inventeur du web a lancé l’idée du web sémantique il y a dix ans, afin de faciliter l’échange de données structurées entre ordinateurs. Depuis, des standards ont été définis par le W3C et les applications se répandent. Seul regret de Sir Timothy John Berners-Lee: le web sémantique est parfois confondu avec un moteur de recherche, et il préférerait le rebaptiser « web des données ».

Sir Timothy John Berners-Lee Président du World Wide Web Consortium (W3C)
La solution, Vinci Consulting l’a trouvée dans les normes du web sémantique, basées sur des langages et formats permettant de décrire une « ontologie », c’est-à-dire un ensemble de concepts et de paramètres caractéristiques d’un domaine spécialisé (dans le médical: la génétique, par exemple), de définir le sens des mots (thesaurus, synonymes…) et d’échanger ces informations sous un format unique (RDF). Et comme la question d’interopérabilité des bases de données est récurrent dans l’industrie, Vinci Consulting a décidé de transformer son travail en un progiciel en créant, pour l’occasion, un nouveau concept, le SDM, pour Semantic Data Management (gestion de données sémantiques). "Nous sommes en phase de prototype industriel et le progiciel pourrait être commercialisé d’ici à la fin de l’année 2010", précise Michel Maurino.

Sur ces mêmes bases, d’autres progiciels sont également en chantier. « Le web sémantique a atteint un point de maturité. Depuis deux ans, les idées sont enfin claires: on sait mieux ce qu’il est, et ce à quoi il peut effectivement servir. Ses standards sont eux aussi bien définis par le consortium de standardisation du web, le W3C », observe Fabrice Lacroix, le président fondateur d’Antidot, un fournisseur de moteurs de recherche pour les entreprises.

Première étape: se doter d’ontologies, pour avoir des bases de données au contenu exploitable. Il en existe déjà dans presque tous les domaines. Et si le secteur médical reste encore le mieux couvert, avec des ontologies pour décrire tous les concepts liés notamment à la génétique, on en trouve désormais dans presque tous les secteurs industriels. "Il en existe même une pour tout ce qui touche à l’univers du pneu. Elle décrira, par exemple avec des balises du langage OWL, qu’un pneu peut être défini par son diamètre, sa composition et sa vitesse d’usure", remarque Fabrice Lacroix. Tâche méticuleuse et fastidieuse, la définition des ontologies a été entamée depuis des années, principalement par les chercheurs académiques. Elles sont donc généralement publiques. Mais, à l’exception des acteurs de la génomique, chacun travaille dans son coin : il n’existe pas d’organisation mondiale pour coordonner ce travail fondamental et indispensable.



Un format standard

Décrivant des concepts, une ontologie ne peut à elle seule faire fonctionner le web sémantique. Pour définir les mots, les professionnels de la sémantique disposent du langage SKOS, qui permet de lier aux concepts des corpus de termes (synonymes, thésaurus…). Par ailleurs, un nouveau langage, FOAF, (Friend of a Friend), est utilisé pour décrire les personnes qui interviennent dans un domaine donné (experts…), et les liens qu’elles entretiennent entre elles. Enfin, toutes ces informations doivent être codées au format RDF (Ressource Description Framework) pour être compréhensibles par toutes les applications informatiques qui voudraient effectuer des recherches dans les bases de données et les agréger, dans le but de former une réponse provenant de plusieurs sources différentes. « Le RDF est aux données ce que le HTML est aux pages web », explique Tim Berners-Lee, l’inventeur du web et président du World Wide WebConsortium (W3C). "RDF dit comment on échange et OWL dit ce qui doit être échangé", précise Fabrice Lacroix, d’Antidot. SKOS ou FOAF organisent les informations.

Des applications de recherche intelligentes

Pour se faire une idée du résultat possible, on peut consulter l’encyclopédie en ligne Wikipedia. Elle utilise déjà ces technologies pour renseigner automatiquement les cadres informatifs présentés à droite de la plupart de ses pages de résultats liés à des sujets géographiques, botaniques ou concernant les hommes célèbres. Ces informations sont automatiquement extraites de la base de données sémantique DBPedia, qui puise sans intervention humaine ses informations au format RDF dans d’autres bases de données, scientifiques ou culturelles.

Qu'est-ce que c'est ?

Le web sémantique est un ensemble de techniques permettant aux ordinateurs de donner du sens aux données accessibles sur le web, afin de les partager ou de les agréger plus efficacement.

A quoi ça sert ?

Industrie
Interconnecter des progiciels de gestion de données

Santé
Centraliser des informations médicales personnelles

Recherche
Préparer une bibliographie exhaustive

Médias
Structurer des informations du web et des médias sociaux
L’objectif du web sémantique est avant tout de faciliter l’échange des données structurées entre ordinateurs et non de construire un moteur de recherche en langage naturel puisant ses réponses dans des pages du web non structurées, comme son nom pourrait le laisser penser. C’est pourquoi le désigner sous le nom de "web des données" serait plus pertinent que de parler de web sémantique. Mais comme le reconnaît lui-même Tim Berners- Lee, qui a lancé l’idée du web sémantique il y a dix ans, « c’est trop tard » ! En revanche, le web sémantique permet de développer des applications de recherche plus intelligentes, travaillant sur plusieurs bases de données à la fois. Antidot travaille ainsi à une solution permettant d’extraire à la demande, à partir des multiples dossiers médicaux d’une personne, les informations indispensables aux urgentistes (groupe sanguin, allergies médicamenteuses...).

Il reste encore beaucoup à faire pour simplifier le travail des développeurs. Car les standards OWL, RDF et autres SKOS ne suffisent pas. "Nous travaillons à l’alignement des ontologies", explique Jérôme Euzenat, directeur de recherche de l’Inria à Grenoble. Il s’agit par exemple de faire converger les ontologies utilisées par les statisticiens et par les géographes. "Leurs descriptions d’une commune ne sont pas identiques", précise Jérôme Euzenat. Il faut donc trouver des correspondances, les exprimer et développer les outils logiciels pour les appliquer aux ontologies. Un projet européen, Tones (Thinking Ontologies), se consacre à ce type de problèmes. Un travail équivalent est réalisé sur les thésaurus des bibliothèques aux Pays-Bas et, aux Etats-Unis, la convergence des thésaurus des ouvrages sur l’agriculture avec les bases de la FAO (Food and Agriculture Organisation) des Nations unies est lancée. De son côté, l’université de Berlin a développé un outil, le D2R Server, qui automatise la transcription aux formats du web sémantique de bases de connaissances suivant une ontologie donnée. Enfin l’Université polytechnique de Madrid a développé la plate-forme Seals (Semantic Evaluation at Large Scale), pour tester à grande échelle les applications professionnelles du web sémantique.

Linked data, le grand projet des données liées

Mais le grand projet de la communauté du web sémantique est celui des données liées, ou Linked Data. Son but est d’interconnecter les bases de données au format web sémantique entre elles, sans passer par une application centralisatrice. Des dizaines de bases sont déjà connectées. Son application la plus aboutie se trouve chez Thomson-Reuters, le groupe international d’informations économiques et financières. Celui-ci a en effet développé une interface, appelée OpenCalais, qui transforme du code HTML non structuré en données sémantiques balisées... Les ordinateurs vont donc commencer à comprendre les informations qu’ils traitent. Bientôt des robots journalistes ?

La recherche sémantique n'existe pas... encore

C’est encore une utopie. Le moteur de recherche sémantique, qui comprendrait sans faillir les requêtes en langage naturel des internautes et saurait trouver et agréger des réponses pertinentes et complètes à partir des informations non structurées publiées sur le web, n’existe pas… ou pas encore. Il lui manque deux technologies:

L'indexation : lors d’une analyse de document, elle rattache chaque mot à un concept sous-jacent. Il faut donc avoir modélisé tous les concepts, dans toutes les langues !

L'extension sémantique : elle consiste à utiliser des dictionnaires pour élargir la recherche d’un utilisateur en exploitant les synonymes (même sens), les hyperonymes (sens plus large) et les hyponymes (sens plus réduit). A priori, cette opération est plus facile, mais requiert encore l’intervention de l’utilisateur pour affiner la recherche, comme sur le moteur français Exalead. Enfin, un moteur de recherche sémantique devrait restituer ses réponses non plus uniquement sous forme de liens mais plutôt d’informations, comme tente de le faire le moteur WolframAlpha.

Réagir à cet article

1 commentaire

Nom profil

06/04/2010 - 11h51 -

Bonjour,

"Pour se faire une idée du résultat possible, on peut consulter l’encyclopédie en ligne Wikipedia. Elle utilise déjà ces technologies pour renseigner automatiquement les cadres informatifs présentés à droite de la plupart de ses pages de résultats liés à des sujets géographiques, botaniques ou concernant les hommes célèbres. Ces informations sont automatiquement extraites de la base de données sémantique DBPedia, qui puise sans intervention humaine ses informations au format RDF dans d’autres bases de données, scientifiques ou culturelles."

Cette information est un contre-sens.

* Oui, la plupart des articles du même type (biographie, article sur un lieu, une ville, etc...) proposent souvent une structure commune.
* Oui, les informations a droite des articles sont structures en "infoboxes" d'une manière qui _ressemble_ au "web sémantique": a chaque champ est associe une valeur, et ce pour un nombre important d'articles.
* Oui, de nombreux contributeurs et développeurs travaillent a faciliter l'extraction d'informations sémantiques DEPUIS Wikipedia.

Mais non, hélas: le contenu des articles n'est pas encore génère, ou même suggère automatiquement a partir d'informations externes a Wikipedia. Les éditeurs entrent manuellement toutes les informations.

Par contre, certaines des boites (infoboxes) utilisées pour l'affichage de ces informations sont configurées pour permettre l'extraction d'informations sémantiques par des services et robots externes. Et c'est grâce a ces fonctionnalités que DBpedia a pu, en partie, construire sa base de donnée.

Les humains derrière Wikipedia renseignent la machine DBpedia, pas l'inverse :)
Répondre au commentaire

Créez votre compte L’Usine Connect

Fermer
L'Usine Connect

Votre entreprise dispose d’un contrat
L’Usine Connect qui vous permet d’accéder librement à tous les contenus de L’Usine Nouvelle depuis ce poste et depuis l’extérieur.

Pour activer votre abonnement vous devez créer un compte

Créer votre Compte
Suivez-nous Suivre Usine Nouvelle sur Facebook Suivre Usine Nouvelle sur Twitter RSS Usine Nouvelle

Les cookies assurent le bon fonctionnnement de nos sites et services. En utilisant ces derniers, vous acceptez l’utilisation des cookies.

OK

En savoir plus