of 16

Construction d'une ontologie à partir d'une base de données relationnelle : approche dirigée par l'analyse des formulaires HTML

10 views
All materials on our website are shared by users. If you have any questions about copyright issues, please report us to resolve them. We are always happy to assist you.
Share
Description
Construction d'une ontologie à partir d'une base de données relationnelle : approche dirigée par l'analyse des formulaires HTML
Tags
Transcript
  Construction d’une ontologie à partir d’une base de données relationnelle : approche dirigée par l’analyse des formulaires HTML   Sidi Mohamed Benslimane *,** , Djamal Benslimane * , Mimoun Malki **, Youssef Amghar *, Faiez Gargouri ***   *Laboratoire LIRIS, Université Claude Bernard – INSA Lyon 8 Bld Niels Bohr, 69622, Villeurbanne Cedex, France {Sidi-mohamed.benslimane, Djamal.benslimane, Youssef.amghar}@liris.cnrs.fr ** Laboratoire EEDIS, Université Djillali Liabes de Sidi Bel-Abbes,  B.P. 89, cité Ben M’Hidi, 22000 Sidi-Bel-Abbes, Algérie {Benslimane, Malki}@univ-sba.dz *** ISIM - Sfax  BP 1030- 3018, Sfax. Tunisie.  faiez.gargouri@fsegs.rnu.tn  RÉSUMÉ  . L’émergence et la généralisation du Web dans tous les domaines, a permis à de nombreuses entreprises d’offrir une variété de services et d’informations en ligne, suscitant ainsi un réel besoin de partage et d’interopérabilité. Cela nécessite une infrastructure  permettant à des agents logiciels d’exploiter, de composer et de raisonner sur les contenus constituants les ressources Web. Malheureusement, la notion d’ontologie qui est souvent au cœur de cette infrastructure, n’est pas toujours disponible. Pour contribuer à résoudre ce  problème, nous préconisons un processus semi-automatique d’acquisition d'ontologie OWL à  partir d’une base de données relationnelle en analysant par des techniques de retro ingénierie les formulaires HTML relatifs à une application Web. L’objectif de cette démarche et de rendre exploitables par les machines, les bases de données relationnelles disponibles  sur le Web, réduisant ainsi le coût de construction des ontologies.  ABSTRACT.  The emergence of the Internet technology and the rapid growth of its applications have made the information available anywhere and anytime. Thus, most businesses run Web-based front-end databases and make a variety of services and information available online. The next generation of the Web, the Semantic Web, seeks to add machine understandable content to Web resources. Such added content is called ontologies. In this paper we present a  semi-automatic reverse engineering approach to acquire OWL ontology corresponding to the content of relational database based on the analysis of its related HTML-forms. The main reason for this construction is to make the relational database information that is available on the Web machine-processable and reduce the time consuming task of ontology creation.  MOTS-CLÉS    :    Extraction d’ontologie, bases de données relationnel, OWL, formulaires HTML,  Rétro-ingénierie.  KEYWORDS  : Ontology extraction, Relational databases, OWL, HTML forms, Reverse engineering.    1. Introduction L’accroissement des technologies du Web et le développement rapide de ses applications, ont rendu l'information disponible n'importe où et n'importe quand. Ainsi plusieurs entreprises tentent de rendre accessibles sur le Web une variété de leurs services, suscitant ainsi un besoin de partage et d’interopérabilité. La  prolifération et la disponibilité des ontologies sont cruciales pour le succès de cette démarche qui s’inscrit dans le cadre du Web sémantique. Néanmoins la construction des ontologies demeure si coûteuse qu'elle entrave le progrès des activités du Web sémantique. La construction manuelle des ontologies (Volz ;  et al., 2004)   demeure toujours une tâche lourde, longue, et encombrante. La construction automatique des ontologies à partir de sources d'informations existantes (Haustein  et al., 2002) par des outils entièrement automatisés est toujours à un stade préliminaire de maturité. Par conséquent, l'utilisation d'un processus de construction semi-automatique d'ontologies est intéressante de ce point de vue et peut être considérée comme une solution intermédiaire et pratique. Actuellement, les bases de données relationnelles demeurent le moyen le plus  populaire pour stocker, rechercher et manipuler des données, cependant, la structure et les contraintes d'intégrité du modèle relationnel sont définies par des schémas qui ne sont pas aussi expressifs que des ontologies, pour ce qui est de la représentation de la sémantique des données. Par conséquence, il est essentiel de construire des ontologies qui soutiennent sémantiquement l'information contenue dans ces bases de données. La technique de rétro ingénierie, semble être une solution intéressante pour atteindre cet objectif. Elle est définie comme un processus d’analyse d’un système  permettant l’identification des entités et leurs liens en vue de passer d’une forme de représentation à une autre, de niveau d’abstraction identique ou plus élevé (Chiang  et al., 1994). Cependant, les informations extraites à partir d'un schéma relationnel  pour la construction d'ontologie peuvent être limitées: •   Pour des raisons de performance, souvent, les concepteurs de base de données peuvent être amenés à ne pas respecter les règles de normalisation  pour optimiser le schéma. •   Les schémas ne sont pas toujours en troisième forme normale. •   Les informations complètes sur la base de données relationnelle, telle que des dépendances fonctionnelles et d'inclusion, sont rarement disponibles (Premerlani,  et al., 1994). •   Etant donné que le modèle relationnel ne supporte pas tous les constructeurs du modèle conceptuel, une partie de la sémantique capturée dans le schéma conceptuel est nécessairement perdue lors du passage au schéma relationnel (c’est par exemple le cas de l’héritage). •   Les noms des relations et des attributs du schéma relationnel sont souvent abrégés ou ambigües (e.g. CUST_NB, StuName, S_125_AZE, etc). Ainsi, il est difficile ou même impossible de déduire la signification (i.e. la sémantique) des données en se basant sur ces appellations (Muller, 1998).    Dans ce papier nous proposons une approche de construction semi-automatique d'ontologie OWL basée sur l’analyse d’une base de données relationnelle ainsi que les pages HTML associées. Le reste du papier est organisé comme suit : dans la section 2, nous discutons un certain nombre de travaux relatifs à la rétro ingénierie des bases de données relationnelles vers les ontologies. La section 3, présente l’architecture générale de notre système. Les étapes d’extraction du schéma de formulaire sont détaillées dans la section 4. La section 5 décrit le processus d’enrichissement du schéma relationnel, tandis que la section 6 détaille les règles de construction de l’ontologie OWL, Enfin, nous concluons et donnons des  perspectives à ce travail dans la section 7. 2. Travaux antérieurs Les travaux sur la rétro ingénierie de bases de données relationnelles, suggèrent des méthodes et des règles pour définir explicitement la sémantique dans le schéma de base de données (Biskup, 1998), extraire la sémantique d’un schéma de base de données (Chiang et al., 1994) et transformer un modèle relationnel en un modèle orienté objet (Hainaut et al., 1996). Toutefois, la sémantique obtenue par ses approches ne peut pas être employée pour construire aisément une ontologie à  partir d’une base de données relationnelle. Bien que le modèle orienté objet soit  proche du modèle ontologique, quelques caractéristiques les différencient. Par exemple, la notion d‘hiérarchie et de cardinalité entre propriétés  n’existe pas dans le modèle orienté objet. Récemment, d’autres approches considérant les ontologies comme le résultat d’un processus de rétro ingénierie des bases de données relationnelles ont été  proposées. Ces approches peuvent être classées en trois catégories:  1. Approches basées sur l’analyse des requêtes utilisateurs : Dans (Kashyap, 1999), l'approche  proposée, construit l'ontologie en analysant tout d’abord le schéma relationnel. L'ontologie est ensuite raffinée en utilisant des requêtes d’utilisateurs. A noter que cette approche ne crée pas d’axiomes, qui représentent une partie intégrante d’une ontologie. 2. Approches basées sur l’analyse du schéma relationnel : Dans (Stojanovic, et al., 2002), l'approche proposée, fournit un ensemble de règles pour transformer les constructeurs de la base de données relationnelle en constructeurs sémantiquement équivalents dans l'ontologie. Ces règles sont basées sur une analyse des relations, des clés et des dépendances d'inclusion. Cependant, l'ontologie construite est exprimée dans RDF(S), langage qui ne possède pas de modèle d'inférence, limitant ainsi les traitements automatiques. 3. Approches basées sur l’analyse des tuples : Dans (Astrova et al.,  2004), l'approche tente d’analyser les tuples de la base de données relationnelle pour découvrir la sémantique "cachée"(e.g. l’héritage). Cependant, cette approche consomme beaucoup de temps au regard du nombre de tuples de la base de données relationnelle. Pour résoudre les problèmes communs de la rétro ingénierie en vue d’extraire la sémantique à partir des bases de données relationnelles, de nouvelles approches  proposent d’analyser les pages HTML. Cette analyse est basée sur la génération de    « wrapper » (Wang, et al.,  2003 ; Embley, et al. , 2004). Néanmoins, comme le souligne (Florescu, et al.,  1998), les pages HTML sont souvent restructurées (en moyenne plus de deux fois par an). Ainsi tout changement dans la structure de la  page HTML peut rendre caduque le fonctionnement du « wrapper » et par conséquent les ontologies qui y sont basées. Récemment, (Astrova, et al.,  2005) a  proposé une approche de construction d’ontologie basée sur l’analyse des formulaires HTML. L'inconvénient de cette approche, est qu'elle ne permet pas l'identification des relations d’héritage dans l'ontologie. 3. Approche pour la construction d’une ontologie  Notre approche pour la construction d’une ontologie, est basée sur l'idée que la sémantique de la base de données relationnelle peut être extraite en analysant les formulaires HTML de l’application Web associée. Cette sémantique sera utilisée  pour restructurer et enrichir le schéma relationnel. Un ensemble de règles de transformation permettra de construire directement l'ontologie à partir de ce schéma enrichi. La figure 1 présente l’architecture proposée dans notre approche. filtrageSchéma deformulaires   Schéma deformulairesSchéma XML des formulaires   Schéma XML des formulairesschéma Relationnel Enrichi   schéma Relationnel Enrichi Structure d’OntologieMOTEUR DE TRANSFORMATION Règles d’IdentificationRègles d’ExtractionRègles d’Enrichissement MOTEUR D’EXTRACTION Règles de ConstructionRègles de Migration MOTEUR D’ENRICHISSEMENT IDENTIFICATIONGENERATIONENRICHISSEMENTONTOLOGISATIONPOPULATION application Web de données intensives SchémaRelationnelPages HTMLInstancesde la base Instances d’Ontologie filtrageSchéma deform   ulaires   Schéma deformulairesSchéma XML des formulaires   Schéma XML des formulairesschéma Relationnel Enrichi   schéma Relationnel Enrichi Structure d’OntologieMOTEUR DE TRANSFORMATION Règles d’IdentificationRègles d’ExtractionRègles d’Enrichissement MOTEUR D’EXTRACTION Règles de ConstructionRègles de Migration MOTEUR D’ENRICHISSEMENT IDENTIFICATIONGENERATIONENRICHISSEMENTONTOLOGISATIONPOPULATION application Web de données intensives SchémaRelationnelPages HTMLInstancesde la base Instances d’Ontologie   Figure1 :  Architecture générale du système de construction d’ontologie    Les principaux composants de cette architecture sont :  Le moteur d'extraction  : Composé de deux ensembles de règles d'extraction. Le  premier ensemble de règles analyse les pages HTML pour identifier les constructeurs du schéma de formulaire. Le second ensemble de règles permet la transformation du schéma de formulaire en schéma XML et la dérivation de la sémantique du domaine par l’extraction du schéma relationnel des formulaires.  Le moteur d’enrichissement   : Composé d'un ensemble de règles d'enrichissement, il permet l'intégration de la sémantique extraite à partir du schéma de formulaires dans le schéma relationnel de la base de données.  Le moteur de transformation  : Composé de deux ensembles de règles de transformation. Le premier ensemble de règles permet la construction de l’ontologie OWL à partir du schéma relationnel enrichi. Ces règles sont organisées en quatre groupes : i) règles pour construire les classes, ii) règles pour construire les  propriétés, iii) règles pour construire les liens d’héritage et iv) règles pour construire les axiomes. Le deuxième ensemble de règles permet la migration des données en créant les instances de l’ontologie à partir des tuples relationnels.  Notre processus d’extraction d’ontologie s’articule autour de trois étapes : l’extraction du schéma de formulaires, l’enrichissement du schéma relationnel de la  base de données et la transformation du schéma enrichi en une ontologie OWL. 4. Extraction du schéma de formulaires Pour illustrer nos propos, nous considérons un site de réservation de vol http://www.airalgerie.dz d’une compagnie aérienne. La figure 2, montre deux pages HTLM parmi les pages de l'application, à savoir le formulaire de réservation (   Booking-form) et le tableau de programme de vols (Program of flights). La source de données dont sont issus les données est une base de données relationnelle (voir Table 1). Les attributs soulignés indiquent les clés primaires, alors que les attributs en italiques indiquent les clés étrangères. Table1.  Schéma de base de données relationnelle Passenger (PassengerID, FN, LN, Age) City (CityID)Departure-City ( CityID , DC-Name)Arrival-City ( CityID , AC-Name) Date (DeparatueDate)Hour (HourID)Departure-Hour (HourID, type) Arrival-Hour (HourID, type) Company (CompagnyID, CompanyName) Plane (PlaneID, CompID , Capacity) Leaving-From (  FlightID, DepartureCityID ) Going-To (  FlightID, ArrivalCityID ) Flight (FlightID,  Dep-CityID, Arr-CityID,  Dep_HourID, Arr_HourID, PlaneID ) Book (  PassengerID, FlightID, DepartureDate , Class)Passenger (Passen   gerID, FN, LN, Age) City (CityID)Departure-City ( CityID , DC-Name)Arrival-City ( CityID , AC-Name) Date (DeparatueDate)Hour (HourID)Departure-Hour (HourID, type) Arrival-Hour (HourID, type) Company (CompagnyID, CompanyName) Plane (PlaneID, CompID , Capacity) Leaving-From (  FlightID, DepartureCityID ) Going-To (  FlightID, ArrivalCityID ) Flight (FlightID,  Dep-CityID, Arr-CityID,  Dep_HourID, Arr_HourID, PlaneID ) Book (  PassengerID, FlightID, DepartureDate , Class)  
Related Search
Related Docs
View more...
We Need Your Support
Thank you for visiting our website and your interest in our free products and services. We are nonprofit website to share and download documents. To the running of this website, we need your help to support us.

Thanks to everyone for your continued support.

No, Thanks