Knowledge extraction from large ontologies - Données et Connaissances Massives et Hétérogènes Accéder directement au contenu
Thèse Année : 2023

Knowledge extraction from large ontologies

Extraction de connaissances à partir d'ontologies de grandes tailles

Résumé

Because widely used real-world ontologies are often complex and large, one crucial challenge has emerged: designing tools for users to focus on sub-ontologies corresponding to their specific interests. To this end, this work investigates three different approaches for extracting knowledge from large ontologies: (1) Justification, a minimal sub-ontology of the original ontology that derives a specific conclusion; (2) Deductive module, a sub-ontology that preserves all entailments wrt a given vocabulary capturing the user interest; and (3) General module, a new ontology not necessarily a sub-ontology, that ensures to perform the same set of entailments as the original one over a given vocabulary. For computing justifications and deductive modules, we propose SAT-based methods that are conducted in two steps: (i) encoding the derivation of justifications (resp. deductive modules) as Horn-clauses; (ii) computing justifications (resp. deductive modules) by resolution over these Horn-clauses. For encoding the derivation of justifications, we construct a graph representation of ontologies and propose a new set of inference rules, which are more compact than existing ones. For encoding the derivation of deductive modules, we introduced a new notion called the forest, which relies on a graph representation, capturing all the logical entailments over a given vocabulary. For computing general modules, we proposed a new resolution-based method inspired by the existing approach for computing uniform interpolants. This method is, in general, more efficient and generates modules of better quality. Finally, each proposed method has been evaluated by implementing a prototype used to test large real-world ontologies and the experimental results have been compared to those obtained with state-of-the-art methods, showing the advantages of our method in terms of efficiency and quality.
Parce que les ontologies du monde réel, largement utilisées en pratique, sont souvent complexes et très volumineuses, concevoir des outils permettant aux utilisateurs de se concentrer sur des sous-ontologies correspondant à leurs centres d'intérêts est devenu un défi majeur. Dans ce contexte, ce travail étudie trois approches différentes pour extraire des connaissances à partir de grandes ontologies : (1) Les justifications qui sont des sous-ontologies minimales de l'ontologie d'origine permettant de dériver une conclusion spécifique ; (2) Les modules déductifs qui sont des sous-ontologies de l'ontologie d'origine et qui préservent toutes les implications relatives à un vocabulaire donné, ce vocabulaire traduisant l'intérêt de l'utilisateur ; et (3) Modules généraux qui sont de nouvelles ontologies (pas nécessairement des sous-ontologies) dont l'ensemble des implications relatives à un vocabulaire donné est identique à celui de l'ontologie d'origine. Pour le calcul de justifications et de modules déductifs, cette thèse propose de nouvelles méthodes basées sur la résolution. Ce sont des méthodes qui procèdent en deux étapes : (i) le codage de la dérivation des justifications, resp. des modules déductifs sous forme de clauses Horn ; (ii) le calcul des justifications, resp. des modules déductifs, par résolution sur les clauses de Horn obtenues. Pour encoder la dérivation des justifications, nous exploitons une représentation par graphe des ontologies et introduisons un système de règles d'inférence qui sont plus compactes que les règles des systèmes connus. Pour coder la dérivation des modules déductifs, nous introduisons une nouvelle notion, appelée forêt, qui est une représentation par graphe qui quant à elle capture toutes les implications logiques relatives à un vocabulaire donné. Pour le calcul des modules généraux, nous étudions une nouvelle méthode basée sur la résolution, inspirée de l'approche existante pour le calcul des interpolants uniformes. Cette méthode est, en général, plus efficace et produit des ontologies de meilleure qualité. Enfin, dans cette thèse, toutes nos approches sont évaluées en implémentant des prototypes qui servent à tester des ontologies du monde réel de grande taille. Les résultats expérimentaux sont comparés avec ceux des méthodes existantes les plus efficaces et permettent de valider l'efficacité et la qualité de nos méthodes.
Fichier principal
Vignette du fichier
122407_YANG_2023_archivage.pdf (14 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04117554 , version 1 (05-06-2023)

Identifiants

  • HAL Id : tel-04117554 , version 1

Citer

Hui Yang. Knowledge extraction from large ontologies. Artificial Intelligence [cs.AI]. Université Paris-Saclay, 2023. English. ⟨NNT : 2023UPASG033⟩. ⟨tel-04117554⟩
116 Consultations
23 Téléchargements

Partager

Gmail Facebook X LinkedIn More