Voici les éléments 1 - 6 sur 6
  • Publication
    Accès libre
    Towards the democratization of ontological modeling through a new pervasive means of representation
    Malgré leur utilité prouvée dans de nombreux domaines de l’ingénierie des connaissances, les ontologies ne parviennent pas à égaler cette position comme des modèles de domaine dans le secteur de développement de logiciels d’entreprise. Tout en ayant pour but de rendre les ontologies accessibles à un plus grand nombre d’intervenants dans le cadre du développement de logiciels, cette thèse cherche à étudier les facteurs qui se dressent entre les efforts de recherche sur l’intégration des ontologies comme elle est, d’une part, décrite par la littérature, et, d’autre part, une démocratisation menée à terme. Tout comme notre analyse préliminaire le suggère, la réticence qui caractérise l’adoption des ontologies au sein de la communauté des ingénieurs est en partie due à une sémantique opposée, ainsi qu’aux différentes hypothèses sous-jacentes utilisées dans les ontologies, par rapport à d’autres normes de modélisation d’entreprise plus conventionnels. Les piles techniques derrière l’application des ontologies et les logiciels d’entreprise conventionnels varient considérablement; des langues aux éditeurs en passant par l’appui aux infrastructures.
    Les raisons mentionnées ci-dessus prennent une nouvelle tournure syntactique, sémantique et paradigmatique que le développeur doit prendre en compte à chaque fois qu’il utilise les ontologies. Afin de minimaliser ces diverses tournures, la première étape vers la réalisation de cette thèse a été la proposition d’une fonction de traduction sans perte qui pourrait faciliter la tâche d’intégration des ontologies vers les référentiels de code plus conventionnels en les exprimant directement dans le même langage de programmation en usage.
    La deuxième étape franchie fut l’implémentation, de manière concrète, de la fonction de traduction en considérant C\# comme langage cible. Cette implémentation prend également en compte de potentielles optimisations du processus de conversion. Le choix de C\# est motivé par un certain nombre de facteurs discutés dans le chapitre correspondant. Cette implémentation prend également en compte de potentielles optimisations du processus de conversion. On obtient une réduction significative de la taille de l'exécutable en exploitant la notation du langage de programmation qui permet d’éviter la redondance inhérent à la source de la sérialisation XML. De plus, une technique de compression qui détecte les modèles anonymes redondants récurrents dans l’ontologie source est proposée afin de réduire la taille de l’exécutable qui en résulte en générant une classe correspondante unique pour chaque ensemble de concepts récurrents. Ceci peut être particulièrement utile dans le domaine biomédical, où l’étendue des ontologies constitue en elle-même un problème. Par ailleurs, la technique proposée n’est pas restreinte aux ontologies exécutables, mais peut aussi être généralisée à d’autres formats syntactiques d’ontologies OWL.
    Cette thèse illustre également deux applications potentielles de conversions d’ontologies en représentation exécutable. Ces deux applications visent à aborder les difficultés relatives à l’exploitation efficace des ontologies dans des environnements de développement conventionnels. Dans un premier temps, nous proposons un procédé de pontage de l’interstice de commande impératif généralement présent dans les formes d’ontologie passives en fournissant des ontologies exécutables avec des extensions procédurales dans la forme de procédés orientés objets. Dans un deuxième temps, nous nous axons sur la présentation d’un prototype plus élaboré de pile simplifiée pour un système de base de connaissances pouvant fournir des services de raisonnement légers en exploitant le support de l’environnement de programmation. Nous conduisons une expérience afin d’évaluer l’utilité du prototype en répondant à certains types de requêtes sémantiques sans avoir recours à un raisonneur de Description Logique (DL). Enfin, les résultats empiriques obtenus fournissent des éléments de preuve démontrant la faisabilité du prototype proposé., Despite their proven utility in various areas of knowledge engineering, ontologies are falling short of reaching an equal position as formal domain models in the landscape of enterprise software development. With the ultimate goal of making ontologies more accessible to a wider audience of software development stakeholders, this thesis investigates the reasons that are still standing between ontology integration research efforts as depicted in literature and a successful democratization of ontologies. As our preliminary analysis results suggest, the shy adoption of ontologies in software engineering communities is partially due to the opposing semantics and the different underlying assumptions used in ontologies compared to the other more conventional software modeling paradigms. The technical stacks behind ontological applications and conventional enterprise software also vary greatly; from languages and editors to infrastructure support.
    The above reasons constitute a syntactic, semantic and paradigmatic twist the developer has to go through each time trying to use ontologies. In order to minimize this manifold twist, this thesis proposes a loss-less translation function that would facilitate the task of integrating ontologies into conventional code repositories by expressing them directly in the same general-purpose programming language already in use. Such a translation of ontologies from their passive external form into an active executable form does not only enhance the portability of ontologies but also contributes to a substantial reduction in both the steep learning curve and the overhead of the technical stacks usually associated with ontologies. This proposition is further crystallized by the implementation of the translation function using C\# as the target language of the translation. Our choice for C\# is motivated by a number of factors that we discuss in the corresponding chapter. The implementation also takes into account potential optimizations of the translation process. A substantial reduction in the executable size is achieved by exploiting the dot notation of the target programming language to avoid the redundant representation style inherent in the source XML serialization. Additionally, a compressing technique that detects redundant recurrent anonymous patterns in the source ontology is proposed to reduce the size of the resulting executable by generating a unique corresponding class for each set of recurrent patterns. This can be particularly useful in the bio-medical domain where the sheer size of ontologies is itself an issue. Furthermore, the proposed technique is not unique to executable ontologies but can also be generalized to other syntactic formats of OWL ontologies.
    The thesis further illustrate two potential applications of translating ontologies into an executable representation. Both applications are geared towards addressing the difficulties of fully exploiting ontologies in conventional development environments. We first propose bridging the imperative control gap usually present in the passive form of ontologies by providing executable ontologies with procedural extensions in the form of object-oriented methods. We then move to present a more elaborated prototype of a simplified stack for a knowledge base system that can provide light-weight reasoning services by exploiting the support of the programming environment. An experiment is conducted to assess the utility of the prototype in answering certain types of semantic queries without invoking a DL reasoner. The empirical results obtained provide a supporting evidence of the feasibility of the proposed prototype.
  • Publication
    Accès libre
    Ontology engineering using formal concept analysis from unstructured textual data
    L’extraction de connaissances, en particulier à partir de données non structurées tels que les textes, a longtemps était considérée comme une des demandes les plus souhaitées, avec un grand nombre d’applications dans presque toutes les industries. La conception, ainsi que la mise en place de solutions capables d’extraire des connaissances, de façon presque automatique, est loin d’être une tâche facile. Depuis déjà plusieurs décennies, différents chercheurs ont proposé une variété de méthodologies et d’algorithmes afin de décrire comment donner une certaine structure à des données textuelles, avec pour but ultime l’extraction de connaissances. Un des éléments clés de ces solutions est d’utiliser une ontologie reposant sur une structure de graphe, et rendant possible une représentation de connaissances. Cependant, la construction d’ontologies, en particulier à partir de textes, n’est pas aisée. A notre connaissance, il n’y a pas encore de méthodologie complète décrivant la construction d’une ontologie à partir du traitement de données textuelles, dans un domaine d’intérêt donné, pour être par la suite utilisée pour l’extraction de connaissances explicites ainsi que implicites (sémantiques). L’objectif de cette thèse est de proposer un pipeline décrivant comment partir de l’analyse de textes pour finalement arriver à une ontologie comprenant les propositions les plus informatives de ce corpus de textes sur un contexte donné, et dans le but d’être utilisé pour l’extraction de connaissances. Ce pipeline repose sur l’utilisation de trois méthodes d’analyse de données, tout aussi différentes que complémentaires, incluant (i) le traitement du langage naturel, (ii) l’analyse formelle de concepts, et (iii) l’apprentissage d’ontologies. En résumé, le pipeline débutera par une exploration du corpus de textes en entrée (pour un domaine d’intérêt bien défini), faisant usage des techniques de traitement du langage naturel les plus avancées. L’analyse formelle de concepts sera par la suite utilisée pour former les concepts et construire leurs hiérarchies (i.e., un treillis de concepts), constituant le fondement de l’ontologie désirée. Enfin, les propositions les plus informatives du corpus de textes seront intégrées au sein de l’ontologie, dérivée au préalable d’un ensemble d’algorithmes proposés dans cette thèse et appliqués au treillis de concepts susmentionné. Afin de valider la précision de notre pipeline, nous l’avons testé avec quelques exemples synthétiques ainsi qu’avec de vrais cas d’utilisation dans le contexte de l’industrie pharmaceutique. Nous avons pu démontrer qu’une telle ontologie obtenue peut être utilisée pour interroger d’importantes connaissances ainsi que des informations extraites de données textuelles non structurées, et peut être employée comme élément central au sein d’un moteur de recherche intelligent, avec des applications en analyse sémantique. Un des avantages de notre solution est de minimiser l’intervention humaine, contrairement à beaucoup d’autres solutions déjà existantes et aux performances fortement dépendantes de la présence ou non d’un expert en la matière tout au long du processus de construction de l’ontologie. Lors du processus de validation, nous impliquons toutefois toujours l’expertise humaine, afin de garantir la constante amélioration de notre ontologie., Knowledge extraction especially from unstructured data such as texts has been always considered as one of the highly demanded requests with lots of applications in almost all industries. Design and building of solutions that are capable of extracting knowledge, in an almost automated way, is not an easy task at all. Many researchers have proposed variety of methodologies and algorithms to describe how one can give some structure to textual data with the ultimate goal of knowledge extraction since decades ago. One of the key elements of those solutions is to utilize ontology as a graph-like structure for representing knowledge. Building ontologies especially from textual data, however, is not quite straightforward. To the best of our knowledge, there is no yet a comprehensive methodology to describe how one can form an ontology from processing textual data in a given domain of interest to be later used for explicit as well as implicit (or semantic) knowledge extraction. In this thesis, we propose a pipeline to describe how we can start from analyzing texts to end up with an ontology, which is equipped with the most informative statements of that text corpus about a given context, in order to be used for knowledge extraction. The proposed pipeline is based on utilization of three different yet complementary data analysis methods including (i) natural language processing, (ii) formal concept analysis, and (iii) ontology learning. In a nutshell, the pipeline will start by mining the input text corpus (in a given domain of interest) using state-of-the-art natural language processing techniques. The formal concept analysis will then be used to form the concepts and build the hierarchies among them (i.e., a concept lattice) as the cornerstone of the desired ontology. Finally, the most informative statements extracted from text corpus will be embedded into the ontology, that has been derived from a set of proposed algorithms applied on the aforementioned concept lattice. To validate the accuracy of the proposed pipeline we tested it on a few toy examples as well as a real use case in the context of pharmaceuticals. We could demonstrate that such an engineered ontology can be used for querying valuable knowledge and insights from unstructured textual data, and to be employed as the core component of smart search engines with applications in semantic analysis. One of the advantages of our proposed solution is that it does not require so much of human intervention, as opposed to many existing solutions whose performance highly depends on the presence of a subject matter expert along the ontology engineering process. It does not, however, mean that our proposed pipeline cannot benefit from existence of such additional information resources to be further empowered by human expertise in shaping ontologies.
  • Publication
    Accès libre
    A knowledge extraction framework for crime analysis: unsupervised methods in uncertain environments
    Cette thèse de doctorat investigue le rôle des méthodes d'extraction de connaissances dans l'analyse criminelle en tant que projet interdisciplinaire, avec une orientation sur les méthodes non supervisées traitant les aspects d'incertitude qui sont intrinsèques à l'environnement du crime.
    Dans un contexte où les données générées par les activités criminelles sont de plus en plus disponibles grâce à l'évolution des technologies, l'utilisation de méthodes automatisées pour créer de la valeur à partir de ces données devient une nécessité. Ces méthodes d'analyse requièrent une conception spécifique selon la nature des données qu'elles traitent, principalement collectées à partir de scènes de crimes. Les analystes criminels ont désespérément besoin de telles méthodes pour être mieux informés et efficients dans la lutte perpétuelle contre le crime. Cependant, leurs choix en termes d’étendue et de disponibilité sont très limités.
    Un framework qui délimite et explique le rôle des méthodes d’extraction de connaissance pour l’analyse criminelle est proposé. Ce framework adresse un défi particulier : développer des méthodes de data mining non supervisées qui permettent de traiter l’incertitude des données criminelles.
    Trois approches sont développées pour confronter ce défi. (1) Comment structurer et représenter des données criminelles pour exploiter pleinement leur potentiel à révéler des connaissances par la conduite d’autres analyses ? (2) Quelle est la méthode appropriée d’analyse de liens entre les crimes qui prenne en compte des données à la fois quantitatives et qualitatives ? Et (3) quelle est la méthode appropriée pour aider les analystes criminels à détecter des changements dans des tendances criminelles d’une manière flexible et compréhensible ?
    L’importance de cette recherche interdisciplinaire peut être résumée en deux points : elle clarifie et délimite le rôle du data mining dans l’analyse criminelle, en fournissant une perspective sur son applicabilité dans cet environnement particulier ; et elle facilite l’extraction de connaissances par l’utilisation des méthodes proposée guidées par le métier., This doctoral thesis investigates the role of knowledge extraction methods in the analysis of crime as an interdisciplinary project, with a focus on unsupervised methods dealing with the uncertain aspects that are intrinsic to the crime environment.
    In a context where data generated from criminal activities are increasingly available due to the evolution of technology, the use of automated methods to create value from these data becomes a necessity. These analytic methods require a specific design with regard to the nature of the data they deal with, mostly gathered from crime scenes. Crime analysts desperately need such methods to be better informed and efficient in the perpetual struggle against crime. However, their choices in terms of range and availability are very limited.
    A framework delineating and explaining the role of knowledge extraction methods for crime analysis is provided. This framework addresses a particular challenge: developing unsupervised data mining methods dealing with the uncertainty of crime data.
    Three approaches are developed to confront this challenge. (1) How to structure and represent crime data to fully exploit the potential of revealing knowledge with further analyses? (2) What is the appropriate method to analyze links between crimes that can deal with both qualitative and quantitative crime data? And (3) what is the appropriate method to help crime analysts to flexibly and understandably detect changes in crime trends?
    The significance of this interdisciplinary research can be summarized in two points: it clarifies and delineates the role of data mining in crime analysis, by giving some insights into its applicability in this particular environment; and it makes easier the extraction of knowledge by the use of the proposed domain-driven methods.
  • Publication
    Accès libre
    Formalized modeling of qualitative case studies
    Cette thèse vise à résoudre les problèmes de modélisation et de traitement émergeant dans les études de cas qualitatives. Fondée sur la grounded theory, une méthode complète est proposée, initialement élaborée sous la forme d'une solution de workflow. Une combinaison d'ontologies est proposée servant à la représentation des connaissances, l'intégration et l'extraction. Sur la base de cette connaissance, l'analyse du sujet est menée afin de découvrir les informations latentes sur les documents originaux afin de représenter les thèmes implicites et mettre en place des structures hiérarchiques complexes de ces sujets. Avec les structures construites, les inférences basées sur l'ontologie est effectuée pour produire de nouveaux faits afin d'aider les tâches du domaine. Cette méthode est applicable dans la plage de multilinguisme y compris les langues non alphabétiques comme le chinois. Des expériences testées sur l'outil mis en place montrent que la méthode proposée donne des résultats satisfaisants par rapport aux méthodes existantes. La thèse générale apporte une solution nouvelle et complète pour étudier et analyser profondément des textes d'étude de cas avec une méthode qualitative. Ces résultats apportent une série d'avantages pour plusieurs domaines qui partagent la même essence du point de vue du traitement des données., This thesis aims to solve the problems of data modelization and processing emerging in qualitative case studies. Established on grounded theory, a comprehensive method is proposed, initially elaborated in the form of a workflow solution. A suit of ontologies are proposed serving for knowledge representation, integration, and extraction. Based on this knowledge, topic analysis is conducted to discover the latent information out of the original documents in order to depict the implicit themes and set up sophisticated hierarchical structures of these topics. With the built structures, ontology inference is carried out to produce new facts to assist domain tasks. This method is applicable within the range of multiple lingualism including non-alphabetical languages such as Chinese. Experiments tested on the implemented tool demonstrate that the proposed method offers satisfactory results compared with existing methods. The overall thesis provides a novel and complete solution to profoundly study and analyze case study text with a qualitative method. It brings a series of benefits to a couple of domains which share similar essence from the point of view of data processing.
  • Publication
    Accès libre
    Bottom-up approach to spatial datamining
    One of the goals of computer vision research is to design systems that provide human-like visual capabilities such that a certain environment can be sensed and interpreted to take appropriate actions. Among the different forms available to represent such an environment, the 3D point cloud (unstructured collection of points in a three dimensional space) rises a lot of challenging problems. Moreover, the number of 3D data collection drastically increased in recent years, as improvements in the laser scanners technology, together with algorithms for combining multiple range and color images, allowed to accurately digitize any amount of 3D scenes. Because of these developments, some important digitalization projects: like the digital Michelangelo project or the digitalization of the Pantheon.
    - were achieved. The last project, conducted by the Karman Center1, generated a 3D digital model (available as a validation data set for our research study) containing more than 620'000'000 points.
    If the universe (or unstructured space) is given by all 3D points generated by the acquisition device, then calibrated, registered, and finally stocked in a spatial database system - then a scene is a limited region of this universe, having a regular geometric form and containing (un)known 3D objects. The interpretation of a scene is defined as learning which model is located where in the scene. Such an interpretation binds the entities in the scene to the models that we already known. Following the recent trend consisting in applying the AI point of view on Computer Vision problems, we adopt an extended definition of the "interpretation" task (closed to what was denoted as "high-level scene interpretation" [ 65]): it consists in the construction of a symbolic description including scene elements (objects or higher-level entities) and predicates.
    (class memberships and spatial relationships between these elements). This extension, which implicitly bear prior knowledge about spatial relations, allows the acquisition of a new kind of knowledge (the semantic content), concerning the possible regular patterns of objects spatial distributions. Furthermore, by defining a spatial description language as the set of models and spatial relationships, the shortest description of the scene in this language (in terms of existing objects and spatial relations between) defines the concept of optimal scene interpretation. Actually, even if the storage is not a problem anymore and tools for visualizing, streaming and interacting with 3D objects are readily available, there is still a big lack of methods for coding, extracting and sharing the semantic content of 3D media. Therefore, the overall goal addressed by this thesis is the development of a flexible approach (including framework, methodology, processing methods and finally a working system) that could help us to extract the semantic information of a spatial scene. A lot of work related to this idea has been done but most of it was dedicated to geographic information systems (GIS). The increase of collected 3D data urges for developing new technics adapted to these kind of data.
    In order to reduce the complexity of the scene interpretation process regarding the large diversity of real-world situations, the framework is based on the following assumptions:
    1. The objects of interest are rigid, free-form objects
    2. A description language, based on a set of predefined models and a set of selected spatial relationships, is defined and encoded as a set of ontologies (denoted the semantic layer ).
    The framework we propose here, denoted RRR [ 23] (for Represent, Recognize and Retrieve), brings solutions for some important processes concerning the efficient storing and fast and accurate retrieving of 3D points, the augmentation of 3D points with semantic, and the automatic extraction of semantic information.
    Stated succinctly, the design of the RRR system involves a three stage processing:
    i. Representation - for each basic object type, a compact and meaningful model, based on point cloud, is proposed;
    ii. Recognition - the characteristics (spatial, geometrical) extracted from partial point cloud are compared with known models to identify the objects present in the scene;
    iii. Retrieval - based on a spatial description language and using a reasoning engine, a complete scene description is generated.
    Extracting semantic content is generally a difficult problem, but particularly more difficult when the recognition system needs to draw useful inferences from a point cloud, which in itself is not very informative. Among the important issues which are of interest for our thesis we may enumerate : the object shape characterization in the presence of noise, the size dimension of model database, the learning capability.
  • Publication
    Accès libre
    Towards bridging the gap between reprensentation and formalism in the context of systems life cycle management processes
    (2013)
    Simon, Eric
    ;
    Dans le contexte de la gestion des cycles de vie des systèmes (SDLC), on observe un fossé entre, d'une part, les représentations utilisées pour modéliser les méthodologies sous forme de processus, par exemple en utilisant business process model and notation (BPMN), et d'autre part les formalismes qui offriraient les possibilités d'analyses nécessaires à la validation des processus correspondants, comme par exemple les réseaux de Petri. Cette thèse de doctorat vise à combler ce fossé en proposant un modèle quelque part entre ces deux extrêmes qui soit à la fois suffisamment simple et expressif pour représenter les processus, soit directement, soit en traduisant les diagrammes BPMN dans ce modèle, tout en conservant un niveau de formalisme suffisant pour permettre sa traduction dans des réseaux de Petri, ce qui permet également l'exécution des diagrammes, mais ouvre en outre la porte vers la validation automatique ou semi-automatique de certaines propriétés des systèmes en utilisant des algorithmes connus en théorie des graphes ou des méthodes propres aux réseaux de Petri. Le modèle consiste en une extension de la théorie des automates à états finis permettant la synchronisation et la composition de sous-processus. Le modèle est ensuite traduit dans le réseau de Petri correspondant pour exécution. Une correspondance supplémentaire, cette fois de diagrammes BPMN vers le modèle, permet une analyse structurelle des processus décrits. Des exemples pratiques illustrent quelques-unes des possibilités et limitations que présente cette approche, et ouvrent la discussion vers de possibles futures recherches théoriques ou pratiques liées à ces idées., In the context of systems development life cycles (SDLC), a gap exists between the representations of the involved methodologies as process on the one hand, for example using business process model and notation (BPMN), and the formalisms that would provide the level of analysability necessary to validate the corresponding processes on the other hand beyond mere execution, for instance Petri nets. This doctoral thesis aims at bridging this gap by proposing a model in-between these two extremes that is simple yet expressive enough to be able to represent the processes, either directly or by translating BPMN diagrams to the model, while retaining enough formalism to allow its mapping to Petri nets, which enables the execution of the diagrams but also opens the door to automatic or semi-automatic validation of some properties of the systems using well-known algorithms in graph theory or methods that are specific to Petri nets. The model consists in a graphical extension of finite state automata theory, allowing synchronisation and composition of sub-processes. The model is then translated to the corresponding Petri net for execution. A further mapping, from BPMN diagrams to the model, allows a structural analysis of the described processes. Practical examples illustrate some of the possibilities and limitations of the approach, and open the discussion about possible future theoretical or practical research around these ideas.