Voici les éléments 1 - 10 sur 80
  • Publication
    Accès libre
    Using multiperspective observations to improve data quality in distributed systems
    Les systèmes pilotés par les données deviennent rapidement un paradigme de premier plan, l’avènement de l’IA et des systèmes cyber-physiques intelligents devenant une caractéristique déterminante de l’époque moderne. On dit souvent que la qualité des données qui entrent dans ces systèmes est le principal déterminant du comportement et des décisions qu’ils produisent. Il est donc primordial de fournir de meilleures stratégies de gestion et d’amélioration de la qualité des données pour les systèmes autonomes. Un autre attribut de l’infrastructure moderne basée sur les données est sa nature hautement distribuée. En effet, les déploiements de cloud, d’IoT et de continuum/fog sont presque omniprésents dans la pratique actuelle. Dans de nombreux cas, les systèmes pilotés par les données susmentionnés sont déployés sur ce type d’infrastructure en premier lieu. Nous voyons une opportunité de tirer parti de l’ubiquité des ressources de calcul distribuées pour ajouter une couche d’assurance qualité aux données. Notre travail s’inspire de deux sources principales. D’une part, la nécessité de collecter de manière cohérente des données brutes de haute qualité et des informations et mesures dérivées, en présence d’erreurs, de problèmes et d’autres interférences. D’autre part, nous nous inspirons de la fusion de données, une méthodologie couramment utilisée pour combiner des données provenant de différentes sources afin d’obtenir des informations de meilleure qualité que la somme de leurs parties. Nous envisageons une généralisation de la fusion de données à tous les formats d’ensembles de données, en particulier lorsqu’elles sont obtenues en doublons redondants par des observateurs indépendants. Nous appelons ce type d’observation une "observation multiperspective". Notre méthodologie de base consiste à concevoir, mettre en oeuvre et évaluer ce concept d’observation multi-perspective. La première partie est un système d’observateurs indépendants, représentés comme des noeuds dans une architecture distribuée, des collaborateurs dans un projet crowdsourcé ou même simplement des capteurs matériels dans une configuration traditionnelle de fusion de capteurs. Nous commençons par présenter la première partie de cette stratégie d’observation, l’acquisition de données. Nous présentons notre premier scénario motivant, qui consiste à suivre l’évolution de l’écosystème cloud-native dans un observatoire distribué "démocratique". Nous fournissons ensuite notre implémentation de cet observatoire et présentons son utilisation pour comprendre et améliorer le support matériel dans les images Docker. En outre, nous discutons de l’intégration de notre système d’acquisition de données avec des outils de reproductibilité et de preuve des données centrés sur la science des données. Ce travail nous permet également d’étudier les limites et les défis liés à l’obtention de données de la part d’observateurs indépendants. Nous utilisons nos résultats pour développer nos méthodologies dans la partie suivante de ce travail. Nous présentons ensuite la solution que nous proposons pour résoudre les problèmes de qualité des données découverts : Consensus centré sur les données (DCC). En utilisant notre système d’acquisition de données et les données que nous avons obtenues, nous développons une architecture de système pour fusionner les observations en une vue commune de la vérité, sur laquelle tous les observateurs sont d’accord. Nous étudions ensuite les algorithmes que nous pouvons utiliser pour y parvenir, ainsi que les implications de notre système en termes de performances. Enfin, nous nous concentrons sur les algorithmes eux-mêmes et présentons notre propre contribution à l’espace des électeurs définis par logiciel, l’algorithme de vote AVOC, et VDX, une spécification générique pour décrire les électeurs définis par logiciel. Nous évaluons notre contribution à la fois par rapport et en conjonction avec l’état de l’art dans un exemple de fusion de capteurs pour montrer que les algorithmes de vote peuvent en effet augmenter à la fois la qualité des résultats et la performance lorsqu’ils sont correctement combinés avec des approches de fusion de données standard. Dans l’ensemble, cette thèse présente la stratégie de l’observation multi-perspective dans une approche de bout en bout, de l’acquisition des données à la réconciliation des conflits et à la détermination des gains de qualité des données. Nous montrons où cette méthodologie est applicable et fournissons une mise en oeuvre du modèle ainsi qu’une évaluation de ses performances et de ses limites. ABSTRACT Data-driven systems are quickly becoming a prominent paradigm, with the advent of AI and smart cyber-physical systems becoming a defining characteristic of the modern day. It is often stated that the quality of data going into such systems is the primary determinant of the behaviour and decisions they produce. It is thus paramount to provide better strategies for managing and improving data quality for autonomic systems. Another attribute of modern data-driven infrastructure is its highly distributed nature. Indeed cloud, IoT and continuum/fog deployments are almost ubiquitous in current practice. In many cases, the above-mentioned data-driven systems are deployed to such infrastructure in the first place. We see an opportunity to leverage the ubiquity of distributed compute resources to add a layer of quality assurance to data. Our work is inspired by two main sources. On one hand, the need to consistently collect high-quality raw data and derived insights and metrics, in the presence of faults, issues and other interference. On the other hand, we draw inspiration from data fusion, a methodology commonly used to combine data from different sources to obtain insights of higher quality than the sum of its parts. We envision a generalisation of data fusion to all formats of datasets, particularly when obtained in redundant duplicates from independent observers. We call such an observation, a ’multiperspective observation’. Our core methodology is to design, implement and evaluate this concept of multiperspective observation. The first part is a system of independent observers, represented as nodes in a distributed architecture, collaborators in a crowdsourced project or even just hardware sensors in a traditional sensor-fusion setup. We begin by presenting the first part of this observation strategy, data acquisition. We show our first motivating scenario, tracking the evolution of the cloud-native ecosystem in a ’democratic’ distributed observatory. We then provide our implementation of this observatory and present its use in understanding and improving hardware support in Docker images. Further, we discuss the integration of our data acquisition system with data science-centric reproducibility and data provenance tooling. This work also serves to help us study the limitations and challenges of obtaining data from independent observers. We use our findings to develop our methodologies for the next part of this work. Then, we introduce our proposed solution to the discovered issues in data quality: Data-Centric Consensus (DCC). Using our data acquisition system and the data we obtained, we develop a system architecture to merge the observations into a common view of the truth, that all observers agree to. We then investigate the algorithms we can use to achieve this, and the performance implications of our system. Finally, we focus on the algorithms themselves, and present our own contribution to the space of software-defined voters, the AVOC voting algorithm, and VDX, a generic specification for describing software-defined voters. We evaluate our contribution both against and in conjunction with the state-of-the-art in a sensor fusion example to show that voting algorithms can indeed augment both output quality and performance when correctly combined with standard data fusion approaches. All in all, this thesis presents the strategy of multiperspective observation in an end-to-end approach, from acquiring data, to reconciling conflicts to determining the gains in data quality. We show where this methodology is applicable and provide model implementation and an evaluation of both its performance and limitations.
  • Publication
    Accès libre
    Applying big data paradigms to a large scale scientific workflow: Lessons learned and future directions
    (2020-6-1) ; ;
    Carretero, Jesus
    ;
    Caíno-Lores, Silvina
    The increasing amounts of data related to the execution of scientific workflows has raised awareness of their shift towards parallel data-intensive problems. In this paper, we deliver our experience combining the traditional high-performance computing and grid-based approaches with Big Data analytics paradigms, in the context of scientific ensemble workflows. Our goal was to assess and discuss the suitability of such data-oriented mechanisms for production-ready workflows, especially in terms of scalability. We focused on two key elements in the Big Data ecosystem: the data-centric programming model, and the underlying infrastructure that integrates storage and computation in each node. We experimented with a representative MPI-based iterative workflow from the hydrology domain, EnKFHGS, which we re-implemented using the Spark data analysis framework. We conducted experiments on a local cluster, a private cloud running OpenNebula, and the Amazon Elastic Compute Cloud (AmazonEC2). The results we obtained were analysed to synthesize the lessons we learned from this experience, while discussing promising directions for further research.
  • Publication
    Restriction temporaire
  • Publication
    Accès libre
    THUNDERSTORM: A Tool to Evaluate Dynamic Network Topologies on Distributed Systems
    (2019-10-1)
    Liechti, Luca
    ;
    Gouveia, Paulo
    ;
    Neves, João
    ;
    ;
    Matos, Miguel
    ;
    Abstract—Network dynamics, such as sudden changes in latency or available bandwidth, have a significant impact on the performance of distributed systems. While such dynamics are common, especially in WAN deployments, existing tools lack the capabilities to systematically evaluate the impact of such changes in real systems. We present THUNDERSTORM, a tool to evaluate the impact of dynamic network topologies on the performance of large-scale distributed systems. THUNDERSTORM is a fully functional tool that integrates with Kubernetes and can be used to evaluate off-the-shelf applications. THUNDERSTORM defines an easy-to-use language to describe arbitrarily complex network topologies and dynamic events used to enrich the default container composition descriptors. Our evaluation, using micro- and macro-benchmarks, as well as off-the-shelf unmodified systems (e.g., Apache Cassandra, MariaDB) shows that THUNDERSTORM is easy to use, accurate in reproducing dynamic behaviours and that it can help researchers uncover unexpected behaviours otherwise very costly to reproduce in real deployments typically captured only during malfunctioning periods.
  • Publication
    Accès libre
    Integrating hydrological modelling, data assimilation and cloud computing for real-time management of water resources
    (2017-7-1) ;
    Kurtz, Wolfgang
    ;
    ; ; ; ;
    Braun, Torsten
    ;
    ;
    Vereecken, Harry
    ;
    Sudicky, Edward
    ;
    Franssen, Harrie-Jan Hendricks
    ;
    Online data acquisition, data assimilation and integrated hydrological modelling have become more and more important in hydrological science. In this study, we explore cloud computing for integrating field data acquisition and stochastic, physically-based hydrological modelling in a data assimilation and optimisation framework as a service to water resources management. For this purpose, we developed an ensemble Kalman filter-based data assimilation system for the fully-coupled, physically-based hydrological model HydroGeoSphere, which is able to run in a cloud computing environment. A synthetic data assimilation experiment based on the widely used tilted V-catchment problem showed that the computational overhead for the application of the data assimilation platform in a cloud computing environment is minimal, which makes it well-suited for practical water management problems. Advantages of the cloud-based implementation comprise the independence from computational infrastructure and the straightforward integration of cloud-based observation databases with the modelling and data assimilation platform.
  • Publication
    Accès libre
    SoftwIre integration: an approach to service composition through distributed representations of arbitrary-length business ontologies
    (2016)
    Ludolph, Hendrik
    ;
    ;
    Babin, Gilbert
    La demande de logiciel à la demande (Software as a Service ou SaaS) est en constante augmentation. Afin de remplir cette demande, une prolifération d’offres de services de type third-party s’en suit. Pour les organisations il est crucial de trouver et sélectionner le service approprié pour l’incorporer dans le parc TI existant. Idéalement, cela est effectué de façon continue et flexible, l’objectif étant de toujours fournir le meilleur support possible.
    Pour faire face à cet enjeu, des standards modernes d’intégrations tels que ESB, SOA ou BPI ont été conçus pour permettre un couplage faible (loose coupling) entre les services. Par contre, il manque à ces standards la capacité de bien décrire et capter la sémantique des services. Cette sémantique serait nécessaire pour une intégration automatique adéquate. L’efficacité de ces standards dépend aussi considérablement de l’intervention humaine. Une nouvelle génération de techniques sémantiques telles que SAWSDL, OWL-S ou WSMO vise à corriger cette situation en utilisant des ontologies. Ces dernières sont basées sur des règles formelles d’inférence, ayant l’ambition de représenter et d’interpréter le sens des données. Cela devrait mener à une sélection et intégration automatique supérieure de services.
    Nous croyons cependant que connaître et interpréter requiert plus que la manipulation réglementée et impérative d’expressions symbolique arbitraires. Selon nous, les approches purement symboliques, autant syntaxiques que sémantiques, ne permettent pas de combiner automatisation et flexibilité. Ceci est d’autant plus vrai dans des environnements compétitifs. Dans ces environnements, les changements d’offres de services ne peuvent être ni anticipés, ni gérés de façon contrôlée. Des conditions inconnues ne peuvent être traitées que dans la mesure où elles ont été prédéfinies.
    Afin de surmonter cette contradiction, nous proposons une approche hybride symbolique/connexionniste. À cette fin, nous présentons un cadre conceptuel de sélection automatique de services, basée sur des descriptions de haut niveau des besoins d’affaires. Ces descriptions sont décrites par des ontologies. Par la suite, nous explorons une topologie spécifique de réseau neuronal artificiel, nommé LRAAM. Avec ce dernier, la structure compositionnelle des ontologies est transformée dans une représentation distribuée (i.e., réduite, micro-sémantique). Le LRAAM amène le système à générer une représentation “propre” ou “interne” des descriptions ontologiques de services. Celles-ci peuvent être utilisées pour des analyses de similarité. Un outil (OntoProc) a été conçu comme preuve de concept. Avec celui-ci, nous conduisons différentes expériences afin d’étudier la validité de l’approche. Les données produites par l’outil ont fait l’objet d’analyse de signification statistique.
    Se basant sur les expériences conduites, nous ne pouvons pas conclure que l’implémentation de LRAAM utilisée est une alternative fiable pour la sélection et l’intégration de services. Nous démontrons que sous certaines conditions, le LRAAM produit une sélection correcte de services. Cependant, il n’est pas possible d’arriver à la même conclusion pour des données d’entrée plus complexes. Nous discutons des ajustements à faire à l’implémentation afin d’augmenter la performance de l’outil.
    Malgré des résultats non-concluants, nous sommes toutefois convaincu que des approches purement symboliques d’intégration automatique sont trop contraignantes quand il s’agit des services de type third-party. La flexibilité sans intervention humaine se situe au-delà de leurs capacités. Encouragé par des développements récents dans le domaine du connexionnisme (e.g., Deep Learning), nous adhérons tout de même à la piste de recherche choisie. Nous le voyons comme faisant partie d’un nouveau paradigme, qui est de traiter des larges vecteurs pour remplacer la manipulation réglementée de symboles., The demand for Software as a Service is ever increasing. With this demand comes a proliferation of third-party service offerings to fulfill it. It thus becomes crucial for organizations to find and select the right service to be integrated into their existing tool landscapes. Ideally, this is done automatically and flexibly. The objective is to always provide the best possible support to changing business needs.
    Modern integration standards, such as ESB, SOA, or BPI evolved to face this challenge, e.g., through loose coupling. However, they lack description capabilities to adequately capture service semantics, needed for adequate automated service selection and integration. They also heavily depend on human expert intervention. Next generation semantic techniques, such as SAWSDL, OWL-S, or WSMO aim at correcting this situation. They use ontologies, which are based on formal rules of inference. These techniques claim to extract and interpret the meaning of data, thereby leading to more reliable automated service selection and integration.
    To us however, knowing and interpreting is more than imperative, rule-based manipulation of arbitrary symbolic expressions. Pure symbolic, either syntactic or formal-semantic, approaches will thus not provide the bridge between automation and flexibility. This is even more so in competitive environments. Here, changes in the input data of third-party services offerings can neither be anticipated, nor can technical control be exercised. Unknown conditions can thus only be processed to the extent they are predefined.
    To overcome this contradiction, we investigate a hybrid symbolic/connectionist approach. To this end, we provide a framework for automated service selection based on high-level business requirements, described by ontologies. Thereafter, we explore a specific supervised artificial neural network topology called LRAAM. With it, the compositional structure of the ontologies is transformed into a distributed (i.e., reduced, micro-semantic) representation. It shall enable the system to develop an “own” or “inner” representation of service descriptions, which are then used for similarity analysis. A tool (OntoProc) was developed as a proof of concept. With it, we conducted different experiments to explore the validity of the approach. The tool generated output data, which we submitted to significance tests.
    Based on the experiments, the current LRAAM implementation is not a reliable alternative for service selection and integration. We showed that the LRAAM performs correct selection of services under specific parameters. However, for more complex input data, it does not yet yield the expected results. We discussed adjustments to the implementation to improve OntoProc’s performance. Despite the inconclusive results, we are, nevertheless, convinced that purely symbolic approaches to automatic integration are too restrictive when independent third-party services are concerned. Flexibility without human intervention is beyond their capabilities. Encouraged by recent developments in the field of connectionism (e.g., Deep Learning), we adhere to the chosen research venue. We see it as part of a new paradigm of operating on large vectors (i.e., connectionism) to replace rule-based manipulation of symbols.
  • Publication
    Accès libre
    Wireless Mesh Networks and Cloud Computing for Real Time Environmental Simulations
    Predicting the influence of drinking water pumping on stream and groundwater levels is essential for sustainable water management. Given the highly dynamic nature of such systems any quantitative analysis must be based on robust and reliable modeling and simulation approaches. The paper presents a wireless mesh-network framework for environmental real time monitoring integrated with a cloud computing environment to execute the hydrogeological simulation model. The simulation results can then be used to sustainably control the pumping stations. The use case of the Emmental catchment and pumping location illustrates the feasibility and effectiveness of our approach even in harsh environmental conditions.
  • Publication
    Accès libre
    Real-time Environmental Monitoring for Cloud-based Hydrogeological Modeling with HydroGeoSphere
    (: IEEE Computer Society, 2014) ; ; ; ; ;
    Jamakovic-Kapic, A.
    ;
    Braun, T.
    ;
    Maffioletti, S.
    This paper describes an architecture for real-time environmental modeling. It consists of a wireless mesh network equipped with sensors and a cloud-based infrastructure to perform real-time environmental sim- ulations using a physics-based model combined with an Ensemble Kalman Filter. The purpose of the system is to optimize groundwater abstraction close to a river. These initial studies demonstrate that the cloud infrastructure can simultaneously compute a large number of simula- tions, thus allowing for the implementation of Ensemble Kalman Filters in real-time.
  • Publication
    Restriction temporaire