Options
Composing private and censorship-resistant solutions for distributed storage
Auteur(s)
Maison d'édition
Neuchâtel
Date de parution
2020
Mots-clés
Résumé
Le stockage dans le cloud est une pratique communément adoptée pour la sauvegarde de données privées et professionnelles. Virtuellement illimitées, les capacités de stockage dans le cloud permettent à tout un chacun de se concentrer sur son activité sans crainte de manquer d’espace ou de perdre des données. Mais si les utilisateurs confient de plus en plus de données à ces fournisseurs de service de stockage en ligne, ils le font au prix d’une certaine perte de contrôle. Et à une époque où de nombreux services en ligne font une partie de leur chiffre d'affaires sur l’exploitation des données et méta-données utilisateurs, des questions de confidentialité et de sécurité se posent. Les documents mis en lignes par les utilisateurs sont-ils lus par le fournisseur de service ? Le contenu de ces documents est-il partagé par le fournisseur de service avec des partenaires tiers ? Qu’advient-il des données lorsque le fournisseur de service fait faillite ? Si les fournisseurs de services s’efforcent d’apporter des réponses satisfaisantes à leurs clients, la perte de contrôle sur les données continuent d’alimenter de réelles inquiétudes.<br>
À ces inquiétudes vient s’ajouter la question de la fiabilité du service offert par ces fournisseurs de stockage. En e˙et, la plupart des offres sont construites sur des centres de données dispersés à travers le monde. Si la répartition des données permet une meilleure qualité de service, elle amène également son lot de difficultés. Les fournisseurs de services doivent désormais anticiper et prévenir les problèmes survenant à la fois à l’intérieur mais également sur le réseau entre centres de données. Trouver l’équilibre entre sécurité, confidentialité, résilience et performance tout en coordonnant un grand nombre de nœuds de stockage répartis n’est pas une chose aisée. Et même lorsqu’une formule équilibrée est trouvée, elle se paie souvent par une augmentation des coûts de stockage.<br>
Dans cette thèse, nous tentons d’apporter des solutions à ces problèmes en nous concentrant sur trois aspects. Premièrement, nous étudions des solutions flexibles garantissant la sécurité, l’intégrité et la redondance des données pour du stockage dans le cloud. En tirant parti des offres de stockage grand public, nous montrons qu’il est possible de conserver le contrôle du stockage dans le cloud depuis le client.<br>
Dans un second temps, nous construisons une archive de données répartie dont la résilience va au-delà des techniques de redondance standards. Pour cela, nous implémentons Recast, un prototype usant du data entanglement, qui encode et répartit les blocs de données sur de nombreux nœuds de stockage afin d’en assurer la durabilité.
Enfin, nous examinons comment réduire l’augmentation des coûts de stockage entrainés par les méthodes proposées ci-dessus par de la dépduplication. Plus précisément, nous faisons usage de la Generalised Deduplication, une méthode dont les résultats vont au-delà de la déduplication classique grâce à une détection de similarité plus fine que la correspondance exacte.
<b>Summary</b><br>
Cloud storage has durably entered the stage as go-to solution for business and personal storage. Virtually extending storage capabilities to infinity, cloud storage enables companies and individuals to focus on content creation without fear of running out of space or losing data. But as users entrust more and more data to the cloud, they also have to accept a loss of control over the data they o˜oad to the cloud. At a time when online services seem to be making a significant part of their profits by exploiting customer data, concerns over privacy and integrity of said data naturally arise. Are their online documents read by the storage provider or its employees? Is the content of these documents shared with third party partners of the storage provider? What happens if the provider goes bankrupt? Whatever answer can be o˙ered by the storage provider, the loss of control should be cause for concern.
But storage providers also have to worry about trust and reliability. As they build distributed solutions to accommodate their customers’ needs, these concerns of control extend to the infrastructure they operate on. Conciliating security, confidentiality, resilience and perform-ance over large sets of distributed storage nodes is a tricky balancing act. And even when a suitable balance can be found, it is often done at the expense of increased storage overhead.<br>
In this dissertation, we try to mitigate these issues by focusing on three aspects. First, we study solutions to empower users with flexible tooling ensuring security, integrity and redundancy in distributed storage settings. By leveraging public cloud storage o˙erings to build a configurable file system and storage middleware, we show that securing cloud-storage from the client-side is an e˙ective way maintaining control. Second, we build a distributed archive whose resilience goes beyond standard redundancy schemes. To achieve this, we implement Recast, relying on a data entanglement scheme, that encodes and distributes data over a set of storage nodes to ensure durability at a manageable cost. Finally, we look into o˙setting the increase in storage overhead by means of data reduction. This is made possible by the use of Generalised Deduplication, a scheme that improves over classical data deduplication by detecting similarities beyond exact matches.
À ces inquiétudes vient s’ajouter la question de la fiabilité du service offert par ces fournisseurs de stockage. En e˙et, la plupart des offres sont construites sur des centres de données dispersés à travers le monde. Si la répartition des données permet une meilleure qualité de service, elle amène également son lot de difficultés. Les fournisseurs de services doivent désormais anticiper et prévenir les problèmes survenant à la fois à l’intérieur mais également sur le réseau entre centres de données. Trouver l’équilibre entre sécurité, confidentialité, résilience et performance tout en coordonnant un grand nombre de nœuds de stockage répartis n’est pas une chose aisée. Et même lorsqu’une formule équilibrée est trouvée, elle se paie souvent par une augmentation des coûts de stockage.<br>
Dans cette thèse, nous tentons d’apporter des solutions à ces problèmes en nous concentrant sur trois aspects. Premièrement, nous étudions des solutions flexibles garantissant la sécurité, l’intégrité et la redondance des données pour du stockage dans le cloud. En tirant parti des offres de stockage grand public, nous montrons qu’il est possible de conserver le contrôle du stockage dans le cloud depuis le client.<br>
Dans un second temps, nous construisons une archive de données répartie dont la résilience va au-delà des techniques de redondance standards. Pour cela, nous implémentons Recast, un prototype usant du data entanglement, qui encode et répartit les blocs de données sur de nombreux nœuds de stockage afin d’en assurer la durabilité.
Enfin, nous examinons comment réduire l’augmentation des coûts de stockage entrainés par les méthodes proposées ci-dessus par de la dépduplication. Plus précisément, nous faisons usage de la Generalised Deduplication, une méthode dont les résultats vont au-delà de la déduplication classique grâce à une détection de similarité plus fine que la correspondance exacte.
<b>Summary</b><br>
Cloud storage has durably entered the stage as go-to solution for business and personal storage. Virtually extending storage capabilities to infinity, cloud storage enables companies and individuals to focus on content creation without fear of running out of space or losing data. But as users entrust more and more data to the cloud, they also have to accept a loss of control over the data they o˜oad to the cloud. At a time when online services seem to be making a significant part of their profits by exploiting customer data, concerns over privacy and integrity of said data naturally arise. Are their online documents read by the storage provider or its employees? Is the content of these documents shared with third party partners of the storage provider? What happens if the provider goes bankrupt? Whatever answer can be o˙ered by the storage provider, the loss of control should be cause for concern.
But storage providers also have to worry about trust and reliability. As they build distributed solutions to accommodate their customers’ needs, these concerns of control extend to the infrastructure they operate on. Conciliating security, confidentiality, resilience and perform-ance over large sets of distributed storage nodes is a tricky balancing act. And even when a suitable balance can be found, it is often done at the expense of increased storage overhead.<br>
In this dissertation, we try to mitigate these issues by focusing on three aspects. First, we study solutions to empower users with flexible tooling ensuring security, integrity and redundancy in distributed storage settings. By leveraging public cloud storage o˙erings to build a configurable file system and storage middleware, we show that securing cloud-storage from the client-side is an e˙ective way maintaining control. Second, we build a distributed archive whose resilience goes beyond standard redundancy schemes. To achieve this, we implement Recast, relying on a data entanglement scheme, that encodes and distributes data over a set of storage nodes to ensure durability at a manageable cost. Finally, we look into o˙setting the increase in storage overhead by means of data reduction. This is made possible by the use of Generalised Deduplication, a scheme that improves over classical data deduplication by detecting similarities beyond exact matches.
Notes
Doctorat, Université de Neuchâtel, Institut d'informatique
Identifiants
Type de publication
doctoral thesis
Dossier(s) à télécharger