Options
Spatially balanced sampling, stratification and statistical matching
Auteur(s)
Editeur(s)
Date de parution
2023
Nombre de page
96
Mots-clés
Résumé
Dans cette thèse, nous nous intéressons à trois champs de la théorie de l'échantillonnage. Ces trois champs sont l'échantillonnage spatial, la stratification et finalement l'appariement statistique. Après un premier chapitre qui rappelle les notions principales de la théorie de l'échantillonnage, la thèse est constituée de deux parties qui contiennent chacune deux chapitres. La première partie concerne l'échantillonnage spatial. Dans le secteur de l'environnement en particulier, il est important de sélectionner un échantillon bien étalé. Les populations que nous étudions sont souvent auto-corrélées, c'est-à-dire que deux unités proches l'une de l'autre partagent les mêmes caractéristiques et ne devraient pas être sélectionnées dans le même échantillon. Dans le second chapitre, nous proposons une méthode qui permet de sélectionner un échantillon très bien étalé. Le troisième chapitre propose une méthode pour sélectionner un échantillon à la fois étalé sur des coordonnées géographiques et équilibré sur des variables auxiliaires. Cette méthode possède la particularité d'être séquentielle, ce qui offre un champ d'application plus large, notamment dans les très grands ensembles de données. La deuxième partie de la thèse aborde la stratification et l'appariement statistique. Dans une enquête, on améliore presque toujours l'estimateur si on sépare la population en sous-groupes lorsque cette information est disponible. Ces sous-groupes peuvent être grands ou petits selon les caractéristiques des variables qui les conditionnent. Le quatrième chapitre propose un algorithme pour tirer un échantillon équilibré dans des populations fortement stratifiées. Finalement, le cinquième chapitre parle de l'appariement statistique qui consiste à fusionner deux enquêtes. Nous utilisons le problème du transport optimal pour combiner les deux enquêtes en une pseudo-population qui permet de tirer des conclusions sur des variables mesurées uniquement dans chacune des enquêtes respectives. <br>
<b>Abstract</b><br>
In this thesis, we are interested in three fields of sampling theory. These three fields are spatial sampling, stratification and finally statistical matching. After the first chapter recapitulating the main notions of sampling theory, the thesis comprises two parts, each containing two chapters. The first part deals with spatial sampling. Particularly in the environmental sector, it is important to select a well-spread sample. The populations we study are often auto-correlated, i.e. two units close to each other share the same characteristics and should not be selected in the same sample. In the second chapter, we propose a method to select a very well-spread sample. The third chapter proposes a method to select a sample that is both spread on geographical coordinates and balanced on auxiliary variables. This method has the particularity of being sequential, which offers a wider scope of application, especially in very large datasets. The second part of the thesis discusses stratification and statistical matching. In a survey, the estimator is almost always improved by separating the population into subgroups when this information is available. These subgroups can be large or small depending on the characteristics of the variables that condition them. The fourth chapter proposes an algorithm for drawing a balanced sample in highly stratified populations. Finally, the fifth chapter discusses statistical matching, which consists in merging two surveys. We use the optimal transport problem to combine the two surveys into a pseudo-population that allows conclusions to be drawn on variables measured only in each of the respective surveys.
<b>Abstract</b><br>
In this thesis, we are interested in three fields of sampling theory. These three fields are spatial sampling, stratification and finally statistical matching. After the first chapter recapitulating the main notions of sampling theory, the thesis comprises two parts, each containing two chapters. The first part deals with spatial sampling. Particularly in the environmental sector, it is important to select a well-spread sample. The populations we study are often auto-correlated, i.e. two units close to each other share the same characteristics and should not be selected in the same sample. In the second chapter, we propose a method to select a very well-spread sample. The third chapter proposes a method to select a sample that is both spread on geographical coordinates and balanced on auxiliary variables. This method has the particularity of being sequential, which offers a wider scope of application, especially in very large datasets. The second part of the thesis discusses stratification and statistical matching. In a survey, the estimator is almost always improved by separating the population into subgroups when this information is available. These subgroups can be large or small depending on the characteristics of the variables that condition them. The fourth chapter proposes an algorithm for drawing a balanced sample in highly stratified populations. Finally, the fifth chapter discusses statistical matching, which consists in merging two surveys. We use the optimal transport problem to combine the two surveys into a pseudo-population that allows conclusions to be drawn on variables measured only in each of the respective surveys.
Notes
Dissertation committee :
Prof. Pascal Felber, Université de Neuchâtel, Jury president;
Prof. Yves Tillé, Université de Neuchâtel, Thesis director;
Prof. Maria José Lombardia, Universidade da Coruña, Jury member;
Prof. Lorenzo Fattorini, Università di Siena, Jury member;
Prof. Beat Hulliger, Fachochschule Nordwestschweiz, Jury member.
Thesis defended on 10 March 2023.
No de thèse : 3020
Prof. Pascal Felber, Université de Neuchâtel, Jury president;
Prof. Yves Tillé, Université de Neuchâtel, Thesis director;
Prof. Maria José Lombardia, Universidade da Coruña, Jury member;
Prof. Lorenzo Fattorini, Università di Siena, Jury member;
Prof. Beat Hulliger, Fachochschule Nordwestschweiz, Jury member.
Thesis defended on 10 March 2023.
No de thèse : 3020
Identifiants
Type de publication
doctoral thesis
Dossier(s) à télécharger