Voici les éléments 1 - 4 sur 4
Pas de vignette d'image disponible
Publication
Accès libre

Spatially balanced sampling, stratification and statistical matching

2023, Jauslin, Raphaël, Tillé, Yves

Dans cette thèse, nous nous intéressons à trois champs de la théorie de l'échantillonnage. Ces trois champs sont l'échantillonnage spatial, la stratification et finalement l'appariement statistique. Après un premier chapitre qui rappelle les notions principales de la théorie de l'échantillonnage, la thèse est constituée de deux parties qui contiennent chacune deux chapitres. La première partie concerne l'échantillonnage spatial. Dans le secteur de l'environnement en particulier, il est important de sélectionner un échantillon bien étalé. Les populations que nous étudions sont souvent auto-corrélées, c'est-à-dire que deux unités proches l'une de l'autre partagent les mêmes caractéristiques et ne devraient pas être sélectionnées dans le même échantillon. Dans le second chapitre, nous proposons une méthode qui permet de sélectionner un échantillon très bien étalé. Le troisième chapitre propose une méthode pour sélectionner un échantillon à la fois étalé sur des coordonnées géographiques et équilibré sur des variables auxiliaires. Cette méthode possède la particularité d'être séquentielle, ce qui offre un champ d'application plus large, notamment dans les très grands ensembles de données. La deuxième partie de la thèse aborde la stratification et l'appariement statistique. Dans une enquête, on améliore presque toujours l'estimateur si on sépare la population en sous-groupes lorsque cette information est disponible. Ces sous-groupes peuvent être grands ou petits selon les caractéristiques des variables qui les conditionnent. Le quatrième chapitre propose un algorithme pour tirer un échantillon équilibré dans des populations fortement stratifiées. Finalement, le cinquième chapitre parle de l'appariement statistique qui consiste à fusionner deux enquêtes. Nous utilisons le problème du transport optimal pour combiner les deux enquêtes en une pseudo-population qui permet de tirer des conclusions sur des variables mesurées uniquement dans chacune des enquêtes respectives.
Abstract
In this thesis, we are interested in three fields of sampling theory. These three fields are spatial sampling, stratification and finally statistical matching. After the first chapter recapitulating the main notions of sampling theory, the thesis comprises two parts, each containing two chapters. The first part deals with spatial sampling. Particularly in the environmental sector, it is important to select a well-spread sample. The populations we study are often auto-correlated, i.e. two units close to each other share the same characteristics and should not be selected in the same sample. In the second chapter, we propose a method to select a very well-spread sample. The third chapter proposes a method to select a sample that is both spread on geographical coordinates and balanced on auxiliary variables. This method has the particularity of being sequential, which offers a wider scope of application, especially in very large datasets. The second part of the thesis discusses stratification and statistical matching. In a survey, the estimator is almost always improved by separating the population into subgroups when this information is available. These subgroups can be large or small depending on the characteristics of the variables that condition them. The fourth chapter proposes an algorithm for drawing a balanced sample in highly stratified populations. Finally, the fifth chapter discusses statistical matching, which consists in merging two surveys. We use the optimal transport problem to combine the two surveys into a pseudo-population that allows conclusions to be drawn on variables measured only in each of the respective surveys.

Vignette d'image
Publication
Restriction temporaire

Spatial Spread Sampling Using Weakly Associated Vectors

2020-8-11, Jauslin, Raphaël, Tillé, Yves

Geographical data are generally autocorrelated. In this case, it is preferable to select spread units. In this paper, we propose a new method for selecting well-spread samples from a finite spatial population with equal or unequal inclusion probabilities. The proposed method is based on the definition of a spatial structure by using a stratification matrix. Our method exactly satisfies given inclusion probabilities and provides samples that are very well spread. A set of simulations shows that our method outperforms other existing methods such as the generalized random tessellation stratified or the local pivotal method. Analysis of the variance on a real dataset shows that our method is more accurate than these two. Furthermore, a variance estimator is proposed.

Vignette d'image
Publication
Accès libre

An Efficient Approach for Statistical Matching of Survey Data Trough Calibration, Optimal Transport and Balanced Sampling

2022, Jauslin, Raphaël, Tillé, Yves

Statistical matching aims to integrate two statistical sources. These sources can be two samples or a sample and the entire population. If two samples have been selected from the same population and information has been collected on different variables of interest, then it is interesting to match the two surveys to analyse, for example, contingency tables or correlations. In this paper, we propose an efficient method for matching two samples that may each contain a weighting scheme. The method matches the records of the two sources. Several variants are proposed in order to create a directly usable file integrating data from both information sources.

Vignette d'image
Publication
Accès libre

Enhanced cube implementation for highly stratified population

2021, Jauslin, Raphaël, Eustache, Esther, Tillé, Yves

A balanced sampling design should always be the adopted strategy if auxiliary information is available. In addition, integrating a stratified structure of the population in the sampling process can considerably reduce the variance of the estimators. We propose here a new method to handle the selection of a balanced sample in a highly stratified population. The method improves substantially the commonly used sampling designs and reduces the time-consuming problem that could arise if inclusion probabilities within strata do not sum to an integer.