Voici les éléments 1 - 10 sur 296
  • Publication
    Accès libre
    Gender wage difference estimation at quantile levels using sample survey data
    (2023-09-19)
    Mihaela-Cătălina Anastasiade-Guinand
    ;
    ;
    This paper is motivated by the growing interest in estimating gender wage differences in official statistics. The wage of an employee is hypothetically a reflection of her or his characteristics, such as education level or work experience. It is possible that men and women with the same characteristics earn different wages. Our goal is to estimate the differences between wages at different quantiles, using sample survey data within a superpopulation framework. To do this, we use a parametric approach based on conditional distributions of the wages in function of some auxiliary information, as well as a counterfactual distribution. We show in our simulation studies that the use of auxiliary information well correlated with the wages reduces the variance of the counterfactual quantile estimates compared to those of the competitors. Since, in general, wage distributions are heavy-tailed, the interest is to model wages by using heavy-tailed distributions like the GB2 distribution. We illustrate the approach using this distribution and the wages for men and women using simulated and real data from the Swiss Federal Statistical Office.
  • Publication
    Accès libre
    On measuring income inequality
    L'inégalité des revenus est un sujet profond. Ma recherche ne vise en aucun cas à couvrir tous les aspects du sujet. À mon humble avis, la compréhension de l'inégalité des revenus, en dehors de la recherche statistique, nécessite une étude approfondie de la société humaine, de l'histoire et de la philosophie. Les statistiques n'aident pas à résoudre les questions d'inégalité des revenus en soi. Néanmoins, les statistiques fournissent une approche pour la mesurer. Cette recherche doctorale se concentre sur les questions relatives à la mesure de l'inégalité des revenus. Elle se concentre sur l'objectivité des mesures de l'inégalité des revenus, la précision de leur estimation et la quantification de l'incertitude de l'estimation. ABSTRACT Income inequality is a profound subject. My research by no means aims to cover every aspect of the subject. Comprehending income inequality, in my humble opinion, apart from statistical research, requires a deep investigation of human society, history and philosophy. Statistics does not help solve the questions of income inequality per se. Nevertheless, statistics provides an approach to measure it. This PhD research concentrates on the questions of measuring income inequality. It focuses on the objectivity of the income inequality measures, the accuracies of the estimation of them and the quantifications of the uncertainty of the estimation.
  • Publication
    Accès libre
    Nonresponse in sample surveys: new estimation and inference methods
    Dans ce manuscrit, le sujet de la non-réponse dans les enquêtes est étudié à travers plusieurs projets de recherche. Nous abordons différents sujets tels que le traitement de la non-réponse dans des ensembles de données, l’estimation en présence de non-réponse et l’analyse de la variance d’estimateurs. Le premier chapitre de cette thèse est consacré à une introduction à la statistique d’enquête, et notamment aux différents concepts utilisés dans le reste de ce manuscrit. Dans le deuxième chapitre, une nouvelle méthode d’imputation des non-réponses par donneurs est proposée. Au chapitre 3, nous présentons un nouvel estimateur du total en présence de non-réponses, qui combine l’estimateur assisté par un modèle et l’estimateur ajusté par repondération pour la non-réponse. Dans un quatrième chapitre, nous soulevons un problème lié aux estimateurs de variance d’estimateurs de totaux lorsque le rapport entre le nombre de variables et le nombre d’observations est grand. Nous approximons le biais de l’estimateur de variance afin d’ajuster les estimateurs. Le chapitre 5 de ce manuscrit traite d’un tout autre sujet. Nous y proposons une nouvelle méthode d’échantillonnage spatio-temporel qui prend en compte les deux sources d’autocorrélation spatiale et temporelle. La méthode permet de sélectionner un échantillon bien étalé à la fois dans le temps et dans l’espace. ABSTRACT In this manuscript, the topic of nonresponse in surveys is studied through several research projects. We address different subjects as treatment of nonresponse in data sets, estimation in presence of nonresponse and analysis of variance estimators. The first chapter of this thesis is devoted to an introduction to survey sampling and to the concepts used in the rest of this manuscript. In the second chapter, a new method for donor imputation of nonresponse is proposed. In the chapter 3, we present a new estimator of population total in the presence of nonresponse, which combines model-assisted estimators and estimators weighted by nonresponse. In a fourth chapter, we raise a problem related to variance estimators of total estimator when the ratio between the number of variables and the number of observations is large. We approximate the bias of the variance estimators in order to adjust the estimators. The chapter 5 of this manuscript deals with a different subject. We propose a new spatiotemporal sampling method that takes into account both sources of spatial and temporal autocorrelations. The method enables us to select a sample that is well spread in time and in space.
  • Publication
    Accès libre
    Spatially balanced sampling, stratification and statistical matching
    Dans cette thèse, nous nous intéressons à trois champs de la théorie de l'échantillonnage. Ces trois champs sont l'échantillonnage spatial, la stratification et finalement l'appariement statistique. Après un premier chapitre qui rappelle les notions principales de la théorie de l'échantillonnage, la thèse est constituée de deux parties qui contiennent chacune deux chapitres. La première partie concerne l'échantillonnage spatial. Dans le secteur de l'environnement en particulier, il est important de sélectionner un échantillon bien étalé. Les populations que nous étudions sont souvent auto-corrélées, c'est-à-dire que deux unités proches l'une de l'autre partagent les mêmes caractéristiques et ne devraient pas être sélectionnées dans le même échantillon. Dans le second chapitre, nous proposons une méthode qui permet de sélectionner un échantillon très bien étalé. Le troisième chapitre propose une méthode pour sélectionner un échantillon à la fois étalé sur des coordonnées géographiques et équilibré sur des variables auxiliaires. Cette méthode possède la particularité d'être séquentielle, ce qui offre un champ d'application plus large, notamment dans les très grands ensembles de données. La deuxième partie de la thèse aborde la stratification et l'appariement statistique. Dans une enquête, on améliore presque toujours l'estimateur si on sépare la population en sous-groupes lorsque cette information est disponible. Ces sous-groupes peuvent être grands ou petits selon les caractéristiques des variables qui les conditionnent. Le quatrième chapitre propose un algorithme pour tirer un échantillon équilibré dans des populations fortement stratifiées. Finalement, le cinquième chapitre parle de l'appariement statistique qui consiste à fusionner deux enquêtes. Nous utilisons le problème du transport optimal pour combiner les deux enquêtes en une pseudo-population qui permet de tirer des conclusions sur des variables mesurées uniquement dans chacune des enquêtes respectives.
    Abstract
    In this thesis, we are interested in three fields of sampling theory. These three fields are spatial sampling, stratification and finally statistical matching. After the first chapter recapitulating the main notions of sampling theory, the thesis comprises two parts, each containing two chapters. The first part deals with spatial sampling. Particularly in the environmental sector, it is important to select a well-spread sample. The populations we study are often auto-correlated, i.e. two units close to each other share the same characteristics and should not be selected in the same sample. In the second chapter, we propose a method to select a very well-spread sample. The third chapter proposes a method to select a sample that is both spread on geographical coordinates and balanced on auxiliary variables. This method has the particularity of being sequential, which offers a wider scope of application, especially in very large datasets. The second part of the thesis discusses stratification and statistical matching. In a survey, the estimator is almost always improved by separating the population into subgroups when this information is available. These subgroups can be large or small depending on the characteristics of the variables that condition them. The fourth chapter proposes an algorithm for drawing a balanced sample in highly stratified populations. Finally, the fifth chapter discusses statistical matching, which consists in merging two surveys. We use the optimal transport problem to combine the two surveys into a pseudo-population that allows conclusions to be drawn on variables measured only in each of the respective surveys.
  • Publication
    Accès libre
    An Efficient Approach for Statistical Matching of Survey Data Trough Calibration, Optimal Transport and Balanced Sampling
    Statistical matching aims to integrate two statistical sources. These sources can be two samples or a sample and the entire population. If two samples have been selected from the same population and information has been collected on different variables of interest, then it is interesting to match the two surveys to analyse, for example, contingency tables or correlations. In this paper, we propose an efficient method for matching two samples that may each contain a weighting scheme. The method matches the records of the two sources. Several variants are proposed in order to create a directly usable file integrating data from both information sources.
  • Publication
    Accès libre
    Some Thoughts on Official Statistic and its Future
    (2021-10-19)
    In this article, we share some reflections on the state of statistical science and its evolution in the production systems of official statistics. Data sources and methods are evolving, raising questions about the future of official statistics. The history of the methods used deserves a closer look at the changes that are taking place in the world of official statistics.
  • Publication
    Accès libre
  • Publication
    Accès libre
    Enhanced cube implementation for highly stratified population
    A balanced sampling design should always be the adopted strategy if auxiliary information is available. In addition, integrating a stratified structure of the population in the sampling process can considerably reduce the variance of the estimators. We propose here a new method to handle the selection of a balanced sample in a highly stratified population. The method improves substantially the commonly used sampling designs and reduces the time-consuming problem that could arise if inclusion probabilities within strata do not sum to an integer.