Voici les éléments 1 - 10 sur 49
Pas de vignette d'image disponible
Publication
Métadonnées seulement

Sondage dans des registres de population et de ménages en Suisse : coordination d’échantillons, pondération et imputation

2014-11-24, Graf, Eric, Qualité, Lionel

L’Office Fédéral de la Statistique harmonise ses enquêtes par échantillonnage auprès des personnes et des ménages en Suisse. Dans cet article, nous présentons un aperçu des méthodes actuellement utilisées. Les échantillons sont sélectionnés de manière coordonnée afin de répartir au mieux la charge d’enquête sur les ménages et les personnes. Le calcul des pondérations, dont on présente les principales étapes, est adapté aux différents besoins et aux différentes situations rencontrées. L’Office se base sur les recommandations internationales, dont il participe à l’élaboration, pour le traitement des données d’enquête et les imputations. La précision des estimateurs est systématiquement évaluée en tenant compte des traitements réalisés.

Pas de vignette d'image disponible
Publication
Métadonnées seulement

Quelques Remarques sur un Petit Exemple de Jean-Claude Deville au Sujet de la Non-Réponse Non-Ignorable

2016-12-20, Tillé, Yves

Un petit exemple présenté par Jean-Claude Deville en 2005 est soumis à trois méthodes d'estimation~: la méthode des moments, la méthode du maximum de vraisemblance et le calage généralisé. Les trois méthodes donnent exactement les mêmes résultats pour les deux modèles de non-réponse. On discute ensuite de la manière de choisir le modèle le plus adéquat.

Pas de vignette d'image disponible
Publication
Accès libre

Calage serré des poids d’enquête

2014-11-19, Graf, Monique

Le calage des poids de sondage se réfère à la recherche de corrections multiplicatives des poids, de telle sorte que les totaux extrapolés des variables de calage coïncident avec les totaux de population correspondants, supposés connus. Il est souvent souhaitable d'imposer des limites sur la variabilité des corrections de poids, mais il peut arriver que le calage devienne alors impossible. En effet, en général spécialement si l'on prévoit de faire des estimations, non seulement pour la population entière ou les catégories utilisées pour le calage, mais aussi pour des domaines coupant ces catégories. Les propriétés d'optimalité des poids calés ne fournissant aucune garantie dans ce cas, il est intéressant de limiter au maximum la variabilité des corrections de poids. Dans la pratique, le problème du calage est résolu en minimisant d'une fonction de perte convexe dépendant de limites définies a priori sur la correction des poids. On décrit ici une méthode pour trouver les limites les plus serrées possible pour le calage des poids de sondage, telles que le problème soit toujours réalisable. Malgré la taille du problème, la mise en œuvre dans R à l'aide de matrices creuses s'est avérée facile à gérer pour les enquêtes en taille réelle, d'au moins plusieurs milliers d'unités. On donne un exemple réel et un exemple de simulation qui prouvent la faisabilité de la méthode.

Pas de vignette d'image disponible
Publication
Métadonnées seulement

Estimation of poverty indicators in small areas under skewed distributions

2014, Graf, Monique, Marin, Juan Miguel, Molina, Isabel

The standard methods for poverty mapping at local level assume that incomes follow a log-normal model. However, the log-normal distribution is not always well suited for modeling the income, which often shows skewness even at the log scale. As an alternative, we propose to consider a much more flexible distribution called generalized beta distribution of the second kind (GB2). The flexibility of the GB2 distribution arises from the fact that it contains four parameters in contrast with the two parameters of the log normal. One of the parameters of the GB2 controls the shape of left tail and another controls the shape of the right tail, making it suitable to model different forms of skewness. In particular, it includes the log-normal distribution as a limiting case. In this sense, it can be seen as an extension of the log-normal model to handle more adequately potential atypical or extreme values and it has been successfully applied to model the income. We propose a small area model for the incomes based on a multivariate extension of the GB2 distribution. Under this model, we define empirical best (EB) estimators of general non-linear area parameters; in particular, poverty indicators and we describe how to obtain Monte Carlo approximations of the EB estimators. A parametric bootstrap procedure is proposed for estimation of the mean squared error.

Pas de vignette d'image disponible
Publication
Métadonnées seulement

Weighted distributions

2018, Graf, Monique

In a super-population statistical model, a variable of interest, defined on a finite population of size N, is considered as a set of N independent realizations of the model. The log-likelihood at the population level is then written as a sum. If only a sample is observed, drawn according to a design with unequal inclusion probabilities, the log-pseudo-likelihood is the Horvitz-Thompson estimate of the population log-likelihood. In general, the extrapolation weights are multiplied by a normalization factor, in such a way that normalized weights sum to the sample size. In a single level design, the value of estimated model parameters are unchanged by the scaling of weights, but it is in general not the case for multi-level models. The problem of the choice of the normalization factors in cluster sampling has been largely addressed in the literature, but no clear recommendations have been issued. It is proposed here to compute the factors in such a way that the pseudo-likelihood becomes a proper likelihood. The super-population model can be written equivalently for the variable of interest or for a transformation of this variable. It is shown that the pseudo-likelihood is not invariant by transformation of the variable of interest.

Pas de vignette d'image disponible
Publication
Accès libre

Decomposition of Gender Wage Inequalities through Calibration: Application to the Swiss Structure of Earnings Survey

2017-12-21, Guinand, Mihaela Catalina, Tillé, Yves

This paper proposes a new approach to decompose the wage difference between men and women that is based on a calibration procedure. This approach generalizes two current decomposition methods that are re-expressed using survey weights. The first one is the Blinder-Oaxaca method and the second one is a reweighting method proposed by DiNardo, Fortin and Lemieux. The new approach provides a weighting system that enables us to estimate such parameters of interest like quantiles. An application to data from the Swiss Structure of Earnings Survey shows the interest of this method.

Pas de vignette d'image disponible
Publication
Accès libre

Imputation of income variables in a survey context and estimation of variance for indicators of poverty and social exclusion

2014-11-25, Graf, Eric

We present a method of imputation for income variables allowing direct analysis of the distribution of such data, particularly the estimation of complex statistics such as indicators for poverty and social exclusion as well as the estimation of their precision.

Pas de vignette d'image disponible
Publication
Accès libre

Fast Balanced Sampling for Highly Stratified Population

2014-6, Hasler, Caren, Tillé, Yves

Balanced sampling is a very efficient sampling design when the variable of interest is correlated to the auxiliary variables on which the sample is balanced. Chauvet (2009) proposed a procedure to select balanced samples in a stratified population. Unfortunately, Chauvet's procedure can be slow when the number of strata is very large. In this paper, we propose a new algorithm to select balanced samples in a stratified population. This new procedure is at the same time faster and more accurate than Chauvet's. Balanced sampling can then be applied on a highly stratified population when only a few units are selected in each stratum. This algorithm turns out to be valuable for many applications. For instance, it can improve the quality of the estimates produced by multistage surveys for which only one or two primary sampling units are selected in each stratum. Moreover, this algorithm may be used to treat nonresponse.

Pas de vignette d'image disponible
Publication
Métadonnées seulement

La variance sous calage: Mode d’emploi la macro SURVEYCAL

2013-10-17, Graf, Monique

La macro SAS SURVEYCAL, programmée par Monique Graf, est le résultat d’un mandat confié à l’Institut de statistique de l’université de Neuchâtel par la section METH de l’Office fédéral de la statistique. Il s’agit d’étendre au cas du calage sur marges les résultats fournis par la procédure SAS SURVEYMEANS. Cette procédure procure des méthodes d’estimation basée sur le plan d’échantillonnage, dans le cas d’une enquête basée sur un plan de taille fixe (stratifié en grappes). SURVEYCAL permet de traiter pratiquement tous les cas envisagés dans SURVEYMEANS. Ce document est d’abord un mode d’emploi de SURVEYCAL. S’y rajoutent des illustrations utilisant des données provenant de l’enquête SILC 2009 et quelques recommandations pour choisir la méthode de calage d’une part et le mode de calcul de la variance par linéarisation, d’autre part. On introduit une méthode originale pour le calcul des bornes de calage dans les cas linéaire tronqué et logit.

Pas de vignette d'image disponible
Publication
Métadonnées seulement

Regression for Compositions based on a Generalization of the Dirichlet Distribution

2019, Graf, Monique

Consider a positive random vector following a compound distribution where the compounding parameter multiplies non-random scale parameters. The associated composition is the vector divided by the sum of its components. The conditions under which the composition depends on the distribution of the compounding parameter are given. When the original vector follows a compound distribution based on independent Generalized Gamma components, the Simplicial Generalized Beta (SGB) is the most general distribution of the composition that is invariant with respect to the distribution of the compounding parameter. Some properties and moments of the SGB are derived. Conditional moments given a sub-composition give a way to impute missing parts when knowing a sub-composition only. Distributional checks are made possible through the marginal distributions of functions of the parts that should be Beta distributed. A multiple SGB regression procedure is set up and applied to data from the United Kingdom Time Use survey.