Options
Tillé, Yves
Résultat de la recherche
Nonresponse in sample surveys: new estimation and inference methods
2023, Eustache, Esther, Tillé, Yves
Dans ce manuscrit, le sujet de la non-réponse dans les enquêtes est étudié à travers plusieurs projets de recherche. Nous abordons différents sujets tels que le traitement de la non-réponse dans des ensembles de données, l’estimation en présence de non-réponse et l’analyse de la variance d’estimateurs. Le premier chapitre de cette thèse est consacré à une introduction à la statistique d’enquête, et notamment aux différents concepts utilisés dans le reste de ce manuscrit. Dans le deuxième chapitre, une nouvelle méthode d’imputation des non-réponses par donneurs est proposée. Au chapitre 3, nous présentons un nouvel estimateur du total en présence de non-réponses, qui combine l’estimateur assisté par un modèle et l’estimateur ajusté par repondération pour la non-réponse. Dans un quatrième chapitre, nous soulevons un problème lié aux estimateurs de variance d’estimateurs de totaux lorsque le rapport entre le nombre de variables et le nombre d’observations est grand. Nous approximons le biais de l’estimateur de variance afin d’ajuster les estimateurs. Le chapitre 5 de ce manuscrit traite d’un tout autre sujet. Nous y proposons une nouvelle méthode d’échantillonnage spatio-temporel qui prend en compte les deux sources d’autocorrélation spatiale et temporelle. La méthode permet de sélectionner un échantillon bien étalé à la fois dans le temps et dans l’espace. ABSTRACT In this manuscript, the topic of nonresponse in surveys is studied through several research projects. We address different subjects as treatment of nonresponse in data sets, estimation in presence of nonresponse and analysis of variance estimators. The first chapter of this thesis is devoted to an introduction to survey sampling and to the concepts used in the rest of this manuscript. In the second chapter, a new method for donor imputation of nonresponse is proposed. In the chapter 3, we present a new estimator of population total in the presence of nonresponse, which combines model-assisted estimators and estimators weighted by nonresponse. In a fourth chapter, we raise a problem related to variance estimators of total estimator when the ratio between the number of variables and the number of observations is large. We approximate the bias of the variance estimators in order to adjust the estimators. The chapter 5 of this manuscript deals with a different subject. We propose a new spatiotemporal sampling method that takes into account both sources of spatial and temporal autocorrelations. The method enables us to select a sample that is well spread in time and in space.
Imputation of income variables in a survey context and estimation of variance for indicators of poverty and social exclusion
2014, Graf, Eric, Tillé, Yves
Cette thèse développe une méthode d'imputation pour des données de revenus permettant des analyses directes sur la distribution de ces variables et également l'estimation de statistiques complexes telles que des indices de pauvreté et d'exclusions sociale ainsi que l'estimation de leur précision.
Dans un chapitre introductif, nous présentons l'enquête sur les revenus et conditions de vie (SILC) dont les données sont utilisées à plusieurs reprises pour illustrer nos recherches.
Dans un premier article accepté pour publication, co-écrit avec Dr. Lionel Qualité, nous présentons un aperçu des méthodes actuellement utilisées à l'Office Fédéral de la Statistique (OFS). Les échantillons sont sélectionnés de manière coordonnée afin de répartir au mieux la charge d'enquête sur les ménages et les personnes. Le calcul des pondérations, dont on présente les principales étapes, est adapté aux différents besoins et aux différentes situations rencontrées. L'Office se base sur les recommandations internationales, dont il participe à l'élaboration, pour le traitement des données d'enquête et les imputations. La précision des estimateurs est systématiquement évaluée en tenant compte des traitements réalisés.
Dans un deuxième article publié, coécrit avec le Pr. Yves Tillé, nous avons mis en œuvre la technique de linéarisation généralisée reposant sur le concept de fonction d'influence, tout comme l'a fait Osier (2009), pour estimer la variance de statistiques complexes telles que les indices de Laeken. Des simulations montrent que, pour les cas où l'on a recours à une estimation par noyau gaussien de la fonction de densité des revenus considérés, on obtient un fort biais pour la valeur estimée de la variance. On propose deux autres méthodes pour estimer la densité qui diminuent fortement le biais constaté.
Dans un rapport de recherche, nous résumons l'idée proposée par Deville et Särndal (1994) consistant à construire un estimateur non biaisé de la variance d'un total basé uniquement sur l'information à disposition (c'est-à-dire l'échantillon sélectionné et le sous-ensemble des répondants) dans le cas d'une imputation par régression. Alors que ces auteurs ont traité le total conventionnel d'une variable d'intérêt, nous reproduisons un développement similaire dans le cas où le total considéré est celui de la variable linéarisée d'un quantile. Nous montrons à l'aide de simulations sur des données d'enquête réelles que l'imputation par régression peut avoir un impact important sur le biais de la variance estimée pour des indicateurs d'inégalité sociale. Cela nous mène à une méthode capable de prendre en compte la variance due à l'imputation, en plus de celle du plan dans le cas de quantiles.
Dans un article soumis, nous présentons notre nouvelle méthode d'imputation pour des variables de revenus. Des études empiriques ont montré que la loi bêta généralisée de seconde espèce (GB2) s'ajuste très bien à des données monétaires. Nous présentons une méthode d'imputation paramétrique reposant sur l'utilisation de poids issus d'un calage généralisé. Une loi GB2 est ajustée sur la distribution des revenus pour valider ces poids capables de compenser même pour de la non-réponse non-ignorable. Le succès de l'opération dépend grandement du choix, qui est discuté, des variables auxiliaires et instrumentales utilisées pour le calage. Nous validons notre système d'imputation sur les données SILC et comparons les résultats avec ceux obtenus par des imputations réalisées avec le logiciel IVEware. Nous avons investi de gros efforts pour estimer les variances par linéarisation, en prenant toutes les étapes de la procédure en compte.
La dernière partie de la thèse discute du matériel additionnel qui n'a pas pu être inclus dans les autres chapitres. Nous donnons notamment quelques détails supplémentaires sur la distribution GB2, étudions la possibilité d'utiliser des tests de Durbin-Wu-Hausman dans le cadre du calage généralisé et présentons une façon de former des classes d'imputation pour une variable de revenu., This Phd thesis proposes to develop a method of imputation for income variables allowing direct analysis of the distribution of such data, particularly the estimation of complex statistics such as indicators for poverty and social exclusion as well as the estimation of their precision.
In an introduction chapter we present the Swiss Survey on Income and Living Conditions (SILC) which we extensively used to illustrate our research.
In a first article accepted for publication, co-written with Dr. Lionel Qualité, we present an overview of the production methods at the Swiss Federal Office of Statistics (SFSO). Samples are selected with coordination so as to spread the survey burden over the population. We present the computation of extrapolation weights adapted to different cases and needs with its main steps. The SFSO relies on international recommendations for data editing and imputation, and contributes to their elaboration. The precision of estimators is consistently evaluated, according to the different treatments and methods involved in their construction.
In a second published article, co-written with Pr. Yves Tillé, we have used the generalized linearization technique based on the concept of influence function, as Osier (2009) has done, to estimate the variance of complex statistics such as Laeken indicators. Through simulations, we show that the use of Gaussian kernel estimation to estimate an income density function results in a strongly biased variance estimate. We propose two other density estimation methods that significantly reduce the observed bias.
In a working paper, we resume the idea presented by Deville and Särndal (1994) which consists in constructing an unbiased estimator of the variance of a total based solely on the information at our disposal (i.e. on the selected sample and the subset of respondents) in the case of regression imputation. While these authors dealt with a conventional total of a variable of interest, we reproduce a similar development in the case where the considered total is one of the linearized variable of quantiles. We show by means of simulations on real survey data that regression imputation can have an important impact on the bias and variance estimations of social inequality indicators. This leads us to a method capable of taking into account the variance due to imputation in addition to the one due to the sampling design in the cases of quantiles.
In a submitted article, we present our new imputation method for income variables. Empirical studies have shown that the generalized beta distribution of the second kind (GB2) fits income data very well. We present a parametric method of imputation relying on weights stemming from generalized calibration. A GB2 distribution is fitted on the income distribution in order to determine whether these weights can compensate even for nonignorable nonresponse that affects the variable of interest. The success of the operation greatly depends on the choice of auxiliary and instrumental variables used for calibration, which we discuss. We validate our imputation system on SILC data and compare it to imputations performed through the use of IVEware software. We have made great efforts to estimate variances through linearization, taking all the steps of our procedure into account.
The last part of this Phd thesis discusses additional material which we could not include in the other chapters. Namely we give some more insights into the GB2 distribution, study the possibility of using Durbin-Wu-Hausman tests in the framework of generalized calibration and present a way of forming imputation classes for an income variable.
Linearisation for Variance Estimation by Means of Sampling Indicators: Application to Non‐response
2019-8-19, Vallée, Audrey-Anne, Tillé, Yves
In order to estimate the variance of estimators in survey sampling, we consider a method in which the estimators are linearized with respect to the basic random variables: the sampling indicator and the response indicator. When a superpopulation model is assumed, the estimators can also be linearized with respect to the variable of interest. This method ensures the derivation of a variance since the estimated parameters are linearized with respect to the random variables directly. It becomes particularly straightforward to construct explicit variance estimators. All sources of randomness are taken into account. The effects caused by the complexity of the estimation method, the calibration and the nonresponse treatment, imputation or reweighting, appear automatically and explicitly in the linearization variables. Through a set of examples, we show the simplicity of the method. Some results regarding the estimation of variance with nonresponse can be obtained in a simpler way than the usual developments. A set of simulations illustrates the proposed methodology.
Imputation of income data with generalized calibration procedure and GB2 law: illustration with SILC data
2013-8-31, Graf, Eric, Tillé, Yves
In sample surveys of households and persons, questions about income are often sensitive and thus subject to a higher non-response rate. Nevertheless, the household or personal incomes are among the important variables in surveys of this type. The distribution of such collected incomes is not normal, neither log-normal. Hypotheses of classical regression models to explain the income (or their log) are not fulfilled. Imputations using such models modify the original and true distribution of the data. This is not suitable and may conduct the user to wrong interpretations of results computed from data imputed in this way. The generalized beta distribution of the second kind (GB2) is a four parameters distribution. Empirical studies have shown that it adapts very well to income data. The advantage of a parametric income distribution is that there exist explicit formulae for the inequality measures like the Laeken indicators as functions of the parameters. We present a parametric method of imputation, based on the fit of a GB2 law on the income distribution by the use of suitably adjusted weights obtained by generalized calibration. These weights can compensate for non ignorable non-response that affects the variable of interest. We validate our imputation system on data from the Swiss Survey on Income and Living Conditions (SILC).
New methods to handle nonresponse in surveys
2015, Hasler, Caren, Tillé, Yves
Ce document porte sur la nonréponse dans les enquêtes par échantillonnage. Principalement, des méthodes de traitement de la nonréponse dans des enquêtes complexes sont proposées. Le premier chapitre de ce document introduit des concepts relatifs à l'échantillonnage et à la nonréponse. Le second chapitre propose un algorithme d'échantillonnage équilibré pour des populations hautement stratifiées. Le troisième chapitre de ce document propose une méthode d'imputation par donneur dont la sélection se fait par échantillonnage équilibré combiné à une approche nonparamétrique. Cette méthode nécessite l'utilisation de l'algorithme faisant l'objet du second chapitre. Le chapitre qui suit présente une méthode d'imputation nonparamétrique basée sur les modèles de régression additifs. Finalement, le cinquième chapitre propose trois procédures de repondération pour le traitement de la nonréponse non-ignorable applicable lorsque les valeurs prises par la variable d'intérêt proviennent d'une densité mélange., This document focuses on nonresponse in sample surveys. Mainly, methods to handle nonresponse in complex surveys are proposed. The first chapter of this document introduces concepts and notation of survey sampling and nonresponse. The second chapter proposes an algorithm for stratified balanced sampling for populations with large numbers of strata. The third chapter of this document presents a hot-deck imputation method which combines balanced sampling and a nonparametric approach. This method uses the algorithm presented in the second chapter. The next chapter presents a nonparametric method of imputation for item nonresponse in surveys based on additive regression models. Finally, the fifth chapter proposes three reweighting procedures for handling nonignorable nonresponse in surveys providing that the values of the variable of interest are obtained from a mixture distribution.
Computational aspects of sample surveys
2005, Matei, Alina, Tillé, Yves
Cette thèse est consacrée à quatre problèmes d'échantillonnage. Après un chapitre de présentation générale (chapitre 1), on s'intéresse dans le chapitre 2 au calcul des probabilités d'inclusion d'ordre un dans des plans ordonnés et proportionnels à la taille. Les chapitres 2 et 3 traitent de la coordination d'échantillons dans le temps. Le chapitre 4 est consacré à l'approximation et à l'estimation de la variance des échantillons de taille fixe à entropie maximale et à probabilités d'inclusion inégales. Les chapitres 5 et 6 traitent d'une modification de l'algorithme de Cox pour l'équilibrage en nombres entiers de tableaux rectangulaires à marges contraintes, avec application à l'imputation d'une variable qualitative. Une place importante est accordée à l'algorithmique et aux simulations de Monte-Carlo.