Construcción de un modelo de imputación para variables de ingreso con valores perdidos a partir de ensamble learning. Aplicación en la Encuesta Permanente de Hogares (EPH)

IF 0.2 Q4 ECONOMICS
SaberEs Pub Date : 2017-06-30 DOI:10.35305/s.v9i1.132
Germán Rosati
{"title":"Construcción de un modelo de imputación para variables de ingreso con valores perdidos a partir de ensamble learning. Aplicación en la Encuesta Permanente de Hogares (EPH)","authors":"Germán Rosati","doi":"10.35305/s.v9i1.132","DOIUrl":null,"url":null,"abstract":"El presente documento se propone exponer los avances realizados en la construccion de un modelo de imputacion de valores perdidos y sin respuesta para las variables de ingreso en encuestas a hogares. Se presentara la propuesta metodologica general y los resultados de las pruebas realizadas. Se evaluan dos tipos de modelos de imputacion de datos perdidos: 1) el metodo hot-deck (ampliamente utilizado por relevamientos importantes en el Sistema Estadistico Nacional, tales como la Encuesta Permanente de Hogares y la Encuesta Anual de Hogares de la Ciudad de Buenos Aires) y 2) un ensamble de modelos de regresion LASSO (Least Absolute Shrinkage and Selection Operator). El mismo se basa en la generacion de multiples modelos de regresion LASSO a traves del algoritmo bagging y de su agregacion para la generacion de la imputacion final. En la primera y segunda parte del documento plantea el problema de forma mas especifica y se pasa revista a los principales mecanismos de generacion de los valores perdidos y las implicancias que los mismos tienen al momento de generar modelos de imputacion. En el tercer apartado se resenan los metodos de imputacion mas habitualmente utilizados, enfatizando sus ventajas y limitaciones. En la cuarta parte, se desarrollan los fundamentos teoricos y metodologicos de las dos tecnicas de imputacion propuestas. Finalmente, en la quinta seccion, se presentan algunos resultados de la aplicacion de los metodos propuestos a datos de la Encuesta Permanente de Hogares.","PeriodicalId":40568,"journal":{"name":"SaberEs","volume":"54 93 1","pages":"68-89"},"PeriodicalIF":0.2000,"publicationDate":"2017-06-30","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"1","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"SaberEs","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.35305/s.v9i1.132","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q4","JCRName":"ECONOMICS","Score":null,"Total":0}
引用次数: 1

Abstract

El presente documento se propone exponer los avances realizados en la construccion de un modelo de imputacion de valores perdidos y sin respuesta para las variables de ingreso en encuestas a hogares. Se presentara la propuesta metodologica general y los resultados de las pruebas realizadas. Se evaluan dos tipos de modelos de imputacion de datos perdidos: 1) el metodo hot-deck (ampliamente utilizado por relevamientos importantes en el Sistema Estadistico Nacional, tales como la Encuesta Permanente de Hogares y la Encuesta Anual de Hogares de la Ciudad de Buenos Aires) y 2) un ensamble de modelos de regresion LASSO (Least Absolute Shrinkage and Selection Operator). El mismo se basa en la generacion de multiples modelos de regresion LASSO a traves del algoritmo bagging y de su agregacion para la generacion de la imputacion final. En la primera y segunda parte del documento plantea el problema de forma mas especifica y se pasa revista a los principales mecanismos de generacion de los valores perdidos y las implicancias que los mismos tienen al momento de generar modelos de imputacion. En el tercer apartado se resenan los metodos de imputacion mas habitualmente utilizados, enfatizando sus ventajas y limitaciones. En la cuarta parte, se desarrollan los fundamentos teoricos y metodologicos de las dos tecnicas de imputacion propuestas. Finalmente, en la quinta seccion, se presentan algunos resultados de la aplicacion de los metodos propuestos a datos de la Encuesta Permanente de Hogares.
从集合学习中丢失值的收入变量的归因模型的构建。在永久住户调查(EPH)中的申请
在这一过程中,我们发现了一种新的方法,在这种方法中,家庭调查变量的损失和无响应值归因模型的构建取得了进展。应提出一般的方法建议和所进行的测试的结果。evaluan两种类型的模型数据imputacion年数:1)方法hot-deck(广泛用于relevamientos Estadistico系统中的重要国家,如长期家庭调查和年度家庭调查(布宜诺斯艾利斯)和(2)组合regresion LASSO模型(最不绝对Shrinkage and Selection Operator)。本文提出了一种新的方法,在此基础上,通过使用套索算法生成多个套索回归模型,并将其聚合以生成最终归因。本文的第一部分和第二部分以更具体的方式提出了这个问题,并回顾了生成丢失值的主要机制以及它们在生成归因模型时的含义。第三部分概述了最常用的归因方法,强调了它们的优点和局限性。第四部分阐述了两种归因技术的理论和方法基础。最后,在第四部分,我们提出了一些方法应用于永久住户调查数据的结果。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 求助全文
来源期刊
SaberEs
SaberEs ECONOMICS-
自引率
0.00%
发文量
0
审稿时长
34 weeks
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术官方微信