Nested and Repeated Cross Validation for Classification Model With High-Dimensional Data

Q3 Mathematics
Yi Zhong, Jianghua He, P. Chalise
{"title":"Nested and Repeated Cross Validation for Classification Model With High-Dimensional Data","authors":"Yi Zhong, Jianghua He, P. Chalise","doi":"10.15446/RCE.V43N1.80000","DOIUrl":null,"url":null,"abstract":"Con la llegada de las tecnologias de alto rendimiento, los conjuntos de datos de alta dimension estan cada vez mas disponibles. Esto no solo ha abierto una nueva vision acerca de los sistemas biologicos, sino que tambien plantea desafios analiticos. Un problema importante es la seleccion de subconjuntos de variables y la prediccion de resultados futuros. Es crucial que los modelos no sean sobreajustados y que den resultados precisos con nuevos datos. Ademas, la identificaci on confiable de variables informativas con alto poder predictivo (seleccion de caracteristicas) es de interes en entornos clinicos. Proponemos un procedimiento de dos etapas para la seleccion de variables y la construccion de modelos de clasificacion, el cual utiliza un metodo de validacion cruzada anidada y repetida. Evaluamos nu\\-estro enfoque utilizando tanto datos simulados como dos conjuntos de datos de expresion genica disponibles publicamente. El metodo propuesto mostro una precision predictiva comparativamente mejor para casos nuevos en comparacion con el metodo estandar de validacion cruzada.","PeriodicalId":54477,"journal":{"name":"Revista Colombiana De Estadistica","volume":"605 1","pages":"103-125"},"PeriodicalIF":0.0000,"publicationDate":"2020-01-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"13","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Revista Colombiana De Estadistica","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.15446/RCE.V43N1.80000","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q3","JCRName":"Mathematics","Score":null,"Total":0}
引用次数: 13

Abstract

Con la llegada de las tecnologias de alto rendimiento, los conjuntos de datos de alta dimension estan cada vez mas disponibles. Esto no solo ha abierto una nueva vision acerca de los sistemas biologicos, sino que tambien plantea desafios analiticos. Un problema importante es la seleccion de subconjuntos de variables y la prediccion de resultados futuros. Es crucial que los modelos no sean sobreajustados y que den resultados precisos con nuevos datos. Ademas, la identificaci on confiable de variables informativas con alto poder predictivo (seleccion de caracteristicas) es de interes en entornos clinicos. Proponemos un procedimiento de dos etapas para la seleccion de variables y la construccion de modelos de clasificacion, el cual utiliza un metodo de validacion cruzada anidada y repetida. Evaluamos nu\-estro enfoque utilizando tanto datos simulados como dos conjuntos de datos de expresion genica disponibles publicamente. El metodo propuesto mostro una precision predictiva comparativamente mejor para casos nuevos en comparacion con el metodo estandar de validacion cruzada.
高维数据分类模型的嵌套重复交叉验证
随着高性能技术的出现,高维数据集变得越来越可用。这不仅为生物系统开辟了新的视野,也带来了分析上的挑战。一个重要的问题是变量子集的选择和未来结果的预测。至关重要的是,模型不应过度拟合,而应在新数据中提供准确的结果。此外,具有高预测能力的信息变量的可靠识别(特征选择)在临床环境中也很有趣。我们提出了一个变量选择和分类模型构建的两阶段过程,采用嵌套和重复交叉验证的方法。我们使用模拟数据和两组公开的基因表达数据来评估我们的方法。与标准交叉验证方法相比,该方法对新病例的预测准确性较好。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 求助全文
来源期刊
Revista Colombiana De Estadistica
Revista Colombiana De Estadistica STATISTICS & PROBABILITY-
CiteScore
1.20
自引率
0.00%
发文量
0
审稿时长
>12 weeks
期刊介绍: The Colombian Journal of Statistics publishes original articles of theoretical, methodological and educational kind in any branch of Statistics. Purely theoretical papers should include illustration of the techniques presented with real data or at least simulation experiments in order to verify the usefulness of the contents presented. Informative articles of high quality methodologies or statistical techniques applied in different fields of knowledge are also considered. Only articles in English language are considered for publication. The Editorial Committee assumes that the works submitted for evaluation have not been previously published and are not being given simultaneously for publication elsewhere, and will not be without prior consent of the Committee, unless, as a result of the assessment, decides not publish in the journal. It is further assumed that when the authors deliver a document for publication in the Colombian Journal of Statistics, they know the above conditions and agree with them.
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术官方微信