监督分类背景下的数据平衡

Ivar Vargas Belizario, Rodolfo Fredy Arpasi Chura
{"title":"监督分类背景下的数据平衡","authors":"Ivar Vargas Belizario, Rodolfo Fredy Arpasi Chura","doi":"10.57261/rcash.v1i1.13","DOIUrl":null,"url":null,"abstract":"En tareas de aprendizaje máquina y ciencia de datos es muy importante realizar tareas de pre-procesamiento de los datos, según la propia naturaleza del almacenamiento de datos se puede encontrar con mucha frecuencia datos desbalanceados; esto ocurre cuando existe una enorme variación entre el número de instancias de las clases. Según el tipo de conjunto de datos es importante seleccionar un adecuado método para balancear los datos y para que de esta forma los datos puedan ser empleados en tareas de aprendizaje máquina. En este trabajo se presenta una propuesta para solucionar un problema real, que trata de un conjunto de dados desbalanceados en el contexto de clasificación supervisada. La propuesta de balanceamiento esta basada en el método oversamplig. Los resultados finales de clasificación son obtenidos empleando 4 clasificadores: Random Forest Classifier (RFC), Decision Tree Classifier (DTC), Gaussian Naive Bayes Classifier (GNBC) y K-Neighbors Classifier (KNNC).","PeriodicalId":165107,"journal":{"name":"REVISTA CIENTIFICA ANDINA \"science & humanities\"","volume":"27 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2022-09-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"BALANCEAMIENTO DE DATOS EN EL CON TEXTO DE CLASIFICACIÓN SUPERVISADA\",\"authors\":\"Ivar Vargas Belizario, Rodolfo Fredy Arpasi Chura\",\"doi\":\"10.57261/rcash.v1i1.13\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"En tareas de aprendizaje máquina y ciencia de datos es muy importante realizar tareas de pre-procesamiento de los datos, según la propia naturaleza del almacenamiento de datos se puede encontrar con mucha frecuencia datos desbalanceados; esto ocurre cuando existe una enorme variación entre el número de instancias de las clases. Según el tipo de conjunto de datos es importante seleccionar un adecuado método para balancear los datos y para que de esta forma los datos puedan ser empleados en tareas de aprendizaje máquina. En este trabajo se presenta una propuesta para solucionar un problema real, que trata de un conjunto de dados desbalanceados en el contexto de clasificación supervisada. La propuesta de balanceamiento esta basada en el método oversamplig. Los resultados finales de clasificación son obtenidos empleando 4 clasificadores: Random Forest Classifier (RFC), Decision Tree Classifier (DTC), Gaussian Naive Bayes Classifier (GNBC) y K-Neighbors Classifier (KNNC).\",\"PeriodicalId\":165107,\"journal\":{\"name\":\"REVISTA CIENTIFICA ANDINA \\\"science & humanities\\\"\",\"volume\":\"27 1\",\"pages\":\"0\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2022-09-04\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"REVISTA CIENTIFICA ANDINA \\\"science & humanities\\\"\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.57261/rcash.v1i1.13\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"REVISTA CIENTIFICA ANDINA \"science & humanities\"","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.57261/rcash.v1i1.13","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0

摘要

在机器学习任务和数据科学中,执行数据预处理任务是非常重要的,根据数据存储的本质,经常会发现不平衡的数据;当类实例的数量存在巨大差异时,就会发生这种情况。根据数据集的类型,选择合适的数据平衡方法是很重要的,这样数据就可以用于机器学习任务。本文提出了一种解决实际问题的方法,即在监督分类的背景下处理一组不平衡数据。提出的平衡方法是基于过放大法。采用随机森林分类器(RFC)、决策树分类器(DTC)、高斯Naive贝叶斯分类器(GNBC)和K-Neighbors分类器(KNNC)获得最终分类结果。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
BALANCEAMIENTO DE DATOS EN EL CON TEXTO DE CLASIFICACIÓN SUPERVISADA
En tareas de aprendizaje máquina y ciencia de datos es muy importante realizar tareas de pre-procesamiento de los datos, según la propia naturaleza del almacenamiento de datos se puede encontrar con mucha frecuencia datos desbalanceados; esto ocurre cuando existe una enorme variación entre el número de instancias de las clases. Según el tipo de conjunto de datos es importante seleccionar un adecuado método para balancear los datos y para que de esta forma los datos puedan ser empleados en tareas de aprendizaje máquina. En este trabajo se presenta una propuesta para solucionar un problema real, que trata de un conjunto de dados desbalanceados en el contexto de clasificación supervisada. La propuesta de balanceamiento esta basada en el método oversamplig. Los resultados finales de clasificación son obtenidos empleando 4 clasificadores: Random Forest Classifier (RFC), Decision Tree Classifier (DTC), Gaussian Naive Bayes Classifier (GNBC) y K-Neighbors Classifier (KNNC).
求助全文
通过发布文献求助,成功后即可免费获取论文全文。 去求助
来源期刊
自引率
0.00%
发文量
0
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:604180095
Book学术官方微信