监督分类背景下的数据平衡

REVISTA CIENTIFICA ANDINA "science & humanities" Pub Date : 2022-09-04 DOI:10.57261/rcash.v1i1.13

Ivar Vargas Belizario, Rodolfo Fredy Arpasi Chura

{"title":"监督分类背景下的数据平衡","authors":"Ivar Vargas Belizario, Rodolfo Fredy Arpasi Chura","doi":"10.57261/rcash.v1i1.13","DOIUrl":null,"url":null,"abstract":"En tareas de aprendizaje máquina y ciencia de datos es muy importante realizar tareas de pre-procesamiento de los datos, según la propia naturaleza del almacenamiento de datos se puede encontrar con mucha frecuencia datos desbalanceados; esto ocurre cuando existe una enorme variación entre el número de instancias de las clases. Según el tipo de conjunto de datos es importante seleccionar un adecuado método para balancear los datos y para que de esta forma los datos puedan ser empleados en tareas de aprendizaje máquina. En este trabajo se presenta una propuesta para solucionar un problema real, que trata de un conjunto de dados desbalanceados en el contexto de clasificación supervisada. La propuesta de balanceamiento esta basada en el método oversamplig. Los resultados finales de clasificación son obtenidos empleando 4 clasificadores: Random Forest Classifier (RFC), Decision Tree Classifier (DTC), Gaussian Naive Bayes Classifier (GNBC) y K-Neighbors Classifier (KNNC).","PeriodicalId":165107,"journal":{"name":"REVISTA CIENTIFICA ANDINA \"science & humanities\"","volume":"27 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2022-09-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"BALANCEAMIENTO DE DATOS EN EL CON TEXTO DE CLASIFICACIÓN SUPERVISADA\",\"authors\":\"Ivar Vargas Belizario, Rodolfo Fredy Arpasi Chura\",\"doi\":\"10.57261/rcash.v1i1.13\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"En tareas de aprendizaje máquina y ciencia de datos es muy importante realizar tareas de pre-procesamiento de los datos, según la propia naturaleza del almacenamiento de datos se puede encontrar con mucha frecuencia datos desbalanceados; esto ocurre cuando existe una enorme variación entre el número de instancias de las clases. Según el tipo de conjunto de datos es importante seleccionar un adecuado método para balancear los datos y para que de esta forma los datos puedan ser empleados en tareas de aprendizaje máquina. En este trabajo se presenta una propuesta para solucionar un problema real, que trata de un conjunto de dados desbalanceados en el contexto de clasificación supervisada. La propuesta de balanceamiento esta basada en el método oversamplig. Los resultados finales de clasificación son obtenidos empleando 4 clasificadores: Random Forest Classifier (RFC), Decision Tree Classifier (DTC), Gaussian Naive Bayes Classifier (GNBC) y K-Neighbors Classifier (KNNC).\",\"PeriodicalId\":165107,\"journal\":{\"name\":\"REVISTA CIENTIFICA ANDINA \\\"science & humanities\\\"\",\"volume\":\"27 1\",\"pages\":\"0\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2022-09-04\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"REVISTA CIENTIFICA ANDINA \\\"science & humanities\\\"\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.57261/rcash.v1i1.13\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"REVISTA CIENTIFICA ANDINA \"science & humanities\"","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.57261/rcash.v1i1.13","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}

引用次数: 0

摘要

在机器学习任务和数据科学中，执行数据预处理任务是非常重要的，根据数据存储的本质，经常会发现不平衡的数据;当类实例的数量存在巨大差异时，就会发生这种情况。根据数据集的类型，选择合适的数据平衡方法是很重要的，这样数据就可以用于机器学习任务。本文提出了一种解决实际问题的方法，即在监督分类的背景下处理一组不平衡数据。提出的平衡方法是基于过放大法。采用随机森林分类器(RFC)、决策树分类器(DTC)、高斯Naive贝叶斯分类器(GNBC)和K-Neighbors分类器(KNNC)获得最终分类结果。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

查看原文本刊更多论文

BALANCEAMIENTO DE DATOS EN EL CON TEXTO DE CLASIFICACIÓN SUPERVISADA

En tareas de aprendizaje máquina y ciencia de datos es muy importante realizar tareas de pre-procesamiento de los datos, según la propia naturaleza del almacenamiento de datos se puede encontrar con mucha frecuencia datos desbalanceados; esto ocurre cuando existe una enorme variación entre el número de instancias de las clases. Según el tipo de conjunto de datos es importante seleccionar un adecuado método para balancear los datos y para que de esta forma los datos puedan ser empleados en tareas de aprendizaje máquina. En este trabajo se presenta una propuesta para solucionar un problema real, que trata de un conjunto de dados desbalanceados en el contexto de clasificación supervisada. La propuesta de balanceamiento esta basada en el método oversamplig. Los resultados finales de clasificación son obtenidos empleando 4 clasificadores: Random Forest Classifier (RFC), Decision Tree Classifier (DTC), Gaussian Naive Bayes Classifier (GNBC) y K-Neighbors Classifier (KNNC).

求助全文

通过发布文献求助，成功后即可免费获取论文全文。去求助

来源期刊

REVISTA CIENTIFICA ANDINA "science & humanities"

自引率

0.00%

发文量