{"title":"监督分类背景下的数据平衡","authors":"Ivar Vargas Belizario, Rodolfo Fredy Arpasi Chura","doi":"10.57261/rcash.v1i1.13","DOIUrl":null,"url":null,"abstract":"En tareas de aprendizaje máquina y ciencia de datos es muy importante realizar tareas de pre-procesamiento de los datos, según la propia naturaleza del almacenamiento de datos se puede encontrar con mucha frecuencia datos desbalanceados; esto ocurre cuando existe una enorme variación entre el número de instancias de las clases. Según el tipo de conjunto de datos es importante seleccionar un adecuado método para balancear los datos y para que de esta forma los datos puedan ser empleados en tareas de aprendizaje máquina. En este trabajo se presenta una propuesta para solucionar un problema real, que trata de un conjunto de dados desbalanceados en el contexto de clasificación supervisada. La propuesta de balanceamiento esta basada en el método oversamplig. Los resultados finales de clasificación son obtenidos empleando 4 clasificadores: Random Forest Classifier (RFC), Decision Tree Classifier (DTC), Gaussian Naive Bayes Classifier (GNBC) y K-Neighbors Classifier (KNNC).","PeriodicalId":165107,"journal":{"name":"REVISTA CIENTIFICA ANDINA \"science & humanities\"","volume":"27 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2022-09-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"BALANCEAMIENTO DE DATOS EN EL CON TEXTO DE CLASIFICACIÓN SUPERVISADA\",\"authors\":\"Ivar Vargas Belizario, Rodolfo Fredy Arpasi Chura\",\"doi\":\"10.57261/rcash.v1i1.13\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"En tareas de aprendizaje máquina y ciencia de datos es muy importante realizar tareas de pre-procesamiento de los datos, según la propia naturaleza del almacenamiento de datos se puede encontrar con mucha frecuencia datos desbalanceados; esto ocurre cuando existe una enorme variación entre el número de instancias de las clases. Según el tipo de conjunto de datos es importante seleccionar un adecuado método para balancear los datos y para que de esta forma los datos puedan ser empleados en tareas de aprendizaje máquina. En este trabajo se presenta una propuesta para solucionar un problema real, que trata de un conjunto de dados desbalanceados en el contexto de clasificación supervisada. La propuesta de balanceamiento esta basada en el método oversamplig. Los resultados finales de clasificación son obtenidos empleando 4 clasificadores: Random Forest Classifier (RFC), Decision Tree Classifier (DTC), Gaussian Naive Bayes Classifier (GNBC) y K-Neighbors Classifier (KNNC).\",\"PeriodicalId\":165107,\"journal\":{\"name\":\"REVISTA CIENTIFICA ANDINA \\\"science & humanities\\\"\",\"volume\":\"27 1\",\"pages\":\"0\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2022-09-04\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"REVISTA CIENTIFICA ANDINA \\\"science & humanities\\\"\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.57261/rcash.v1i1.13\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"REVISTA CIENTIFICA ANDINA \"science & humanities\"","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.57261/rcash.v1i1.13","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
BALANCEAMIENTO DE DATOS EN EL CON TEXTO DE CLASIFICACIÓN SUPERVISADA
En tareas de aprendizaje máquina y ciencia de datos es muy importante realizar tareas de pre-procesamiento de los datos, según la propia naturaleza del almacenamiento de datos se puede encontrar con mucha frecuencia datos desbalanceados; esto ocurre cuando existe una enorme variación entre el número de instancias de las clases. Según el tipo de conjunto de datos es importante seleccionar un adecuado método para balancear los datos y para que de esta forma los datos puedan ser empleados en tareas de aprendizaje máquina. En este trabajo se presenta una propuesta para solucionar un problema real, que trata de un conjunto de dados desbalanceados en el contexto de clasificación supervisada. La propuesta de balanceamiento esta basada en el método oversamplig. Los resultados finales de clasificación son obtenidos empleando 4 clasificadores: Random Forest Classifier (RFC), Decision Tree Classifier (DTC), Gaussian Naive Bayes Classifier (GNBC) y K-Neighbors Classifier (KNNC).