Penerapan Metode Random Over-Under Sampling Pada Algoritma Klasifikasi Penentuan Penyakit Diabetes

Eko Saputro, Didi Rosiyadi
{"title":"Penerapan Metode Random Over-Under Sampling Pada Algoritma Klasifikasi Penentuan Penyakit Diabetes","authors":"Eko Saputro, Didi Rosiyadi","doi":"10.31294/bi.v10i1.11739","DOIUrl":null,"url":null,"abstract":"Penyakit  diabetes  merupakan salah satu penyakit yang mematikan dan jumlah penderita setiap tahunnya meningkat. Upaya pencegahan dan pengendalian diabetes ini sebaiknya dilakukan melalui edukasi deteksi dini sebagai identifikasi awal individu. Jumlah data penderita diabetes melitus yang banyak dan perlu dilakukan seleksi fitur-fitur pada dataset. Penggunaan teknik machine learning dapat memberikan kemudahan dalam melakukan pemodelan tetapi juga terdapat beberapa permasalahan. Penggunaan algoritma yang tidak sesuai akan menurunkan tingkat akurasi dari klasifikasi. Permasalahan yang lain yaitu apabila dataset yang digunakan merupakan dataset dengan distribusi kelas yang tidak seimbang. Untuk mengatasi permasalahan tersebut dengan menerapkan teknik pendekatan level data dengan menerapkan metode resampling serta membandingkan beberapa metode algoritma seperti Algoritma C4.5, Naive Bayes, K-Nearest Neightbour, Support Vector Machine, Neural Network dan Random Forest. Hasil kinerja yang diperoleh menunjukan bahwa model pengklasifikasi Random Over-Under Sampling Random Forest memiliki nilai accuracy yang lebih tinggi dibandingkan dengan  beberapa model lainnya dengan nilai accuracy sebesar 0,9808 atau 98,08% yang dan nilai AUC sebesar 0.9809 atau 98,09%. Pada pengujian dataset asli juga menghasilkan akurasi yang tinggi dengan nilai akurasi yaitu 0,9923 atau 99,23% dan nilai AUC  0,9919. Maka dapat disimpulkan bahwa Algoritma tersebut memiliki performa terbaik dan dapat digunakan untuk menyelesaikan masalah pada klasifikasi penentuan penyakit diabetes.Kata Kunci: Klasifikasi diabetes, Random Over-Under Sampling, Random ForestDiabetes is one of the deadly diseases. The number of sufferers is increasing every year. Efforts to prevent and control diabetes should be carried out through early detection as an individual early. The amount of data for people with diabetes mellitus is large and it is necessary to select features in the dataset. The use of machine learning techniques can provide convenience in modeling but there are also some problems. Inappropriate use will reduce the accuracy of the classification. Another problem is if the data set used is a data set with an unbalanced class distribution. To overcome this problem by applying a data level approach by applying the resampling method and comparing several algorithm methods such as the C4.5 Algorithm, Naive Bayes, K-Nearest Neighbor, Support Vector Machine, Neural Network and Random Forest. The results obtained indicate that the classifier of the Random Over-Under Sampling Random Forest model has a higher accuracy value compared to several other models with an accuracy value of 0.9808 or 98.08% and an AUC value of 0.9809 or 98.09%. In testing the original dataset, the quality of accuracy is also high with an accuracy value of 0.9923 or 99.23% and an AUC value of 0.9919. So it can be said that the algorithm has the best performance and can be used to solve problems in various diabetes diseases.Keywords: Diabetes classification, Random Over-Under Sampling, Random Forest","PeriodicalId":178404,"journal":{"name":"Bianglala Informatika","volume":"49 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2022-03-23","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Bianglala Informatika","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.31294/bi.v10i1.11739","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0

Abstract

Penyakit  diabetes  merupakan salah satu penyakit yang mematikan dan jumlah penderita setiap tahunnya meningkat. Upaya pencegahan dan pengendalian diabetes ini sebaiknya dilakukan melalui edukasi deteksi dini sebagai identifikasi awal individu. Jumlah data penderita diabetes melitus yang banyak dan perlu dilakukan seleksi fitur-fitur pada dataset. Penggunaan teknik machine learning dapat memberikan kemudahan dalam melakukan pemodelan tetapi juga terdapat beberapa permasalahan. Penggunaan algoritma yang tidak sesuai akan menurunkan tingkat akurasi dari klasifikasi. Permasalahan yang lain yaitu apabila dataset yang digunakan merupakan dataset dengan distribusi kelas yang tidak seimbang. Untuk mengatasi permasalahan tersebut dengan menerapkan teknik pendekatan level data dengan menerapkan metode resampling serta membandingkan beberapa metode algoritma seperti Algoritma C4.5, Naive Bayes, K-Nearest Neightbour, Support Vector Machine, Neural Network dan Random Forest. Hasil kinerja yang diperoleh menunjukan bahwa model pengklasifikasi Random Over-Under Sampling Random Forest memiliki nilai accuracy yang lebih tinggi dibandingkan dengan  beberapa model lainnya dengan nilai accuracy sebesar 0,9808 atau 98,08% yang dan nilai AUC sebesar 0.9809 atau 98,09%. Pada pengujian dataset asli juga menghasilkan akurasi yang tinggi dengan nilai akurasi yaitu 0,9923 atau 99,23% dan nilai AUC  0,9919. Maka dapat disimpulkan bahwa Algoritma tersebut memiliki performa terbaik dan dapat digunakan untuk menyelesaikan masalah pada klasifikasi penentuan penyakit diabetes.Kata Kunci: Klasifikasi diabetes, Random Over-Under Sampling, Random ForestDiabetes is one of the deadly diseases. The number of sufferers is increasing every year. Efforts to prevent and control diabetes should be carried out through early detection as an individual early. The amount of data for people with diabetes mellitus is large and it is necessary to select features in the dataset. The use of machine learning techniques can provide convenience in modeling but there are also some problems. Inappropriate use will reduce the accuracy of the classification. Another problem is if the data set used is a data set with an unbalanced class distribution. To overcome this problem by applying a data level approach by applying the resampling method and comparing several algorithm methods such as the C4.5 Algorithm, Naive Bayes, K-Nearest Neighbor, Support Vector Machine, Neural Network and Random Forest. The results obtained indicate that the classifier of the Random Over-Under Sampling Random Forest model has a higher accuracy value compared to several other models with an accuracy value of 0.9808 or 98.08% and an AUC value of 0.9809 or 98.09%. In testing the original dataset, the quality of accuracy is also high with an accuracy value of 0.9923 or 99.23% and an AUC value of 0.9919. So it can be said that the algorithm has the best performance and can be used to solve problems in various diabetes diseases.Keywords: Diabetes classification, Random Over-Under Sampling, Random Forest
糖尿病分类算法中随机抽样法的应用
糖尿病是一种致命的疾病,患者人数每年都在增加。预防和控制糖尿病的措施最好是通过早期检测教育作为个人的早期识别。许多梅里图斯糖尿病患者的数据需要对数据集的特征进行排序。使用机器学习技术可以使建模更容易,但也有一些问题。不适当使用算法会降低分类的准确性。另一个问题是如果使用的数据集是不平衡的类分布的数据集。解决这一问题的方法是采用数据方法的方法,采用转述方法,比较几种算法,如C4.5、天真的Bayes、K-Nearest nenebour、支持系统Vector Machine、神经网络和随机森林。取得的成绩表明,Random超验(Random Forest)分级模型的价值比其他一些模型高,而AUC的价值为0.9808或98.08%,而AUC的价值为0.9809或98.09%。在原始数据测试中,准确率也高,准确率为0.9923或99.23%,而AUC 0.9919的值也高。因此,可以得出结论,该算法具有最佳的性能,可以用来解决糖尿病分类问题。关键词:糖尿病分类,样本过多,营养不良糖尿病是最致命的疾病之一。失败者的数量每年都在增加。预防和控制糖尿病的努力应该及早解决美国个人的问题。糖尿病患者的数据积累是巨大的,需要在数据集中选择特征。机械学习技术的使用可以提供模型,但也有一些问题。不准确的使用会减少古典准确。另一个问题是,如果可用的数据是一组没有余额的数据分布。通过使用一种类似C4.5种算法,天真的Bayes, K-Nearest Neighbor,支持向量机,神经网络和随机森林的支持数据来解决这个问题。结果证实,在随机森林样本下的分类模型的分类高度精确到其他模型的0.9808或98.08%,并计算出0.9809或98.09%。在最初的测试中,准确的质量还高于0.9923或99.23%和an AUC值为0.9919。所以可以说,该算法充其量是有效的,可以用来解决各种糖尿病疾病的问题。安装:糖尿病classification,随机抽样超过,随机森林
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 求助全文
来源期刊
自引率
0.00%
发文量
0
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术官方微信