Perbandingan Metode Prediksi Laju Galat dalam Pemodelan Klasifikasi Algoritma C4.5 untuk Data Tidak Seimbang

None Yunistika Ilanda, None Dodi Vionanda, None Yenni Kurniawati, None Dina Fitria
{"title":"Perbandingan Metode Prediksi Laju Galat dalam Pemodelan Klasifikasi Algoritma C4.5 untuk Data Tidak Seimbang","authors":"None Yunistika Ilanda, None Dodi Vionanda, None Yenni Kurniawati, None Dina Fitria","doi":"10.24036/ujsds/vol1-iss4/89","DOIUrl":null,"url":null,"abstract":"Pemodelan klasifikasi dapat dibentuk menggunakan algoritma C4.5. Model yang dibentuk oleh algoritma C4.5 perlu dilihat akurasi prediksinya menggunakan metode prediksi laju galat. Metode prediksi laju galat yang membedakan data training dan data testing memiliki kinerja lebih baik. Tiga metode prediksi laju galat dengan pembagian data training dan testing yang sering digunakan yaitu Hold Out (HO), Leave One Out Cross Validation (LOOCV), dan K-Fold Cross Validation (K-Fold CV). Penelitian ini berfokus pada perbandingan metode prediksi laju galat HO,LOOCV, dan K-Fold CV pada algoritma C4.5 untuk kasus data tidak seimbang, sebab kasus ini sering dijumpai dalam kasus nyata klasifikasi. Data tidak seimbang menyebabkan peningkatan kesalahan klasifikasi algoritma C4.5 sebab hasil prediksi tidak merepresentasikan seluruh data dan memperburuk kinerja metode prediksi laju galat. Sementara itu, kasus data dengan korelasi berbeda dilakukan untuk mengetahui apakah beda korelasi mempengaruhi kinerja metode prediksi laju galat. Tujuan penelitian untuk mengetahui metode prediksi laju galat yang paling cocok diterapkan pada algoritma C4.5 kasus data tidak seimbang dan pengaruh beda korelasi. Hasil penelitian menunjukkan metode K-Fold CV adalah metode prediksi yang paling cocok diterapkan pada algoritma C4.5 kasus data tidakseimbang dibanding metode HO dan LOOCV. Selain itu, Korelasi tinggi dapat memperburuk kinerja metode prediksi laju galat.","PeriodicalId":220933,"journal":{"name":"UNP Journal of Statistics and Data Science","volume":"75 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2023-08-28","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"UNP Journal of Statistics and Data Science","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.24036/ujsds/vol1-iss4/89","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0

Abstract

Pemodelan klasifikasi dapat dibentuk menggunakan algoritma C4.5. Model yang dibentuk oleh algoritma C4.5 perlu dilihat akurasi prediksinya menggunakan metode prediksi laju galat. Metode prediksi laju galat yang membedakan data training dan data testing memiliki kinerja lebih baik. Tiga metode prediksi laju galat dengan pembagian data training dan testing yang sering digunakan yaitu Hold Out (HO), Leave One Out Cross Validation (LOOCV), dan K-Fold Cross Validation (K-Fold CV). Penelitian ini berfokus pada perbandingan metode prediksi laju galat HO,LOOCV, dan K-Fold CV pada algoritma C4.5 untuk kasus data tidak seimbang, sebab kasus ini sering dijumpai dalam kasus nyata klasifikasi. Data tidak seimbang menyebabkan peningkatan kesalahan klasifikasi algoritma C4.5 sebab hasil prediksi tidak merepresentasikan seluruh data dan memperburuk kinerja metode prediksi laju galat. Sementara itu, kasus data dengan korelasi berbeda dilakukan untuk mengetahui apakah beda korelasi mempengaruhi kinerja metode prediksi laju galat. Tujuan penelitian untuk mengetahui metode prediksi laju galat yang paling cocok diterapkan pada algoritma C4.5 kasus data tidak seimbang dan pengaruh beda korelasi. Hasil penelitian menunjukkan metode K-Fold CV adalah metode prediksi yang paling cocok diterapkan pada algoritma C4.5 kasus data tidakseimbang dibanding metode HO dan LOOCV. Selain itu, Korelasi tinggi dapat memperburuk kinerja metode prediksi laju galat.
在分类算法C4.5中对错误速率预测方法比较不平衡的数据
可以用一个算法C4.5建立分类建模。该模型由C4.5算法创建,需要使用计算速率错误预测方法查看预测准确度。区分训练数据和测试数据的错误速率预测方法效果更好。三种基于通常使用的训练和测试数据的方法,即退出(HO)、放弃一种交叉验证(LOOCV)和K-Fold Cross (K-Fold CV)。该研究的重点是比较在算法C4.5中为未平衡的数据案例中对HO、LOOCV和K-Fold的可预测方法。不平衡的数据导致分类错误增加了。与此同时,需要进行不同相关性的数据案例,以确定不同的相关性是否影响预测方法速率错误的性能。研究的目的是确定最适用于算法C4.5的不平衡数据案例和不同相关性影响的计算速率预测方法。研究表明,K-Fold CV法是应用于算法C4.5的最匹配的预测方法,与HO和LOOCV方法相比。此外,高度相关性会降低预测方法错误速率的性能。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 求助全文
来源期刊
自引率
0.00%
发文量
0
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:604180095
Book学术官方微信