Cosmas Haryawan, Yosef Muria Kusuma Ardhana
{"title":"ANALISA PERBANDINGAN TEKNIK OVERSAMPLING SMOTE PADA IMBALANCED DATA","authors":"Cosmas Haryawan, Yosef Muria Kusuma Ardhana","doi":"10.36595/jire.v6i1.834","DOIUrl":null,"url":null,"abstract":"Data tidak seimbang atau lebih sering disebut imbalanced data, adalah kondisi pada saat data memiliki rasio yang tidak seimbang antara satu kelas dengan kelas yang lain, sehingga terdapat kelas mayoritas dan kelas minoritas. Sulit untuk membuat prediksi pada dataset yang tidak seimbang karena pengklasifikasi cenderung mendeteksi kelas mayoritas daripada kelas minoritas. Teknik resampling  menjadi salah satu yang paling efektif dalam menyelesaikan permasalahan imbalanced data ini.  Salah satu kategori dari teknik resampling adalah oversampling.  Metode oversampling diantaranya adalah SMOTE dan K-Means SMOTE.  Penggunaan oversampling akan meningkatkan hasil measurement klasifikasi.  Penelitian ini menggunakan data wine yang memiliki 11 fitur serta 1 atribut target dan bertujuan untuk membandingkan hasil measurement antara penggunaan data sintetis hasil SMOTE dan K-Means SMOTE dengan hasil measurement penggunaan data nyata dalam kondisi data seimbang.  Pembuatan data imbalance dilakukan dengan menghapus secara random salah satu kelas dengan ambang 25%, 50%, 60% dan 75%.  Hasil penelitian menunjukkan bahwa dibandingkan penggunaan data nyata, penggunaan K-Means SMOTE cenderung menghasilkan nilai lebih tinggi untuk akurasi, sensitivitas dan spesifisitas sedangkan SMOTE meskipun memperoleh nilai yang lebih baik dibandingkan K-Means SMOTE tetapi juga terdapat beberapa kondisi imbalance yang memiliki nilai lebih tinggi dibandingkan penggunaan data nyata.","PeriodicalId":367275,"journal":{"name":"Jurnal Informatika dan Rekayasa Elektronik","volume":"81 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2023-04-19","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Jurnal Informatika dan Rekayasa Elektronik","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.36595/jire.v6i1.834","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0

摘要

不平衡的数据通常被称为数据附加,是数据在一个类与另一个类之间不平衡比例的情况,从而存在多数阶级和少数阶级阶级。无法对不平衡的数据集进行预测,因为分类往往检测多数阶级而不是少数阶级。采样技术是解决数据补偿问题最有效的方法之一。采样技术的一个类别是累加。中间的oversamption方法是SMOTE和K-Means SMOTE。抽样使用会增加分类结果。本研究采用一种具有11个特征和1个目标属性的葡萄酒数据,并将SMOTE和k -意为SMOTE的合成数据使用之间的测量结果与在数据平衡条件下实际数据使用结果进行比较。反扫描数据创建是通过随机删除其中一门课程的阈值为25%、50%、60%和75%。研究结果表明,从明显数据的使用来看,k -刻薄的使用更倾向于准确性、敏感性和具体,而SMOTE的使用虽然比k -意思是SMOTE得到更好的值,但也有一些补偿条件,比实际数据的使用更有价值。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
ANALISA PERBANDINGAN TEKNIK OVERSAMPLING SMOTE PADA IMBALANCED DATA
Data tidak seimbang atau lebih sering disebut imbalanced data, adalah kondisi pada saat data memiliki rasio yang tidak seimbang antara satu kelas dengan kelas yang lain, sehingga terdapat kelas mayoritas dan kelas minoritas. Sulit untuk membuat prediksi pada dataset yang tidak seimbang karena pengklasifikasi cenderung mendeteksi kelas mayoritas daripada kelas minoritas. Teknik resampling  menjadi salah satu yang paling efektif dalam menyelesaikan permasalahan imbalanced data ini.  Salah satu kategori dari teknik resampling adalah oversampling.  Metode oversampling diantaranya adalah SMOTE dan K-Means SMOTE.  Penggunaan oversampling akan meningkatkan hasil measurement klasifikasi.  Penelitian ini menggunakan data wine yang memiliki 11 fitur serta 1 atribut target dan bertujuan untuk membandingkan hasil measurement antara penggunaan data sintetis hasil SMOTE dan K-Means SMOTE dengan hasil measurement penggunaan data nyata dalam kondisi data seimbang.  Pembuatan data imbalance dilakukan dengan menghapus secara random salah satu kelas dengan ambang 25%, 50%, 60% dan 75%.  Hasil penelitian menunjukkan bahwa dibandingkan penggunaan data nyata, penggunaan K-Means SMOTE cenderung menghasilkan nilai lebih tinggi untuk akurasi, sensitivitas dan spesifisitas sedangkan SMOTE meskipun memperoleh nilai yang lebih baik dibandingkan K-Means SMOTE tetapi juga terdapat beberapa kondisi imbalance yang memiliki nilai lebih tinggi dibandingkan penggunaan data nyata.
求助全文
通过发布文献求助,成功后即可免费获取论文全文。 去求助
来源期刊
自引率
0.00%
发文量
0
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术官方微信