{"title":"Sintesis Fitur Density Based Feature Selection (DBFS) dan AdaBoots dengan XGBoost Untuk Meningkatkan Performa Model Prediksi","authors":"Slamet Sudaryanto Nusrhendratno","doi":"10.36499/psnst.v12i1.6997","DOIUrl":null,"url":null,"abstract":"Abstrak Ketidakseimbangan kelas (Class Imbalance) merupakan masalah yang krusial pada performa berbagai algoritma klasifikasi di bidang machine learning. Kelompok kelas dengan banyak data disebut kelas mayoritas, sebaliknya disebut kelas minoritas. Perbandingan antara kelas minoritas dan kelas mayoritas disebut rasio ketidakseimbangan (IR). Semakin besar perbedaan antara kelas minoritas dan kelas mayoritas nilai rasio ketidakseimbangan (IR) semakin besar. Ketidakseimbangan kelas memberikan dampak yang buruk pada hasil klasifikasi dimana kelas minoritas sering disalah klasifikasikan sebagai kelas mayoritas. Ketidak seimbangan kelas akan menghasilkan akurasi prediksi yang baik pada kelas mayoritas tetapi menjadi tidak konduktif dalam memprediksi kelas minoritas, sehingga nilai hasil akurasi pengklasifikasian (classifier) menjadi tidak optimal. Masalah ketidakseimbangan kelas tersebut secara umum dapat ditangani dengan dua pendekatan, yaitu level data dan level algoritma. Pendekatan level data ditujukan untuk memperbaiki keseimbangan kelas, sedangkan pendekatan level algoritma ditujukan untuk memperbaiki algoritma atau menggabungkan (ensemble) pengklasifikasi agar lebih konduktif terhadap kelas minoritas. Beberapa metode telah diusulkan para peneliti untuk memecahkan masalah tersebut seperti metode smote, sampling, cost-sensitive learning, bagging dan boosting. Kebanyakan metode yang dikembangkan hanya pada salah satu level data atau pada level algoritma saja. Maka pada penelitian ini, akan dilakukan kombinasi ensemble baik pada level data maupun pada level algoritma. Pada level data akan menggabungkan metode seleksi fitur (yaitu algoritma Adaptive Boosting (Adaboost) dan metode Density Based Feature Selection (DBFS). Sedangkan pada level algoritma menggunakan salah satu model ensemble klasifikasi XGBoost. Model kombinasi ensemble baik dari level data maupun pada level algoritma tersebut digunakan untuk menagani ketidak seimbangan kelas agar didapatkan performa model prediksi. Penerapan algoritma adaboost dalam seleksi fitur dilakukan untuk memberi bobot pada setiap fitur yang direkomendasikan, sehingga ditemukan fitur yang merupakan classifier yang kuat. Algoritma DBFS berfokus dalam mengidentifikasi kelas minoritas dan mengevaluasi dampak dari sebuah fitur yang bermanfaat berdasarkan rangking fitur. Hasil dari penggabungan (ensemble) kedua algoritma tersebut adalah dataset yang seimbang untuk selanjutnya disintesiskan dengan algoritma XGBoost dalam melakukan perhitungan model prediksi. Hasil prediksi akan di evaluasi dengan confusion matrix dan AUC-ROC. Kata kunci: Ensemble, DBFS, AdaBoost, XGBoost, Confusion Matrix, AUC-ROC","PeriodicalId":103642,"journal":{"name":"Prosiding Sains Nasional dan Teknologi","volume":"148 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2022-11-28","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"1","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Prosiding Sains Nasional dan Teknologi","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.36499/psnst.v12i1.6997","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 1
Abstract
Abstrak Ketidakseimbangan kelas (Class Imbalance) merupakan masalah yang krusial pada performa berbagai algoritma klasifikasi di bidang machine learning. Kelompok kelas dengan banyak data disebut kelas mayoritas, sebaliknya disebut kelas minoritas. Perbandingan antara kelas minoritas dan kelas mayoritas disebut rasio ketidakseimbangan (IR). Semakin besar perbedaan antara kelas minoritas dan kelas mayoritas nilai rasio ketidakseimbangan (IR) semakin besar. Ketidakseimbangan kelas memberikan dampak yang buruk pada hasil klasifikasi dimana kelas minoritas sering disalah klasifikasikan sebagai kelas mayoritas. Ketidak seimbangan kelas akan menghasilkan akurasi prediksi yang baik pada kelas mayoritas tetapi menjadi tidak konduktif dalam memprediksi kelas minoritas, sehingga nilai hasil akurasi pengklasifikasian (classifier) menjadi tidak optimal. Masalah ketidakseimbangan kelas tersebut secara umum dapat ditangani dengan dua pendekatan, yaitu level data dan level algoritma. Pendekatan level data ditujukan untuk memperbaiki keseimbangan kelas, sedangkan pendekatan level algoritma ditujukan untuk memperbaiki algoritma atau menggabungkan (ensemble) pengklasifikasi agar lebih konduktif terhadap kelas minoritas. Beberapa metode telah diusulkan para peneliti untuk memecahkan masalah tersebut seperti metode smote, sampling, cost-sensitive learning, bagging dan boosting. Kebanyakan metode yang dikembangkan hanya pada salah satu level data atau pada level algoritma saja. Maka pada penelitian ini, akan dilakukan kombinasi ensemble baik pada level data maupun pada level algoritma. Pada level data akan menggabungkan metode seleksi fitur (yaitu algoritma Adaptive Boosting (Adaboost) dan metode Density Based Feature Selection (DBFS). Sedangkan pada level algoritma menggunakan salah satu model ensemble klasifikasi XGBoost. Model kombinasi ensemble baik dari level data maupun pada level algoritma tersebut digunakan untuk menagani ketidak seimbangan kelas agar didapatkan performa model prediksi. Penerapan algoritma adaboost dalam seleksi fitur dilakukan untuk memberi bobot pada setiap fitur yang direkomendasikan, sehingga ditemukan fitur yang merupakan classifier yang kuat. Algoritma DBFS berfokus dalam mengidentifikasi kelas minoritas dan mengevaluasi dampak dari sebuah fitur yang bermanfaat berdasarkan rangking fitur. Hasil dari penggabungan (ensemble) kedua algoritma tersebut adalah dataset yang seimbang untuk selanjutnya disintesiskan dengan algoritma XGBoost dalam melakukan perhitungan model prediksi. Hasil prediksi akan di evaluasi dengan confusion matrix dan AUC-ROC. Kata kunci: Ensemble, DBFS, AdaBoost, XGBoost, Confusion Matrix, AUC-ROC