{"title":"数据平衡对献血者数据集支持向量机模型准确性的影响","authors":"A. Widyanto, K. Kusrini, Kusnawi Kusnawi","doi":"10.54914/jtt.v9i2.771","DOIUrl":null,"url":null,"abstract":"Pada klasifikasi, data yang tidak seimbang menjadi hal yang umum ditemukan. Data yang tidak seimbang memiliki rasio ketimpangan kelas mayoritas dan minoritas. Model yang dilatih dengan data yang tidak seimbang mengakibatkan model cenderung memprediksi kelas minoritas sebagai kelas mayoritas. Penelitian ini memiliki tujuan untuk mengetahui pengaruh keseimbangan data terhadap akurasi model klasifikasi Support Vector Machine (SVM). Data set yang digunakan adalah data set donor darah yang diunduh dari repositori milik University of California,Irvine (UCI). Alat Waikato Environment for Knowledge Analysis (WEKA) dipilih untuk menyajikan hasil pengembangan pelatihan dan pengujian model. Skema kerangka kerja penelitian digunakan sebagai acuan Knowledge Flow. Pada skenario-1, pra-pemrosesan data mencakup penanganan missing value menggunakan mean-impulse dan normalisasi MinMax Scaling. Dengan data set yang memiliki rasio ketimpangan 1:3, pengklasifikasi SVM mendapatkan performa akurasi sebesar 76.7%. Sedangkan pada skenario-2, pasca pra-pemrosesan dilakukan penyeimbangan data menerapkan Synthetic Minority Oversampling Technique (SMOTE). Pengklasifikasi SVM mendapatkan performansi akurasi 69.8%. Kinerja model dievaluasi menggunakan confusion metric. Gap nilai recall tiap kelas sangat tinggi pada skenario-1 (2.8% dan 99.8%). Hal yang berbeda pada skenario-2 (75.6% dan 64%). Hasil uji 748 sampel, didapatkan akurasi 76.7% model skenario-1, dan akurasi 93.2% model skenario-2. Hal ini membuktikan bahwa keseimbangan data memiliki pengaruh terhadap akurasi model klasifikasi SVM.","PeriodicalId":428429,"journal":{"name":"Jurnal Teknologi Terpadu","volume":"49 3","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2023-12-12","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"Pengaruh Keseimbangan Data terhadap Akurasi Model Support Vector Machine pada Data Set Donor Darah\",\"authors\":\"A. Widyanto, K. Kusrini, Kusnawi Kusnawi\",\"doi\":\"10.54914/jtt.v9i2.771\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"Pada klasifikasi, data yang tidak seimbang menjadi hal yang umum ditemukan. Data yang tidak seimbang memiliki rasio ketimpangan kelas mayoritas dan minoritas. Model yang dilatih dengan data yang tidak seimbang mengakibatkan model cenderung memprediksi kelas minoritas sebagai kelas mayoritas. Penelitian ini memiliki tujuan untuk mengetahui pengaruh keseimbangan data terhadap akurasi model klasifikasi Support Vector Machine (SVM). Data set yang digunakan adalah data set donor darah yang diunduh dari repositori milik University of California,Irvine (UCI). Alat Waikato Environment for Knowledge Analysis (WEKA) dipilih untuk menyajikan hasil pengembangan pelatihan dan pengujian model. Skema kerangka kerja penelitian digunakan sebagai acuan Knowledge Flow. Pada skenario-1, pra-pemrosesan data mencakup penanganan missing value menggunakan mean-impulse dan normalisasi MinMax Scaling. Dengan data set yang memiliki rasio ketimpangan 1:3, pengklasifikasi SVM mendapatkan performa akurasi sebesar 76.7%. Sedangkan pada skenario-2, pasca pra-pemrosesan dilakukan penyeimbangan data menerapkan Synthetic Minority Oversampling Technique (SMOTE). Pengklasifikasi SVM mendapatkan performansi akurasi 69.8%. Kinerja model dievaluasi menggunakan confusion metric. Gap nilai recall tiap kelas sangat tinggi pada skenario-1 (2.8% dan 99.8%). Hal yang berbeda pada skenario-2 (75.6% dan 64%). Hasil uji 748 sampel, didapatkan akurasi 76.7% model skenario-1, dan akurasi 93.2% model skenario-2. Hal ini membuktikan bahwa keseimbangan data memiliki pengaruh terhadap akurasi model klasifikasi SVM.\",\"PeriodicalId\":428429,\"journal\":{\"name\":\"Jurnal Teknologi Terpadu\",\"volume\":\"49 3\",\"pages\":\"\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2023-12-12\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Jurnal Teknologi Terpadu\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.54914/jtt.v9i2.771\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Jurnal Teknologi Terpadu","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.54914/jtt.v9i2.771","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
Pengaruh Keseimbangan Data terhadap Akurasi Model Support Vector Machine pada Data Set Donor Darah
Pada klasifikasi, data yang tidak seimbang menjadi hal yang umum ditemukan. Data yang tidak seimbang memiliki rasio ketimpangan kelas mayoritas dan minoritas. Model yang dilatih dengan data yang tidak seimbang mengakibatkan model cenderung memprediksi kelas minoritas sebagai kelas mayoritas. Penelitian ini memiliki tujuan untuk mengetahui pengaruh keseimbangan data terhadap akurasi model klasifikasi Support Vector Machine (SVM). Data set yang digunakan adalah data set donor darah yang diunduh dari repositori milik University of California,Irvine (UCI). Alat Waikato Environment for Knowledge Analysis (WEKA) dipilih untuk menyajikan hasil pengembangan pelatihan dan pengujian model. Skema kerangka kerja penelitian digunakan sebagai acuan Knowledge Flow. Pada skenario-1, pra-pemrosesan data mencakup penanganan missing value menggunakan mean-impulse dan normalisasi MinMax Scaling. Dengan data set yang memiliki rasio ketimpangan 1:3, pengklasifikasi SVM mendapatkan performa akurasi sebesar 76.7%. Sedangkan pada skenario-2, pasca pra-pemrosesan dilakukan penyeimbangan data menerapkan Synthetic Minority Oversampling Technique (SMOTE). Pengklasifikasi SVM mendapatkan performansi akurasi 69.8%. Kinerja model dievaluasi menggunakan confusion metric. Gap nilai recall tiap kelas sangat tinggi pada skenario-1 (2.8% dan 99.8%). Hal yang berbeda pada skenario-2 (75.6% dan 64%). Hasil uji 748 sampel, didapatkan akurasi 76.7% model skenario-1, dan akurasi 93.2% model skenario-2. Hal ini membuktikan bahwa keseimbangan data memiliki pengaruh terhadap akurasi model klasifikasi SVM.