Komparasi Metode Mean dan KNN Imputation dalam Mengatasi Missing Value pada Dataset Kecil

Jurnal Informatika Polinema Pub Date : 2024-02-29 DOI:10.33795/jip.v10i2.5031

Fandi Yulian Pamuji, Ahmad Rofiqul Muslikh, Rizza Muhammad Arief, Delviana Muti

{"title":"Komparasi Metode Mean dan KNN Imputation dalam Mengatasi Missing Value pada Dataset Kecil","authors":"Fandi Yulian Pamuji, Ahmad Rofiqul Muslikh, Rizza Muhammad Arief, Delviana Muti","doi":"10.33795/jip.v10i2.5031","DOIUrl":null,"url":null,"abstract":"Missing value pada dataset yang kecil akan mengakibatkan berkurangnya data yang dapat digunakan untuk pembelajaran sehingga prediksi hasil klasifikasi dari data tersebut akan berkurang. Metode Imputasi sebagai solusi metode yang paling umum digunakan untuk menangani masalah dataset yang tidak lengkap. Metode Imputasi proses di mana beberapa teknik statistik digunakan untuk mengganti data yang hilang dengan nilai pengganti. Tujuan penelitian ini dengan kinerja klasifikasi yang dapat dipertahankan dengan metode imputasi missing value, karena metode ini dapat menghindari berkurangnya jumlah dataset yang digunakan dalam proses klasifikasi pada dataset dan meningkatkan kinerja klasifikasi pada dataset yang tidak ideal terutama untuk jumlah dataset yang kecil. Berdasarkan hasil eksperimen yang telah dilakukan dari penelitian ini yaitu bahwa pengujian metode imputasi Mean dan KNN Imputation dengan metode klasifikasi mampu menangani data kosong dengan jumlah missing value sedikit maupun banyak dengan menghasilkan nilai accuracy mencapai kinerja prediksi yang lebih besar dibandingkan dengan menggunakan missing value nilai 0. Kemudian untuk dataset Hepatitis nilai Accuracy tinggi menggunakan metode imputasi KNN Imputasi dengan nilai 0,79 menggunakan metode Logistic Regression dan dataset Ginjal Kronis nilai Accuracy tinggi menggunakan metode imputasi Mean dengan nilai 0,97 dengan menggunakan metode Naïve Bayes. Hal tersebut menunjukkan bahwa proses metode imputasi terhadap nilai kosong disetiap column dataset kecil pada tahap data preprocessing memberikan pengaruh terhadap nilai Accuracy metode Mean dan KNN Imputation pada metode klasifikasi.","PeriodicalId":232501,"journal":{"name":"Jurnal Informatika Polinema","volume":"2 7","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2024-02-29","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Jurnal Informatika Polinema","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.33795/jip.v10i2.5031","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}

引用次数: 0

Abstract

Missing value pada dataset yang kecil akan mengakibatkan berkurangnya data yang dapat digunakan untuk pembelajaran sehingga prediksi hasil klasifikasi dari data tersebut akan berkurang. Metode Imputasi sebagai solusi metode yang paling umum digunakan untuk menangani masalah dataset yang tidak lengkap. Metode Imputasi proses di mana beberapa teknik statistik digunakan untuk mengganti data yang hilang dengan nilai pengganti. Tujuan penelitian ini dengan kinerja klasifikasi yang dapat dipertahankan dengan metode imputasi missing value, karena metode ini dapat menghindari berkurangnya jumlah dataset yang digunakan dalam proses klasifikasi pada dataset dan meningkatkan kinerja klasifikasi pada dataset yang tidak ideal terutama untuk jumlah dataset yang kecil. Berdasarkan hasil eksperimen yang telah dilakukan dari penelitian ini yaitu bahwa pengujian metode imputasi Mean dan KNN Imputation dengan metode klasifikasi mampu menangani data kosong dengan jumlah missing value sedikit maupun banyak dengan menghasilkan nilai accuracy mencapai kinerja prediksi yang lebih besar dibandingkan dengan menggunakan missing value nilai 0. Kemudian untuk dataset Hepatitis nilai Accuracy tinggi menggunakan metode imputasi KNN Imputasi dengan nilai 0,79 menggunakan metode Logistic Regression dan dataset Ginjal Kronis nilai Accuracy tinggi menggunakan metode imputasi Mean dengan nilai 0,97 dengan menggunakan metode Naïve Bayes. Hal tersebut menunjukkan bahwa proses metode imputasi terhadap nilai kosong disetiap column dataset kecil pada tahap data preprocessing memberikan pengaruh terhadap nilai Accuracy metode Mean dan KNN Imputation pada metode klasifikasi.

查看原文本刊更多论文

平均值和 KNN 估算方法在克服小数据集缺失值方面的比较

小数据集中的缺失值会导致可用于学习的数据减少，从而降低对数据分类结果的预测。估算法作为一种解决方案，是处理不完整数据集问题最常用的方法。估算方法是使用一些统计技术用替代值替换缺失数据的过程。使用缺失值估算方法可以保持分类性能，这也是本研究的目的，因为这种方法可以避免减少分类过程中使用的数据集数量，提高不理想数据集的分类性能，特别是对于小数据集数量。根据本研究的实验结果，即使用分类方法测试平均估算法和 KNN 估算法能够处理有少量或大量缺失值的空数据，与使用缺失值为 0 的方法相比，产生的准确度值能够实现更高的预测性能。然后，对于肝炎数据集，使用 KNN 估算估算法的准确度值较高，使用 Logistic 回归方法的准确度值为 0.79；对于慢性肾脏数据集，使用平均估算法的准确度值较高，使用 Naïve Bayes 方法的准确度值为 0.97。这表明，在数据预处理阶段，小数据集各列空值的估算方法过程对分类方法中的平均值估算法和 KNN 估算法的准确度值有影响。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

求助全文

约1分钟内获得全文求助全文

来源期刊

Jurnal Informatika Polinema

自引率

0.00%

发文量