Penanganan Imbalanced Dataset untuk Klasifikasi Komentar Program Kampus Merdeka Pada Aplikasi Twitter

Edu Komputika Journal Pub Date : 2023-02-10 DOI:10.15294/edukomputika.v9i2.61854

Cindy Magnolia, Ade Nurhopipah, Bagus Adhi Kusuma

{"title":"Penanganan Imbalanced Dataset untuk Klasifikasi Komentar Program Kampus Merdeka Pada Aplikasi Twitter","authors":"Cindy Magnolia, Ade Nurhopipah, Bagus Adhi Kusuma","doi":"10.15294/edukomputika.v9i2.61854","DOIUrl":null,"url":null,"abstract":"Imbalanced dataset merupakan hal yang sering ditemukan secara alami dalam proses penambangan data. Kondisi ini sangat mempengaruhi keakuratan klasifikasi data seperti yang terjadi dalam klasifikasi komentar program Kampus Merdeka yang peneliti lakukan. Penelitian ini akan fokus pada penanganan Imbalanced dataset untuk meningkatkan kinerja klasifikasi komentar yang berasal dari aplikasi Twitter. Data diklasifikasikan ke dalam empat kelas yaitu kelas 0 (untuk informasi), kelas 1 (untuk opini), kelas 2 (untuk pertanyaan), dan kelas 3 (untuk out of topic). Metode yang digunakan untuk balancing dataset adalah Undersampling, Oversampling menggunakan SMOTE dan ADASYN, serta Random Combination Sampling. Evaluasi performa dilakukan menggunakan algoritma Support Vector Machine (SVM) dengan perbandingan komposisi data training dan testing 80:20. Metode pembobotan data yang digunakan adalah Term Frequency-Inverse Document Frequency (TF-IDF) dengan nilai max_features 3000, 5000, dan 7000. Hasil pengujian awal menunjukan bahwa nilai akurasi dan F1-score pada Imbalanced dataset secara berurut-urut adalah 0,7 dan 0,7. Sedangkan metode penanganan Imbalanced dataset dapat meningkatkan nilai F1-score, kecuali pada penerapan metode Undersampling. Metode terbaik ditunjukan oleh penerapan ADASYN dengan nilai akurasi dan F1-score berurut-urut sebesar 0,9 dan 0,9. Penggunaan max_features pada TF-IDF juga mempengaruhi hasil performa klasifikasi, dengan max_features terbaik ditunjukan pada jumlah 5000.","PeriodicalId":53354,"journal":{"name":"Edu Komputika Journal","volume":" ","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2023-02-10","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Edu Komputika Journal","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.15294/edukomputika.v9i2.61854","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}

引用次数: 0

Abstract

Imbalanced dataset merupakan hal yang sering ditemukan secara alami dalam proses penambangan data. Kondisi ini sangat mempengaruhi keakuratan klasifikasi data seperti yang terjadi dalam klasifikasi komentar program Kampus Merdeka yang peneliti lakukan. Penelitian ini akan fokus pada penanganan Imbalanced dataset untuk meningkatkan kinerja klasifikasi komentar yang berasal dari aplikasi Twitter. Data diklasifikasikan ke dalam empat kelas yaitu kelas 0 (untuk informasi), kelas 1 (untuk opini), kelas 2 (untuk pertanyaan), dan kelas 3 (untuk out of topic). Metode yang digunakan untuk balancing dataset adalah Undersampling, Oversampling menggunakan SMOTE dan ADASYN, serta Random Combination Sampling. Evaluasi performa dilakukan menggunakan algoritma Support Vector Machine (SVM) dengan perbandingan komposisi data training dan testing 80:20. Metode pembobotan data yang digunakan adalah Term Frequency-Inverse Document Frequency (TF-IDF) dengan nilai max_features 3000, 5000, dan 7000. Hasil pengujian awal menunjukan bahwa nilai akurasi dan F1-score pada Imbalanced dataset secara berurut-urut adalah 0,7 dan 0,7. Sedangkan metode penanganan Imbalanced dataset dapat meningkatkan nilai F1-score, kecuali pada penerapan metode Undersampling. Metode terbaik ditunjukan oleh penerapan ADASYN dengan nilai akurasi dan F1-score berurut-urut sebesar 0,9 dan 0,9. Penggunaan max_features pada TF-IDF juga mempengaruhi hasil performa klasifikasi, dengan max_features terbaik ditunjukan pada jumlah 5000.

查看原文本刊更多论文

推特应用程序上科技大学课程评论分类的不平衡数据集处理

在数据开发过程中，经常会发现不平衡的数据集。这种情况严重影响了数据分类的缺乏，就像在研究校园项目的评论分类中发生的那样。这项研究将侧重于不平衡数据集的处理，以提高推特应用程序评论分类的性能。数据分为四类：0类（用于信息）、1类（用于意见）、2类（用于问题）和3类（用于主题外）。用于平衡数据集的方法是欠采样、使用SMOTE和ADASYN的过采样以及随机组合采样。使用支持向量机（SVM）算法进行的性能评估与80:20的数据合成训练和测试的比较。使用的数据删除方法是术语频率逆文档频率（TF-IDF），其值为max_features 3000、5000和7000。初步测试结果表明，不平衡数据集的准确度和F1分值依次为0.7和0.7。而不平衡数据集处理方法可以提高F1分数，但应用欠采样方法除外。ADASYN应用程序指示的最佳方法，其准确值和F1分数在0.9和0.9之间。在TF-IDF上使用max_features也会影响分类的性能，其中max_feature最好显示为5000。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

求助全文

约1分钟内获得全文求助全文

来源期刊

Edu Komputika Journal

自引率

0.00%

发文量

审稿时长

24 weeks