Penanganan Imbalanced Dataset untuk Klasifikasi Komentar Program Kampus Merdeka Pada Aplikasi Twitter

Cindy Magnolia, Ade Nurhopipah, Bagus Adhi Kusuma
{"title":"Penanganan Imbalanced Dataset untuk Klasifikasi Komentar Program Kampus Merdeka Pada Aplikasi Twitter","authors":"Cindy Magnolia, Ade Nurhopipah, Bagus Adhi Kusuma","doi":"10.15294/edukomputika.v9i2.61854","DOIUrl":null,"url":null,"abstract":"Imbalanced dataset merupakan hal yang sering ditemukan secara alami dalam proses penambangan data. Kondisi ini sangat mempengaruhi keakuratan klasifikasi data seperti yang terjadi dalam klasifikasi komentar program Kampus Merdeka yang peneliti lakukan. Penelitian ini akan fokus pada penanganan Imbalanced dataset untuk meningkatkan kinerja klasifikasi komentar yang berasal dari aplikasi Twitter. Data diklasifikasikan ke dalam empat kelas yaitu kelas 0 (untuk informasi), kelas 1 (untuk opini), kelas 2 (untuk pertanyaan), dan kelas 3 (untuk out of topic). Metode yang digunakan untuk balancing dataset adalah Undersampling, Oversampling menggunakan SMOTE dan ADASYN, serta Random Combination Sampling. Evaluasi performa dilakukan menggunakan algoritma Support Vector Machine (SVM) dengan perbandingan komposisi data training dan testing 80:20. Metode pembobotan data yang digunakan adalah Term Frequency-Inverse Document Frequency (TF-IDF) dengan nilai max_features 3000, 5000, dan 7000. Hasil pengujian awal menunjukan bahwa nilai akurasi dan F1-score pada Imbalanced dataset secara berurut-urut adalah 0,7 dan 0,7. Sedangkan metode penanganan Imbalanced dataset dapat meningkatkan nilai F1-score, kecuali pada penerapan metode Undersampling. Metode terbaik ditunjukan oleh penerapan ADASYN dengan nilai akurasi dan F1-score berurut-urut sebesar 0,9 dan 0,9. Penggunaan max_features pada TF-IDF juga mempengaruhi hasil performa klasifikasi, dengan max_features terbaik ditunjukan pada jumlah 5000.","PeriodicalId":53354,"journal":{"name":"Edu Komputika Journal","volume":null,"pages":null},"PeriodicalIF":0.0000,"publicationDate":"2023-02-10","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Edu Komputika Journal","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.15294/edukomputika.v9i2.61854","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0

Abstract

Imbalanced dataset merupakan hal yang sering ditemukan secara alami dalam proses penambangan data. Kondisi ini sangat mempengaruhi keakuratan klasifikasi data seperti yang terjadi dalam klasifikasi komentar program Kampus Merdeka yang peneliti lakukan. Penelitian ini akan fokus pada penanganan Imbalanced dataset untuk meningkatkan kinerja klasifikasi komentar yang berasal dari aplikasi Twitter. Data diklasifikasikan ke dalam empat kelas yaitu kelas 0 (untuk informasi), kelas 1 (untuk opini), kelas 2 (untuk pertanyaan), dan kelas 3 (untuk out of topic). Metode yang digunakan untuk balancing dataset adalah Undersampling, Oversampling menggunakan SMOTE dan ADASYN, serta Random Combination Sampling. Evaluasi performa dilakukan menggunakan algoritma Support Vector Machine (SVM) dengan perbandingan komposisi data training dan testing 80:20. Metode pembobotan data yang digunakan adalah Term Frequency-Inverse Document Frequency (TF-IDF) dengan nilai max_features 3000, 5000, dan 7000. Hasil pengujian awal menunjukan bahwa nilai akurasi dan F1-score pada Imbalanced dataset secara berurut-urut adalah 0,7 dan 0,7. Sedangkan metode penanganan Imbalanced dataset dapat meningkatkan nilai F1-score, kecuali pada penerapan metode Undersampling. Metode terbaik ditunjukan oleh penerapan ADASYN dengan nilai akurasi dan F1-score berurut-urut sebesar 0,9 dan 0,9. Penggunaan max_features pada TF-IDF juga mempengaruhi hasil performa klasifikasi, dengan max_features terbaik ditunjukan pada jumlah 5000.
推特应用程序上科技大学课程评论分类的不平衡数据集处理
在数据开发过程中,经常会发现不平衡的数据集。这种情况严重影响了数据分类的缺乏,就像在研究校园项目的评论分类中发生的那样。这项研究将侧重于不平衡数据集的处理,以提高推特应用程序评论分类的性能。数据分为四类:0类(用于信息)、1类(用于意见)、2类(用于问题)和3类(用于主题外)。用于平衡数据集的方法是欠采样、使用SMOTE和ADASYN的过采样以及随机组合采样。使用支持向量机(SVM)算法进行的性能评估与80:20的数据合成训练和测试的比较。使用的数据删除方法是术语频率逆文档频率(TF-IDF),其值为max_features 3000、5000和7000。初步测试结果表明,不平衡数据集的准确度和F1分值依次为0.7和0.7。而不平衡数据集处理方法可以提高F1分数,但应用欠采样方法除外。ADASYN应用程序指示的最佳方法,其准确值和F1分数在0.9和0.9之间。在TF-IDF上使用max_features也会影响分类的性能,其中max_feature最好显示为5000。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 求助全文
来源期刊
自引率
0.00%
发文量
3
审稿时长
24 weeks
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术官方微信