Easy Data Augmentation untuk Data yang Imbalance pada Konsultasi Kesehatan Daring

Anisa Nur Azizah, Misbachul Falach Asy'ari, Ifnu Wisma Dwi Prastya, Diana Purwitasari
{"title":"Easy Data Augmentation untuk Data yang Imbalance pada Konsultasi Kesehatan Daring","authors":"Anisa Nur Azizah, Misbachul Falach Asy'ari, Ifnu Wisma Dwi Prastya, Diana Purwitasari","doi":"10.25126/jtiik.20231057082","DOIUrl":null,"url":null,"abstract":"Pendekatan augmentasi teks sering digunakan untuk menangani imbalance data pada kasus klasifikasi teks, seperti teks Konsultasi Kesehatan Daring (KKD), yaitu alodokter.com. Teknik oversampling dapat mengatasi kondisi skewed terhadap kelas mayoritas. Namun, augmentasi teks dapat mengubah konten dan konteks teks karena kata-kata teks tambahan yang berlebihan. Penelitian kami menyelidiki algoritma Easy Data Augmentation (EDA), yang berbasis parafrase kalimat dalam teks KKD dengan menggunakan teknik Synonym Replacement (SR), Random Insertion (RI), Random Swap (RS), dan Random Deletion (RD). Kami menggunakan Tesaurus Bahasa Indonesia untuk mengubah sinonim di EDA dan melakukan percobaan pada parameter yang dibutuhkan oleh algoritma untuk mendapatkan hasil augmentasi teks yang optimal. Kemudian, percobaan menyelidiki proses augmentasi kami menggunakan pengklasifikasi Random Forest, Naïve Bayes, dan metode berbasis peningkatan seperti XGBoost dan ADABoost, yang menghasilkan peningkatan akurasi rata-rata sebesar 0,63. Hasil parameter EDA terbaik diperoleh dengan menambahkan nilai 0,1 pada semua teknik EDA mendapatkan 88,86% dan 88,44% untuk akurasi dan nilai F1-score. Kami juga memverifikasi hasil EDA dengan mengukur koherensi teks sebelum dan sesudah augmentasi menggunakan pemodelan topik Latent Dirichlet Allocation (LDA) untuk memastikan konsistensi topik. Proses EDA dengan RI memberikan koherensi yang lebih baik sebesar 0,55 dan dapat mendukung implementasi EDA untuk menangani imbalance data, yang pada akhirnya dapat meningkatkan kinerja klasifikasi. Abstract The text augmentation approach is often utilized for handling imbalanced data of classifying text corpus, such as online health consultation (OHC) texts, i.e., alodokter.com. The oversampling technique can overcome the skewed condition towards majority classes. However, text augmentation could change text content and context because of excessive words of additional texts. Our work investigates the Easy Data Augmentation (EDA) algorithm, which is sentence paraphrase-based in the OHC texts that often in non-formal sentences by using techniques of synonym replacement (SR), random insertion (RI), random swap (RS), and random deletion (RD). We employ the Indonesian thesaurus for changing synonyms in the EDA and do empirical experiments on parameters required by the algorithm to obtain optimal results of text augmentation. Then, the experiments investigate our augmentation process using classifiers of Random Forest, Naïve Bayes, and boosting-based methods like XGBoost and ADABoost, which resulted in an average accuracy increase of 0.63. The best EDA parameter results were acquired by adding a value of 0.1 in all EDA techniques to get 88.86% and 88.44% for accuracy and F1-score values. We also verified the EDA results by measuring coherences of texts before and after augmentation using a topic modeling of Latent Dirichlet Allocation (LDA) to ensure topic consistency. The EDA process with RI gave better coherences of 0.55, and it could support the EDA application to handle imbalanced data, eventually improving the classification performance.","PeriodicalId":32501,"journal":{"name":"Jurnal Teknologi Informasi dan Ilmu Komputer","volume":"52 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2023-10-17","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Jurnal Teknologi Informasi dan Ilmu Komputer","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.25126/jtiik.20231057082","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0

Abstract

Pendekatan augmentasi teks sering digunakan untuk menangani imbalance data pada kasus klasifikasi teks, seperti teks Konsultasi Kesehatan Daring (KKD), yaitu alodokter.com. Teknik oversampling dapat mengatasi kondisi skewed terhadap kelas mayoritas. Namun, augmentasi teks dapat mengubah konten dan konteks teks karena kata-kata teks tambahan yang berlebihan. Penelitian kami menyelidiki algoritma Easy Data Augmentation (EDA), yang berbasis parafrase kalimat dalam teks KKD dengan menggunakan teknik Synonym Replacement (SR), Random Insertion (RI), Random Swap (RS), dan Random Deletion (RD). Kami menggunakan Tesaurus Bahasa Indonesia untuk mengubah sinonim di EDA dan melakukan percobaan pada parameter yang dibutuhkan oleh algoritma untuk mendapatkan hasil augmentasi teks yang optimal. Kemudian, percobaan menyelidiki proses augmentasi kami menggunakan pengklasifikasi Random Forest, Naïve Bayes, dan metode berbasis peningkatan seperti XGBoost dan ADABoost, yang menghasilkan peningkatan akurasi rata-rata sebesar 0,63. Hasil parameter EDA terbaik diperoleh dengan menambahkan nilai 0,1 pada semua teknik EDA mendapatkan 88,86% dan 88,44% untuk akurasi dan nilai F1-score. Kami juga memverifikasi hasil EDA dengan mengukur koherensi teks sebelum dan sesudah augmentasi menggunakan pemodelan topik Latent Dirichlet Allocation (LDA) untuk memastikan konsistensi topik. Proses EDA dengan RI memberikan koherensi yang lebih baik sebesar 0,55 dan dapat mendukung implementasi EDA untuk menangani imbalance data, yang pada akhirnya dapat meningkatkan kinerja klasifikasi. Abstract The text augmentation approach is often utilized for handling imbalanced data of classifying text corpus, such as online health consultation (OHC) texts, i.e., alodokter.com. The oversampling technique can overcome the skewed condition towards majority classes. However, text augmentation could change text content and context because of excessive words of additional texts. Our work investigates the Easy Data Augmentation (EDA) algorithm, which is sentence paraphrase-based in the OHC texts that often in non-formal sentences by using techniques of synonym replacement (SR), random insertion (RI), random swap (RS), and random deletion (RD). We employ the Indonesian thesaurus for changing synonyms in the EDA and do empirical experiments on parameters required by the algorithm to obtain optimal results of text augmentation. Then, the experiments investigate our augmentation process using classifiers of Random Forest, Naïve Bayes, and boosting-based methods like XGBoost and ADABoost, which resulted in an average accuracy increase of 0.63. The best EDA parameter results were acquired by adding a value of 0.1 in all EDA techniques to get 88.86% and 88.44% for accuracy and F1-score values. We also verified the EDA results by measuring coherences of texts before and after augmentation using a topic modeling of Latent Dirichlet Allocation (LDA) to ensure topic consistency. The EDA process with RI gave better coherences of 0.55, and it could support the EDA application to handle imbalanced data, eventually improving the classification performance.
容易的数据增强到在线健康咨询的数据
加强文本的方法经常用于处理文本分类案件中的数据覆盖,如在线健康咨询文本(KKD),即alodoctor .com。过度抽样技术可以解决多数阶级的不确定条件。然而,文本的增强可能会改变文本的内容和上下文,因为额外的文本文字是多余的。我们的研究是基于KKD文本中的简单数据转换器算法,该算法使用Synonym替代技术(SR)、随机插入(RI)、随机交换(RS)和随机删除(RD)。我们使用印度尼西亚同义词典来改变EDA中的同义,并对算法所需的参数进行实验,以获得最佳文本增强结果。后来,实验研究了我们使用随机森林分类、天真的Bayes和XGBoost等基于改进的方法,从而提高了0.63的平均准确率。在所有EDA中增加0.1的参数可以获得最好的结果,即为准确性和f1分数分数88.86%和88.44%。我们还通过使用lachlet Allocation (LDA)的主题建模来验证EDA结果。RI的EDA在0.55时提供了更好的连通性,并可以支持EDA实现处理赞赏数据,这最终可以提高分类绩效。文本augpetion倾向于处理相互关联的文本背景数据,such as在线健康咨询文本,i.e.e.文本,alomedi.com。表面技术可能会超过表面的程度。However,文本辅助文本可以改变文本内容和背景,因为过度引用文本。我们的工作是简单的算法,这是基于通过使用synonym替代技术(SR)、随机插入(RI)、随机交换(RS)和随机删除(RD)技术,在otence文本中使用的不正式应用技术得出的结论。我们把印度尼西亚的同义词典应用于在EDA中改变synonyms,并在该算法要求的算法上进行经验实验来确定文本增强的最佳结果。然后,研究我们使用随机森林的经典反应、天真的Bayes和基于boost等方法进行的实验,这些方法被认为是准确增长的0.63种。最好的EDA参数是在所有EDA中获得8.8.6%和86% 44%的准确评分。我们还通过采用主题为专利专利的最新配药来验证前和之后的文本结果。EDA提供了更好的0.55的一致性,它可以支持EDA应用程序配合配合数据的加强,最终促进经典表现。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 求助全文
来源期刊
自引率
0.00%
发文量
0
审稿时长
16 weeks
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:604180095
Book学术官方微信