使用xlm罗伯塔(XLM-RoBERTa)，优化基于句子语义的多重情感分类的准确性

Jurnal Nasional Teknik Elektro dan Teknologi Informasi Pub Date : 2023-02-16 DOI:10.22146/jnteti.v12i1.6084

Aripin, Steven Adi Santoso, Hanny Haryanto

{"title":"使用xlm罗伯塔(XLM-RoBERTa)，优化基于句子语义的多重情感分类的准确性","authors":"Aripin, Steven Adi Santoso, Hanny Haryanto","doi":"10.22146/jnteti.v12i1.6084","DOIUrl":null,"url":null,"abstract":"Emosi dasar dibagi menjadi enam, yaitu marah, sedih, senang, jijik, kaget, dan takut. Gabungan lebih dari satu emosi dasar dapat menciptakan sebuah emosi baru, yaitu emosi majemuk. Emosi majemuk dapat diimplementasikan untuk chat-bot, penerjemahan bahasa, text summarization, dan sebagainya. Penelitian mengenai klasifikasi emosi berdasarkan teks bahasa Indonesia telah banyak dilakukan dengan menggunakan beberapa model tradisional, seperti multinomial naïve Bayes, SVM, k-nearest neighborhood, dan term frequency–inverse document frequency (TF-IDF). Penelitian tersebut memiliki kelemahan, antara lain kinerja yang kurang optimal karena model hanya dapat mengklasifikasi dari data yang telah dipelajarinya, diperlukan pemrosesan teks terlebih dahulu, dan diperlukannya waktu yang lama dalam proses pelatihan dengan data berukuran besar. Penelitian ini bertujuan untuk mengatasi beberapa kelemahan penelitian sebelumnya dengan menggunakan model cross-lingual language model-robustly optimized bidirectional encoder representations from transformers approach (XML-RoBERTa) untuk mengklasifikasi emosi majemuk berdasarkan semantik atau makna kalimat dan kata. XLM-RoBERTa merupakan sebuah model transformer yang dapat mengetahui sebuah makna kata dari attention mechanism pada kata tersebut dan merupakan sebuah vektor yang merepresentasikan sebuah konteks atau makna kata. Attention mechanism merupakan sebuah representasi kata berbentuk vektor untuk mengetahui penggunaan dan posisi kata pada suatu kalimat dan merupakan cara agar model dapat mengetahui makna dari sebuah kata. Dengan attention mechanism, model dapat melihat pola kalimat dari penggunaan kata dan mengklasifikasikan kalimat tersebut sesuai dengan pola dan urutan kata, sehingga semantik kalimat dapat diketahui. Hasil eksperimen menunjukkan bahwa model yang diusulkan mampu mengklasifikasi teks berbahasa Indonesia ke dalam kelas-kelas emosi dasar dan kombinasinya sebagai dasar pembentukan emosi majemuk dengan akurasi sebesar 95,56%. Nilai akurasi ini merupakan nilai akurasi yang lebih unggul dibandingkan dengan penelitian klasifikasi kelas emosi majemuk dengan menggunakan model tradisional.","PeriodicalId":31477,"journal":{"name":"Jurnal Nasional Teknik Elektro dan Teknologi Informasi","volume":"64 1","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2023-02-16","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"Mengoptimalkan Akurasi pada Klasifikasi Emosi Majemuk Berdasarkan Semantik Kalimat Menggunakan XLM-RoBERTa\",\"authors\":\"Aripin, Steven Adi Santoso, Hanny Haryanto\",\"doi\":\"10.22146/jnteti.v12i1.6084\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"Emosi dasar dibagi menjadi enam, yaitu marah, sedih, senang, jijik, kaget, dan takut. Gabungan lebih dari satu emosi dasar dapat menciptakan sebuah emosi baru, yaitu emosi majemuk. Emosi majemuk dapat diimplementasikan untuk chat-bot, penerjemahan bahasa, text summarization, dan sebagainya. Penelitian mengenai klasifikasi emosi berdasarkan teks bahasa Indonesia telah banyak dilakukan dengan menggunakan beberapa model tradisional, seperti multinomial naïve Bayes, SVM, k-nearest neighborhood, dan term frequency–inverse document frequency (TF-IDF). Penelitian tersebut memiliki kelemahan, antara lain kinerja yang kurang optimal karena model hanya dapat mengklasifikasi dari data yang telah dipelajarinya, diperlukan pemrosesan teks terlebih dahulu, dan diperlukannya waktu yang lama dalam proses pelatihan dengan data berukuran besar. Penelitian ini bertujuan untuk mengatasi beberapa kelemahan penelitian sebelumnya dengan menggunakan model cross-lingual language model-robustly optimized bidirectional encoder representations from transformers approach (XML-RoBERTa) untuk mengklasifikasi emosi majemuk berdasarkan semantik atau makna kalimat dan kata. XLM-RoBERTa merupakan sebuah model transformer yang dapat mengetahui sebuah makna kata dari attention mechanism pada kata tersebut dan merupakan sebuah vektor yang merepresentasikan sebuah konteks atau makna kata. Attention mechanism merupakan sebuah representasi kata berbentuk vektor untuk mengetahui penggunaan dan posisi kata pada suatu kalimat dan merupakan cara agar model dapat mengetahui makna dari sebuah kata. Dengan attention mechanism, model dapat melihat pola kalimat dari penggunaan kata dan mengklasifikasikan kalimat tersebut sesuai dengan pola dan urutan kata, sehingga semantik kalimat dapat diketahui. Hasil eksperimen menunjukkan bahwa model yang diusulkan mampu mengklasifikasi teks berbahasa Indonesia ke dalam kelas-kelas emosi dasar dan kombinasinya sebagai dasar pembentukan emosi majemuk dengan akurasi sebesar 95,56%. Nilai akurasi ini merupakan nilai akurasi yang lebih unggul dibandingkan dengan penelitian klasifikasi kelas emosi majemuk dengan menggunakan model tradisional.\",\"PeriodicalId\":31477,\"journal\":{\"name\":\"Jurnal Nasional Teknik Elektro dan Teknologi Informasi\",\"volume\":\"64 1\",\"pages\":\"\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2023-02-16\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Jurnal Nasional Teknik Elektro dan Teknologi Informasi\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.22146/jnteti.v12i1.6084\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Jurnal Nasional Teknik Elektro dan Teknologi Informasi","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.22146/jnteti.v12i1.6084","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}

引用次数: 0

摘要

基本情绪分为六种:愤怒、悲伤、快乐、厌恶、震惊和恐惧。以上一种基本情绪的组合可以创造一种新的情绪，一种复合情绪。多种情绪可用于婴儿具、语言翻译、文本总结等。关于基于印尼语文本的情感分类的研究主要使用几个传统模式，如跨国学的naive Bayes, SVM, k-nearest neighborhood和term frequency——内在频率(TF-IDF)。研究还存在一些缺陷，其中包括不太理想的表现，因为模型只能对所学的数据进行分类，这需要文本的处理，需要很长一段时间的大数据训练过程。本研究旨在解决之前研究中的一些弱点，使用交叉语言语言模型模型优化变形因子(XML-RoBERTa)来根据语义或句子和单词的意思对多种情绪进行分类。XLM-RoBERTa是一个变形器的模型，他可以找出单词的注意力机制的含义，并代表单词的上下文或意义。注意力机制是知道单词在句子中的用法和位置的媒介表现，也是模特理解单词含义的一种方式。在注意力机制的作用下，模型可以观察单词使用的句型，并根据单词的模式和顺序对句子进行分类，从而识别句子的语义。实验表明，建议的模型能够将印尼语文本归类为基本情感类，其组合情感的组合组合为基础，精确达95.56%。这种准确性值是比传统模型的多元情感分类研究更准确的。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

查看原文本刊更多论文

Mengoptimalkan Akurasi pada Klasifikasi Emosi Majemuk Berdasarkan Semantik Kalimat Menggunakan XLM-RoBERTa

Emosi dasar dibagi menjadi enam, yaitu marah, sedih, senang, jijik, kaget, dan takut. Gabungan lebih dari satu emosi dasar dapat menciptakan sebuah emosi baru, yaitu emosi majemuk. Emosi majemuk dapat diimplementasikan untuk chat-bot, penerjemahan bahasa, text summarization, dan sebagainya. Penelitian mengenai klasifikasi emosi berdasarkan teks bahasa Indonesia telah banyak dilakukan dengan menggunakan beberapa model tradisional, seperti multinomial naïve Bayes, SVM, k-nearest neighborhood, dan term frequency–inverse document frequency (TF-IDF). Penelitian tersebut memiliki kelemahan, antara lain kinerja yang kurang optimal karena model hanya dapat mengklasifikasi dari data yang telah dipelajarinya, diperlukan pemrosesan teks terlebih dahulu, dan diperlukannya waktu yang lama dalam proses pelatihan dengan data berukuran besar. Penelitian ini bertujuan untuk mengatasi beberapa kelemahan penelitian sebelumnya dengan menggunakan model cross-lingual language model-robustly optimized bidirectional encoder representations from transformers approach (XML-RoBERTa) untuk mengklasifikasi emosi majemuk berdasarkan semantik atau makna kalimat dan kata. XLM-RoBERTa merupakan sebuah model transformer yang dapat mengetahui sebuah makna kata dari attention mechanism pada kata tersebut dan merupakan sebuah vektor yang merepresentasikan sebuah konteks atau makna kata. Attention mechanism merupakan sebuah representasi kata berbentuk vektor untuk mengetahui penggunaan dan posisi kata pada suatu kalimat dan merupakan cara agar model dapat mengetahui makna dari sebuah kata. Dengan attention mechanism, model dapat melihat pola kalimat dari penggunaan kata dan mengklasifikasikan kalimat tersebut sesuai dengan pola dan urutan kata, sehingga semantik kalimat dapat diketahui. Hasil eksperimen menunjukkan bahwa model yang diusulkan mampu mengklasifikasi teks berbahasa Indonesia ke dalam kelas-kelas emosi dasar dan kombinasinya sebagai dasar pembentukan emosi majemuk dengan akurasi sebesar 95,56%. Nilai akurasi ini merupakan nilai akurasi yang lebih unggul dibandingkan dengan penelitian klasifikasi kelas emosi majemuk dengan menggunakan model tradisional.

求助全文

通过发布文献求助，成功后即可免费获取论文全文。去求助

来源期刊

Jurnal Nasional Teknik Elektro dan Teknologi Informasi

自引率

0.00%

发文量

审稿时长

24 weeks