Perbandingan Levenshtein Distance Dan Jaro-Winkler Distance Untuk Koreksi Kata Dalam Preprocessing Analisis Sentimen Pengguna Twitter

M. Nur
{"title":"Perbandingan Levenshtein Distance Dan Jaro-Winkler Distance Untuk Koreksi Kata Dalam Preprocessing Analisis Sentimen Pengguna Twitter","authors":"M. Nur","doi":"10.33772/jfe.v6i2.17751","DOIUrl":null,"url":null,"abstract":"Pada analisis sentimen pengguna twitter dibutuhkan tahap preprocessing sebelum mengklasifikasikan sentimen. Preprocessing digunakan untuk menyaring kata yang dianggap perlu untuk kebutuhan klasifikasi. Kesalahan penulisan pada tweet merupakan suatu permasalahan dalam tahap preprocessing yang tentunya mempengaruhi tingkat akurasi klasifikasi. Berdasarkan hal tersebut dibutuhkan proses tambahan pada preprocessing untuk melakukan koreksi kesalahan penulisan kata. Pada penelitian ini, penulis membandingkan kinerja metode  levenshtein distance dan jaro-winkler distance dalam melakukan koreksi kesalahan penulisan kata. Penelitian ini diawali dengan melakukan survei literatur untuk mengidentifikasi masalah. Selanjutnya melakukan studi pustaka untuk menentukan objek dan parameter yang dibutuhkan dalam merancang dan memodelkan data serta perangkat lunak. Perangkat lunak dikembangkan menggunakan bahasa pemrograman python dengan beberapa library sastrawi, levenshtein, pyjarowinkler dan sklearn. Perangkat lunak ini dibangun untuk memudahkan dalam melihat kinerja metode yang digunakan. Pengujian dilakukan menggunakan confusion matrix dengan 10 fold cross validation. Pengujian melibatkan pengukuran kinerja levenshtein distance jika ditempatkan sebelum dan sesudah proses stemming. Begitupula untuk  metode jaro-winkler distance juga ditempatkan sebelum dan sesudah proses stemming dalam preprocessing. Dari hasil pengujian diperoleh nilai accuracy, recall dan f1score dari metode levenshtein distance lebih baik dibandingkan jaro-winkler distance. Penerapan koreksi kata dengan metode levenshtein distance juga meningkatkan accuracy, recall dan f1score jika dibandingkan tanpa koreksi kata pada preprocessing. Penempatan koreksi kata pada tahap preprocessing dari hasil pengujian menunjukan posisi setelah proses stemming lebih baik dari penempatan koreksi kata sebelum proses stemming","PeriodicalId":164637,"journal":{"name":"Jurnal Fokus Elektroda : Energi Listrik, Telekomunikasi, Komputer, Elektronika dan Kendali)","volume":"51 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2021-06-30","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Jurnal Fokus Elektroda : Energi Listrik, Telekomunikasi, Komputer, Elektronika dan Kendali)","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.33772/jfe.v6i2.17751","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0

Abstract

Pada analisis sentimen pengguna twitter dibutuhkan tahap preprocessing sebelum mengklasifikasikan sentimen. Preprocessing digunakan untuk menyaring kata yang dianggap perlu untuk kebutuhan klasifikasi. Kesalahan penulisan pada tweet merupakan suatu permasalahan dalam tahap preprocessing yang tentunya mempengaruhi tingkat akurasi klasifikasi. Berdasarkan hal tersebut dibutuhkan proses tambahan pada preprocessing untuk melakukan koreksi kesalahan penulisan kata. Pada penelitian ini, penulis membandingkan kinerja metode  levenshtein distance dan jaro-winkler distance dalam melakukan koreksi kesalahan penulisan kata. Penelitian ini diawali dengan melakukan survei literatur untuk mengidentifikasi masalah. Selanjutnya melakukan studi pustaka untuk menentukan objek dan parameter yang dibutuhkan dalam merancang dan memodelkan data serta perangkat lunak. Perangkat lunak dikembangkan menggunakan bahasa pemrograman python dengan beberapa library sastrawi, levenshtein, pyjarowinkler dan sklearn. Perangkat lunak ini dibangun untuk memudahkan dalam melihat kinerja metode yang digunakan. Pengujian dilakukan menggunakan confusion matrix dengan 10 fold cross validation. Pengujian melibatkan pengukuran kinerja levenshtein distance jika ditempatkan sebelum dan sesudah proses stemming. Begitupula untuk  metode jaro-winkler distance juga ditempatkan sebelum dan sesudah proses stemming dalam preprocessing. Dari hasil pengujian diperoleh nilai accuracy, recall dan f1score dari metode levenshtein distance lebih baik dibandingkan jaro-winkler distance. Penerapan koreksi kata dengan metode levenshtein distance juga meningkatkan accuracy, recall dan f1score jika dibandingkan tanpa koreksi kata pada preprocessing. Penempatan koreksi kata pada tahap preprocessing dari hasil pengujian menunjukan posisi setelah proses stemming lebih baik dari penempatan koreksi kata sebelum proses stemming
在对twitter用户的情绪分析中,在对情感进行分类之前,需要先预习阶段。预处理用于筛选被认为对分类需要的单词。微博上的书写错误是预处理阶段的一个问题,这当然会影响分类准确度。基于此,需要一个额外的过程的预处理器来纠正拼写错误。在这项研究中,作者比较了levenshtein远方方法的性能和远程jaro-winkler方法在书写错误方面的表现。这项研究首先进行了一项文献调查,以确定问题。然后进行库研究,以确定数据和软件设计和模型所需的对象和参数。该软件使用python程序编写语言,使用多个图书馆、levenshtein、pyjarowinkler和learn。本软件的构建是为了便于查看所使用的方法的性能。测试是使用10折交叉验证的混乱矩阵进行的。测试包括测量levenshtein远方的性能,如果在印章过程之前和之后进行。jaro-winkler远方的方法也是如此,在浇注过程之前和之后都会放置。测试结果显示,levenshtein远方的准确、恢复和f11分数比jaro-winkler远方的方法更好。使用levenshtein方法的单词校正也增加了准确、记忆和f1score,而不需要在预习前进行文字校正。测试结果的预习阶段显示,印章后的位置比印章前的文字校正位置要好
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 求助全文
来源期刊
自引率
0.00%
发文量
0
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术官方微信