Perbandingan Levenshtein Distance Dan Jaro-Winkler Distance Untuk Koreksi Kata Dalam Preprocessing Analisis Sentimen Pengguna Twitter

Jurnal Fokus Elektroda : Energi Listrik, Telekomunikasi, Komputer, Elektronika dan Kendali) Pub Date : 2021-06-30 DOI:10.33772/jfe.v6i2.17751

M. Nur

{"title":"Perbandingan Levenshtein Distance Dan Jaro-Winkler Distance Untuk Koreksi Kata Dalam Preprocessing Analisis Sentimen Pengguna Twitter","authors":"M. Nur","doi":"10.33772/jfe.v6i2.17751","DOIUrl":null,"url":null,"abstract":"Pada analisis sentimen pengguna twitter dibutuhkan tahap preprocessing sebelum mengklasifikasikan sentimen. Preprocessing digunakan untuk menyaring kata yang dianggap perlu untuk kebutuhan klasifikasi. Kesalahan penulisan pada tweet merupakan suatu permasalahan dalam tahap preprocessing yang tentunya mempengaruhi tingkat akurasi klasifikasi. Berdasarkan hal tersebut dibutuhkan proses tambahan pada preprocessing untuk melakukan koreksi kesalahan penulisan kata. Pada penelitian ini, penulis membandingkan kinerja metode levenshtein distance dan jaro-winkler distance dalam melakukan koreksi kesalahan penulisan kata. Penelitian ini diawali dengan melakukan survei literatur untuk mengidentifikasi masalah. Selanjutnya melakukan studi pustaka untuk menentukan objek dan parameter yang dibutuhkan dalam merancang dan memodelkan data serta perangkat lunak. Perangkat lunak dikembangkan menggunakan bahasa pemrograman python dengan beberapa library sastrawi, levenshtein, pyjarowinkler dan sklearn. Perangkat lunak ini dibangun untuk memudahkan dalam melihat kinerja metode yang digunakan. Pengujian dilakukan menggunakan confusion matrix dengan 10 fold cross validation. Pengujian melibatkan pengukuran kinerja levenshtein distance jika ditempatkan sebelum dan sesudah proses stemming. Begitupula untuk metode jaro-winkler distance juga ditempatkan sebelum dan sesudah proses stemming dalam preprocessing. Dari hasil pengujian diperoleh nilai accuracy, recall dan f1score dari metode levenshtein distance lebih baik dibandingkan jaro-winkler distance. Penerapan koreksi kata dengan metode levenshtein distance juga meningkatkan accuracy, recall dan f1score jika dibandingkan tanpa koreksi kata pada preprocessing. Penempatan koreksi kata pada tahap preprocessing dari hasil pengujian menunjukan posisi setelah proses stemming lebih baik dari penempatan koreksi kata sebelum proses stemming","PeriodicalId":164637,"journal":{"name":"Jurnal Fokus Elektroda : Energi Listrik, Telekomunikasi, Komputer, Elektronika dan Kendali)","volume":"51 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2021-06-30","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Jurnal Fokus Elektroda : Energi Listrik, Telekomunikasi, Komputer, Elektronika dan Kendali)","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.33772/jfe.v6i2.17751","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}

引用次数: 0

Abstract

Pada analisis sentimen pengguna twitter dibutuhkan tahap preprocessing sebelum mengklasifikasikan sentimen. Preprocessing digunakan untuk menyaring kata yang dianggap perlu untuk kebutuhan klasifikasi. Kesalahan penulisan pada tweet merupakan suatu permasalahan dalam tahap preprocessing yang tentunya mempengaruhi tingkat akurasi klasifikasi. Berdasarkan hal tersebut dibutuhkan proses tambahan pada preprocessing untuk melakukan koreksi kesalahan penulisan kata. Pada penelitian ini, penulis membandingkan kinerja metode levenshtein distance dan jaro-winkler distance dalam melakukan koreksi kesalahan penulisan kata. Penelitian ini diawali dengan melakukan survei literatur untuk mengidentifikasi masalah. Selanjutnya melakukan studi pustaka untuk menentukan objek dan parameter yang dibutuhkan dalam merancang dan memodelkan data serta perangkat lunak. Perangkat lunak dikembangkan menggunakan bahasa pemrograman python dengan beberapa library sastrawi, levenshtein, pyjarowinkler dan sklearn. Perangkat lunak ini dibangun untuk memudahkan dalam melihat kinerja metode yang digunakan. Pengujian dilakukan menggunakan confusion matrix dengan 10 fold cross validation. Pengujian melibatkan pengukuran kinerja levenshtein distance jika ditempatkan sebelum dan sesudah proses stemming. Begitupula untuk metode jaro-winkler distance juga ditempatkan sebelum dan sesudah proses stemming dalam preprocessing. Dari hasil pengujian diperoleh nilai accuracy, recall dan f1score dari metode levenshtein distance lebih baik dibandingkan jaro-winkler distance. Penerapan koreksi kata dengan metode levenshtein distance juga meningkatkan accuracy, recall dan f1score jika dibandingkan tanpa koreksi kata pada preprocessing. Penempatan koreksi kata pada tahap preprocessing dari hasil pengujian menunjukan posisi setelah proses stemming lebih baik dari penempatan koreksi kata sebelum proses stemming

查看原文本刊更多论文

在对twitter用户的情绪分析中，在对情感进行分类之前，需要先预习阶段。预处理用于筛选被认为对分类需要的单词。微博上的书写错误是预处理阶段的一个问题，这当然会影响分类准确度。基于此，需要一个额外的过程的预处理器来纠正拼写错误。在这项研究中，作者比较了levenshtein远方方法的性能和远程jaro-winkler方法在书写错误方面的表现。这项研究首先进行了一项文献调查，以确定问题。然后进行库研究，以确定数据和软件设计和模型所需的对象和参数。该软件使用python程序编写语言，使用多个图书馆、levenshtein、pyjarowinkler和learn。本软件的构建是为了便于查看所使用的方法的性能。测试是使用10折交叉验证的混乱矩阵进行的。测试包括测量levenshtein远方的性能，如果在印章过程之前和之后进行。jaro-winkler远方的方法也是如此，在浇注过程之前和之后都会放置。测试结果显示，levenshtein远方的准确、恢复和f11分数比jaro-winkler远方的方法更好。使用levenshtein方法的单词校正也增加了准确、记忆和f1score，而不需要在预习前进行文字校正。测试结果的预习阶段显示，印章后的位置比印章前的文字校正位置要好

本文章由计算机程序翻译，如有差异，请以英文原文为准。

求助全文

约1分钟内获得全文求助全文

来源期刊

Jurnal Fokus Elektroda : Energi Listrik, Telekomunikasi, Komputer, Elektronika dan Kendali)

自引率

0.00%

发文量