{"title":"Pengembangan Modul PreprocessingTeks untuk Kasus Formalisasi dan Pengecekan Ejaan Bahasa Indonesia pada Aplikasi Web Mining Simple Solution (WMSS)","authors":"Umi Chuzaimah Chuzaimah Zulkifli","doi":"10.20956/JMSK.V15I2.5718","DOIUrl":null,"url":null,"abstract":"Abstract Data of social media currently has been much used to analyze both sentiment analysis and another analysis. In fact, data that is obtained from the social media in generally has some mistakes which can influence the spelling in writing of words. The solution offered is word formalization and spelling check. Based on the problem, it will be built a preprocessing model to overcome two the mistakes. The method that will be used in formalization is to change the words to be formal form based on KBBI, while the method used for spelling check is spelling correction. Spelling correction method consists of distance edit, bigram and distance edit rule. In this study, in addition the application of both methods, also it will be analyzed comparing the result of spelling correction. From the result of analysis shows that distance edit rule has higher accuracy, namely 83.39% than using both edit distance and bigram method. In addition, edit distance rule method also has faster performance than another both methods. Overall, method to change word to formal word were based on KBBI and spelling correction has been able to overcome the problem of two cases, such that it can increase accuracy of the result of the analysis. Keywords: preprocessing, spelling correction, edit distance, bigram AbstrakData media sosial saat ini telah banyak digunakan untuk melakukan analisis baik analisis sentimen maupun analisis terkait lainnya. Nyatanya, data yang diperoleh dari media sosial tersebut pada umumnya memiliki kesalahan yang akan mempengaruhi hasil analisis. Kesalahan tersebut berupa penggunaan kata yang tidak baku dan adanya kesalahan ejaan dalam penulisan kata. Solusi yang ditawarkan berupa formalisasi kata dan pengecekan ejaan. Berdasarkan masalah tersebut, akan dibangun modul preprocessing untuk mengatasi dua kesalahan di atas. Metode yang digunakan pada formalisasi adalah mengubah kata ke bentuk formal berdasarkan KBBI sedangkan metode yang digunakan pada pengecekan ejaan adalah spelling correction. Metode spelling correction tersebut terdiri dari tiga yaitu edit distance, bigram dan edit distance + rule. Pada penelitian ini, selain penerapan kedua metode juga akan dilakukan analisis untuk melihat perbandingan hasil pada metode spelling correction. Dari hasil analisis tersebut, diketahui bahwa metode edit distance + rule memiliki akurasi yang lebih tinggi yaitu sebesar 83,39% dibandingkan dengan kedua metode lainnya yaitu edit distance dan bigram. Selain itu, metode edit distance + rule juga memiliki performa tercepat dibandingkan kedua metode lainnya. Secara keseluruhan, metode mengubah kata ke bentuk formal berdasarkan KBBI dan spelling correction telah mampu mengatasi masalah pada dua kasus di atas sehingga dapat meningkatkan akurasi hasil analisis. Kata Kunci:preprocessing, spelling correction, edit distance, bigram","PeriodicalId":150527,"journal":{"name":"Jurnal Matematika Statistika dan Komputasi","volume":"135 12 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2018-12-06","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"1","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Jurnal Matematika Statistika dan Komputasi","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.20956/JMSK.V15I2.5718","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 1
Abstract
Abstract Data of social media currently has been much used to analyze both sentiment analysis and another analysis. In fact, data that is obtained from the social media in generally has some mistakes which can influence the spelling in writing of words. The solution offered is word formalization and spelling check. Based on the problem, it will be built a preprocessing model to overcome two the mistakes. The method that will be used in formalization is to change the words to be formal form based on KBBI, while the method used for spelling check is spelling correction. Spelling correction method consists of distance edit, bigram and distance edit rule. In this study, in addition the application of both methods, also it will be analyzed comparing the result of spelling correction. From the result of analysis shows that distance edit rule has higher accuracy, namely 83.39% than using both edit distance and bigram method. In addition, edit distance rule method also has faster performance than another both methods. Overall, method to change word to formal word were based on KBBI and spelling correction has been able to overcome the problem of two cases, such that it can increase accuracy of the result of the analysis. Keywords: preprocessing, spelling correction, edit distance, bigram AbstrakData media sosial saat ini telah banyak digunakan untuk melakukan analisis baik analisis sentimen maupun analisis terkait lainnya. Nyatanya, data yang diperoleh dari media sosial tersebut pada umumnya memiliki kesalahan yang akan mempengaruhi hasil analisis. Kesalahan tersebut berupa penggunaan kata yang tidak baku dan adanya kesalahan ejaan dalam penulisan kata. Solusi yang ditawarkan berupa formalisasi kata dan pengecekan ejaan. Berdasarkan masalah tersebut, akan dibangun modul preprocessing untuk mengatasi dua kesalahan di atas. Metode yang digunakan pada formalisasi adalah mengubah kata ke bentuk formal berdasarkan KBBI sedangkan metode yang digunakan pada pengecekan ejaan adalah spelling correction. Metode spelling correction tersebut terdiri dari tiga yaitu edit distance, bigram dan edit distance + rule. Pada penelitian ini, selain penerapan kedua metode juga akan dilakukan analisis untuk melihat perbandingan hasil pada metode spelling correction. Dari hasil analisis tersebut, diketahui bahwa metode edit distance + rule memiliki akurasi yang lebih tinggi yaitu sebesar 83,39% dibandingkan dengan kedua metode lainnya yaitu edit distance dan bigram. Selain itu, metode edit distance + rule juga memiliki performa tercepat dibandingkan kedua metode lainnya. Secara keseluruhan, metode mengubah kata ke bentuk formal berdasarkan KBBI dan spelling correction telah mampu mengatasi masalah pada dua kasus di atas sehingga dapat meningkatkan akurasi hasil analisis. Kata Kunci:preprocessing, spelling correction, edit distance, bigram
目前,社交媒体的数据被广泛用于情感分析和其他分析。事实上,从社交媒体上获得的数据通常会有一些错误,这些错误会影响单词的拼写。提供的解决方案是单词形式化和拼写检查。在此基础上,建立了克服这两个错误的预处理模型。形式化使用的方法是基于KBBI将单词转换为形式化形式,而拼写检查使用的方法是拼写纠正。拼写校正方法包括距离编辑法、双字母法和距离编辑规则。在本研究中,除了两种方法的应用之外,还将分析比较拼写纠正的结果。分析结果表明,距离编辑规则比同时使用距离编辑和双字母编辑方法具有更高的精度,达到83.39%。此外,编辑距离规则方法也比另外两种方法具有更快的性能。总的来说,以KBBI和拼写校正为基础的词转换为正式词的方法已经能够克服两种情况的问题,从而可以提高分析结果的准确性。关键词:预处理,拼写纠错,编辑距离,语义摘要数据媒体社交分析,数据分析,语义分析,语义分析,语义分析Nyatanya, data yang diperoleh dari media social tersebut pada umumnya memoriliki kesalahan yang akan mempengaruhi hasil分析。Kesalahan tersebut berupa penggunaan kata yang tidak baku dan adanya Kesalahan ejaan dalam penulisan kata。Solusi yang ditawarkan berupa formalisasi kata dan pengecekan ejaan。数据预处理:基于数据模型的数据预处理方法。Metode yang digunakan pada formalisasi adalah mengubah kata ke bentuk正式berdasarkan KBBI sedangkan Metode yang digunakan pada pengecekan ejaan adalah拼写更正。方法纠错简体字,但简体字加简体字加简体字加简体字编辑距离,重体字加简体字编辑距离+规则。中文拼音、中文拼音、英文拼音、英文拼音、英文拼音、英文拼音、英文拼音、英文拼音、英文拼音、英文拼音、英文拼音、英文拼音、英文拼音等。达哈什尔分析模型,diketahui bahwa方法编辑距离+规则记忆,akurasi yang lebih tinggi yitu sebesar 83,39% dibandingkan dengan kedua方法lainnya yitu编辑距离dan bigram。Selain - itu,方法编辑距离+规则记忆,执行tercepa - dibandingkan - kedua - meainnya。【翻译】Secara keseluruhan, medemengubah kata ke bentuk正式的berdasarkan KBBI丹拼写更正telah mampu mengatasi masalah pada dua kasus di ata sehinga dapat meningkatkan akurasi hasil分析。字型Kunci:预处理,拼写校正,编辑距离,双字母