{"title":"Komparasi Teknik Klasifikasi Teks Mining Pada Analisis Sentimen","authors":"Joang Ipmawati, Kusrini","doi":"10.2311/IJNS.V6I1.1444","DOIUrl":null,"url":null,"abstract":"Abstract - Opininion mining also called sentiment analysis is a computational research of opinions, sentiments and emotions that are textually to see opinion on an issue, or to identify the tendency of things in the market. This time public opinion be an important resource in making decisions for a product. Classification algorithm to perform text mining including Support Vector Machine (SVM), Naive Bayessian classification (NBC) and K-Nearest Neighbor (K-NN). These of algorithms will compired to find out a good performance in terms of accuracy for two different datasets that imdb movie reviews and twitter sentiment. The results of the comparison showed SVM obtain good results in accuracy in the data imdb movie reviews 78.55% and on twitter dataset 72%. Similarly, NBC obtained the data accuracy at 78.55% twitter but different data twitter 67.33%. The results of F-Measure SVM movie review show and NBC showed the same results, namely 0.785 and also for the AUC, the results surpass NBC 0.869, SVM get results 0.786 and while KNN obtain the results 0.572. F-Measure to twitter SVM is superior obtaining results of 0.720 and 0.673 NBC obtained results while K-NN 0.545. and for the results of the AUC, as dataset imdb, on twitter this dataset NBC also outperformed SVM and K-NN. AUC to obtain results NBC 0.735, SVM obtain results K-NN 0.658 and 0.618 get results. \nKeywords : Text Mining, Sentiment Analysis, SVM, Naive Bayessian, K-NN, compare, comparation \n \nAbstrak - Opininion mining juga disebut analisis sentimen adalah riset komputasional dari opini, sentimen dan emosi yang diekspresikan secara tekstual dilakukan untuk melihat pendapat terhadap sebuah masalah, atau untuk identifikasi kecenderungan hal di pasar. Saat ini pendapat masyarakat menjadi sumber yang penting dalam pengambilan keputusan akan suatu produk. Algoritma klasifikasi yang dapat melakukan teks mining diantaranya Support Vector Machine (SVM), Naive Bayessian classification (NBC) dan K-Nearest Neighbor (K-NN). Ketiga algoritma ini akan dikomparasi untuk mengetahui performa yang baik dalam hal akurasi untuk dua dataset yang berbeda yaitu imdb review film dan sentimen twitter. Hasil dari komparasi menunjukkan SVM memperoleh hasil yang baik dalam akurasi pada data imdb review film 78,55% dan pada dataset twitter 72%. Sama halnya dengan NBC yang memperoleh akurasi pada data twitter 78.55% tetapi berbeda pada data twitter 67,33%. Hasil F-Measure review film menunjukan SVM dan NBC memperoleh hasil yang sama yaitu 0,785 dan untuk hasil AUC, NBC mengungguli hasil 0,869, SVM memperoleh hasil 0,786 sedangkan KNN memperoleh hasil 0,572. F-Measure untuk twitter SVM lebih unggul memperoleh hasil 0,720 dan NBC memperoleh hasil 0,673 sedangkan K-NN 0,545. Dan untuk hasil AUC, sama seperti dataset imdb, pada dataset twitter ini NBC juga mengungguli SVM dan K-NN. AUC untuk NBC memperoleh hasil 0,735, SVM memperoleh hasil 0,658 dan K-NN memperoleh hasil 0,618. \nKata kunci: teks mining, sentimen analisis, SVM, Naive Bayessian, K-NN, komparasi","PeriodicalId":13263,"journal":{"name":"IJNS - Indonesian Journal on Networking and Security","volume":"6 1","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2016-12-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"22","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"IJNS - Indonesian Journal on Networking and Security","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.2311/IJNS.V6I1.1444","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 22
Abstract
Abstract - Opininion mining also called sentiment analysis is a computational research of opinions, sentiments and emotions that are textually to see opinion on an issue, or to identify the tendency of things in the market. This time public opinion be an important resource in making decisions for a product. Classification algorithm to perform text mining including Support Vector Machine (SVM), Naive Bayessian classification (NBC) and K-Nearest Neighbor (K-NN). These of algorithms will compired to find out a good performance in terms of accuracy for two different datasets that imdb movie reviews and twitter sentiment. The results of the comparison showed SVM obtain good results in accuracy in the data imdb movie reviews 78.55% and on twitter dataset 72%. Similarly, NBC obtained the data accuracy at 78.55% twitter but different data twitter 67.33%. The results of F-Measure SVM movie review show and NBC showed the same results, namely 0.785 and also for the AUC, the results surpass NBC 0.869, SVM get results 0.786 and while KNN obtain the results 0.572. F-Measure to twitter SVM is superior obtaining results of 0.720 and 0.673 NBC obtained results while K-NN 0.545. and for the results of the AUC, as dataset imdb, on twitter this dataset NBC also outperformed SVM and K-NN. AUC to obtain results NBC 0.735, SVM obtain results K-NN 0.658 and 0.618 get results.
Keywords : Text Mining, Sentiment Analysis, SVM, Naive Bayessian, K-NN, compare, comparation
Abstrak - Opininion mining juga disebut analisis sentimen adalah riset komputasional dari opini, sentimen dan emosi yang diekspresikan secara tekstual dilakukan untuk melihat pendapat terhadap sebuah masalah, atau untuk identifikasi kecenderungan hal di pasar. Saat ini pendapat masyarakat menjadi sumber yang penting dalam pengambilan keputusan akan suatu produk. Algoritma klasifikasi yang dapat melakukan teks mining diantaranya Support Vector Machine (SVM), Naive Bayessian classification (NBC) dan K-Nearest Neighbor (K-NN). Ketiga algoritma ini akan dikomparasi untuk mengetahui performa yang baik dalam hal akurasi untuk dua dataset yang berbeda yaitu imdb review film dan sentimen twitter. Hasil dari komparasi menunjukkan SVM memperoleh hasil yang baik dalam akurasi pada data imdb review film 78,55% dan pada dataset twitter 72%. Sama halnya dengan NBC yang memperoleh akurasi pada data twitter 78.55% tetapi berbeda pada data twitter 67,33%. Hasil F-Measure review film menunjukan SVM dan NBC memperoleh hasil yang sama yaitu 0,785 dan untuk hasil AUC, NBC mengungguli hasil 0,869, SVM memperoleh hasil 0,786 sedangkan KNN memperoleh hasil 0,572. F-Measure untuk twitter SVM lebih unggul memperoleh hasil 0,720 dan NBC memperoleh hasil 0,673 sedangkan K-NN 0,545. Dan untuk hasil AUC, sama seperti dataset imdb, pada dataset twitter ini NBC juga mengungguli SVM dan K-NN. AUC untuk NBC memperoleh hasil 0,735, SVM memperoleh hasil 0,658 dan K-NN memperoleh hasil 0,618.
Kata kunci: teks mining, sentimen analisis, SVM, Naive Bayessian, K-NN, komparasi
摘要:观点挖掘也被称为情感分析,是一种对观点、情绪和情绪的计算研究,从文本上看到对一个问题的看法,或者识别市场中事物的趋势。这一次,公众舆论是产品决策的重要资源。进行文本挖掘的分类算法包括支持向量机(SVM)、朴素贝叶斯分类(NBC)和k -近邻(K-NN)。这些算法将进行比较,以找出imdb电影评论和twitter情绪这两个不同数据集在准确性方面的良好表现。对比结果表明,SVM在imdb电影评论数据上的准确率为78.55%,在twitter数据集上的准确率为72%。同样,NBC获得的数据准确率为78.55%,而不同的数据准确率为67.33%。F-Measure SVM的影评显示和NBC的结果相同,均为0.785,对于AUC也超过NBC的0.869,SVM的结果为0.786,而KNN的结果为0.572。F-Measure对twitter支持向量机比较优,得到的结果为0.720,NBC得到的结果为0.673,K-NN得到的结果为0.545。对于AUC的结果,作为数据集imdb,在twitter上这个数据集NBC也优于SVM和K-NN。AUC得到的结果NBC为0.735,SVM得到的结果K-NN为0.658,0.618得到的结果。关键词:文本挖掘、情绪分析、支持向量机、天真Bayessian,事例,比较,比较Abstrak Opininion矿业轭disebut分析sentimen adalah riset komputasional达里语opini, sentimen丹杨emosi diekspresikan secara tekstual dilakukan为她melihat pendapat terhadap sebuah masalah, atau为她identifikasi kecenderungan哈尔迪白沙。Saat ini pendapat masyarakat menjadi sumber yang pendingdalam pengambilan keputusan akan suatu产品。算法主要包括支持向量机(SVM)、朴素贝叶斯分类(NBC)和k -最近邻(K-NN)。Ketiga算法ini akan dikomparasi untuk mengetahui执行杨柏柏达拉姆hal akurasi untuk dua数据集杨柏柏达雅图imdb评论电影dan sentimen twitter。Hasil dari komparasi menunjukkan SVM memperoleh Hasil yang baik dalam akurasi pada data imdb review film 78,55% dan pada dataset twitter 72%。Sama halnya dengan NBC杨成员peroleh akurasi pagada data twitter 78.55% tetapi berbeda pagada data twitter 67.33%。Hasil F-Measure review film menunjukan SVM dan NBC memperoleh Hasil yang samama yaitu 0.785 dan untuk Hasil AUC, NBC mengunguli Hasil 0.869, SVM memperoleh Hasil 0.786 sedangkan KNN memperoleh Hasil 0.572。F-Measure untuk twitter SVM lebih unggul memperoleh hasil 0,720和NBC memperoleh hasil 0,673 sedangkan K-NN 0,545。Dan untuk hasil AUC, sama seperti数据集imdb, pada数据集twitter ini NBC juga mengunguli SVM Dan K-NN。AUC untuk NBC memperoleh hasil 0,735, SVM memperoleh hasil 0,658, K-NN memperoleh hasil 0,618。数据挖掘,情感分析,支持向量机,朴素贝叶斯,K-NN, komparasi