Pengelompokan Hasil Pencarian Skripsi Berbahasa Indonesia Menggunakan Metode DBSCAN dengan Pembobotan BM25

Rangga Adi Satria, Indriati Indriati, Sutrisno Sutrisno
{"title":"Pengelompokan Hasil Pencarian Skripsi Berbahasa Indonesia Menggunakan Metode DBSCAN dengan Pembobotan BM25","authors":"Rangga Adi Satria, Indriati Indriati, Sutrisno Sutrisno","doi":"10.25126/jtiik.20241046899","DOIUrl":null,"url":null,"abstract":"Skripsi merupakan tugas akhir yang disusun oleh mahasiswa sebagai persyaratan untuk memperoleh gelar sarjana. Mesin pencari untuk mempermudah pencarian dokumen skripsi yang disimpan pada perpustakaan maupun penyimpanan digital umumnya menggunakan metode sederhana dengan mengembalikan dokumen yang mengandung potongan kata atau identik dengan kata kunci, sehingga dokumen yang diperoleh kurang relevan. Hasil pencarian dapat dikelompokan sehingga dokumen tersaji dengan lebih terperinci dan memudahkan pencarian lebih lanjut. Guna mengelompokan hasil pencarian skripsi berbahasa Indonesia, dengan menggunakan judul dan abstrak skripsi, digunakan pembobotan kata BM25 dan pengelompokan DBSCAN, metode pengelompokan yang mempertimbangkan kepadatan titik sampel dokumen. Pengujian dilakukan dengan mengukur hasil pengelompokan menggunakan rata-rata silhouette coefficient terhadap parameter epsilon dan MinPts pada metode DBSCAN, serta k1 dan b pada pembobotan BM25 dengan 4 skenario yang berbeda. Hasil pengujian menunjukan bahwa parameter k1 dan b pada pembobotan BM25 cukup mempengaruhi kualitas pengelompokan dengan metode DBSCAN. Hasil rata – rata silhouette coefficient terbaik untuk masing masing skenario secara berurutan adalah 0.722, 0.762, 0.945 dan 0.907 dengan parameter terbaik berupa k1=1.8, b=0.5, epsilon=0.1 dan MinPts=5 pada skenario pertama. k1=1.9, b=0.5, epsilon=0.1 dan MinPts=5 pada skenario kedua. k1=1.4, b=0.55, epsilon=0.1 dan MinPts=5 pada skenario ketiga dan k1=1.8, b=0.65, epsilon=0.1 dan MinPts=5 pada skenario keempat. AbstractThesis is a final project that must be completed by students as requirement to obtain a bachelor degree. Search engines used for searching thesis documents stored in libraries or digital storage generally use a simple method by returning documents that contain a snippet of the word or are identical to the keywords, so the obtained documents become less relevant. Search results can be clustered with the purpose of presenting the documents in more detailed way and to ease further searches. In order to cluster the search results of Indonesian language thesis, using the title and abstract of the thesis, BM25 word weighting and DBSCAN clustering were used, a clustering method that considers the document sample density point. The test performed by measuring the clustering results using the average silhouette coefficient on the epsilon and MinPts parameters in the DBSCAN method, as well as k1 and b in the BM25 weighting on 4 different scenarios. The test results show that k1 and b parameters on BM25 weighting is quite affecting the quality of the clustering results using DBSCAN method. The best average silhouette coefficient results for each scenario sequentially are 0.722, 0.762, 0.945 and 0.907 by using the best parameters in the form of k1=1.8, b=0.5, epsilon=0.1 and MinPts=5 in the first scenario. k1=1.9, b=0.5, epsilon=0.1 and MinPts=5 in the second scenario. k1=1.4, b=0.55, epsilon=0.1 and MinPts=5 in the third scenario and k1=1.8, b=0.65, epsilon=0.1 and MinPts=5 in the fourth scenario","PeriodicalId":32501,"journal":{"name":"Jurnal Teknologi Informasi dan Ilmu Komputer","volume":" ","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2023-08-30","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Jurnal Teknologi Informasi dan Ilmu Komputer","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.25126/jtiik.20241046899","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0

Abstract

Skripsi merupakan tugas akhir yang disusun oleh mahasiswa sebagai persyaratan untuk memperoleh gelar sarjana. Mesin pencari untuk mempermudah pencarian dokumen skripsi yang disimpan pada perpustakaan maupun penyimpanan digital umumnya menggunakan metode sederhana dengan mengembalikan dokumen yang mengandung potongan kata atau identik dengan kata kunci, sehingga dokumen yang diperoleh kurang relevan. Hasil pencarian dapat dikelompokan sehingga dokumen tersaji dengan lebih terperinci dan memudahkan pencarian lebih lanjut. Guna mengelompokan hasil pencarian skripsi berbahasa Indonesia, dengan menggunakan judul dan abstrak skripsi, digunakan pembobotan kata BM25 dan pengelompokan DBSCAN, metode pengelompokan yang mempertimbangkan kepadatan titik sampel dokumen. Pengujian dilakukan dengan mengukur hasil pengelompokan menggunakan rata-rata silhouette coefficient terhadap parameter epsilon dan MinPts pada metode DBSCAN, serta k1 dan b pada pembobotan BM25 dengan 4 skenario yang berbeda. Hasil pengujian menunjukan bahwa parameter k1 dan b pada pembobotan BM25 cukup mempengaruhi kualitas pengelompokan dengan metode DBSCAN. Hasil rata – rata silhouette coefficient terbaik untuk masing masing skenario secara berurutan adalah 0.722, 0.762, 0.945 dan 0.907 dengan parameter terbaik berupa k1=1.8, b=0.5, epsilon=0.1 dan MinPts=5 pada skenario pertama. k1=1.9, b=0.5, epsilon=0.1 dan MinPts=5 pada skenario kedua. k1=1.4, b=0.55, epsilon=0.1 dan MinPts=5 pada skenario ketiga dan k1=1.8, b=0.65, epsilon=0.1 dan MinPts=5 pada skenario keempat. AbstractThesis is a final project that must be completed by students as requirement to obtain a bachelor degree. Search engines used for searching thesis documents stored in libraries or digital storage generally use a simple method by returning documents that contain a snippet of the word or are identical to the keywords, so the obtained documents become less relevant. Search results can be clustered with the purpose of presenting the documents in more detailed way and to ease further searches. In order to cluster the search results of Indonesian language thesis, using the title and abstract of the thesis, BM25 word weighting and DBSCAN clustering were used, a clustering method that considers the document sample density point. The test performed by measuring the clustering results using the average silhouette coefficient on the epsilon and MinPts parameters in the DBSCAN method, as well as k1 and b in the BM25 weighting on 4 different scenarios. The test results show that k1 and b parameters on BM25 weighting is quite affecting the quality of the clustering results using DBSCAN method. The best average silhouette coefficient results for each scenario sequentially are 0.722, 0.762, 0.945 and 0.907 by using the best parameters in the form of k1=1.8, b=0.5, epsilon=0.1 and MinPts=5 in the first scenario. k1=1.9, b=0.5, epsilon=0.1 and MinPts=5 in the second scenario. k1=1.4, b=0.55, epsilon=0.1 and MinPts=5 in the third scenario and k1=1.8, b=0.65, epsilon=0.1 and MinPts=5 in the fourth scenario
使用BM25 Bobbing的DBSCAN方法对印尼语脚本搜索结果进行分组
论文是学生作为获得学士学位的先决条件编写的论文。搜索引擎使用一种简单的方法来恢复包含单词片段或与关键词相同的文件,从而使所获得的文件不那么相关。搜索结果可以组合起来,使发布文档更详细,并方便进一步搜索。为了用论文的标题和摘要对印尼语的论文搜索结果进行分类,使用BM25单词的校正和DBSCAN集群,这是一种考虑文档样本密度的分组方法。测试是通过测量聚类结果,使用DBSCAN参数的平均剪切程度,以及BM25级b级缺口的k1和b。测试结果表明,BM25破坏的k1参数和b参数对用DBSCAN方法进行分组的质量有很大的影响。对每一种情况最好的记录是0.722、0.762、0.945和0.907,最好的参数是k1=1.8、b=0.5、epsilon=0.1和MinPts=5。k1=1.9, b=0.5, epsilon=0.1, MinPts=5,第二种情况。k1=1.4, b=0.55, epsilon=0.1, MinPts=5第三种情况,k1=1.8, b=0.65, epsilon=0.1,在第四种情况下=5。抽象理论是一个最终的项目,必须由学生完成,以了解一个单身汉的需求。寻找新成员用来寻找图书馆或数字存储中的文件,通常用一种简单的方法来重复这些词,这种方法与关键字有关联,因此使这些文件变得不那么重要。搜索结果可以与展示文件的目的相结合,更详细地展开搜索。在订单中,使用该手册的标题和摘要,使用BM25字的weghing和DBSCAN clustering被使用,包含证据证据的证据。在bpsilon和MinPts对4种不同的不同情况下的DBSCAN方法和态度上进行的测量结果。用DBSCAN方法进行的k1和b parameters在BM25上发布的测试结果,确实影响了集群再生的质量。《最佳平均silhouette导数》10时22分762分945分907节使用最好的parameters in The form of k1=1.8、b=0.5、epsilon=0.1和MinPts=5。k1=1.9, b=0.5, epsilon=0.1和MinPts=5在第二种情况下。k1= 1.55, epsilon=0.1和MinPts=5在第三种情况下和k1=1.8, b=0.65, epsilon=0.1和MinPts=第4种情况下5
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 求助全文
来源期刊
自引率
0.00%
发文量
0
审稿时长
16 weeks
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:604180095
Book学术官方微信