Rangga Adi Satria, Indriati Indriati, Sutrisno Sutrisno
{"title":"使用BM25 Bobbing的DBSCAN方法对印尼语脚本搜索结果进行分组","authors":"Rangga Adi Satria, Indriati Indriati, Sutrisno Sutrisno","doi":"10.25126/jtiik.20241046899","DOIUrl":null,"url":null,"abstract":"Skripsi merupakan tugas akhir yang disusun oleh mahasiswa sebagai persyaratan untuk memperoleh gelar sarjana. Mesin pencari untuk mempermudah pencarian dokumen skripsi yang disimpan pada perpustakaan maupun penyimpanan digital umumnya menggunakan metode sederhana dengan mengembalikan dokumen yang mengandung potongan kata atau identik dengan kata kunci, sehingga dokumen yang diperoleh kurang relevan. Hasil pencarian dapat dikelompokan sehingga dokumen tersaji dengan lebih terperinci dan memudahkan pencarian lebih lanjut. Guna mengelompokan hasil pencarian skripsi berbahasa Indonesia, dengan menggunakan judul dan abstrak skripsi, digunakan pembobotan kata BM25 dan pengelompokan DBSCAN, metode pengelompokan yang mempertimbangkan kepadatan titik sampel dokumen. Pengujian dilakukan dengan mengukur hasil pengelompokan menggunakan rata-rata silhouette coefficient terhadap parameter epsilon dan MinPts pada metode DBSCAN, serta k1 dan b pada pembobotan BM25 dengan 4 skenario yang berbeda. Hasil pengujian menunjukan bahwa parameter k1 dan b pada pembobotan BM25 cukup mempengaruhi kualitas pengelompokan dengan metode DBSCAN. Hasil rata – rata silhouette coefficient terbaik untuk masing masing skenario secara berurutan adalah 0.722, 0.762, 0.945 dan 0.907 dengan parameter terbaik berupa k1=1.8, b=0.5, epsilon=0.1 dan MinPts=5 pada skenario pertama. k1=1.9, b=0.5, epsilon=0.1 dan MinPts=5 pada skenario kedua. k1=1.4, b=0.55, epsilon=0.1 dan MinPts=5 pada skenario ketiga dan k1=1.8, b=0.65, epsilon=0.1 dan MinPts=5 pada skenario keempat. AbstractThesis is a final project that must be completed by students as requirement to obtain a bachelor degree. Search engines used for searching thesis documents stored in libraries or digital storage generally use a simple method by returning documents that contain a snippet of the word or are identical to the keywords, so the obtained documents become less relevant. Search results can be clustered with the purpose of presenting the documents in more detailed way and to ease further searches. In order to cluster the search results of Indonesian language thesis, using the title and abstract of the thesis, BM25 word weighting and DBSCAN clustering were used, a clustering method that considers the document sample density point. The test performed by measuring the clustering results using the average silhouette coefficient on the epsilon and MinPts parameters in the DBSCAN method, as well as k1 and b in the BM25 weighting on 4 different scenarios. The test results show that k1 and b parameters on BM25 weighting is quite affecting the quality of the clustering results using DBSCAN method. The best average silhouette coefficient results for each scenario sequentially are 0.722, 0.762, 0.945 and 0.907 by using the best parameters in the form of k1=1.8, b=0.5, epsilon=0.1 and MinPts=5 in the first scenario. k1=1.9, b=0.5, epsilon=0.1 and MinPts=5 in the second scenario. k1=1.4, b=0.55, epsilon=0.1 and MinPts=5 in the third scenario and k1=1.8, b=0.65, epsilon=0.1 and MinPts=5 in the fourth scenario","PeriodicalId":32501,"journal":{"name":"Jurnal Teknologi Informasi dan Ilmu Komputer","volume":" ","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2023-08-30","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"Pengelompokan Hasil Pencarian Skripsi Berbahasa Indonesia Menggunakan Metode DBSCAN dengan Pembobotan BM25\",\"authors\":\"Rangga Adi Satria, Indriati Indriati, Sutrisno Sutrisno\",\"doi\":\"10.25126/jtiik.20241046899\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"Skripsi merupakan tugas akhir yang disusun oleh mahasiswa sebagai persyaratan untuk memperoleh gelar sarjana. Mesin pencari untuk mempermudah pencarian dokumen skripsi yang disimpan pada perpustakaan maupun penyimpanan digital umumnya menggunakan metode sederhana dengan mengembalikan dokumen yang mengandung potongan kata atau identik dengan kata kunci, sehingga dokumen yang diperoleh kurang relevan. Hasil pencarian dapat dikelompokan sehingga dokumen tersaji dengan lebih terperinci dan memudahkan pencarian lebih lanjut. Guna mengelompokan hasil pencarian skripsi berbahasa Indonesia, dengan menggunakan judul dan abstrak skripsi, digunakan pembobotan kata BM25 dan pengelompokan DBSCAN, metode pengelompokan yang mempertimbangkan kepadatan titik sampel dokumen. Pengujian dilakukan dengan mengukur hasil pengelompokan menggunakan rata-rata silhouette coefficient terhadap parameter epsilon dan MinPts pada metode DBSCAN, serta k1 dan b pada pembobotan BM25 dengan 4 skenario yang berbeda. Hasil pengujian menunjukan bahwa parameter k1 dan b pada pembobotan BM25 cukup mempengaruhi kualitas pengelompokan dengan metode DBSCAN. Hasil rata – rata silhouette coefficient terbaik untuk masing masing skenario secara berurutan adalah 0.722, 0.762, 0.945 dan 0.907 dengan parameter terbaik berupa k1=1.8, b=0.5, epsilon=0.1 dan MinPts=5 pada skenario pertama. k1=1.9, b=0.5, epsilon=0.1 dan MinPts=5 pada skenario kedua. k1=1.4, b=0.55, epsilon=0.1 dan MinPts=5 pada skenario ketiga dan k1=1.8, b=0.65, epsilon=0.1 dan MinPts=5 pada skenario keempat. AbstractThesis is a final project that must be completed by students as requirement to obtain a bachelor degree. Search engines used for searching thesis documents stored in libraries or digital storage generally use a simple method by returning documents that contain a snippet of the word or are identical to the keywords, so the obtained documents become less relevant. Search results can be clustered with the purpose of presenting the documents in more detailed way and to ease further searches. In order to cluster the search results of Indonesian language thesis, using the title and abstract of the thesis, BM25 word weighting and DBSCAN clustering were used, a clustering method that considers the document sample density point. The test performed by measuring the clustering results using the average silhouette coefficient on the epsilon and MinPts parameters in the DBSCAN method, as well as k1 and b in the BM25 weighting on 4 different scenarios. The test results show that k1 and b parameters on BM25 weighting is quite affecting the quality of the clustering results using DBSCAN method. The best average silhouette coefficient results for each scenario sequentially are 0.722, 0.762, 0.945 and 0.907 by using the best parameters in the form of k1=1.8, b=0.5, epsilon=0.1 and MinPts=5 in the first scenario. k1=1.9, b=0.5, epsilon=0.1 and MinPts=5 in the second scenario. k1=1.4, b=0.55, epsilon=0.1 and MinPts=5 in the third scenario and k1=1.8, b=0.65, epsilon=0.1 and MinPts=5 in the fourth scenario\",\"PeriodicalId\":32501,\"journal\":{\"name\":\"Jurnal Teknologi Informasi dan Ilmu Komputer\",\"volume\":\" \",\"pages\":\"\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2023-08-30\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Jurnal Teknologi Informasi dan Ilmu Komputer\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.25126/jtiik.20241046899\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Jurnal Teknologi Informasi dan Ilmu Komputer","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.25126/jtiik.20241046899","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0
摘要
论文是学生作为获得学士学位的先决条件编写的论文。搜索引擎使用一种简单的方法来恢复包含单词片段或与关键词相同的文件,从而使所获得的文件不那么相关。搜索结果可以组合起来,使发布文档更详细,并方便进一步搜索。为了用论文的标题和摘要对印尼语的论文搜索结果进行分类,使用BM25单词的校正和DBSCAN集群,这是一种考虑文档样本密度的分组方法。测试是通过测量聚类结果,使用DBSCAN参数的平均剪切程度,以及BM25级b级缺口的k1和b。测试结果表明,BM25破坏的k1参数和b参数对用DBSCAN方法进行分组的质量有很大的影响。对每一种情况最好的记录是0.722、0.762、0.945和0.907,最好的参数是k1=1.8、b=0.5、epsilon=0.1和MinPts=5。k1=1.9, b=0.5, epsilon=0.1, MinPts=5,第二种情况。k1=1.4, b=0.55, epsilon=0.1, MinPts=5第三种情况,k1=1.8, b=0.65, epsilon=0.1,在第四种情况下=5。抽象理论是一个最终的项目,必须由学生完成,以了解一个单身汉的需求。寻找新成员用来寻找图书馆或数字存储中的文件,通常用一种简单的方法来重复这些词,这种方法与关键字有关联,因此使这些文件变得不那么重要。搜索结果可以与展示文件的目的相结合,更详细地展开搜索。在订单中,使用该手册的标题和摘要,使用BM25字的weghing和DBSCAN clustering被使用,包含证据证据的证据。在bpsilon和MinPts对4种不同的不同情况下的DBSCAN方法和态度上进行的测量结果。用DBSCAN方法进行的k1和b parameters在BM25上发布的测试结果,确实影响了集群再生的质量。《最佳平均silhouette导数》10时22分762分945分907节使用最好的parameters in The form of k1=1.8、b=0.5、epsilon=0.1和MinPts=5。k1=1.9, b=0.5, epsilon=0.1和MinPts=5在第二种情况下。k1= 1.55, epsilon=0.1和MinPts=5在第三种情况下和k1=1.8, b=0.65, epsilon=0.1和MinPts=第4种情况下5
Pengelompokan Hasil Pencarian Skripsi Berbahasa Indonesia Menggunakan Metode DBSCAN dengan Pembobotan BM25
Skripsi merupakan tugas akhir yang disusun oleh mahasiswa sebagai persyaratan untuk memperoleh gelar sarjana. Mesin pencari untuk mempermudah pencarian dokumen skripsi yang disimpan pada perpustakaan maupun penyimpanan digital umumnya menggunakan metode sederhana dengan mengembalikan dokumen yang mengandung potongan kata atau identik dengan kata kunci, sehingga dokumen yang diperoleh kurang relevan. Hasil pencarian dapat dikelompokan sehingga dokumen tersaji dengan lebih terperinci dan memudahkan pencarian lebih lanjut. Guna mengelompokan hasil pencarian skripsi berbahasa Indonesia, dengan menggunakan judul dan abstrak skripsi, digunakan pembobotan kata BM25 dan pengelompokan DBSCAN, metode pengelompokan yang mempertimbangkan kepadatan titik sampel dokumen. Pengujian dilakukan dengan mengukur hasil pengelompokan menggunakan rata-rata silhouette coefficient terhadap parameter epsilon dan MinPts pada metode DBSCAN, serta k1 dan b pada pembobotan BM25 dengan 4 skenario yang berbeda. Hasil pengujian menunjukan bahwa parameter k1 dan b pada pembobotan BM25 cukup mempengaruhi kualitas pengelompokan dengan metode DBSCAN. Hasil rata – rata silhouette coefficient terbaik untuk masing masing skenario secara berurutan adalah 0.722, 0.762, 0.945 dan 0.907 dengan parameter terbaik berupa k1=1.8, b=0.5, epsilon=0.1 dan MinPts=5 pada skenario pertama. k1=1.9, b=0.5, epsilon=0.1 dan MinPts=5 pada skenario kedua. k1=1.4, b=0.55, epsilon=0.1 dan MinPts=5 pada skenario ketiga dan k1=1.8, b=0.65, epsilon=0.1 dan MinPts=5 pada skenario keempat. AbstractThesis is a final project that must be completed by students as requirement to obtain a bachelor degree. Search engines used for searching thesis documents stored in libraries or digital storage generally use a simple method by returning documents that contain a snippet of the word or are identical to the keywords, so the obtained documents become less relevant. Search results can be clustered with the purpose of presenting the documents in more detailed way and to ease further searches. In order to cluster the search results of Indonesian language thesis, using the title and abstract of the thesis, BM25 word weighting and DBSCAN clustering were used, a clustering method that considers the document sample density point. The test performed by measuring the clustering results using the average silhouette coefficient on the epsilon and MinPts parameters in the DBSCAN method, as well as k1 and b in the BM25 weighting on 4 different scenarios. The test results show that k1 and b parameters on BM25 weighting is quite affecting the quality of the clustering results using DBSCAN method. The best average silhouette coefficient results for each scenario sequentially are 0.722, 0.762, 0.945 and 0.907 by using the best parameters in the form of k1=1.8, b=0.5, epsilon=0.1 and MinPts=5 in the first scenario. k1=1.9, b=0.5, epsilon=0.1 and MinPts=5 in the second scenario. k1=1.4, b=0.55, epsilon=0.1 and MinPts=5 in the third scenario and k1=1.8, b=0.65, epsilon=0.1 and MinPts=5 in the fourth scenario