PENINGKATAN HASIL SISTEM TEMU KEMBALI INFORMASI BERBASIS PADA KATA MAJEMUK MENGGUNAKAN JACCARD SIMILARITY

Dwi Agus Diartono, Isworo Nugroho, Jeffri Alfa Razaq
{"title":"PENINGKATAN HASIL SISTEM TEMU KEMBALI INFORMASI BERBASIS PADA KATA MAJEMUK MENGGUNAKAN JACCARD SIMILARITY","authors":"Dwi Agus Diartono, Isworo Nugroho, Jeffri Alfa Razaq","doi":"10.35315/informatika.v14i1.9160","DOIUrl":null,"url":null,"abstract":"Kata majemuk gabungan morfem dasar yang kesemuanya berstatus kata dengan pola fonetik, gramatikal, dan semantik tertentu sesuai dengan kaidah bahasa yang bersangkutan. Pola khusus ini membedakannya dari frasa atau kombinasi kata—kombinasi morfem yang bukan kata majemuk. Pembatasan ini berlaku untuk sejumlah dimensi, dan persamaan kosinus paling sering digunakan dalam ruang positif berdimensi tinggi. Misalnya, dalam pencarian informasi dan penambangan teks, setiap istilah secara tidak langsung diberi dimensi yang berbeda, dan dokumen diberi label sebagai vektor, di mana nilai di setiap dimensi sesuai dengan berapa kali istilah tersebut muncul dalam dokumen. Kesamaan cosine kemudian memberikan ukuran yang berguna tentang seberapa mirip dua dokumen dalam hal topik. Pada penelitian ini penggunaan kata majemuk sebagai kata kunci dalam pencarian dokumen menghasilkan dokumen yang lebih tepat. Data yang digunakan sebanyak 15 file. Data yang mengandung kata majemuk sebanyak 10 file. Data 5 dokumen tanpa kata majemuk. Hasil pencarian dengan menggunakan algoritma kesamaan menghasilkan nilai kesamaan yang tinggi, namun 33,3% kata majemuk tidak ada. Dan hasil pencarian dengan nilai kemiripan lebih rendah tetapi mengandung kata majemuk sebesar 66,3%. Sehingga dengan adanya penambahan data berupa kata majemuk di dalam pencarian membuat hasilnya lebih baik. \n ","PeriodicalId":254900,"journal":{"name":"Jurnal Dinamika Informatika","volume":"11 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2022-03-31","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"1","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Jurnal Dinamika Informatika","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.35315/informatika.v14i1.9160","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 1

Abstract

Kata majemuk gabungan morfem dasar yang kesemuanya berstatus kata dengan pola fonetik, gramatikal, dan semantik tertentu sesuai dengan kaidah bahasa yang bersangkutan. Pola khusus ini membedakannya dari frasa atau kombinasi kata—kombinasi morfem yang bukan kata majemuk. Pembatasan ini berlaku untuk sejumlah dimensi, dan persamaan kosinus paling sering digunakan dalam ruang positif berdimensi tinggi. Misalnya, dalam pencarian informasi dan penambangan teks, setiap istilah secara tidak langsung diberi dimensi yang berbeda, dan dokumen diberi label sebagai vektor, di mana nilai di setiap dimensi sesuai dengan berapa kali istilah tersebut muncul dalam dokumen. Kesamaan cosine kemudian memberikan ukuran yang berguna tentang seberapa mirip dua dokumen dalam hal topik. Pada penelitian ini penggunaan kata majemuk sebagai kata kunci dalam pencarian dokumen menghasilkan dokumen yang lebih tepat. Data yang digunakan sebanyak 15 file. Data yang mengandung kata majemuk sebanyak 10 file. Data 5 dokumen tanpa kata majemuk. Hasil pencarian dengan menggunakan algoritma kesamaan menghasilkan nilai kesamaan yang tinggi, namun 33,3% kata majemuk tidak ada. Dan hasil pencarian dengan nilai kemiripan lebih rendah tetapi mengandung kata majemuk sebesar 66,3%. Sehingga dengan adanya penambahan data berupa kata majemuk di dalam pencarian membuat hasilnya lebih baik.  
使用JACCARD SIMILARITY增强基于复合词的信息集合系统结果
根据相关的语言规则,复合的词根语素构成了所有单词的语音状态、语法和语义模式。这种特殊的模式将其与短语或单词组合区分开来——不是复合单词的morfem组合。这些限制适用于许多维度,余弦方程最常用于高维正空间。例如,在对信息和文本的搜索中,每个术语都被间接地给予不同的维度,文件被标记为一个向量,每个维度的值对应于该术语在文档中出现的次数。cosine的相似性提供了一个有用的度量,即在主题问题上多么相似。在这项研究中,在文档搜索中使用复合单词作为关键词会产生更精确的文档。使用了15个文件。包含10个文件的复合单词的数据。5个文件没有复合词。使用相似算法搜索结果产生高匹配值,但33.3%的复合单词不存在。搜索结果相似度较低,但包含复合单词66.3%。因此,在搜索过程中添加复合单词的数据会让结果更好。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 求助全文
来源期刊
自引率
0.00%
发文量
0
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术官方微信