基于余弦相似性和同义词数据库的意义相似性度量

Jurnal Teknologi Informasi dan Ilmu Komputer Pub Date : 2023-08-30 DOI:10.25126/jtiik.20241046864

Ardi Sanjaya, Ahmad Bagus Setiawan, Umi Mahdiyah, Intan Nur Farida, Aprisa Risky Prasetyo

{"title":"基于余弦相似性和同义词数据库的意义相似性度量","authors":"Ardi Sanjaya, Ahmad Bagus Setiawan, Umi Mahdiyah, Intan Nur Farida, Aprisa Risky Prasetyo","doi":"10.25126/jtiik.20241046864","DOIUrl":null,"url":null,"abstract":"Penelitian ini bertujuan untuk memberikan alternatif dalam menguji kemiripan makna antar 2 kalimat. Pembentukan database sinonim kata dilakukan dengan mengelompokkan kata berdasar sinonim atau yang memiliki kesamaan arti. Masing-masing kelompok kata diberikan ID unik. Selanjutnya setiap kelompok kata dipecah untuk diuraikan menjadi kata tunggal, disimpan pada tabel kata dengan melabeli ID kata dan ID sinonim. ID sinonim didasarkan pada ID unik pada tabel sinonim. Dalam pengujian kemiripan makna, masing-masing kalimat akan di urai menjadi kata dan tiap-tiap kata akan dicocokkan berdasarkan tabel kata dengan acuan ID sinonim. ID Sinonim yang didapat kemudian dilakukan pengukuran jarak vektor dan kemiripan menggunakan rumus cosine similarity. Berdasarkan pengujian dan analisa yang telah dilakukan, dari 25 pengujian didapati 24 nilai kemiripan mengalami peningkatan prosentase. Hal tersebut dikarenakan penggunaan ID yang didasarkan pada kelompok kata dan irisan saat proses pembobotan mampu meningkatkan nilai kemiripan. Rata-rata nilai kemiripan pada penggunaan ID sebagai vektor hitung adalah 94,48% dan rata-rata nilai kemiripan pada metode atau alur pembanding adalah sebesar 69,96%. AbstractThis study aims to provide an alternative in testing the similarity of meaning between 2 sentences. The formation of a word synonym database is done by grouping words based on synonyms or those that have the same meaning. Each group of words is assigned a unique ID. Furthermore, each group of words is broken down to be broken down into single words, stored in the word table labeled word ID and synonym ID. Synonym ID is based on the unique ID in the synonym table. In testing the similarity of meaning, each sentence will be broken down into words and each word will be matched based on the word table with synonym ID references. The synonym ID obtained is then measured by measuring the vector distance and similarity using the cosine similarity formula. Based on the tests and analyzes that have been carried out, out of 25 tests it was found that 24 similarity values experienced an increase in the percentage. This is because the use of ID based on word groups and slices during the weighting process can increase the similarity value. The average similarity value in the use of ID as a calculating vector is 94.48% and the average similarity value in the comparison method or plot is 69.96%.","PeriodicalId":32501,"journal":{"name":"Jurnal Teknologi Informasi dan Ilmu Komputer","volume":" ","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2023-08-30","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"Pengukuran Kemiripan Makna Menggunakan Cosine Similarity dan Basis Data Sinonim Kata\",\"authors\":\"Ardi Sanjaya, Ahmad Bagus Setiawan, Umi Mahdiyah, Intan Nur Farida, Aprisa Risky Prasetyo\",\"doi\":\"10.25126/jtiik.20241046864\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"Penelitian ini bertujuan untuk memberikan alternatif dalam menguji kemiripan makna antar 2 kalimat. Pembentukan database sinonim kata dilakukan dengan mengelompokkan kata berdasar sinonim atau yang memiliki kesamaan arti. Masing-masing kelompok kata diberikan ID unik. Selanjutnya setiap kelompok kata dipecah untuk diuraikan menjadi kata tunggal, disimpan pada tabel kata dengan melabeli ID kata dan ID sinonim. ID sinonim didasarkan pada ID unik pada tabel sinonim. Dalam pengujian kemiripan makna, masing-masing kalimat akan di urai menjadi kata dan tiap-tiap kata akan dicocokkan berdasarkan tabel kata dengan acuan ID sinonim. ID Sinonim yang didapat kemudian dilakukan pengukuran jarak vektor dan kemiripan menggunakan rumus cosine similarity. Berdasarkan pengujian dan analisa yang telah dilakukan, dari 25 pengujian didapati 24 nilai kemiripan mengalami peningkatan prosentase. Hal tersebut dikarenakan penggunaan ID yang didasarkan pada kelompok kata dan irisan saat proses pembobotan mampu meningkatkan nilai kemiripan. Rata-rata nilai kemiripan pada penggunaan ID sebagai vektor hitung adalah 94,48% dan rata-rata nilai kemiripan pada metode atau alur pembanding adalah sebesar 69,96%. AbstractThis study aims to provide an alternative in testing the similarity of meaning between 2 sentences. The formation of a word synonym database is done by grouping words based on synonyms or those that have the same meaning. Each group of words is assigned a unique ID. Furthermore, each group of words is broken down to be broken down into single words, stored in the word table labeled word ID and synonym ID. Synonym ID is based on the unique ID in the synonym table. In testing the similarity of meaning, each sentence will be broken down into words and each word will be matched based on the word table with synonym ID references. The synonym ID obtained is then measured by measuring the vector distance and similarity using the cosine similarity formula. Based on the tests and analyzes that have been carried out, out of 25 tests it was found that 24 similarity values experienced an increase in the percentage. This is because the use of ID based on word groups and slices during the weighting process can increase the similarity value. The average similarity value in the use of ID as a calculating vector is 94.48% and the average similarity value in the comparison method or plot is 69.96%.\",\"PeriodicalId\":32501,\"journal\":{\"name\":\"Jurnal Teknologi Informasi dan Ilmu Komputer\",\"volume\":\" \",\"pages\":\"\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2023-08-30\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Jurnal Teknologi Informasi dan Ilmu Komputer\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.25126/jtiik.20241046864\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Jurnal Teknologi Informasi dan Ilmu Komputer","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.25126/jtiik.20241046864","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}

引用次数: 0

摘要

本研究旨在为测试两个句子之间的相似性提供一种替代方法。同义词数据库的创建是通过基于同义词或具有相似含义的词进行分组来完成的。每个单词组都有一个唯一的ID。接下来，通过标记单词ID和同义词ID，将每个单词组分割成单个单词，存储在单词表上。同义词ID基于同义词表上的唯一ID。在相似性测试中，每个句子将被拼写成一个单词，每个单词将根据具有同义ID锐音符的单词表进行匹配。然后获得的同义词ID使用余弦相似度来测量向量距离和相似度。根据已经进行的测试和分析，在25次测试中，获得了24个类似的值，并增加了百分比。这是因为在去除处理时使用基于单词组和对齐的ID能够增加相似性值。与使用ID作为计算向量的相似性的平均值为94.48%，与方法或比较线的相似性平均值为69.96%。摘要本研究旨在为测试两个句子之间的意思相似性提供一种替代方法。同义词数据库的形成是通过基于同义词或具有相同含义的同义词对单词进行分组来完成的。每组单词被分配一个唯一的ID。此外，每组单词被分解为单个单词，存储在标记为单词ID和同义词ID的单词表中。同义词ID基于同义词表中的唯一ID。在测试意思的相似性时，每个句子将被分解为单词，每个单词将根据单词表与同义词ID参考进行匹配。然后通过使用余弦相似度公式测量向量距离和相似度来测量所获得的同义词ID。根据已经进行的测试和分析，在25次测试中，发现24个相似性值的百分比有所增加。这是因为在加权过程中使用基于单词组和切片的ID可以增加相似性值。使用ID作为计算向量时的平均相似性值为94.48%，比较方法或图中的平均相似值为69.96%。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

查看原文本刊更多论文

Pengukuran Kemiripan Makna Menggunakan Cosine Similarity dan Basis Data Sinonim Kata

Penelitian ini bertujuan untuk memberikan alternatif dalam menguji kemiripan makna antar 2 kalimat. Pembentukan database sinonim kata dilakukan dengan mengelompokkan kata berdasar sinonim atau yang memiliki kesamaan arti. Masing-masing kelompok kata diberikan ID unik. Selanjutnya setiap kelompok kata dipecah untuk diuraikan menjadi kata tunggal, disimpan pada tabel kata dengan melabeli ID kata dan ID sinonim. ID sinonim didasarkan pada ID unik pada tabel sinonim. Dalam pengujian kemiripan makna, masing-masing kalimat akan di urai menjadi kata dan tiap-tiap kata akan dicocokkan berdasarkan tabel kata dengan acuan ID sinonim. ID Sinonim yang didapat kemudian dilakukan pengukuran jarak vektor dan kemiripan menggunakan rumus cosine similarity. Berdasarkan pengujian dan analisa yang telah dilakukan, dari 25 pengujian didapati 24 nilai kemiripan mengalami peningkatan prosentase. Hal tersebut dikarenakan penggunaan ID yang didasarkan pada kelompok kata dan irisan saat proses pembobotan mampu meningkatkan nilai kemiripan. Rata-rata nilai kemiripan pada penggunaan ID sebagai vektor hitung adalah 94,48% dan rata-rata nilai kemiripan pada metode atau alur pembanding adalah sebesar 69,96%. AbstractThis study aims to provide an alternative in testing the similarity of meaning between 2 sentences. The formation of a word synonym database is done by grouping words based on synonyms or those that have the same meaning. Each group of words is assigned a unique ID. Furthermore, each group of words is broken down to be broken down into single words, stored in the word table labeled word ID and synonym ID. Synonym ID is based on the unique ID in the synonym table. In testing the similarity of meaning, each sentence will be broken down into words and each word will be matched based on the word table with synonym ID references. The synonym ID obtained is then measured by measuring the vector distance and similarity using the cosine similarity formula. Based on the tests and analyzes that have been carried out, out of 25 tests it was found that 24 similarity values experienced an increase in the percentage. This is because the use of ID based on word groups and slices during the weighting process can increase the similarity value. The average similarity value in the use of ID as a calculating vector is 94.48% and the average similarity value in the comparison method or plot is 69.96%.

求助全文

通过发布文献求助，成功后即可免费获取论文全文。去求助

来源期刊

Jurnal Teknologi Informasi dan Ilmu Komputer

自引率

0.00%

发文量

审稿时长

16 weeks