TEXT SUMMARIZATION PADA ARTIKEL BERITA MENGGUNAKAN VECTOR SPACE MODEL DAN COSINE SIMILARITY

Mardi Siswo Utomo, Jati Sasongko Wibowo, E. Wahyudi
{"title":"TEXT SUMMARIZATION PADA ARTIKEL BERITA MENGGUNAKAN VECTOR SPACE MODEL DAN COSINE SIMILARITY","authors":"Mardi Siswo Utomo, Jati Sasongko Wibowo, E. Wahyudi","doi":"10.35315/informatika.v14i1.9163","DOIUrl":null,"url":null,"abstract":"Sebuah artikel yang panjang akan membuat pembaca membutuhkan waktu yang lebih lama untuk dapat menyelesaikan bacaan dan pemahamannya. Sehingga dibutuhkan sebuah bentuk ringkasan untuk mempercepat pembaca dalam memahami secara singkat isi dari artikel secara keseluruhan. Umumnya ringkasan dibuat oleh penulis dalam bentuk tulisan manual untuk menggambarkan isi keseluruhan artikel. Sehingga dibutuhkan untuk membuat ringkasan secara otomatis dengan tidak merubah isi substansi dari artikel. Meringkas secara otomatis menggunakan metode vector space model dan cosine similarity. VSM digunakan untuk memberikan bobot nilai pada semua kata yang ada di artikel. CS digunakan untuk menghitung kemiripan antara judul artikel dengan isi artikel. Selain kedua algoritma yang telah disebutkan, masih ada beberapa proses atau metode yang dilakukan khususnya pada tahap pre-processing. Diantaranya crawling, tokenization, punctuation removal, stopword, dan stemming. Hasil dari pre-processing ini baru kemudian dilakukan proses menggunakan algoritma vector space model dan cosine similarity, dan terakhir diurutkan berdasarkan nilai cosine similarity tertinggi. Hasil dari proses peringkasan berupa sebuah paragraf yang diambil dari beberapa kalimat yang mempunyai nilai kemiripan dengan judul paling tinggi. Pada penelitian ini dari 104 kalimat yang ada pada artikel di dapat 5 kalimat yang mempunyai nilai kemiripan paling tinggi. Lima kalimat ini dijadikan satu paragraf sebagai hasil dari proses peringkasan artikel.","PeriodicalId":254900,"journal":{"name":"Jurnal Dinamika Informatika","volume":"27 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2022-03-31","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"1","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Jurnal Dinamika Informatika","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.35315/informatika.v14i1.9163","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 1

Abstract

Sebuah artikel yang panjang akan membuat pembaca membutuhkan waktu yang lebih lama untuk dapat menyelesaikan bacaan dan pemahamannya. Sehingga dibutuhkan sebuah bentuk ringkasan untuk mempercepat pembaca dalam memahami secara singkat isi dari artikel secara keseluruhan. Umumnya ringkasan dibuat oleh penulis dalam bentuk tulisan manual untuk menggambarkan isi keseluruhan artikel. Sehingga dibutuhkan untuk membuat ringkasan secara otomatis dengan tidak merubah isi substansi dari artikel. Meringkas secara otomatis menggunakan metode vector space model dan cosine similarity. VSM digunakan untuk memberikan bobot nilai pada semua kata yang ada di artikel. CS digunakan untuk menghitung kemiripan antara judul artikel dengan isi artikel. Selain kedua algoritma yang telah disebutkan, masih ada beberapa proses atau metode yang dilakukan khususnya pada tahap pre-processing. Diantaranya crawling, tokenization, punctuation removal, stopword, dan stemming. Hasil dari pre-processing ini baru kemudian dilakukan proses menggunakan algoritma vector space model dan cosine similarity, dan terakhir diurutkan berdasarkan nilai cosine similarity tertinggi. Hasil dari proses peringkasan berupa sebuah paragraf yang diambil dari beberapa kalimat yang mempunyai nilai kemiripan dengan judul paling tinggi. Pada penelitian ini dari 104 kalimat yang ada pada artikel di dapat 5 kalimat yang mempunyai nilai kemiripan paling tinggi. Lima kalimat ini dijadikan satu paragraf sebagai hasil dari proses peringkasan artikel.
文本摘要帕达·阿蒂克尔·贝里塔·蒙古纳坎向量空间模型丹余弦相似度
一篇长文章会让读者花更长的时间来完成他们的阅读和理解。因此,它需要一种总结形式,以加速读者对整篇文章内容的简要理解。作者通常用手工写作来描述整篇文章的内容。因此,我们需要通过不改变文章的内容来自动总结。自动摘要使用向量空间模型和共生体方法。VSM是用来给文章中所有单词赋予价值的。CS用来计算标题和文章内容之间的相似性。除了上述两种算法之外,还存在一些进程或方法,特别是在处理前阶段。有爬行、戒烟、惩罚、终止和印章。最近,这种预处理的结果使用了向量空间模型和共生体算法进行,最后根据最高共生体值进行排序。根据与最高标题相似的几个句子进行排序过程的结果。在这项研究中,文章中104个句子中发现了5个最相似的句子。这五句话是文章排版结果的一段。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 求助全文
来源期刊
自引率
0.00%
发文量
0
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术官方微信