Jihad Jihad, Nelly Indriani Widiastuti, K. Dewi
{"title":"SUPPORT VECTOR MACHINE UNTUK EKSTRAKSI DOKUMEN KARYA ILMIAH","authors":"Jihad Jihad, Nelly Indriani Widiastuti, K. Dewi","doi":"10.34010/komputa.v10i2.7202","DOIUrl":null,"url":null,"abstract":"Ekstraksi informasi dokumen karya tulis ilmiah proses ekstraksi karya ilmiah secara otomatis untuk mendapatkan informasi terstruktur. Penelitian bertujuan untuk mengukur performansi Support Vector Machine (SVM) dalam mengektrak informasi didalam karya ilmiah. Dokumen karya ilmiah yang digunakan dalam penelitian ini adalah berupa lembar sampul dan abstrak dari skripsi, yang tersimpan dalam bentuk format .pdf. Setiap dokumen diubah terlebih dahulu ke format text. Hasil mengubah format dokumen masuk ke dalam tahapan persiapan, yaitu filtering, segmentasi, tokenizing, pelabelan, ektraksi fitur, dan seleksi fitur. Fitur yang digunakan dalam penelitian ini ada sebanyak 14 fitur. Hasil dari seleksi fitur setiap dokumen masuk kedalam proses klasifikasi untuk menentukan mengklasifikasi 16 kelas dari setiap dokumen tersebut. Di dalam penelitian ini performansi dari model yang dibuat oleh SVM mengunakan akurasi. Berdasarkan pengujian yang telah dilakukan dengan nilai gamma=0.5, dihasilkan akurasi tanpa Information Gain sebesar 90.68% sementara akurasi dengan Information Gain sebesar 90.99%. Untuk nilai error rate sebesar 9.32%, nilai precision sebesar 93.79%, nilai recall sebesar 90.74% dan nilai f-1 score sebesar 89.21%. Kesalahan yang paling banyak terjadi, pada pengklasifikasian judul lembar sampul. Kesalahan ini terjadi dikarenakan didalam penelitian ini dokumen yang digunakan, lembar sampul dan abstrak karya ilmiah, berasal dari sebuah dokumen yang sama, sehingga judul lembar sampul dan abstrak berisi hal yang sama, sehingga judul lembar sampul sering terklasifikasi judul abstrak.","PeriodicalId":346733,"journal":{"name":"Komputa : Jurnal Ilmiah Komputer dan Informatika","volume":"27 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2021-10-30","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Komputa : Jurnal Ilmiah Komputer dan Informatika","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.34010/komputa.v10i2.7202","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0

摘要

自动提取科学论文论文提取过程中的信息,以获取结构化信息。这项研究的目的是测量从科学工作中提取信息的支持机(SVM)的表现。本研究中使用的科学著作文件包括论文的封面和摘要,以格式保存为格式。每个文档首先被修改成文本格式。将文档格式更改为准备阶段的结果包括过滤、分割、贴标签、贴标签、功能外化和功能选择。这项研究使用的功能共有14个。每个文档特性选择的结果进入分类过程,以确定对每个文档进行16个类的分类。在这些研究中,SVM创建的模型具有准确性。根据所做的测试精度产生伽马值等于0。5,没有信息增益和增益信息准确度高达90。68%,而99%的90万。错误的价值大小的精确率高达9 . 32%,价值93。79%的召回,价值高达90。74%和价值89制造得分高达21%。最常见的错误是在分类版的封面标题中。这种错误的发生是因为在本研究中使用的文件、科学作品的封面和摘要来自同一份文件,因此封面和摘要的标题包含相同的内容,因此封面标题通常被分类为抽象标题。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
SUPPORT VECTOR MACHINE UNTUK EKSTRAKSI DOKUMEN KARYA ILMIAH
Ekstraksi informasi dokumen karya tulis ilmiah proses ekstraksi karya ilmiah secara otomatis untuk mendapatkan informasi terstruktur. Penelitian bertujuan untuk mengukur performansi Support Vector Machine (SVM) dalam mengektrak informasi didalam karya ilmiah. Dokumen karya ilmiah yang digunakan dalam penelitian ini adalah berupa lembar sampul dan abstrak dari skripsi, yang tersimpan dalam bentuk format .pdf. Setiap dokumen diubah terlebih dahulu ke format text. Hasil mengubah format dokumen masuk ke dalam tahapan persiapan, yaitu filtering, segmentasi, tokenizing, pelabelan, ektraksi fitur, dan seleksi fitur. Fitur yang digunakan dalam penelitian ini ada sebanyak 14 fitur. Hasil dari seleksi fitur setiap dokumen masuk kedalam proses klasifikasi untuk menentukan mengklasifikasi 16 kelas dari setiap dokumen tersebut. Di dalam penelitian ini performansi dari model yang dibuat oleh SVM mengunakan akurasi. Berdasarkan pengujian yang telah dilakukan dengan nilai gamma=0.5, dihasilkan akurasi tanpa Information Gain sebesar 90.68% sementara akurasi dengan Information Gain sebesar 90.99%. Untuk nilai error rate sebesar 9.32%, nilai precision sebesar 93.79%, nilai recall sebesar 90.74% dan nilai f-1 score sebesar 89.21%. Kesalahan yang paling banyak terjadi, pada pengklasifikasian judul lembar sampul. Kesalahan ini terjadi dikarenakan didalam penelitian ini dokumen yang digunakan, lembar sampul dan abstrak karya ilmiah, berasal dari sebuah dokumen yang sama, sehingga judul lembar sampul dan abstrak berisi hal yang sama, sehingga judul lembar sampul sering terklasifikasi judul abstrak.
求助全文
通过发布文献求助,成功后即可免费获取论文全文。 去求助
来源期刊
自引率
0.00%
发文量
0
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:604180095
Book学术官方微信