Ekstraksi Informasi Berbasis Rule untuk Proceeding, Jurnal, dan Technical Report dengan Memanfaatkan Attribut Font dan Paragraf

Journal of Intelligent System and Computation Pub Date : 2020-10-01 DOI:10.52985/insyst.v2i2.163

Christian Aditya Santoso, G. Gunawan

{"title":"Ekstraksi Informasi Berbasis Rule untuk Proceeding, Jurnal, dan Technical Report dengan Memanfaatkan Attribut Font dan Paragraf","authors":"Christian Aditya Santoso, G. Gunawan","doi":"10.52985/insyst.v2i2.163","DOIUrl":null,"url":null,"abstract":"Digital library merupakan solusi yang baik untuk dunia edukasi. Hal ini disebabkan karena buku yang sudah berevolusi menjadi digital. Awalnya dalam bentuk fisik sekarang sudah dalam bentuk digital dengan ekstensi PDF. Namun untuk membangun sebuah digital library merupakan system yang besar dan kompleks, sehingga diperlukan bagian yang banyak. Penelitian ini mengambil satu bagian dari pengembangan system digital library, yaitu pada bagian preprocessing atau persiapan sumber data digital library. Penyedian sumber data digital library sangat luas dan banyak. Fokus dari penelitian ini adalah penyedian data dimana data tersebut adalah jurnal, prosiding dan paper. Dokumen tersebut dipilih karena dinilai memiliki manfaat yang besar untuk edukasi karena peneliti mendokumentasikan hasil penelitian pada dokumen tersebut. Dalam 1 paper tentunya ada bagian yang menjadi kunci yang menggambarkan intisari dari penelitian tersebut. Pada penelitian ini diambil informasi Judul, Abstract, Keyword dan penulis. Informasi tersebut dipercaya mampu menggambarkan intisari dari suatu paper. Proses dilakukan dengan terbagi menjadi 3 bagian besar yaitu konversi file mentah dengan ekstensi PDF menjadi file JSON, Proses pengambilan fitur, Proses ekstraksi informasi. Ekstraksi informasi pada penelitian ini menggunakan kumpulan rule yang diimplementasikan pada software. Rule di dapat dari hasil pengamatan selama penelitian. Hasil dari penelitian dilakukan perhitungan dengan memberikan bobot dimana hal yang terberat memiliki pengaruh yang lebih besar. Ketelitian yang dicapai adalah 81.32% dimana dari hipotesa awal pada ketelitain 80%. Namun masih banyak pengembangan yang bisa dilakukan agar lebih baik lagi pada penelitian selanjutnya","PeriodicalId":183705,"journal":{"name":"Journal of Intelligent System and Computation","volume":"33 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2020-10-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Journal of Intelligent System and Computation","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.52985/insyst.v2i2.163","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}

引用次数: 0

Abstract

Digital library merupakan solusi yang baik untuk dunia edukasi. Hal ini disebabkan karena buku yang sudah berevolusi menjadi digital. Awalnya dalam bentuk fisik sekarang sudah dalam bentuk digital dengan ekstensi PDF. Namun untuk membangun sebuah digital library merupakan system yang besar dan kompleks, sehingga diperlukan bagian yang banyak. Penelitian ini mengambil satu bagian dari pengembangan system digital library, yaitu pada bagian preprocessing atau persiapan sumber data digital library. Penyedian sumber data digital library sangat luas dan banyak. Fokus dari penelitian ini adalah penyedian data dimana data tersebut adalah jurnal, prosiding dan paper. Dokumen tersebut dipilih karena dinilai memiliki manfaat yang besar untuk edukasi karena peneliti mendokumentasikan hasil penelitian pada dokumen tersebut. Dalam 1 paper tentunya ada bagian yang menjadi kunci yang menggambarkan intisari dari penelitian tersebut. Pada penelitian ini diambil informasi Judul, Abstract, Keyword dan penulis. Informasi tersebut dipercaya mampu menggambarkan intisari dari suatu paper. Proses dilakukan dengan terbagi menjadi 3 bagian besar yaitu konversi file mentah dengan ekstensi PDF menjadi file JSON, Proses pengambilan fitur, Proses ekstraksi informasi. Ekstraksi informasi pada penelitian ini menggunakan kumpulan rule yang diimplementasikan pada software. Rule di dapat dari hasil pengamatan selama penelitian. Hasil dari penelitian dilakukan perhitungan dengan memberikan bobot dimana hal yang terberat memiliki pengaruh yang lebih besar. Ketelitian yang dicapai adalah 81.32% dimana dari hipotesa awal pada ketelitain 80%. Namun masih banyak pengembangan yang bisa dilakukan agar lebih baik lagi pada penelitian selanjutnya

查看原文本刊更多论文

提取基于规则的文本、期刊和技术报告的信息，使用字体特征和段落

数字图书馆是教育世界的好方法。这是因为这本书已经进化成数字的了。它最初是物理形式，现在是数字形式，具有PDF扩展。但是要建立一个数字图书馆是一个巨大而复杂的系统，需要很大的部分。该研究包括系统数字库的开发，即预先处理或准备数字图书馆的数据来源。编码库的数字资源是广泛和丰富的。本研究的重点是将这些数据编入期刊、过程和纸张中。之所以选择该文件，是因为它被认为对教育有很大的好处，因为研究人员正在记录对该文件的研究结果。在一篇论文中，必须有一个部分是描述研究本质的关键。在这项研究中，我们获取标题、抽象、关键词和作者。这些信息被认为能够描述纸张的本质。该进程被分成三个主要部分，即将原始文件与PDF扩展转换为JSON文件、功能提取过程、信息提取过程。提取本研究的信息使用一组规则实施的软件。学习期间观察到的规则。这项研究的结果是将最重的东西产生更大影响的重量作为计算结果。研究的精确度为81.32%，早期假设为80%。但是我们可以在进一步的研究中做得更好

本文章由计算机程序翻译，如有差异，请以英文原文为准。

求助全文

约1分钟内获得全文求助全文

来源期刊

Journal of Intelligent System and Computation

自引率

0.00%

发文量