Information Extraction Berbasis Rule Untuk Soal Ujian

Journal of Intelligent System and Computation Pub Date : 2021-07-15 DOI:10.52985/INSYST.V2I1.154

Stefanus Nico Soenardjo, G. Gunawan

{"title":"Information Extraction Berbasis Rule Untuk Soal Ujian","authors":"Stefanus Nico Soenardjo, G. Gunawan","doi":"10.52985/INSYST.V2I1.154","DOIUrl":null,"url":null,"abstract":"Proses information extraction dapat dilakukan pada beberapa macam media, seperti artikel berita, tanya jawab dan sebagainya. Penelitian ini mencoba untuk melakukan information extraction pada media soal ujian yang dilengkapi dengan jawaban. \nPendekatan pengolahan informasi yang dibahas dalam penelitian ini adalah information extraction berbasis rule. Informasi yang hendak digali adalah informasi data soal ujian beserta jawabannya. Inputan dalam penelitian ini pasangan file soal dan jawaban milik Cambridge. Ada beberapa mata pelajaran yang digunakan, yaitu Biologi, Matematika dan Ekonomi. Jenis soal yang digunakan juga ada beberapa macam, yaitu pilihan ganda dan esai. Hasil penelitian ini diharapkan bisa menjadi media pembelajaran. \nPenelitian dilakukan dengan menggunakan sebanyak 100 pasang data soal dan ujian. Sistem akan menerima 2 inputan file dengan format PDF. Kedua file ini merupakan pasangan soal dan jawaban. Proses yang diakukan adalah file akan dirubah menjadi 2, yaitu file HTML dan file PNG. File HTML mengandung semua teks soal dan file PNG mengandung semua gambar dari soal. Sistem akan mengambil teks dan gambar dari masing-masing soal dan jawaban berdasrkan rule yang sudah ditentukan. Penentuan rule dilakukan secara manual dengan mempelajari pola-pola data yang tedapat dalam tag HTML. Setelah proses ekstraksi, soal dan jawaban ini dipasangkan sesuai dengan nomor urutnya masing-masing. Pasangan soal dan jawaban ini kemudian akan disimpan ke dalam database. Dari hasil penelitian, tingkat akurasi yang didapatkan adalah sekitar 46%. Kendala utama yang dihadapi adalah format soal dan jawaban yang tidak strandar sehingga menimbulkan kesulitan dalam proses ekstraksi informasi.","PeriodicalId":183705,"journal":{"name":"Journal of Intelligent System and Computation","volume":"49 3 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2021-07-15","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Journal of Intelligent System and Computation","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.52985/INSYST.V2I1.154","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}

引用次数: 0

Abstract

Proses information extraction dapat dilakukan pada beberapa macam media, seperti artikel berita, tanya jawab dan sebagainya. Penelitian ini mencoba untuk melakukan information extraction pada media soal ujian yang dilengkapi dengan jawaban. Pendekatan pengolahan informasi yang dibahas dalam penelitian ini adalah information extraction berbasis rule. Informasi yang hendak digali adalah informasi data soal ujian beserta jawabannya. Inputan dalam penelitian ini pasangan file soal dan jawaban milik Cambridge. Ada beberapa mata pelajaran yang digunakan, yaitu Biologi, Matematika dan Ekonomi. Jenis soal yang digunakan juga ada beberapa macam, yaitu pilihan ganda dan esai. Hasil penelitian ini diharapkan bisa menjadi media pembelajaran. Penelitian dilakukan dengan menggunakan sebanyak 100 pasang data soal dan ujian. Sistem akan menerima 2 inputan file dengan format PDF. Kedua file ini merupakan pasangan soal dan jawaban. Proses yang diakukan adalah file akan dirubah menjadi 2, yaitu file HTML dan file PNG. File HTML mengandung semua teks soal dan file PNG mengandung semua gambar dari soal. Sistem akan mengambil teks dan gambar dari masing-masing soal dan jawaban berdasrkan rule yang sudah ditentukan. Penentuan rule dilakukan secara manual dengan mempelajari pola-pola data yang tedapat dalam tag HTML. Setelah proses ekstraksi, soal dan jawaban ini dipasangkan sesuai dengan nomor urutnya masing-masing. Pasangan soal dan jawaban ini kemudian akan disimpan ke dalam database. Dari hasil penelitian, tingkat akurasi yang didapatkan adalah sekitar 46%. Kendala utama yang dihadapi adalah format soal dan jawaban yang tidak strandar sehingga menimbulkan kesulitan dalam proses ekstraksi informasi.

查看原文本刊更多论文

信息提取过程可以进行一些什么样的媒体,比如新闻文章、问答等。本研究试图对媒体发布带有答案的信息。这项研究中讨论的处理信息的方法是资讯网基于规则的提取。要挖掘的资料包括考试资料和答案。Inputan对照研究中,这一对关于文件和剑桥的答案。我们使用了一些学科，包括生物学、数学和经济学。关于使用的也有一些什么样的类型,就是多项选择题和作文。这些研究结果有望成为学习的媒介。这项研究使用了大约100对题和测试数据来完成。系统将接受2 inputan PDF格式的文件。这两个文件都是关于和答案的配对。diakukan是会变成两个文件的过程,即HTML文件和PNG文件。HTML文件包含所有文本的图片和PNG文件含有所有的问题。系统要从各自的文本和图像,并将答案berdasrkan预定的规则。对于确定规则手动完成通过学习HTML那里有标签的数据模式。提取过程后,这个问题和答案按照电话号码号码分别配对。关于伴侣然后这个答案会保存到数据库中。得到的研究结果,精确度大约是46%。面临的主要障碍是关于格式和答案不strandar导致困难的过程中提取信息。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

求助全文

约1分钟内获得全文求助全文

来源期刊

Journal of Intelligent System and Computation

自引率

0.00%

发文量