利用网络抓取生成巴厘岛文字数据集，用于基于光学字符识别的巴厘岛文字识别

Jurnal RESISTOR (Rekayasa Sistem Komputer) Pub Date : 2023-08-31 DOI:10.31598/jurnalresistor.v6i2.1475

I. A. Nugraha, Ahmad Asroni, L. Dewi, G. Indrawan

{"title":"利用网络抓取生成巴厘岛文字数据集，用于基于光学字符识别的巴厘岛文字识别","authors":"I. A. Nugraha, Ahmad Asroni, L. Dewi, G. Indrawan","doi":"10.31598/jurnalresistor.v6i2.1475","DOIUrl":null,"url":null,"abstract":"Dataset gambar aksara Bali yang besar dan komprehensif adalah sumber daya penting dalam upaya pemeliharaan warisan budaya Bali serta pengembangan aplikasi terkait. Dataset ini memungkinkan analisis mendalam, pengenalan karakter, pemrosesan bahasa, dan pengujian aplikasi seperti pengenalan tulisan otomatis, pengajaran otomatis, dan pemahaman bahasa, yang semuanya mendukung kemajuan dalam pelestarian warisan budaya Bali. Metode penelitian untuk menghasilkan dataset aksara Bali melibatkan akses ke sumber data, analisis struktur web, dan penerapan teknik web scraping dengan JavaScript untuk pengambilan gambar secara otomatis. Dua tahap utama, yaitu inisiasi dan pengumpulan data, memungkinkan pengumpulan dataset dalam jumlah besar dengan efisiensi tinggi, mempercepat proses pengumpulan data dan meningkatkan akurasi dalam penelitian aksara Bali. Data yang digunakan berasal dari kamus bahasa Bali, bahasa Indonesia, dan bahasa Inggris, dengan total 35.319 kata dalam bahasa Bali, yang kemudian dikonversi menjadi aksara Bali. Hasil dari pembuatan dataset ini mencakup 35.319 pasang data berupa gambar teks aksara Bali dan tesk transliterasinya, memiliki potensi besar untuk pelatihan model pengenalan aksara Bali dan penelitian bahasa Bali. Langkah ini menguatkan ketersediaan dataset yang relevan, berkualitas tinggi, dan memiliki nilai signifikan dalam pengembangan teknologi serta penelitian lebih lanjut di bidang bahasa Bali dan pengenalan aksara Bali.","PeriodicalId":164171,"journal":{"name":"Jurnal RESISTOR (Rekayasa Sistem Komputer)","volume":"1 1","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2023-08-31","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"Pembangkitan Dataset Aksara Bali Menggunakan Web Scrapping untuk Pengenalan Aksara Bali Berbasis Optical Character Recognition\",\"authors\":\"I. A. Nugraha, Ahmad Asroni, L. Dewi, G. Indrawan\",\"doi\":\"10.31598/jurnalresistor.v6i2.1475\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"Dataset gambar aksara Bali yang besar dan komprehensif adalah sumber daya penting dalam upaya pemeliharaan warisan budaya Bali serta pengembangan aplikasi terkait. Dataset ini memungkinkan analisis mendalam, pengenalan karakter, pemrosesan bahasa, dan pengujian aplikasi seperti pengenalan tulisan otomatis, pengajaran otomatis, dan pemahaman bahasa, yang semuanya mendukung kemajuan dalam pelestarian warisan budaya Bali. Metode penelitian untuk menghasilkan dataset aksara Bali melibatkan akses ke sumber data, analisis struktur web, dan penerapan teknik web scraping dengan JavaScript untuk pengambilan gambar secara otomatis. Dua tahap utama, yaitu inisiasi dan pengumpulan data, memungkinkan pengumpulan dataset dalam jumlah besar dengan efisiensi tinggi, mempercepat proses pengumpulan data dan meningkatkan akurasi dalam penelitian aksara Bali. Data yang digunakan berasal dari kamus bahasa Bali, bahasa Indonesia, dan bahasa Inggris, dengan total 35.319 kata dalam bahasa Bali, yang kemudian dikonversi menjadi aksara Bali. Hasil dari pembuatan dataset ini mencakup 35.319 pasang data berupa gambar teks aksara Bali dan tesk transliterasinya, memiliki potensi besar untuk pelatihan model pengenalan aksara Bali dan penelitian bahasa Bali. Langkah ini menguatkan ketersediaan dataset yang relevan, berkualitas tinggi, dan memiliki nilai signifikan dalam pengembangan teknologi serta penelitian lebih lanjut di bidang bahasa Bali dan pengenalan aksara Bali.\",\"PeriodicalId\":164171,\"journal\":{\"name\":\"Jurnal RESISTOR (Rekayasa Sistem Komputer)\",\"volume\":\"1 1\",\"pages\":\"\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2023-08-31\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Jurnal RESISTOR (Rekayasa Sistem Komputer)\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.31598/jurnalresistor.v6i2.1475\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Jurnal RESISTOR (Rekayasa Sistem Komputer)","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.31598/jurnalresistor.v6i2.1475","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}

引用次数: 0

摘要

巴厘岛文字图像的大型综合数据集是保护巴厘岛文化遗产和开发相关应用的重要资源。通过该数据集，可以进行深入分析、字符识别、语言处理以及自动文字识别、自动教学和语言理解等应用测试，所有这些都有助于在保护巴厘文化遗产方面取得进展。生成巴厘岛文字数据集的研究方法包括访问数据源、分析网络结构以及应用带 JavaScript 的网络刮擦技术进行自动图像检索。通过启动和数据收集两个主要阶段，可以高效率地收集大量数据集，加快数据收集过程，提高巴厘岛文字研究的准确性。所使用的数据来自巴厘语、印尼语和英语词典，共 35319 个巴厘语单词，然后将其转换为巴厘文字。该数据集的创建结果包括 35,319 对巴厘岛文字文本图像及其音译文本形式的数据，对于训练巴厘岛文字识别模型和巴厘岛语言研究具有巨大潜力。这一步骤加强了相关高质量数据集的可用性，对巴厘岛语言和巴厘岛文字识别领域的技术开发和进一步研究具有重要价值。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

查看原文本刊更多论文

Pembangkitan Dataset Aksara Bali Menggunakan Web Scrapping untuk Pengenalan Aksara Bali Berbasis Optical Character Recognition

Dataset gambar aksara Bali yang besar dan komprehensif adalah sumber daya penting dalam upaya pemeliharaan warisan budaya Bali serta pengembangan aplikasi terkait. Dataset ini memungkinkan analisis mendalam, pengenalan karakter, pemrosesan bahasa, dan pengujian aplikasi seperti pengenalan tulisan otomatis, pengajaran otomatis, dan pemahaman bahasa, yang semuanya mendukung kemajuan dalam pelestarian warisan budaya Bali. Metode penelitian untuk menghasilkan dataset aksara Bali melibatkan akses ke sumber data, analisis struktur web, dan penerapan teknik web scraping dengan JavaScript untuk pengambilan gambar secara otomatis. Dua tahap utama, yaitu inisiasi dan pengumpulan data, memungkinkan pengumpulan dataset dalam jumlah besar dengan efisiensi tinggi, mempercepat proses pengumpulan data dan meningkatkan akurasi dalam penelitian aksara Bali. Data yang digunakan berasal dari kamus bahasa Bali, bahasa Indonesia, dan bahasa Inggris, dengan total 35.319 kata dalam bahasa Bali, yang kemudian dikonversi menjadi aksara Bali. Hasil dari pembuatan dataset ini mencakup 35.319 pasang data berupa gambar teks aksara Bali dan tesk transliterasinya, memiliki potensi besar untuk pelatihan model pengenalan aksara Bali dan penelitian bahasa Bali. Langkah ini menguatkan ketersediaan dataset yang relevan, berkualitas tinggi, dan memiliki nilai signifikan dalam pengembangan teknologi serta penelitian lebih lanjut di bidang bahasa Bali dan pengenalan aksara Bali.

求助全文

通过发布文献求助，成功后即可免费获取论文全文。去求助

来源期刊

Jurnal RESISTOR (Rekayasa Sistem Komputer)

自引率

0.00%

发文量