A Digitális Örökség Nemzeti Laboratórium webszolgáltatásai automatikus kézírás-felismertetéshez

Gábor Palkó, István Szekrényes, Barbara Bobák
{"title":"A Digitális Örökség Nemzeti Laboratórium webszolgáltatásai automatikus kézírás-felismertetéshez","authors":"Gábor Palkó, István Szekrényes, Barbara Bobák","doi":"10.31915/nws.2023.24","DOIUrl":null,"url":null,"abstract":"Fejlesztési projektünk célja, hogy a csak kézírásos formában elérhető gyűjtemények feldolgozásához egy olyan ingyenesen használható, nyílt hozzáférésű eszközökre épülő platformot biztosítson, amellyel az eredetileg képként tárolt anyagokból kereshető, digitális feldolgozásra valóban alkalmas dokumentumok hozhatók létre. A kézírás felismertetésére a TrOCR eszközhöz elérhető alapmodelleket finomhangoltunk magyar, illetve latin nyelvre a Transcribus szolgáltatásával összehasonlítható eredménnyel. Jelenleg három modell áll rendelkezésre: a 900 oldalnyi, többszerzős Arany János levelezésen és hivatali iratokon tanított modell magyar nyelvű szövegekhez, a Rerum Ungaricarum Libri korpusz 200 oldalán tanított modell latin nyelvű kódexekhez, a Magyar Nemzeti Levéltártól kapott 200 oldalnyi anyagon tanított modell pedig levéltári iratok feldolgozásához. A szolgáltatás egy webes interfészen és Rest API-n keresztül is igénybe vehető.","PeriodicalId":510117,"journal":{"name":"Új technológiákkal, új tartalmakkal a jövő digitális transzformációja felé : 32. Networkshop: országos konferencia : 2023. április 12-14. Pannon Egyetem, Veszprém","volume":"181 1","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2023-12-16","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Új technológiákkal, új tartalmakkal a jövő digitális transzformációja felé : 32. Networkshop: országos konferencia : 2023. április 12-14. Pannon Egyetem, Veszprém","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.31915/nws.2023.24","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0

Abstract

Fejlesztési projektünk célja, hogy a csak kézírásos formában elérhető gyűjtemények feldolgozásához egy olyan ingyenesen használható, nyílt hozzáférésű eszközökre épülő platformot biztosítson, amellyel az eredetileg képként tárolt anyagokból kereshető, digitális feldolgozásra valóban alkalmas dokumentumok hozhatók létre. A kézírás felismertetésére a TrOCR eszközhöz elérhető alapmodelleket finomhangoltunk magyar, illetve latin nyelvre a Transcribus szolgáltatásával összehasonlítható eredménnyel. Jelenleg három modell áll rendelkezésre: a 900 oldalnyi, többszerzős Arany János levelezésen és hivatali iratokon tanított modell magyar nyelvű szövegekhez, a Rerum Ungaricarum Libri korpusz 200 oldalán tanított modell latin nyelvű kódexekhez, a Magyar Nemzeti Levéltártól kapott 200 oldalnyi anyagon tanított modell pedig levéltári iratok feldolgozásához. A szolgáltatás egy webes interfészen és Rest API-n keresztül is igénybe vehető.
国家数字遗产实验室自动手写识别网络服务
我们开发项目的目的是提供一个平台,以免费、开放的工具为基础,处理仅以手稿形式存在的藏书,从最初以图像形式存储的资料中创建真正适合数字处理的可搜索文件。在手写识别方面,TrOCR 工具可用的基本模型已被微调为匈牙利文和拉丁文,结果与 Transcribus 服务相当。目前,该工具有三个模型可供选择:针对匈牙利文的模型是根据 900 页多作者亚诺什-阿拉尼(János Arany)通信和办公室文件制作的;针对拉丁文抄本的模型是根据 200 页 Rerum Ungaricarum Libri 语料制作的;针对处理档案文件的模型是根据 200 页匈牙利国家档案馆资料制作的。该服务可通过网络界面和 Rest API 使用。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 求助全文
来源期刊
自引率
0.00%
发文量
0
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术官方微信