{"title":"A Digitális Örökség Nemzeti Laboratórium webszolgáltatásai automatikus kézírás-felismertetéshez","authors":"Gábor Palkó, István Szekrényes, Barbara Bobák","doi":"10.31915/nws.2023.24","DOIUrl":null,"url":null,"abstract":"Fejlesztési projektünk célja, hogy a csak kézírásos formában elérhető gyűjtemények feldolgozásához egy olyan ingyenesen használható, nyílt hozzáférésű eszközökre épülő platformot biztosítson, amellyel az eredetileg képként tárolt anyagokból kereshető, digitális feldolgozásra valóban alkalmas dokumentumok hozhatók létre. A kézírás felismertetésére a TrOCR eszközhöz elérhető alapmodelleket finomhangoltunk magyar, illetve latin nyelvre a Transcribus szolgáltatásával összehasonlítható eredménnyel. Jelenleg három modell áll rendelkezésre: a 900 oldalnyi, többszerzős Arany János levelezésen és hivatali iratokon tanított modell magyar nyelvű szövegekhez, a Rerum Ungaricarum Libri korpusz 200 oldalán tanított modell latin nyelvű kódexekhez, a Magyar Nemzeti Levéltártól kapott 200 oldalnyi anyagon tanított modell pedig levéltári iratok feldolgozásához. A szolgáltatás egy webes interfészen és Rest API-n keresztül is igénybe vehető.","PeriodicalId":510117,"journal":{"name":"Új technológiákkal, új tartalmakkal a jövő digitális transzformációja felé : 32. Networkshop: országos konferencia : 2023. április 12-14. Pannon Egyetem, Veszprém","volume":"181 1","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2023-12-16","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Új technológiákkal, új tartalmakkal a jövő digitális transzformációja felé : 32. Networkshop: országos konferencia : 2023. április 12-14. Pannon Egyetem, Veszprém","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.31915/nws.2023.24","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0
Abstract
Fejlesztési projektünk célja, hogy a csak kézírásos formában elérhető gyűjtemények feldolgozásához egy olyan ingyenesen használható, nyílt hozzáférésű eszközökre épülő platformot biztosítson, amellyel az eredetileg képként tárolt anyagokból kereshető, digitális feldolgozásra valóban alkalmas dokumentumok hozhatók létre. A kézírás felismertetésére a TrOCR eszközhöz elérhető alapmodelleket finomhangoltunk magyar, illetve latin nyelvre a Transcribus szolgáltatásával összehasonlítható eredménnyel. Jelenleg három modell áll rendelkezésre: a 900 oldalnyi, többszerzős Arany János levelezésen és hivatali iratokon tanított modell magyar nyelvű szövegekhez, a Rerum Ungaricarum Libri korpusz 200 oldalán tanított modell latin nyelvű kódexekhez, a Magyar Nemzeti Levéltártól kapott 200 oldalnyi anyagon tanított modell pedig levéltári iratok feldolgozásához. A szolgáltatás egy webes interfészen és Rest API-n keresztül is igénybe vehető.