Large-Scale Optical Character Recognition of Ancient Greek

Bruce Robertson, Federico Boschetti
{"title":"Large-Scale Optical Character Recognition of Ancient Greek","authors":"Bruce Robertson, Federico Boschetti","doi":"10.3138/MOUS.14.3-3","DOIUrl":null,"url":null,"abstract":"Abstract:This paper documents our campaign to undertake the large-scale optical character recognition of ancient, or polytonic, Greek. Building upon the Gamera OCR engine and developing a suite of post-processing tools, including automatic spellcheck, we processed 1,200 volumes comprising 329,002,271 Greek words. A sample of 10 pages is studied in detail; they demonstrate the degree to which each step of post-processing improved the results, and with which source documents. These pages attain an average character accuracy of about 96%. These results will provide a basis for further improvements, including the training of other open-source OCR engines.Résumé:Cet article rend compte du travail accompli pour mettre sur pied une reconnaissance optique à grande échelle des caractères du grec ancien, ou polytonique. Grâce à la technologie de Gamera OCR et à l'aide d'une série d'outils post-traitement que nous avons développés—dont un correcteur orthographique intégré—, nous avons traité 1 200 volumes, pour un total de 329 002 271 mots grecs. Nous avons étudié en détail un échantillon de dix pages afin de démontrer à quel point chaque étape du post-traitement a amélioré les résultats, en fonction de l'origine du document utilisé. Nous avons obtenu, en moyenne, pour ces pages une lecture précise des caractères à environ 96%. Ces résultats serviront de base pour de futures améliorations, incluant la mise en forme d'autres logiciels libres d'OCR.","PeriodicalId":148727,"journal":{"name":"Echos du monde classique: Classical news and views","volume":"1 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2017-11-24","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"12","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Echos du monde classique: Classical news and views","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.3138/MOUS.14.3-3","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 12

Abstract

Abstract:This paper documents our campaign to undertake the large-scale optical character recognition of ancient, or polytonic, Greek. Building upon the Gamera OCR engine and developing a suite of post-processing tools, including automatic spellcheck, we processed 1,200 volumes comprising 329,002,271 Greek words. A sample of 10 pages is studied in detail; they demonstrate the degree to which each step of post-processing improved the results, and with which source documents. These pages attain an average character accuracy of about 96%. These results will provide a basis for further improvements, including the training of other open-source OCR engines.Résumé:Cet article rend compte du travail accompli pour mettre sur pied une reconnaissance optique à grande échelle des caractères du grec ancien, ou polytonique. Grâce à la technologie de Gamera OCR et à l'aide d'une série d'outils post-traitement que nous avons développés—dont un correcteur orthographique intégré—, nous avons traité 1 200 volumes, pour un total de 329 002 271 mots grecs. Nous avons étudié en détail un échantillon de dix pages afin de démontrer à quel point chaque étape du post-traitement a amélioré les résultats, en fonction de l'origine du document utilisé. Nous avons obtenu, en moyenne, pour ces pages une lecture précise des caractères à environ 96%. Ces résultats serviront de base pour de futures améliorations, incluant la mise en forme d'autres logiciels libres d'OCR.
古希腊语大规模光学字符识别
摘要:本文记录了我们对古希腊语或多音希腊语进行大规模光学字符识别的活动。基于Gamera OCR引擎并开发了一套后处理工具(包括自动拼写检查),我们处理了1200卷,其中包含329,002,271个希腊单词。详细研究了10页的样本;它们演示了后处理的每个步骤对结果的改进程度,以及源文档的改进程度。这些页面的平均字符准确率约为96%。这些结果将为进一步的改进提供基础,包括培训其他开源OCR引擎。汇汇表:汇汇表:汇汇表为汇汇表,汇汇表为汇汇表,汇汇表为汇汇表,汇汇表为汇汇表,汇汇表为汇汇表,汇汇表为汇汇表。grance - la technology de Gamera OCR et - l'aide d'une ssamrie d'outils post- ement que nous avons dsamrie d'outils - not uncorrecter orthograpque insam栅格-,nous avons traitle1 200卷,共de 329 002 271 mots grets。Nous avons samudiedians en samudidians en samudidians en samudidians de didians,在samudidians和samudididians的最后一页,在samudidians和samudididians的最后一页,在文件原件的功能上。在一篇演讲中,我们用了6页的篇幅,在96%的演讲中,我们用了15页的篇幅来描述我们的性格。该组织为今后的各项组织的基础提供了服务,包括组织组织的后勤自由组织。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 求助全文
来源期刊
自引率
0.00%
发文量
0
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术官方微信