{"title":"Large-Scale Optical Character Recognition of Ancient Greek","authors":"Bruce Robertson, Federico Boschetti","doi":"10.3138/MOUS.14.3-3","DOIUrl":null,"url":null,"abstract":"Abstract:This paper documents our campaign to undertake the large-scale optical character recognition of ancient, or polytonic, Greek. Building upon the Gamera OCR engine and developing a suite of post-processing tools, including automatic spellcheck, we processed 1,200 volumes comprising 329,002,271 Greek words. A sample of 10 pages is studied in detail; they demonstrate the degree to which each step of post-processing improved the results, and with which source documents. These pages attain an average character accuracy of about 96%. These results will provide a basis for further improvements, including the training of other open-source OCR engines.Résumé:Cet article rend compte du travail accompli pour mettre sur pied une reconnaissance optique à grande échelle des caractères du grec ancien, ou polytonique. Grâce à la technologie de Gamera OCR et à l'aide d'une série d'outils post-traitement que nous avons développés—dont un correcteur orthographique intégré—, nous avons traité 1 200 volumes, pour un total de 329 002 271 mots grecs. Nous avons étudié en détail un échantillon de dix pages afin de démontrer à quel point chaque étape du post-traitement a amélioré les résultats, en fonction de l'origine du document utilisé. Nous avons obtenu, en moyenne, pour ces pages une lecture précise des caractères à environ 96%. Ces résultats serviront de base pour de futures améliorations, incluant la mise en forme d'autres logiciels libres d'OCR.","PeriodicalId":148727,"journal":{"name":"Echos du monde classique: Classical news and views","volume":"1 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2017-11-24","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"12","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Echos du monde classique: Classical news and views","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.3138/MOUS.14.3-3","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 12
Abstract
Abstract:This paper documents our campaign to undertake the large-scale optical character recognition of ancient, or polytonic, Greek. Building upon the Gamera OCR engine and developing a suite of post-processing tools, including automatic spellcheck, we processed 1,200 volumes comprising 329,002,271 Greek words. A sample of 10 pages is studied in detail; they demonstrate the degree to which each step of post-processing improved the results, and with which source documents. These pages attain an average character accuracy of about 96%. These results will provide a basis for further improvements, including the training of other open-source OCR engines.Résumé:Cet article rend compte du travail accompli pour mettre sur pied une reconnaissance optique à grande échelle des caractères du grec ancien, ou polytonique. Grâce à la technologie de Gamera OCR et à l'aide d'une série d'outils post-traitement que nous avons développés—dont un correcteur orthographique intégré—, nous avons traité 1 200 volumes, pour un total de 329 002 271 mots grecs. Nous avons étudié en détail un échantillon de dix pages afin de démontrer à quel point chaque étape du post-traitement a amélioré les résultats, en fonction de l'origine du document utilisé. Nous avons obtenu, en moyenne, pour ces pages une lecture précise des caractères à environ 96%. Ces résultats serviront de base pour de futures améliorations, incluant la mise en forme d'autres logiciels libres d'OCR.
摘要:本文记录了我们对古希腊语或多音希腊语进行大规模光学字符识别的活动。基于Gamera OCR引擎并开发了一套后处理工具(包括自动拼写检查),我们处理了1200卷,其中包含329,002,271个希腊单词。详细研究了10页的样本;它们演示了后处理的每个步骤对结果的改进程度,以及源文档的改进程度。这些页面的平均字符准确率约为96%。这些结果将为进一步的改进提供基础,包括培训其他开源OCR引擎。汇汇表:汇汇表:汇汇表为汇汇表,汇汇表为汇汇表,汇汇表为汇汇表,汇汇表为汇汇表,汇汇表为汇汇表,汇汇表为汇汇表。grance - la technology de Gamera OCR et - l'aide d'une ssamrie d'outils post- ement que nous avons dsamrie d'outils - not uncorrecter orthograpque insam栅格-,nous avons traitle1 200卷,共de 329 002 271 mots grets。Nous avons samudiedians en samudidians en samudidians en samudidians de didians,在samudidians和samudididians的最后一页,在samudidians和samudididians的最后一页,在文件原件的功能上。在一篇演讲中,我们用了6页的篇幅,在96%的演讲中,我们用了15页的篇幅来描述我们的性格。该组织为今后的各项组织的基础提供了服务,包括组织组织的后勤自由组织。