Étude préliminaire de reconnaissance d'écriture sur des documents historiques

Adeline Granet, E. Morin, H. Mouchère, Solen Quiniou, C. Viard-Gaudin
{"title":"Étude préliminaire de reconnaissance d'écriture sur des documents historiques","authors":"Adeline Granet, E. Morin, H. Mouchère, Solen Quiniou, C. Viard-Gaudin","doi":"10.24348/coria.2017.RJCRI_11","DOIUrl":null,"url":null,"abstract":"Ce travail s'interesse a l'extraction d'informations dans les registres comptables de la Comedie-Italienne du XVIII e siecle. Ces derniers renferment des informations precieuses pour des chercheurs en sciences humaines et sociales qui travaillent sur l'acculturation des acteurs italiens de cette epoque. L'extraction d'informations, dans des documents anciens non encore etudies, est un processus long et complexe qui demande une expertise a chaque etape : detection et segmentation en blocs, lignes ou mots, extraction de caracteristiques, reconnaissance d'ecri-ture manuscrite. Les reseaux de neurones recurrents, de type BLSTM, avec un decodage CTC constituent une des methodes les plus prometteuses en reconnaissance d'ecriture, pour realiser l'etiquetage d'une sequence donnee en entree et produire un resultat de reconnaissance. Cet article presente une etude preliminaire de l'utilisation de ce type de reseau de neurones pour une premiere tâche : la reconnaissance des titres des pieces de theâtre, dans des documents historiques multilingues (francais et italien) utilisant un vocabulaire ferme et essentiellement compose d'entites nommees.","PeriodicalId":390974,"journal":{"name":"Conférence en Recherche d'Infomations et Applications","volume":"50 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2017-03-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"2","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Conférence en Recherche d'Infomations et Applications","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.24348/coria.2017.RJCRI_11","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 2

Abstract

Ce travail s'interesse a l'extraction d'informations dans les registres comptables de la Comedie-Italienne du XVIII e siecle. Ces derniers renferment des informations precieuses pour des chercheurs en sciences humaines et sociales qui travaillent sur l'acculturation des acteurs italiens de cette epoque. L'extraction d'informations, dans des documents anciens non encore etudies, est un processus long et complexe qui demande une expertise a chaque etape : detection et segmentation en blocs, lignes ou mots, extraction de caracteristiques, reconnaissance d'ecri-ture manuscrite. Les reseaux de neurones recurrents, de type BLSTM, avec un decodage CTC constituent une des methodes les plus prometteuses en reconnaissance d'ecriture, pour realiser l'etiquetage d'une sequence donnee en entree et produire un resultat de reconnaissance. Cet article presente une etude preliminaire de l'utilisation de ce type de reseau de neurones pour une premiere tâche : la reconnaissance des titres des pieces de theâtre, dans des documents historiques multilingues (francais et italien) utilisant un vocabulaire ferme et essentiellement compose d'entites nommees.
历史文献书写识别的初步研究
这项工作的重点是从18世纪意大利喜剧的会计记录中提取信息。后者为人文和社会科学研究人员提供了宝贵的信息,他们正在研究那个时期意大利演员的文化适应。从尚未研究过的旧文件中提取信息是一个漫长而复杂的过程,每一步都需要专业知识:检测和分割成块、行或字,提取特征,识别手写文字。带有CTC解码的BLSTM类型的递归神经网络是一种最有前途的书写识别方法,它可以在输入中对给定序列进行标记并产生识别结果。本文初步研究了这种类型的神经网络在第一项任务中的使用:在多语言历史文献(法语和意大利语)中识别戏剧作品的标题,使用牢固的词汇,主要由命名实体组成。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 求助全文
来源期刊
自引率
0.00%
发文量
0
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:604180095
Book学术官方微信