Adeline Granet, E. Morin, H. Mouchère, Solen Quiniou, C. Viard-Gaudin
{"title":"Étude préliminaire de reconnaissance d'écriture sur des documents historiques","authors":"Adeline Granet, E. Morin, H. Mouchère, Solen Quiniou, C. Viard-Gaudin","doi":"10.24348/coria.2017.RJCRI_11","DOIUrl":null,"url":null,"abstract":"Ce travail s'interesse a l'extraction d'informations dans les registres comptables de la Comedie-Italienne du XVIII e siecle. Ces derniers renferment des informations precieuses pour des chercheurs en sciences humaines et sociales qui travaillent sur l'acculturation des acteurs italiens de cette epoque. L'extraction d'informations, dans des documents anciens non encore etudies, est un processus long et complexe qui demande une expertise a chaque etape : detection et segmentation en blocs, lignes ou mots, extraction de caracteristiques, reconnaissance d'ecri-ture manuscrite. Les reseaux de neurones recurrents, de type BLSTM, avec un decodage CTC constituent une des methodes les plus prometteuses en reconnaissance d'ecriture, pour realiser l'etiquetage d'une sequence donnee en entree et produire un resultat de reconnaissance. Cet article presente une etude preliminaire de l'utilisation de ce type de reseau de neurones pour une premiere tâche : la reconnaissance des titres des pieces de theâtre, dans des documents historiques multilingues (francais et italien) utilisant un vocabulaire ferme et essentiellement compose d'entites nommees.","PeriodicalId":390974,"journal":{"name":"Conférence en Recherche d'Infomations et Applications","volume":"50 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2017-03-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"2","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Conférence en Recherche d'Infomations et Applications","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.24348/coria.2017.RJCRI_11","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 2
Abstract
Ce travail s'interesse a l'extraction d'informations dans les registres comptables de la Comedie-Italienne du XVIII e siecle. Ces derniers renferment des informations precieuses pour des chercheurs en sciences humaines et sociales qui travaillent sur l'acculturation des acteurs italiens de cette epoque. L'extraction d'informations, dans des documents anciens non encore etudies, est un processus long et complexe qui demande une expertise a chaque etape : detection et segmentation en blocs, lignes ou mots, extraction de caracteristiques, reconnaissance d'ecri-ture manuscrite. Les reseaux de neurones recurrents, de type BLSTM, avec un decodage CTC constituent une des methodes les plus prometteuses en reconnaissance d'ecriture, pour realiser l'etiquetage d'une sequence donnee en entree et produire un resultat de reconnaissance. Cet article presente une etude preliminaire de l'utilisation de ce type de reseau de neurones pour une premiere tâche : la reconnaissance des titres des pieces de theâtre, dans des documents historiques multilingues (francais et italien) utilisant un vocabulaire ferme et essentiellement compose d'entites nommees.