Adeline Granet, E. Morin, H. Mouchère, Solen Quiniou, C. Viard-Gaudin
{"title":"历史文献书写识别的初步研究","authors":"Adeline Granet, E. Morin, H. Mouchère, Solen Quiniou, C. Viard-Gaudin","doi":"10.24348/coria.2017.RJCRI_11","DOIUrl":null,"url":null,"abstract":"Ce travail s'interesse a l'extraction d'informations dans les registres comptables de la Comedie-Italienne du XVIII e siecle. Ces derniers renferment des informations precieuses pour des chercheurs en sciences humaines et sociales qui travaillent sur l'acculturation des acteurs italiens de cette epoque. L'extraction d'informations, dans des documents anciens non encore etudies, est un processus long et complexe qui demande une expertise a chaque etape : detection et segmentation en blocs, lignes ou mots, extraction de caracteristiques, reconnaissance d'ecri-ture manuscrite. Les reseaux de neurones recurrents, de type BLSTM, avec un decodage CTC constituent une des methodes les plus prometteuses en reconnaissance d'ecriture, pour realiser l'etiquetage d'une sequence donnee en entree et produire un resultat de reconnaissance. Cet article presente une etude preliminaire de l'utilisation de ce type de reseau de neurones pour une premiere tâche : la reconnaissance des titres des pieces de theâtre, dans des documents historiques multilingues (francais et italien) utilisant un vocabulaire ferme et essentiellement compose d'entites nommees.","PeriodicalId":390974,"journal":{"name":"Conférence en Recherche d'Infomations et Applications","volume":"50 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2017-03-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"2","resultStr":"{\"title\":\"Étude préliminaire de reconnaissance d'écriture sur des documents historiques\",\"authors\":\"Adeline Granet, E. Morin, H. Mouchère, Solen Quiniou, C. Viard-Gaudin\",\"doi\":\"10.24348/coria.2017.RJCRI_11\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"Ce travail s'interesse a l'extraction d'informations dans les registres comptables de la Comedie-Italienne du XVIII e siecle. Ces derniers renferment des informations precieuses pour des chercheurs en sciences humaines et sociales qui travaillent sur l'acculturation des acteurs italiens de cette epoque. L'extraction d'informations, dans des documents anciens non encore etudies, est un processus long et complexe qui demande une expertise a chaque etape : detection et segmentation en blocs, lignes ou mots, extraction de caracteristiques, reconnaissance d'ecri-ture manuscrite. Les reseaux de neurones recurrents, de type BLSTM, avec un decodage CTC constituent une des methodes les plus prometteuses en reconnaissance d'ecriture, pour realiser l'etiquetage d'une sequence donnee en entree et produire un resultat de reconnaissance. Cet article presente une etude preliminaire de l'utilisation de ce type de reseau de neurones pour une premiere tâche : la reconnaissance des titres des pieces de theâtre, dans des documents historiques multilingues (francais et italien) utilisant un vocabulaire ferme et essentiellement compose d'entites nommees.\",\"PeriodicalId\":390974,\"journal\":{\"name\":\"Conférence en Recherche d'Infomations et Applications\",\"volume\":\"50 1\",\"pages\":\"0\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2017-03-01\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"2\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Conférence en Recherche d'Infomations et Applications\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.24348/coria.2017.RJCRI_11\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Conférence en Recherche d'Infomations et Applications","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.24348/coria.2017.RJCRI_11","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
Étude préliminaire de reconnaissance d'écriture sur des documents historiques
Ce travail s'interesse a l'extraction d'informations dans les registres comptables de la Comedie-Italienne du XVIII e siecle. Ces derniers renferment des informations precieuses pour des chercheurs en sciences humaines et sociales qui travaillent sur l'acculturation des acteurs italiens de cette epoque. L'extraction d'informations, dans des documents anciens non encore etudies, est un processus long et complexe qui demande une expertise a chaque etape : detection et segmentation en blocs, lignes ou mots, extraction de caracteristiques, reconnaissance d'ecri-ture manuscrite. Les reseaux de neurones recurrents, de type BLSTM, avec un decodage CTC constituent une des methodes les plus prometteuses en reconnaissance d'ecriture, pour realiser l'etiquetage d'une sequence donnee en entree et produire un resultat de reconnaissance. Cet article presente une etude preliminaire de l'utilisation de ce type de reseau de neurones pour une premiere tâche : la reconnaissance des titres des pieces de theâtre, dans des documents historiques multilingues (francais et italien) utilisant un vocabulaire ferme et essentiellement compose d'entites nommees.