Analyse automatique de documents anciens : tirer parti d’un corpus incomplet, hétérogène et bruité

Karine Abiven, G. Lejeune
{"title":"Analyse automatique de documents anciens : tirer parti d’un corpus incomplet, hétérogène et bruité","authors":"Karine Abiven, G. Lejeune","doi":"10.21494/ISTE.OP.2019.0335","DOIUrl":null,"url":null,"abstract":"Cet article concerne un ensemble de textes anciens (datant du milieu du 17e siecle), que les specialistes d'histoire et de litterature ont l'habitude de nommer \"corpus des mazarinades\". Ces quelque 5500 textes offrent une variete de problematiques qui s'inscrivent pleinement dans le domaine des humanites numeriques. Nous montrons en premier lieu qu'il ne s'agit pas a proprement parler d'un corpus puisqu'on ne dispose pas, malgre un important travail bibliographique sur le sujet, d'une definition ni d'un recensement rigoureux de cet ensemble. Il s'agit ensuite de voir l'impact de cette definition instable sur le travail des chercheurs qui s'interessent a ce \"corpus\", tout en proposant de corriger ces biais grâce a un outillage automatique. Nous montrons que, si le but est d'exploiter le materiau textuel et non de l'interpreter, il est interessant de s'autoriser a traiter des donnees brutes (avec un minimum de traitements preparatoires). Enfin, nous exposons un premier cadre d'application sur la sous-partie de cet ensemble actuellement disponible sous forme numerique : la datation de documents. La methode utilisee se fonde sur une analyse en chaines de caracteres qui permet a la fois de fonctionner sur un corpus partiellement bruite (etats de langue divers, scories de l'ocerisation. . .) et sur un corpus heterogene, comprenant des documents de tailles et surtout de genres tres varies. Nous montrons que, dans certains cas, le bruitage du corpus peut etre un avantage pour certaines tâches de classification, notamment grâce a l'utilisation de methodes exploitant des chaines de caracteres. Les approches en caracteres permettent en effet de surmonter un certain nombre de difficultes liees a la variete des donnees disponibles. Aussi ce travail donne-t-il des outils pour extraire des sous-corpus coherents, pour exploiter des jeux de donnees issus de la numerisation en economisant le post-traitement, et pour identifier des metadonnees manquantes : trois enjeux essentiels pour ce \"corpus\" qui reste encore pour une bonne part a divulguer a la communaute dans un format numerique raisonne.","PeriodicalId":378635,"journal":{"name":"Recherche d’information, document et web sémantique","volume":"191 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2019-02-19","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"1","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Recherche d’information, document et web sémantique","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.21494/ISTE.OP.2019.0335","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 1

Abstract

Cet article concerne un ensemble de textes anciens (datant du milieu du 17e siecle), que les specialistes d'histoire et de litterature ont l'habitude de nommer "corpus des mazarinades". Ces quelque 5500 textes offrent une variete de problematiques qui s'inscrivent pleinement dans le domaine des humanites numeriques. Nous montrons en premier lieu qu'il ne s'agit pas a proprement parler d'un corpus puisqu'on ne dispose pas, malgre un important travail bibliographique sur le sujet, d'une definition ni d'un recensement rigoureux de cet ensemble. Il s'agit ensuite de voir l'impact de cette definition instable sur le travail des chercheurs qui s'interessent a ce "corpus", tout en proposant de corriger ces biais grâce a un outillage automatique. Nous montrons que, si le but est d'exploiter le materiau textuel et non de l'interpreter, il est interessant de s'autoriser a traiter des donnees brutes (avec un minimum de traitements preparatoires). Enfin, nous exposons un premier cadre d'application sur la sous-partie de cet ensemble actuellement disponible sous forme numerique : la datation de documents. La methode utilisee se fonde sur une analyse en chaines de caracteres qui permet a la fois de fonctionner sur un corpus partiellement bruite (etats de langue divers, scories de l'ocerisation. . .) et sur un corpus heterogene, comprenant des documents de tailles et surtout de genres tres varies. Nous montrons que, dans certains cas, le bruitage du corpus peut etre un avantage pour certaines tâches de classification, notamment grâce a l'utilisation de methodes exploitant des chaines de caracteres. Les approches en caracteres permettent en effet de surmonter un certain nombre de difficultes liees a la variete des donnees disponibles. Aussi ce travail donne-t-il des outils pour extraire des sous-corpus coherents, pour exploiter des jeux de donnees issus de la numerisation en economisant le post-traitement, et pour identifier des metadonnees manquantes : trois enjeux essentiels pour ce "corpus" qui reste encore pour une bonne part a divulguer a la communaute dans un format numerique raisonne.
旧文档的自动分析:利用不完整、异构和嘈杂的语料库
这篇文章是关于一组古老的文本(可以追溯到17世纪中期),历史和文学专家通常称之为“马扎里纳语料库”。这5500篇文章提供了一系列完全属于数字人文领域的问题。首先,我们表明,严格地说,它不是一个语料库,因为尽管在这个主题上有大量的文献工作,但对这个集合没有严格的定义或普查。然后,我们必须看到这种不稳定的定义对研究人员工作的影响,他们对这个“语料库”感兴趣,同时建议通过自动工具来纠正这些偏差。我们表明,如果目的是利用文本材料而不是解释它,允许自己处理原始数据(以最少的准备处理)是有趣的。最后,我们提出了这个集合的子部分的第一个应用框架,该子部分目前以数字形式可用:文档的日期。所使用的方法是基于字符串分析,该分析允许对部分嘈杂的语料库(不同的语言状态,ocerisation的渣滓等)和异质语料库进行操作,该语料库包括大小和最重要的是非常不同类型的文件。我们表明,在某些情况下,语料库的声音可能是某些分类任务的优势,特别是通过使用字符串方法。字符方法确实克服了与现有数据的多样性有关的一些困难。难道也是这项工作的工具来提取sous-corpus coherents奥运会,为了充分利用数字化成果数据在economisant后处理,并确定缺失:shop为这个语料库”三个关键问题:谁泄露了还有很大数字数字格式的推论。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 求助全文
来源期刊
自引率
0.00%
发文量
0
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:604180095
Book学术官方微信