How to Extract Good Knowledge from Bad Data: An Experiment with Eighteenth Century French Texts

F. Laramée
{"title":"How to Extract Good Knowledge from Bad Data: An Experiment with Eighteenth Century French Texts","authors":"F. Laramée","doi":"10.16995/DSCN.299","DOIUrl":null,"url":null,"abstract":"From a digital historian’s point of view, Ancien Regime French texts suffer from obsolete grammar, unreliable spelling, and poor optical character recognition, which makes these texts ill-suited to digital analysis. This paper summarizes methodological experiments that have allowed the author to extract useful quantitative data from such unlikely source material. A discussion of the general characteristics of hand-keyed and OCR’ed historical corpora shows that they differ in scale of difficulty rather than in nature. Behavioural traits that make text mining certain eighteenth century corpora particularly challenging, such as error clustering, a relatively high cost of acquisition relative to salience, outlier hiding, and unpredictable patterns of error repetition, are then explained. The paper then outlines a method that circumvents these challenges. This method relies on heuristic formulation of research questions during an initial phase of open-ended data exploration; selective correction of spelling and OCR errors, through application of Levenshtein’s algorithm, that focuses on a small set of keywords derived from the heuristic project design; and careful exploitation of the keywords and the corrected corpus, either as raw data for algorithms, as entry points from which to construct valuable data manually, or as focal points directing the scholar’s attention to a small subset of texts to read. Each step of the method is illustrated by examples drawn from the author’s research on the hand-keyed Encyclopedie and Bibliotheque Bleue and on collections of periodicals obtained through optical character recognition. Du point de vue d’un historien numerique, les textes francais d’Ancien Regime souffrent d’une grammaire obsolete, d’une orthographe irreguliere et d’une reconnaissance optique des caracteres de faible qualite. Cet article resume les experiences methodologiques qui ont permis a l’auteur d’extraire des mesures quantitatives utiles de ces improbables matieres premieres. Une discussion des caracteristiques generales des corpus de textes historiques transcrits a la main et des corpus produits par reconnaissance optique revele qu’ils different en degre de difficulte mais non en nature. Les comportements qui rendent certains de ces corpus particulierement difficiles a traiter numeriquement, dont la distribution non aleatoire des erreurs, un cout unitaire d’acquisition relativement eleve, la dissimulation des documents atypiques et l’imprevisibilite des erreurs repetees, sont ensuite expliques. L’article trace ensuite les grandes lignes d’une methode qui contourne ces problemes. Cette methode repose sur la selection heuristique de questions de recherche pendant une phase d’exploration ouverte des donnees; la correction selective des erreurs a l’aide de l’application de l’algorithme de Levenshtein a un petit nombre de mots-cles choisis pendant la phase d’exploration; et l’exploitation des mots-cles et du corpus corrige soit en tant que donnees brutes, soit comme points d’entree permettant l’extraction manuelle de donnees probantes, soit comme boussoles permettant d’orienter l’attention du chercheur vers un sous-ensemble de documents pertinents a lire. Des exemples tires de la recherche de l’auteur, qui porte a la fois sur des corpus ocerises de periodiques et sur les corpus reconstitues manuellement de l’Encyclopedie et de la Bibliotheque bleue, illustrent chacune des etapes. Mots-cles: fouille de texte; fouille de donnees; textometrie; production de l’espace; histoire numerique; correction d’erreurs","PeriodicalId":288027,"journal":{"name":"Digital Studies/Le champ numérique","volume":"20 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2019-01-30","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"1","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Digital Studies/Le champ numérique","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.16995/DSCN.299","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 1

Abstract

From a digital historian’s point of view, Ancien Regime French texts suffer from obsolete grammar, unreliable spelling, and poor optical character recognition, which makes these texts ill-suited to digital analysis. This paper summarizes methodological experiments that have allowed the author to extract useful quantitative data from such unlikely source material. A discussion of the general characteristics of hand-keyed and OCR’ed historical corpora shows that they differ in scale of difficulty rather than in nature. Behavioural traits that make text mining certain eighteenth century corpora particularly challenging, such as error clustering, a relatively high cost of acquisition relative to salience, outlier hiding, and unpredictable patterns of error repetition, are then explained. The paper then outlines a method that circumvents these challenges. This method relies on heuristic formulation of research questions during an initial phase of open-ended data exploration; selective correction of spelling and OCR errors, through application of Levenshtein’s algorithm, that focuses on a small set of keywords derived from the heuristic project design; and careful exploitation of the keywords and the corrected corpus, either as raw data for algorithms, as entry points from which to construct valuable data manually, or as focal points directing the scholar’s attention to a small subset of texts to read. Each step of the method is illustrated by examples drawn from the author’s research on the hand-keyed Encyclopedie and Bibliotheque Bleue and on collections of periodicals obtained through optical character recognition. Du point de vue d’un historien numerique, les textes francais d’Ancien Regime souffrent d’une grammaire obsolete, d’une orthographe irreguliere et d’une reconnaissance optique des caracteres de faible qualite. Cet article resume les experiences methodologiques qui ont permis a l’auteur d’extraire des mesures quantitatives utiles de ces improbables matieres premieres. Une discussion des caracteristiques generales des corpus de textes historiques transcrits a la main et des corpus produits par reconnaissance optique revele qu’ils different en degre de difficulte mais non en nature. Les comportements qui rendent certains de ces corpus particulierement difficiles a traiter numeriquement, dont la distribution non aleatoire des erreurs, un cout unitaire d’acquisition relativement eleve, la dissimulation des documents atypiques et l’imprevisibilite des erreurs repetees, sont ensuite expliques. L’article trace ensuite les grandes lignes d’une methode qui contourne ces problemes. Cette methode repose sur la selection heuristique de questions de recherche pendant une phase d’exploration ouverte des donnees; la correction selective des erreurs a l’aide de l’application de l’algorithme de Levenshtein a un petit nombre de mots-cles choisis pendant la phase d’exploration; et l’exploitation des mots-cles et du corpus corrige soit en tant que donnees brutes, soit comme points d’entree permettant l’extraction manuelle de donnees probantes, soit comme boussoles permettant d’orienter l’attention du chercheur vers un sous-ensemble de documents pertinents a lire. Des exemples tires de la recherche de l’auteur, qui porte a la fois sur des corpus ocerises de periodiques et sur les corpus reconstitues manuellement de l’Encyclopedie et de la Bibliotheque bleue, illustrent chacune des etapes. Mots-cles: fouille de texte; fouille de donnees; textometrie; production de l’espace; histoire numerique; correction d’erreurs
如何从糟糕的数据中提取好的知识:对18世纪法语文本的实验
从数字历史学家的角度来看,旧政权的法语文本存在过时的语法,不可靠的拼写和较差的光学字符识别,这使得这些文本不适合数字分析。本文总结了方法学实验,这些实验使作者能够从这种不太可能的来源材料中提取有用的定量数据。对手抄和OCR历史语料库的一般特征的讨论表明,它们在难度程度上而不是在性质上有所不同。然后解释了使某些18世纪语料库的文本挖掘特别具有挑战性的行为特征,例如错误聚类,相对于显著性的相对较高的获取成本,异常值隐藏和不可预测的错误重复模式。然后,本文概述了一种绕过这些挑战的方法。这种方法依赖于在开放式数据探索的初始阶段对研究问题的启发式表述;通过应用Levenshtein算法对拼写和OCR错误进行选择性纠正,该算法侧重于启发式项目设计衍生的一小部分关键词;仔细利用关键词和纠正过的语料库,要么作为算法的原始数据,要么作为人工构建有价值数据的切入点,要么作为引导学者注意阅读文本的一小部分的焦点。本文通过对手工录入的《蓝色百科全书》和《蓝色图书馆》以及通过光学字符识别获得的期刊文集的研究,举例说明了该方法的每一步。Du point de vue d 'un historien numerque, les textes francais d ' ancient Regime souffant, d 'une grammaire obsolete, d 'une orthography irregulliere, d 'une reconnaissance optique des characters de fable qualite。这篇文章回顾了一些经验和方法,这些方法和方法都是不允许的。对历史文献的一般特征进行了讨论,并抄写了主要的文献资料产品,包括侦察光学,揭示了不同程度的困难和主要的非均匀性。小部件具有一定的语料特殊性、难度、数量、分布、非可选性、获取关系等级、文档非典型化、不可见性、重复、小部件显式等特点。文章追溯方法是一种解决问题的方法。Cette方法是一种基于选择的启发式问题研究方法,是一种基于被试的探索性方法;修正选择性误差、应用算法、优化算法、优化参数、优化参数选择、优化阶段探索;让我们利用我们的资源,我们的语料,我们的语料,我们的语料,我们的语料,我们的语料,我们的语料,我们的语料,我们的语料,我们的语料,我们的语料,我们的语料,我们的语料,我们的语料,我们的语料,我们的语料,我们的语料,我们的语料,我们的语料,我们的语料,我们的语料。作者研究的范例,期刊研究的范例,期刊研究的范例,期刊研究的范例,期刊研究的范例,百科全书研究的范例,蓝色图书馆研究的范例,磁带研究的范例。Mots-cles: fouille de texte;多尼Fouille de donnees;textometrie;空间生产;故事numerique;d校正误差
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 求助全文
来源期刊
自引率
0.00%
发文量
0
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术官方微信