{"title":"LOS CORPUS DEL ESPAÑOL CLÁSICO Y MODERNO: ENTRE LA FILOLOGÍA Y LA LINGÜÍSTICA COMPUTACIONAL","authors":"Miguel Calderón Campos","doi":"10.4067/s0718-48832019000200041","DOIUrl":null,"url":null,"abstract":"espanolEn este articulo se analiza la practica habitual de elaboracion de corpus del espanol, tanto europeo como americano, del periodo comprendido entre finales del siglo XV y finales del XIX. Se prestara especial atencion al modelo seguido por seis corpus diacronicos: CHARTA, CODEA 2015, CORDIAM, CorLexIn, Post Scriptum y Cibola, con el objeto de extraer conclusiones metodologicas aplicables a trabajos futuros o iniciales, como el corpus Oralia diacronica del espanol (ODE), actualmente en fase de elaboracion en la Universidad de Granada. El analisis efectuado revela que, si bien no se aprecian grandes diferencias en el rigor y los criterios de transcripcion documental, no parece haber acuerdo en lo referente a la manera de procesar y estructurar la informacion, tanto textual como metatextual. En este trabajo se defiende la conveniencia de adoptar un modelo estandarizado basado en el uso de XML, siguiendo las directrices del consorcio TEI para la codificacion y etiquetado de corpus historicos. Este modelo permitira la integracion de diferentes corpus y, sobre todo, un mas facil acceso a la informacion por parte de los usuarios. EnglishThis article analyses the standard practice when compiling and producing European and American Spanish corpora for the period spanning from the end of the 15th century to the late 19th century. Special attention will be given to the model used for six diachronic corpora: CHARTA, CODEA 2015, CORDIAM, CorLexIn, Post Scriptum and Cibola, in order to reach methodological conclusions applicable to any future or incipient projects - such as the Oralia diacronica del espanol (ODE) corpus, currently being prepared at the University of Granada. The analysis shows that while there are no appreciable differences in the rigor and criteria applied to document transcription, there does not seem to be any agreement as to the way to process and structure the information - textual as well as metatextual. This paper will argue for the usefulness of adopting a standardized model based on the XML markup language, following the TEI consortium guidelines for the codification and labelling of historical corpora. This model will make it possible to integrate the different corpora and, more importantly, to provide easier user access to the information.","PeriodicalId":35168,"journal":{"name":"RLA","volume":"47 1","pages":"41-64"},"PeriodicalIF":0.6000,"publicationDate":"2019-12-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"2","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"RLA","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.4067/s0718-48832019000200041","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"0","JCRName":"LANGUAGE & LINGUISTICS","Score":null,"Total":0}
引用次数: 2
Abstract
espanolEn este articulo se analiza la practica habitual de elaboracion de corpus del espanol, tanto europeo como americano, del periodo comprendido entre finales del siglo XV y finales del XIX. Se prestara especial atencion al modelo seguido por seis corpus diacronicos: CHARTA, CODEA 2015, CORDIAM, CorLexIn, Post Scriptum y Cibola, con el objeto de extraer conclusiones metodologicas aplicables a trabajos futuros o iniciales, como el corpus Oralia diacronica del espanol (ODE), actualmente en fase de elaboracion en la Universidad de Granada. El analisis efectuado revela que, si bien no se aprecian grandes diferencias en el rigor y los criterios de transcripcion documental, no parece haber acuerdo en lo referente a la manera de procesar y estructurar la informacion, tanto textual como metatextual. En este trabajo se defiende la conveniencia de adoptar un modelo estandarizado basado en el uso de XML, siguiendo las directrices del consorcio TEI para la codificacion y etiquetado de corpus historicos. Este modelo permitira la integracion de diferentes corpus y, sobre todo, un mas facil acceso a la informacion por parte de los usuarios. EnglishThis article analyses the standard practice when compiling and producing European and American Spanish corpora for the period spanning from the end of the 15th century to the late 19th century. Special attention will be given to the model used for six diachronic corpora: CHARTA, CODEA 2015, CORDIAM, CorLexIn, Post Scriptum and Cibola, in order to reach methodological conclusions applicable to any future or incipient projects - such as the Oralia diacronica del espanol (ODE) corpus, currently being prepared at the University of Granada. The analysis shows that while there are no appreciable differences in the rigor and criteria applied to document transcription, there does not seem to be any agreement as to the way to process and structure the information - textual as well as metatextual. This paper will argue for the usefulness of adopting a standardized model based on the XML markup language, following the TEI consortium guidelines for the codification and labelling of historical corpora. This model will make it possible to integrate the different corpora and, more importantly, to provide easier user access to the information.
这篇文章分析了从15世纪末到19世纪晚期,欧洲和美国西班牙语料库发展的惯例。模型特别注意,其次是六个语料库diacronicos:遗嘱,生活2015年,CORDIAM CorLexIn,邮报Scriptum和Cibola适用的结论,以metodologicas未来或首字母,如劳动保护权Oralia diacronica的西班牙(oed),目前elaboracion之中在格拉纳达大学。本研究的目的是评估文献转录的准确性和标准,并评估文献转录的准确性和标准,以确定信息的处理和结构,无论是文本的还是元文本的。本文提出了一种基于XML的标准化模型,遵循TEI联盟对历史语料库编码和标记的指导方针。这个模型将允许不同语料库的集成,最重要的是,用户更容易访问信息。本文分析了从15世纪末到19世纪末编纂和制作欧美西班牙语语料库的标准做法。特别注意将给予to the model使用for六diachronic的:遗嘱,生活2015年,CORDIAM CorLexIn,邮报Scriptum and Cibola, in order to reach方法适用于任何未来or incipient projects的结论——如Oralia diacronica西班牙(oed)语料库,目前being at the University of编写的手榴弹。分析表明,虽然在文件转录的严谨性和标准方面没有明显的差异,但在处理和构造信息的方式方面,无论是文本的还是元文本的,似乎都没有达成一致。本文将讨论采用一种基于XML标记语言的标准化模式的有用性,该模式遵循TEI联盟关于历史语料库编码和标记的指导方针。这种模式将使不同的语料库得以整合,更重要的是,使用户更容易访问信息。