Strukturelle Mehrdeutigkeit in frühneuhochdeutschen Texten

J. Lang. Technol. Comput. Linguistics Pub Date : 2012-07-01 DOI:10.21248/jlcl.27.2012.164

Dennis Pauly, Ulyana Senyuk, Ulrike Demske

{"title":"Strukturelle Mehrdeutigkeit in frühneuhochdeutschen Texten","authors":"Dennis Pauly, Ulyana Senyuk, Ulrike Demske","doi":"10.21248/jlcl.27.2012.164","DOIUrl":null,"url":null,"abstract":"In der synchron orientierten Sprachwissenschaft ist in letzter Zeit ein verstärktes Interesse an syntaktisch annotierten Korpora zu erkennen. Für das Gegenwartsdeutsche wären hier das tigerbzw. negra-Projekt zu nennen, in deren Rahmen bereits umfangreiche, syntaktisch annotierte Zeitungskorpora entstanden sind (Brants et al. 1999, 2002). Gerade in früheren Sprachstufen sind digitalisierte und linguistisch aufbereitete Korpora als Datenquelle allerdings von noch größerer Relevanz, denn eine introspektive Datenerhebung ist hier im Gegensatz zum Gegenwartsdeutschen nicht möglich, eine Untersuchung hat also notwendigerweise immer korpusbasiert zu erfolgen. Dementsprechend gibt es für bestimmte Sprachstufen wie das Mittelenglische mit der Penn-Datenbank schon größere, syntaktisch annotierte Korpora (Kroch/Taylor 2000). Auch für die einzelnen Sprachperioden des Deutschen werden derzeit Referenzkorpora aufgebaut, die mit linguistischen Informationen angereichert sind. Dazu gehören neben den DFG-Projekten zum Althochdeutschen (Berlin, Frankfurt/M. und Jena), Mittelhochdeutschen (Bochum und Bonn) und Frühneuhochdeutschen (Bochum, Halle und Potsdam) auch das GerManC-Projekt zum frühen Neuhochdeutschen (1650 – 1800) an der Universität Manchester und das iswoc-Projekt (Information Structure and Word Order Change in Germanic and Romance Languages, Bech/Eide 2011), das unter anderem syntaktische Informationen zum Althochdeutschen enthalten wird. Das hier vorgestellte Korpus ist ein syntaktisch annotiertes Korpus des Frühneuhochdeutschen, das im Rahmen eines Pilotprojekts von 2003 bis 2005 an der Universität des Saarlandes mit dem Ziel entstanden ist, an Texten, die sich sowohl durch große Varianz auf allen Ebenen des Sprachsystems als auch durch eine große Komplexität ihrer Phrasen und Sätze auszeichnen (Admoni 1980), die Möglichkeiten einer halbautomatischen Annotation zu erproben. Basierend auf den Erfahrungen aus diesem Pilotprojekt sollen dann größere Textmengen aus dem Frühneuhochdeutschen im Baumbankformat aufbereitet und als annotiertes Referenzkorpus auf einer geeigneten Plattform frei zugänglich zur Verfügung gestellt werden. Eine solche Baumbank historischer Texte ermöglicht es dann, ausgesuchte Fragestellungen der historischen Syntax gezielter und auch in quantitativer Hinsicht zu untersuchen.1 Darüber hinaus stellt die hohe Komplexität aus annotatorischer Sicht auch eine besondere Herausforderung dar, was die Qualität bzw. Konsistenz der Annotation angeht. Wir werden im Folgenden das syntaktisch annotierte mercurius-Korpus zum Frühneuhochdeutschen vorstellen und dabei sowohl auf die Textauswahl wie auch auf die gewählte Annotationsweise näher eingehen. Anhand von morphologischen Strukturen wie N-N-Komposita und Partikelverben sollen dann exemplarisch die Probleme disku-","PeriodicalId":402489,"journal":{"name":"J. Lang. Technol. Comput. Linguistics","volume":"56 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2012-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"3","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"J. Lang. Technol. Comput. Linguistics","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.21248/jlcl.27.2012.164","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}

引用次数: 3

Abstract

In der synchron orientierten Sprachwissenschaft ist in letzter Zeit ein verstärktes Interesse an syntaktisch annotierten Korpora zu erkennen. Für das Gegenwartsdeutsche wären hier das tigerbzw. negra-Projekt zu nennen, in deren Rahmen bereits umfangreiche, syntaktisch annotierte Zeitungskorpora entstanden sind (Brants et al. 1999, 2002). Gerade in früheren Sprachstufen sind digitalisierte und linguistisch aufbereitete Korpora als Datenquelle allerdings von noch größerer Relevanz, denn eine introspektive Datenerhebung ist hier im Gegensatz zum Gegenwartsdeutschen nicht möglich, eine Untersuchung hat also notwendigerweise immer korpusbasiert zu erfolgen. Dementsprechend gibt es für bestimmte Sprachstufen wie das Mittelenglische mit der Penn-Datenbank schon größere, syntaktisch annotierte Korpora (Kroch/Taylor 2000). Auch für die einzelnen Sprachperioden des Deutschen werden derzeit Referenzkorpora aufgebaut, die mit linguistischen Informationen angereichert sind. Dazu gehören neben den DFG-Projekten zum Althochdeutschen (Berlin, Frankfurt/M. und Jena), Mittelhochdeutschen (Bochum und Bonn) und Frühneuhochdeutschen (Bochum, Halle und Potsdam) auch das GerManC-Projekt zum frühen Neuhochdeutschen (1650 – 1800) an der Universität Manchester und das iswoc-Projekt (Information Structure and Word Order Change in Germanic and Romance Languages, Bech/Eide 2011), das unter anderem syntaktische Informationen zum Althochdeutschen enthalten wird. Das hier vorgestellte Korpus ist ein syntaktisch annotiertes Korpus des Frühneuhochdeutschen, das im Rahmen eines Pilotprojekts von 2003 bis 2005 an der Universität des Saarlandes mit dem Ziel entstanden ist, an Texten, die sich sowohl durch große Varianz auf allen Ebenen des Sprachsystems als auch durch eine große Komplexität ihrer Phrasen und Sätze auszeichnen (Admoni 1980), die Möglichkeiten einer halbautomatischen Annotation zu erproben. Basierend auf den Erfahrungen aus diesem Pilotprojekt sollen dann größere Textmengen aus dem Frühneuhochdeutschen im Baumbankformat aufbereitet und als annotiertes Referenzkorpus auf einer geeigneten Plattform frei zugänglich zur Verfügung gestellt werden. Eine solche Baumbank historischer Texte ermöglicht es dann, ausgesuchte Fragestellungen der historischen Syntax gezielter und auch in quantitativer Hinsicht zu untersuchen.1 Darüber hinaus stellt die hohe Komplexität aus annotatorischer Sicht auch eine besondere Herausforderung dar, was die Qualität bzw. Konsistenz der Annotation angeht. Wir werden im Folgenden das syntaktisch annotierte mercurius-Korpus zum Frühneuhochdeutschen vorstellen und dabei sowohl auf die Textauswahl wie auch auf die gewählte Annotationsweise näher eingehen. Anhand von morphologischen Strukturen wie N-N-Komposita und Partikelverben sollen dann exemplarisch die Probleme disku-

查看原文本刊更多论文

古希腊早期德国文本中的结构性模糊不清

近年来，越来越多的人对“全同步”社交圈作业的兴趣，越来越大。指的是你的虎穴“negra工程”造成了一个大型的附带注释的社团(Brants等)。(但更大的意义在于过去学过的区分是数字化和语言学的社团作为数据源，因为它自身的内部信息搜索是不可能的跟现在的德国不一样，所以研究必然是基于古兰经的。类似地，有一些特殊的语阶项目，例如使用的是林肯资料库的中英文，已经成立了更大的集体社团。(Kroch/Taylor 2000)在过去，参考文献a也在建立，这两个阶段充满了语言信息。除deg外，传统德意志民主共和国(柏林，法兰克福/M)也提供了项目。耶)、Mittelhochdeutschen(波鸿和波恩)和Frühneuhochdeutschen(波鸿、大厅和波茨坦)也GerManC-Projekt到早期Neuhochdeutschen(1650 - 1800)曼彻斯特大学与这iswoc-Projekt类似的信息(Word订单变化在Germanic and浪漫Languages、Bech /誓言2011)工程,包括自己的信息变成含有“ant .语法琴琴这想象一个syntaktisch annotiertes Frühneuhochdeutschen文本的范围内试点大学2003至2005年的Saarlandes诞生,以期在文献方面需要通过巨大的多样性以及Sprachsystems部门各级储存大量复杂的空话和句子独一无二(Admoni 1980)构建一个半自动Annotation试验.这个试点项目将利用我们得到的经验，用树银行的模式处理大量新高德语字体，作为参考文件，供选择平台免费使用。这样一棵树，让我们能以目标明确和量化的方式对历史句法所提出的问题进行分析。1另外，从认知理论角度来看，高度复杂的概念对于认知的质量和一致性也构成了特别的挑战。在下文，我们会介绍早期新高登人的默库里乌斯系列，同时进一步探讨每节经文的选词和所选的分析方式。基于n曲线和粒子特征等形态学结构，这些论点很能引发我们研究的问题

本文章由计算机程序翻译，如有差异，请以英文原文为准。

求助全文

约1分钟内获得全文求助全文

来源期刊

J. Lang. Technol. Comput. Linguistics

自引率

0.00%

发文量