{"title":"Strukturelle Mehrdeutigkeit in frühneuhochdeutschen Texten","authors":"Dennis Pauly, Ulyana Senyuk, Ulrike Demske","doi":"10.21248/jlcl.27.2012.164","DOIUrl":null,"url":null,"abstract":"In der synchron orientierten Sprachwissenschaft ist in letzter Zeit ein verstärktes Interesse an syntaktisch annotierten Korpora zu erkennen. Für das Gegenwartsdeutsche wären hier das tigerbzw. negra-Projekt zu nennen, in deren Rahmen bereits umfangreiche, syntaktisch annotierte Zeitungskorpora entstanden sind (Brants et al. 1999, 2002). Gerade in früheren Sprachstufen sind digitalisierte und linguistisch aufbereitete Korpora als Datenquelle allerdings von noch größerer Relevanz, denn eine introspektive Datenerhebung ist hier im Gegensatz zum Gegenwartsdeutschen nicht möglich, eine Untersuchung hat also notwendigerweise immer korpusbasiert zu erfolgen. Dementsprechend gibt es für bestimmte Sprachstufen wie das Mittelenglische mit der Penn-Datenbank schon größere, syntaktisch annotierte Korpora (Kroch/Taylor 2000). Auch für die einzelnen Sprachperioden des Deutschen werden derzeit Referenzkorpora aufgebaut, die mit linguistischen Informationen angereichert sind. Dazu gehören neben den DFG-Projekten zum Althochdeutschen (Berlin, Frankfurt/M. und Jena), Mittelhochdeutschen (Bochum und Bonn) und Frühneuhochdeutschen (Bochum, Halle und Potsdam) auch das GerManC-Projekt zum frühen Neuhochdeutschen (1650 – 1800) an der Universität Manchester und das iswoc-Projekt (Information Structure and Word Order Change in Germanic and Romance Languages, Bech/Eide 2011), das unter anderem syntaktische Informationen zum Althochdeutschen enthalten wird. Das hier vorgestellte Korpus ist ein syntaktisch annotiertes Korpus des Frühneuhochdeutschen, das im Rahmen eines Pilotprojekts von 2003 bis 2005 an der Universität des Saarlandes mit dem Ziel entstanden ist, an Texten, die sich sowohl durch große Varianz auf allen Ebenen des Sprachsystems als auch durch eine große Komplexität ihrer Phrasen und Sätze auszeichnen (Admoni 1980), die Möglichkeiten einer halbautomatischen Annotation zu erproben. Basierend auf den Erfahrungen aus diesem Pilotprojekt sollen dann größere Textmengen aus dem Frühneuhochdeutschen im Baumbankformat aufbereitet und als annotiertes Referenzkorpus auf einer geeigneten Plattform frei zugänglich zur Verfügung gestellt werden. Eine solche Baumbank historischer Texte ermöglicht es dann, ausgesuchte Fragestellungen der historischen Syntax gezielter und auch in quantitativer Hinsicht zu untersuchen.1 Darüber hinaus stellt die hohe Komplexität aus annotatorischer Sicht auch eine besondere Herausforderung dar, was die Qualität bzw. Konsistenz der Annotation angeht. Wir werden im Folgenden das syntaktisch annotierte mercurius-Korpus zum Frühneuhochdeutschen vorstellen und dabei sowohl auf die Textauswahl wie auch auf die gewählte Annotationsweise näher eingehen. Anhand von morphologischen Strukturen wie N-N-Komposita und Partikelverben sollen dann exemplarisch die Probleme disku-","PeriodicalId":402489,"journal":{"name":"J. Lang. Technol. Comput. Linguistics","volume":"56 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2012-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"3","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"J. Lang. Technol. Comput. Linguistics","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.21248/jlcl.27.2012.164","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 3
Abstract
In der synchron orientierten Sprachwissenschaft ist in letzter Zeit ein verstärktes Interesse an syntaktisch annotierten Korpora zu erkennen. Für das Gegenwartsdeutsche wären hier das tigerbzw. negra-Projekt zu nennen, in deren Rahmen bereits umfangreiche, syntaktisch annotierte Zeitungskorpora entstanden sind (Brants et al. 1999, 2002). Gerade in früheren Sprachstufen sind digitalisierte und linguistisch aufbereitete Korpora als Datenquelle allerdings von noch größerer Relevanz, denn eine introspektive Datenerhebung ist hier im Gegensatz zum Gegenwartsdeutschen nicht möglich, eine Untersuchung hat also notwendigerweise immer korpusbasiert zu erfolgen. Dementsprechend gibt es für bestimmte Sprachstufen wie das Mittelenglische mit der Penn-Datenbank schon größere, syntaktisch annotierte Korpora (Kroch/Taylor 2000). Auch für die einzelnen Sprachperioden des Deutschen werden derzeit Referenzkorpora aufgebaut, die mit linguistischen Informationen angereichert sind. Dazu gehören neben den DFG-Projekten zum Althochdeutschen (Berlin, Frankfurt/M. und Jena), Mittelhochdeutschen (Bochum und Bonn) und Frühneuhochdeutschen (Bochum, Halle und Potsdam) auch das GerManC-Projekt zum frühen Neuhochdeutschen (1650 – 1800) an der Universität Manchester und das iswoc-Projekt (Information Structure and Word Order Change in Germanic and Romance Languages, Bech/Eide 2011), das unter anderem syntaktische Informationen zum Althochdeutschen enthalten wird. Das hier vorgestellte Korpus ist ein syntaktisch annotiertes Korpus des Frühneuhochdeutschen, das im Rahmen eines Pilotprojekts von 2003 bis 2005 an der Universität des Saarlandes mit dem Ziel entstanden ist, an Texten, die sich sowohl durch große Varianz auf allen Ebenen des Sprachsystems als auch durch eine große Komplexität ihrer Phrasen und Sätze auszeichnen (Admoni 1980), die Möglichkeiten einer halbautomatischen Annotation zu erproben. Basierend auf den Erfahrungen aus diesem Pilotprojekt sollen dann größere Textmengen aus dem Frühneuhochdeutschen im Baumbankformat aufbereitet und als annotiertes Referenzkorpus auf einer geeigneten Plattform frei zugänglich zur Verfügung gestellt werden. Eine solche Baumbank historischer Texte ermöglicht es dann, ausgesuchte Fragestellungen der historischen Syntax gezielter und auch in quantitativer Hinsicht zu untersuchen.1 Darüber hinaus stellt die hohe Komplexität aus annotatorischer Sicht auch eine besondere Herausforderung dar, was die Qualität bzw. Konsistenz der Annotation angeht. Wir werden im Folgenden das syntaktisch annotierte mercurius-Korpus zum Frühneuhochdeutschen vorstellen und dabei sowohl auf die Textauswahl wie auch auf die gewählte Annotationsweise näher eingehen. Anhand von morphologischen Strukturen wie N-N-Komposita und Partikelverben sollen dann exemplarisch die Probleme disku-