J. Lang. Technol. Comput. Linguistics最新文献_第5页

Using Web Corpora for the Automatic Acquisition of Lexical-Semantic Knowledge 基于网络语料库的词汇语义知识自动获取

J. Lang. Technol. Comput. Linguistics Pub Date : 2013-07-01 DOI: 10.21248/jlcl.28.2013.177

Sabine Schulte im Walde, Stefan Müller

{"title":"Using Web Corpora for the Automatic Acquisition of Lexical-Semantic Knowledge","authors":"Sabine Schulte im Walde, Stefan Müller","doi":"10.21248/jlcl.28.2013.177","DOIUrl":"https://doi.org/10.21248/jlcl.28.2013.177","url":null,"abstract":"This article presents two case studies to explore whether and how web corpora can be used to automatically acquire lexical-semantic knowledge from distributional information. For this purpose, we compare three German web corpora and a traditional newspaper corpus on modelling two types of semantic relatedness: (1) Assuming that free word associations are semantically related to their stimuli, we explore to which extent stimulus– associate pairs from various associations norms are available in the corpus data. (2) Assuming that the distributional similarity between a noun–noun compound and its nominal constituents corresponds to the compound’s degree of compositionality, we rely on simple corpus co-occurrence features to predict compositionality. The case studies demonstrate that the corpora can indeed be used to model semantic relatedness, (1) covering up to 73/77% of verb/noun–association types within a 5-word window of the corpora, and (2) predicting compositionality with a correlation of ρ = 0.65 against human ratings. Furthermore, our studies illustrate that the corpus parameters domain, size and cleanness all have an effect on the semantic tasks.","PeriodicalId":402489,"journal":{"name":"J. Lang. Technol. Comput. Linguistics","volume":"142 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2013-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"121785537","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 4

POS für(s) FOLK - Part of Speech Tagging des Forschungs- und Lehrkorpus Gesprochenes Deutsch 声音部分的研究和教育制度的演讲

J. Lang. Technol. Comput. Linguistics Pub Date : 2013-07-01 DOI: 10.21248/jlcl.28.2013.171

Swantje Westpfahl, Thomas C. Schmidt

{"title":"POS für(s) FOLK - Part of Speech Tagging des Forschungs- und Lehrkorpus Gesprochenes Deutsch","authors":"Swantje Westpfahl, Thomas C. Schmidt","doi":"10.21248/jlcl.28.2013.171","DOIUrl":"https://doi.org/10.21248/jlcl.28.2013.171","url":null,"abstract":"1 Einleitung Im Rahmen des FOLK-Projekts (Forschungsund Lehrkorpus Gesprochenes Deutsch), das am Institut für Deutsche Sprache (IDS) ein großes wissenschaftsöffentliches Gesprächskorpus aufbaut, soll mit Hilfe des TreeTaggers (SCHMID 1995) und des Stuttgart-TübingenTagsets (STTS), (SCHILLER ET AL. 1999) ein automatisiertes Part-of-Speech-Tagging (POSTagging) für Spontansprache ermöglicht werden. Zuerst nur auf FOLK angewendet, soll dieser Tagger später auch für weitere Korpora spontansprachlicher Daten in der Datenbank für Gesprochenes Deutsch (DGD), (INSTITUT FÜR DEUTSCHE SPRACHE) genutzt werden. Da das Forschungsund Lehrkorpus kontinuierlich ausgebaut wird, muss das POS-Tagging aus Effizienzgründen mittelfristig vollautomatisch erfolgen. Dabei wird eine Fehlerquote von unter 5 Prozent angestrebt. Weil sowohl das Tagset als auch der Tagger für geschriebene Sprache konzipiert bzw. trainiert wurden und beim automatisierten Taggen der Transkripte die Fehlerquote bei fast 20 Prozent lag, muss eine Anpassung sowohl des Tagging-Verfahrens als auch des Tagsets an Spontansprache vorgenommen werden. Aus diesem Grund wurden die Fehler, die bei einem ersten Versuch des automatisierten Taggings dreier Transkripte des Korpus mit dem TreeTagger und dem STTS auftraten, auf ihre Ursachen hin analysiert. Daraufhin konnten Vorschläge zur Verbesserung des POS-Taggings in Hinblick auf eine Anpassung des Tagsets sowie des Tagging-Verfahrens gemacht werden.","PeriodicalId":402489,"journal":{"name":"J. Lang. Technol. Comput. Linguistics","volume":"9 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2013-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"130780301","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 20

Word and Sentence Tokenization with Hidden Markov Models 基于隐马尔可夫模型的单词和句子标记化

J. Lang. Technol. Comput. Linguistics Pub Date : 2013-07-01 DOI: 10.21248/jlcl.28.2013.176

Bryan Jurish, Kay-Michael Würzner

引用次数: 53

STTS-Konfusionsklassen beim Tagging von Fremdsprachlernertexten 这里没有人可以进行

J. Lang. Technol. Comput. Linguistics Pub Date : 2013-07-01 DOI: 10.21248/jlcl.28.2013.169

Marc Reznicek, Heike Zinsmeister

{"title":"STTS-Konfusionsklassen beim Tagging von Fremdsprachlernertexten","authors":"Marc Reznicek, Heike Zinsmeister","doi":"10.21248/jlcl.28.2013.169","DOIUrl":"https://doi.org/10.21248/jlcl.28.2013.169","url":null,"abstract":"Fur viele aktuelle Fragestellungen der Zweitund Fremdspracherwerbsforschung („L2Erwerbsforschung“) sind Lernerkorpora unverzichtbar geworden. Sie stellen Texte von L2Lernern1 zur Verfugung, oftmals erganzt durch vergleichbare Texte von Muttersprachlern der Zielsprache. Beschrankten sich Analysen der Lernerkorpusforschung in den ersten Jahren hauptsachlich auf einzelne Wortformen (vgl. Granger, 1998), hat sich das Forschungsinteresse bestandig hin zu komplexeren grammatischen Kategorien entwickelt. Dazu zahlen u.A. die Untersuchung tiefer syntaktischer Analysen (Dickinson und Ragheb, 2009; Hirschmann et al., 2013, u.a.) oder die Strategien der Markierung von Koharenzrelationen (z.B. Breckle und Zinsmeister, 2012). Derartige Analysen bauen dabei nur selten auf der Textoberflache selbst auf, sondern setzen i.d.R. die Annotation von Wortarten fur jedes Texttoken voraus und ggfs. weitere, darauf aufbauende Annotationsebenen. Annotationen dienen generell immer der Suche nach Klassen in den Daten, die anhand der Oberflachenformen allein nicht leicht zuganglich waren (im Kontext von Lernerkorpora vgl. Diaz-Negrillo et al., 2010). Ist man z.B. an einer Analyse von Possessivpronomen interessiert, wurde man bei einer Korpussuche, die nur Zugriff auf die Wortformen selbst hat, bei der ambigen Form meinen neben Beispielen fur das Possessivpronomen (1) auch alle Belege fur die gleichlautende Verbform (2) finden. Das Suchergebnis ware also sehr ‘unsauber’, da die Wortform selbst keinen Aufschluss uber ihre Interpretation gibt. Eine Annotation mit Wortarten wurde die beiden Lesarten disambiguieren und damit die Ruckgabe der Suchanfrage praziser machen. Die Ruckgabe wurde weniger ungewunschte Lesarten enthalten, die man andernfalls bei der Ergebnissichtung manuell ausschliesen musste. Kurz gesagt, eine Suchanfrage auf Wortarten-annotierten Daten ist fur den Nutzer effizienter als eine Suche auf reinen Wortformen.","PeriodicalId":402489,"journal":{"name":"J. Lang. Technol. Comput. Linguistics","volume":"39 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2013-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"125499645","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 5

STTS als Part-of-Speech-Tagset in Tübinger Baumbanken STTS是<s:1>宾格·鲍姆班肯的词性标记集

J. Lang. Technol. Comput. Linguistics Pub Date : 2013-07-01 DOI: 10.21248/jlcl.28.2013.166

Heike Telljohann, Yannick Versley, K. Beck, Erhard W. Hinrichs, Thomas Zastrow

{"title":"STTS als Part-of-Speech-Tagset in Tübinger Baumbanken","authors":"Heike Telljohann, Yannick Versley, K. Beck, Erhard W. Hinrichs, Thomas Zastrow","doi":"10.21248/jlcl.28.2013.166","DOIUrl":"https://doi.org/10.21248/jlcl.28.2013.166","url":null,"abstract":"Das Stuttgart-Tubingen Tagset (STTS, Schiller et al., 1999) ist der De-facto-Standard fur das Tagging von Wortarten in deutschen Texten, und die uberwiegende Mehrzahl der POS-annotierten Ressourcen furs Deutsche – darunter die Baumbanken NeGra (Skut et al., 1997), TIGER (Brants et al., 2002), TuBa-D/S (Hinrichs et al., 2000) und TuBa-D/Z (Hinrichs et al., 2004), und viele andere Korpora – verwenden dieses Tagset. In dieser Rolle stellt das STTS in dreierlei Hinsicht einen wichtigen Referenzpunkt dar: Zum einen als ausgewiesenes Tagset fur die moderne Standardsprache, das die Interoperabilitat mit einem komplexen Gefuge an Werkzeugen sowohl zur Wortartenauszeichnung als auch zur darauf aufbauenden Auszeichnung syntaktischer und anderer Strukturen. Zum anderen ist das STTS Ausgangspunkt fur Arbeiten jenseits der geschriebenen Standardsprache, die standardsprachliche Konstrukte im Sinne der ursprunglichen Richtlinien annotieren und nur dort abweichen, wo Phanomene in der Standardsprache der Gegenwart untypisch sind oder als ungrammatisch gelten (Buchstabierungen in der gesprochensprachlichen TuBa-D/S; auseinandergeschriebene Komposita in den fruhneuhochdeutschen Texten der Mercurius-Baumbank, siehe Pauly et al., 2012; zu weiteren Beispielen siehe weitere Artikel dieser Ausgabe). Weiterhin dient das STTS solchen Annotationsvorhaben als Referenzpunkt, die aufgrund ihrer unterschiedlichen Fragestellung eine andere Granularitat der Tags anstreben. Beispiele hierfur sind das Historische Tagset (HiTS; Dipper et al., diese Ausgabe), das feingranulare Wortartentags fur die Analyse fruherer Sprachstufen des Deutschen bereitstellt, oder das sprachubergreifende Tagset von Petrov et al. (2012), das zur Vereinheitlichung zwischen Sprachen eine wesentlich grobere Granularitat als das STTS verwendet. In diesem Artikel soll es darum gehen, eine Bestandsaufnahme des STTS vor allem in der Rolle als Tagset fur Standardsprache, insbesondere anhand der in Tubingen erstellten Korpora, vorzunehmen. Eine solche Bestandsaufnahme soll verdeutlichen, welche Aspekte neben der deskriptiven Adaquatheit und der grundsatzlichen Anwendbarkeit wichtig sind, aber nur langfristig durch kontinuierliche Inspektion und Revision sichtbar werden. Die Frage, was jenseits der ursprunglichen Tagsetdefinition zu einer konsistenten Anwendung des STTS gehort, reicht dabei hinein in die ebenfalls wichtige Frage der Interoperabilitat mit bestehenden Werkzeugen und Ressourcen, die sich realiter auf eine bestimmte Ausdeutung des Standards bezieht und uber die ursprunglichen Richtlinien hinausgeht.","PeriodicalId":402489,"journal":{"name":"J. Lang. Technol. Comput. Linguistics","volume":"157 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2013-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"114528668","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 1

HiTS: ein Tagset für historische Sprachstufen des Deutschen 命中。这是德语的历史性语阶的聚会

J. Lang. Technol. Comput. Linguistics Pub Date : 2013-07-01 DOI: 10.21248/jlcl.28.2013.170

S. Dipper, K. Donhauser, T. Klein, S. Linde, Stefan Müller, K. Wegera

{"title":"HiTS: ein Tagset für historische Sprachstufen des Deutschen","authors":"S. Dipper, K. Donhauser, T. Klein, S. Linde, Stefan Müller, K. Wegera","doi":"10.21248/jlcl.28.2013.170","DOIUrl":"https://doi.org/10.21248/jlcl.28.2013.170","url":null,"abstract":"Im Kontext der Projekte zur Erstellung historischer Sprachkorpora „Referenzkorpus Altdeutsch“ und „Referenzkorpus Mittelhochdeutsch“ entstand ein Tagset fur die Wortartanalyse, HiTS („Historisches Tagset“). Im Projekt „Referenzkorpus Fruhneuhochdeutsch“ wird eine vereinfachte Version davon angewendet, da v.a. die spateren Zeitraume schon nahe am neuhochdeutschen (nhd.) Stand sind.2 HiTS orientiert sich am „Stuttgart-Tubingen Tagset“ (STTS, Schiller et al., 1999), dem Standardtagset fur nhd. Korpora, und ubernimmt — neben einer ganzen Reihe von Tags — auch das hierarchische Design der Tagnamen. Ursprunglich sollte das Tagset komplett auf STTS aufbauen und dieses lediglich um einige neue Tags erweitern. Es stellte sich jedoch heraus, dass neben einigen notwendigen feineren Unterscheidungen (z.B. bei den Pronominaladverbien) auch die Tagnamen des STTS nicht immer geeignet schienen. Z.B. sind in HiTS der definite und indefinite Artikel eine Unterklasse der Determinativa — die Sonderstellung des Artikels, die im STTS durch ein eigenes Tag ‘ART’ betont wird, ist eine neuere Entwicklung. Das Tagset dient zur Annotation diachroner Daten. Einige wenige Tags finden dabei nur in den alt(hoch)deutschen Daten Anwendung. Um diachrone Untersuchungen bis in die jetzige Zeit zu ermoglichen, werden im vorliegenden Artikel den HiTS-Tags die jeweils entsprechenden STTS-Tags gegenubergestellt. Allerdings ist nicht in jedem Fall eine eindeutige Abbildung moglich. So wird z.B. in HiTS zwischen attributivisch und substantivisch verwendeten Zahlen unterschieden, nicht aber im STTS. Umgekehrt unterscheidet HiTS nicht zwischen elliptischen („kopflosen“) Nominalphrasen und substantivierten Adjektiven (s. Abschnitt 5), was das STTS aber tut.","PeriodicalId":402489,"journal":{"name":"J. Lang. Technol. Comput. Linguistics","volume":"39 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2013-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"127644353","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 27

TEI and LMF crosswalks TEI和LMF人行横道

J. Lang. Technol. Comput. Linguistics Pub Date : 2013-01-11 DOI: 10.21248/jlcl.30.2015.195

Laurent Romary

引用次数: 18

Automatically Linking GermaNet to Wikipedia for Harvesting Corpus Examples for GermaNet Senses 自动链接GermaNet到维基百科，用于收集GermaNet感官的语料库示例

J. Lang. Technol. Comput. Linguistics Pub Date : 2012-07-01 DOI: 10.21248/jlcl.27.2012.156

Verena Henrich, E. Hinrichs, Klaus Suttner

{"title":"Automatically Linking GermaNet to Wikipedia for Harvesting Corpus Examples for GermaNet Senses","authors":"Verena Henrich, E. Hinrichs, Klaus Suttner","doi":"10.21248/jlcl.27.2012.156","DOIUrl":"https://doi.org/10.21248/jlcl.27.2012.156","url":null,"abstract":"The comprehension of a word sense is much easier when its usages are illustrated by example sentences in linguistic contexts. Hence, examples are crucially important to better understand the sense of a word in a dictionary. The goal of this research is the semi-automatic enrichment of senses from the German wordnet GermaNet with corpus examples from the online encyclopedia Wikipedia. The paper describes the automatic mapping of GermaNet senses to Wikipedia articles, using proven, state-ofthe-art word sense disambiguation methods, in particular different versions of word overlap algorithms and PageRank as well as classifiers that combine these methods. This mapping is optimized for precision and then used to automatically harvest corpus examples from Wikipedia for GermaNet senses. The paper presents details about the optimization of the model for the GermaNet-Wikipedia mapping and concludes with a detailed evaluation of the quantity and quality of the harvested examples. Apart from enriching the GermaNet resource, the harvested corpus examples can also be used to construct a corpus of German nouns that are annotated with GermaNet senses. This sense-annotated corpus can be used for a wide range of NLP applications.","PeriodicalId":402489,"journal":{"name":"J. Lang. Technol. Comput. Linguistics","volume":"50 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2012-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"124625361","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 12

Peculiarities of Avestan Manuscripts for Computational Linguistics 计算语言学中阿维斯陀手稿的特点

J. Lang. Technol. Comput. Linguistics Pub Date : 2012-07-01 DOI: 10.21248/jlcl.27.2012.161

Thomas Jügel

{"title":"Peculiarities of Avestan Manuscripts for Computational Linguistics","authors":"Thomas Jügel","doi":"10.21248/jlcl.27.2012.161","DOIUrl":"https://doi.org/10.21248/jlcl.27.2012.161","url":null,"abstract":"This paper will discuss several computational tools f r creating a stemma of Avestan manuscripts, such as: a letter similarity matrix, a mor phological expander, and co-occurrence networks. After a short introduction to Avestan and Avestan manuscripts and a representation of Avestan peculiarities concerning the creati on of stemmata, the operatability of the above-mentioned tools for this text corpus will be discussed. Finally, I will give a brief outlook on the complexity of a database structure f o Avestan texts. Introduction The Avesta, represented by the edition of G ELDNER (1886-96), appears to be a sort of Bible containing several books or chapters, cf. S KJÆRVØ’s “sacred book of the Zoroastrians” (2009: 44); and, indeed, in Middle Iranian times (i .e., before 600 AD) there existed a kind of text corpus, rather than ‘a book’, of holy texts (C ANTERA 2004). However, GELDNER’s edition disguises the actual texts of the manuscripts because what we have today is not a book but a collection of ceremonies attested in various manuscripts. Avestan is the term for an Old Iranian language, as such a member of the IndoEuropean language family. The actual name of the la ngu ge is not known to us. The name ‘Avestan’ is taken from Middle Persian texts which refer to their religious text corpus as the “abest ā(g)”. When manuscripts containing these religious t exts came to light for European research, they were referred to as “Avesta” and the language as “Avestan”. 2 Avestan is known to us in two varieties, called “Ol d Avestan” and “Young Avestan”. This is so because they display two different chron ol gical layers of Avestan. However, they also differ in some linguistic respect so that t ey represent two different dialects of the same language (e.g., genitive singular of xratu“wisdom” is xratə̄uš in Old Avestan but xraθβō in Young Avestan, for further examples see DE VAAN 2003: 8ff.). The Avestan manuscripts (henceforth MS) can be sort ed into several groups, the main grouping is: 1) the ‘Pahlavi-MSs’, and 2) the ‘Sade -MSs’. The Pahlavi-MSs contain the Avestan text plus its translation and commentaries, g nerally Middle Persian, but there are translations into Sanskrit, Gujarati and/or New Per sian as well. 3 The Sade-MSs (i.e., the “pure” MS) only contain ritual instructions in Midd le Persian, etc., besides the Avestan text. The Pahlavi-MS served as exegetical texts written f or scholarly use only. On the contrary, the Sade-MSs were for the daily use in the ceremoni es. These different purposes had an influence on the copying process (cf. Section 1). The aforementioned grouping can be made by first gl ance at the MS because of the various writings these MSs do or do not contain. Be sid s the grouping into Pahlaviand Sade-MSs, the MSs are further classified into diffe rent ceremonies. There are four of them: the Yasna Rapihwin, V īsprad, Yašt, and V īdēvdād ceremony. Depending on the season or on the deity who is invoked, there are further diff erences","PeriodicalId":402489,"journal":{"name":"J. Lang. Technol. Comput. Linguistics","volume":"26 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2012-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"128987952","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 1

Strukturelle Mehrdeutigkeit in frühneuhochdeutschen Texten 古希腊早期德国文本中的结构性模糊不清

J. Lang. Technol. Comput. Linguistics Pub Date : 2012-07-01 DOI: 10.21248/jlcl.27.2012.164

Dennis Pauly, Ulyana Senyuk, Ulrike Demske

{"title":"Strukturelle Mehrdeutigkeit in frühneuhochdeutschen Texten","authors":"Dennis Pauly, Ulyana Senyuk, Ulrike Demske","doi":"10.21248/jlcl.27.2012.164","DOIUrl":"https://doi.org/10.21248/jlcl.27.2012.164","url":null,"abstract":"In der synchron orientierten Sprachwissenschaft ist in letzter Zeit ein verstärktes Interesse an syntaktisch annotierten Korpora zu erkennen. Für das Gegenwartsdeutsche wären hier das tigerbzw. negra-Projekt zu nennen, in deren Rahmen bereits umfangreiche, syntaktisch annotierte Zeitungskorpora entstanden sind (Brants et al. 1999, 2002). Gerade in früheren Sprachstufen sind digitalisierte und linguistisch aufbereitete Korpora als Datenquelle allerdings von noch größerer Relevanz, denn eine introspektive Datenerhebung ist hier im Gegensatz zum Gegenwartsdeutschen nicht möglich, eine Untersuchung hat also notwendigerweise immer korpusbasiert zu erfolgen. Dementsprechend gibt es für bestimmte Sprachstufen wie das Mittelenglische mit der Penn-Datenbank schon größere, syntaktisch annotierte Korpora (Kroch/Taylor 2000). Auch für die einzelnen Sprachperioden des Deutschen werden derzeit Referenzkorpora aufgebaut, die mit linguistischen Informationen angereichert sind. Dazu gehören neben den DFG-Projekten zum Althochdeutschen (Berlin, Frankfurt/M. und Jena), Mittelhochdeutschen (Bochum und Bonn) und Frühneuhochdeutschen (Bochum, Halle und Potsdam) auch das GerManC-Projekt zum frühen Neuhochdeutschen (1650 – 1800) an der Universität Manchester und das iswoc-Projekt (Information Structure and Word Order Change in Germanic and Romance Languages, Bech/Eide 2011), das unter anderem syntaktische Informationen zum Althochdeutschen enthalten wird. Das hier vorgestellte Korpus ist ein syntaktisch annotiertes Korpus des Frühneuhochdeutschen, das im Rahmen eines Pilotprojekts von 2003 bis 2005 an der Universität des Saarlandes mit dem Ziel entstanden ist, an Texten, die sich sowohl durch große Varianz auf allen Ebenen des Sprachsystems als auch durch eine große Komplexität ihrer Phrasen und Sätze auszeichnen (Admoni 1980), die Möglichkeiten einer halbautomatischen Annotation zu erproben. Basierend auf den Erfahrungen aus diesem Pilotprojekt sollen dann größere Textmengen aus dem Frühneuhochdeutschen im Baumbankformat aufbereitet und als annotiertes Referenzkorpus auf einer geeigneten Plattform frei zugänglich zur Verfügung gestellt werden. Eine solche Baumbank historischer Texte ermöglicht es dann, ausgesuchte Fragestellungen der historischen Syntax gezielter und auch in quantitativer Hinsicht zu untersuchen.1 Darüber hinaus stellt die hohe Komplexität aus annotatorischer Sicht auch eine besondere Herausforderung dar, was die Qualität bzw. Konsistenz der Annotation angeht. Wir werden im Folgenden das syntaktisch annotierte mercurius-Korpus zum Frühneuhochdeutschen vorstellen und dabei sowohl auf die Textauswahl wie auch auf die gewählte Annotationsweise näher eingehen. Anhand von morphologischen Strukturen wie N-N-Komposita und Partikelverben sollen dann exemplarisch die Probleme disku-","PeriodicalId":402489,"journal":{"name":"J. Lang. Technol. Comput. Linguistics","volume":"56 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2012-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"129546189","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 3