S. Dipper, K. Donhauser, T. Klein, S. Linde, Stefan Müller, K. Wegera
{"title":"HiTS: ein Tagset für historische Sprachstufen des Deutschen","authors":"S. Dipper, K. Donhauser, T. Klein, S. Linde, Stefan Müller, K. Wegera","doi":"10.21248/jlcl.28.2013.170","DOIUrl":null,"url":null,"abstract":"Im Kontext der Projekte zur Erstellung historischer Sprachkorpora „Referenzkorpus Altdeutsch“ und „Referenzkorpus Mittelhochdeutsch“ entstand ein Tagset fur die Wortartanalyse, HiTS („Historisches Tagset“). Im Projekt „Referenzkorpus Fruhneuhochdeutsch“ wird eine vereinfachte Version davon angewendet, da v.a. die spateren Zeitraume schon nahe am neuhochdeutschen (nhd.) Stand sind.2 HiTS orientiert sich am „Stuttgart-Tubingen Tagset“ (STTS, Schiller et al., 1999), dem Standardtagset fur nhd. Korpora, und ubernimmt — neben einer ganzen Reihe von Tags — auch das hierarchische Design der Tagnamen. Ursprunglich sollte das Tagset komplett auf STTS aufbauen und dieses lediglich um einige neue Tags erweitern. Es stellte sich jedoch heraus, dass neben einigen notwendigen feineren Unterscheidungen (z.B. bei den Pronominaladverbien) auch die Tagnamen des STTS nicht immer geeignet schienen. Z.B. sind in HiTS der definite und indefinite Artikel eine Unterklasse der Determinativa — die Sonderstellung des Artikels, die im STTS durch ein eigenes Tag ‘ART’ betont wird, ist eine neuere Entwicklung. Das Tagset dient zur Annotation diachroner Daten. Einige wenige Tags finden dabei nur in den alt(hoch)deutschen Daten Anwendung. Um diachrone Untersuchungen bis in die jetzige Zeit zu ermoglichen, werden im vorliegenden Artikel den HiTS-Tags die jeweils entsprechenden STTS-Tags gegenubergestellt. Allerdings ist nicht in jedem Fall eine eindeutige Abbildung moglich. So wird z.B. in HiTS zwischen attributivisch und substantivisch verwendeten Zahlen unterschieden, nicht aber im STTS. Umgekehrt unterscheidet HiTS nicht zwischen elliptischen („kopflosen“) Nominalphrasen und substantivierten Adjektiven (s. Abschnitt 5), was das STTS aber tut.","PeriodicalId":402489,"journal":{"name":"J. Lang. Technol. Comput. Linguistics","volume":"39 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2013-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"27","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"J. Lang. Technol. Comput. Linguistics","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.21248/jlcl.28.2013.170","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 27
Abstract
Im Kontext der Projekte zur Erstellung historischer Sprachkorpora „Referenzkorpus Altdeutsch“ und „Referenzkorpus Mittelhochdeutsch“ entstand ein Tagset fur die Wortartanalyse, HiTS („Historisches Tagset“). Im Projekt „Referenzkorpus Fruhneuhochdeutsch“ wird eine vereinfachte Version davon angewendet, da v.a. die spateren Zeitraume schon nahe am neuhochdeutschen (nhd.) Stand sind.2 HiTS orientiert sich am „Stuttgart-Tubingen Tagset“ (STTS, Schiller et al., 1999), dem Standardtagset fur nhd. Korpora, und ubernimmt — neben einer ganzen Reihe von Tags — auch das hierarchische Design der Tagnamen. Ursprunglich sollte das Tagset komplett auf STTS aufbauen und dieses lediglich um einige neue Tags erweitern. Es stellte sich jedoch heraus, dass neben einigen notwendigen feineren Unterscheidungen (z.B. bei den Pronominaladverbien) auch die Tagnamen des STTS nicht immer geeignet schienen. Z.B. sind in HiTS der definite und indefinite Artikel eine Unterklasse der Determinativa — die Sonderstellung des Artikels, die im STTS durch ein eigenes Tag ‘ART’ betont wird, ist eine neuere Entwicklung. Das Tagset dient zur Annotation diachroner Daten. Einige wenige Tags finden dabei nur in den alt(hoch)deutschen Daten Anwendung. Um diachrone Untersuchungen bis in die jetzige Zeit zu ermoglichen, werden im vorliegenden Artikel den HiTS-Tags die jeweils entsprechenden STTS-Tags gegenubergestellt. Allerdings ist nicht in jedem Fall eine eindeutige Abbildung moglich. So wird z.B. in HiTS zwischen attributivisch und substantivisch verwendeten Zahlen unterschieden, nicht aber im STTS. Umgekehrt unterscheidet HiTS nicht zwischen elliptischen („kopflosen“) Nominalphrasen und substantivierten Adjektiven (s. Abschnitt 5), was das STTS aber tut.