STTS是宾格·鲍姆班肯的词性标记集

Heike Telljohann, Yannick Versley, K. Beck, Erhard W. Hinrichs, Thomas Zastrow
{"title":"STTS是<s:1>宾格·鲍姆班肯的词性标记集","authors":"Heike Telljohann, Yannick Versley, K. Beck, Erhard W. Hinrichs, Thomas Zastrow","doi":"10.21248/jlcl.28.2013.166","DOIUrl":null,"url":null,"abstract":"Das Stuttgart-Tubingen Tagset (STTS, Schiller et al., 1999) ist der De-facto-Standard fur das Tagging von Wortarten in deutschen Texten, und die uberwiegende Mehrzahl der POS-annotierten Ressourcen furs Deutsche – darunter die Baumbanken NeGra (Skut et al., 1997), TIGER (Brants et al., 2002), TuBa-D/S (Hinrichs et al., 2000) und TuBa-D/Z (Hinrichs et al., 2004), und viele andere Korpora – verwenden dieses Tagset. In dieser Rolle stellt das STTS in dreierlei Hinsicht einen wichtigen Referenzpunkt dar: Zum einen als ausgewiesenes Tagset fur die moderne Standardsprache, das die Interoperabilitat mit einem komplexen Gefuge an Werkzeugen sowohl zur Wortartenauszeichnung als auch zur darauf aufbauenden Auszeichnung syntaktischer und anderer Strukturen. Zum anderen ist das STTS Ausgangspunkt fur Arbeiten jenseits der geschriebenen Standardsprache, die standardsprachliche Konstrukte im Sinne der ursprunglichen Richtlinien annotieren und nur dort abweichen, wo Phanomene in der Standardsprache der Gegenwart untypisch sind oder als ungrammatisch gelten (Buchstabierungen in der gesprochensprachlichen TuBa-D/S; auseinandergeschriebene Komposita in den fruhneuhochdeutschen Texten der Mercurius-Baumbank, siehe Pauly et al., 2012; zu weiteren Beispielen siehe weitere Artikel dieser Ausgabe). Weiterhin dient das STTS solchen Annotationsvorhaben als Referenzpunkt, die aufgrund ihrer unterschiedlichen Fragestellung eine andere Granularitat der Tags anstreben. Beispiele hierfur sind das Historische Tagset (HiTS; Dipper et al., diese Ausgabe), das feingranulare Wortartentags fur die Analyse fruherer Sprachstufen des Deutschen bereitstellt, oder das sprachubergreifende Tagset von Petrov et al. (2012), das zur Vereinheitlichung zwischen Sprachen eine wesentlich grobere Granularitat als das STTS verwendet. In diesem Artikel soll es darum gehen, eine Bestandsaufnahme des STTS vor allem in der Rolle als Tagset fur Standardsprache, insbesondere anhand der in Tubingen erstellten Korpora, vorzunehmen. Eine solche Bestandsaufnahme soll verdeutlichen, welche Aspekte neben der deskriptiven Adaquatheit und der grundsatzlichen Anwendbarkeit wichtig sind, aber nur langfristig durch kontinuierliche Inspektion und Revision sichtbar werden. Die Frage, was jenseits der ursprunglichen Tagsetdefinition zu einer konsistenten Anwendung des STTS gehort, reicht dabei hinein in die ebenfalls wichtige Frage der Interoperabilitat mit bestehenden Werkzeugen und Ressourcen, die sich realiter auf eine bestimmte Ausdeutung des Standards bezieht und uber die ursprunglichen Richtlinien hinausgeht.","PeriodicalId":402489,"journal":{"name":"J. Lang. Technol. Comput. Linguistics","volume":"157 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2013-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"1","resultStr":"{\"title\":\"STTS als Part-of-Speech-Tagset in Tübinger Baumbanken\",\"authors\":\"Heike Telljohann, Yannick Versley, K. Beck, Erhard W. Hinrichs, Thomas Zastrow\",\"doi\":\"10.21248/jlcl.28.2013.166\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"Das Stuttgart-Tubingen Tagset (STTS, Schiller et al., 1999) ist der De-facto-Standard fur das Tagging von Wortarten in deutschen Texten, und die uberwiegende Mehrzahl der POS-annotierten Ressourcen furs Deutsche – darunter die Baumbanken NeGra (Skut et al., 1997), TIGER (Brants et al., 2002), TuBa-D/S (Hinrichs et al., 2000) und TuBa-D/Z (Hinrichs et al., 2004), und viele andere Korpora – verwenden dieses Tagset. In dieser Rolle stellt das STTS in dreierlei Hinsicht einen wichtigen Referenzpunkt dar: Zum einen als ausgewiesenes Tagset fur die moderne Standardsprache, das die Interoperabilitat mit einem komplexen Gefuge an Werkzeugen sowohl zur Wortartenauszeichnung als auch zur darauf aufbauenden Auszeichnung syntaktischer und anderer Strukturen. Zum anderen ist das STTS Ausgangspunkt fur Arbeiten jenseits der geschriebenen Standardsprache, die standardsprachliche Konstrukte im Sinne der ursprunglichen Richtlinien annotieren und nur dort abweichen, wo Phanomene in der Standardsprache der Gegenwart untypisch sind oder als ungrammatisch gelten (Buchstabierungen in der gesprochensprachlichen TuBa-D/S; auseinandergeschriebene Komposita in den fruhneuhochdeutschen Texten der Mercurius-Baumbank, siehe Pauly et al., 2012; zu weiteren Beispielen siehe weitere Artikel dieser Ausgabe). Weiterhin dient das STTS solchen Annotationsvorhaben als Referenzpunkt, die aufgrund ihrer unterschiedlichen Fragestellung eine andere Granularitat der Tags anstreben. Beispiele hierfur sind das Historische Tagset (HiTS; Dipper et al., diese Ausgabe), das feingranulare Wortartentags fur die Analyse fruherer Sprachstufen des Deutschen bereitstellt, oder das sprachubergreifende Tagset von Petrov et al. (2012), das zur Vereinheitlichung zwischen Sprachen eine wesentlich grobere Granularitat als das STTS verwendet. In diesem Artikel soll es darum gehen, eine Bestandsaufnahme des STTS vor allem in der Rolle als Tagset fur Standardsprache, insbesondere anhand der in Tubingen erstellten Korpora, vorzunehmen. Eine solche Bestandsaufnahme soll verdeutlichen, welche Aspekte neben der deskriptiven Adaquatheit und der grundsatzlichen Anwendbarkeit wichtig sind, aber nur langfristig durch kontinuierliche Inspektion und Revision sichtbar werden. Die Frage, was jenseits der ursprunglichen Tagsetdefinition zu einer konsistenten Anwendung des STTS gehort, reicht dabei hinein in die ebenfalls wichtige Frage der Interoperabilitat mit bestehenden Werkzeugen und Ressourcen, die sich realiter auf eine bestimmte Ausdeutung des Standards bezieht und uber die ursprunglichen Richtlinien hinausgeht.\",\"PeriodicalId\":402489,\"journal\":{\"name\":\"J. Lang. Technol. Comput. Linguistics\",\"volume\":\"157 1\",\"pages\":\"0\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2013-07-01\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"1\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"J. Lang. Technol. Comput. Linguistics\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.21248/jlcl.28.2013.166\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"J. Lang. Technol. Comput. Linguistics","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.21248/jlcl.28.2013.166","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 1

摘要

这Stuttgart-Tubingen Tagset (STTS,席勒的al ., 1999),刷De-facto-Standard标签从Wortarten德国文献和uberwiegende大部分POS-annotierten资源是德国战斗机——包括Baumbanken舞后(Skut等人.,1997),老虎(Brants之类al . 2002) TuBa-D / S (Hinrichs与al ., 2000)和TuBa-D / Z (Hinrichs等人.,2004)。还有许多Korpora——使用这个Tagset .在这个角色到STTS在三个方面重大的Referenzpunkt:当ausgewiesenes Tagset为现代语言,Interoperabilitat用复杂Gefuge工具以Wortartenauszeichnung和许多人认为中荣誉syntaktischer和其他结构.对于外来STTS起点贴工作跨越了书写的语言,standardsprachliche体系之目的ursprunglichen准则annotieren和只有在偏离Phanomene地方语言,现在的非典型或ungrammatisch适用(Buchstabierungen在gesprochensprachlichen TuBa-D / S;在默库里伊斯河银行的早期高德著作中两相分析的综合作品,见2012年保利等人;更多详情请见本刊其他文章)此外,俗语也把太空作为参照点,其一是其一其一,其一其一要试探菜色。为此例子包括:Dipper,这一期),为分析德语早期语阶提供了细小的词汇理解,或者为Petrov等语阶的语言理解提供了语言理解,在语言之间实现统一时,你使用了比STTS大得多的词汇。这篇文章试图总结STTS的调查,特别是作为标准语言的日间总结,特别是在图宾根建立的社团。这一清单应说明不仅需要说明性阐述和原则可用于哪些方面,但只有通过持续不断的检查和审计才能发现。被问到之外ursprunglichen Tagsetdefinition konsistenten STTS条的执行情况,就带往了Interoperabilitat的另一个重要问题与现有的工具和资源realiter以某种Ausdeutung标准指和uber ursprunglichen准则超越.
本文章由计算机程序翻译,如有差异,请以英文原文为准。
STTS als Part-of-Speech-Tagset in Tübinger Baumbanken
Das Stuttgart-Tubingen Tagset (STTS, Schiller et al., 1999) ist der De-facto-Standard fur das Tagging von Wortarten in deutschen Texten, und die uberwiegende Mehrzahl der POS-annotierten Ressourcen furs Deutsche – darunter die Baumbanken NeGra (Skut et al., 1997), TIGER (Brants et al., 2002), TuBa-D/S (Hinrichs et al., 2000) und TuBa-D/Z (Hinrichs et al., 2004), und viele andere Korpora – verwenden dieses Tagset. In dieser Rolle stellt das STTS in dreierlei Hinsicht einen wichtigen Referenzpunkt dar: Zum einen als ausgewiesenes Tagset fur die moderne Standardsprache, das die Interoperabilitat mit einem komplexen Gefuge an Werkzeugen sowohl zur Wortartenauszeichnung als auch zur darauf aufbauenden Auszeichnung syntaktischer und anderer Strukturen. Zum anderen ist das STTS Ausgangspunkt fur Arbeiten jenseits der geschriebenen Standardsprache, die standardsprachliche Konstrukte im Sinne der ursprunglichen Richtlinien annotieren und nur dort abweichen, wo Phanomene in der Standardsprache der Gegenwart untypisch sind oder als ungrammatisch gelten (Buchstabierungen in der gesprochensprachlichen TuBa-D/S; auseinandergeschriebene Komposita in den fruhneuhochdeutschen Texten der Mercurius-Baumbank, siehe Pauly et al., 2012; zu weiteren Beispielen siehe weitere Artikel dieser Ausgabe). Weiterhin dient das STTS solchen Annotationsvorhaben als Referenzpunkt, die aufgrund ihrer unterschiedlichen Fragestellung eine andere Granularitat der Tags anstreben. Beispiele hierfur sind das Historische Tagset (HiTS; Dipper et al., diese Ausgabe), das feingranulare Wortartentags fur die Analyse fruherer Sprachstufen des Deutschen bereitstellt, oder das sprachubergreifende Tagset von Petrov et al. (2012), das zur Vereinheitlichung zwischen Sprachen eine wesentlich grobere Granularitat als das STTS verwendet. In diesem Artikel soll es darum gehen, eine Bestandsaufnahme des STTS vor allem in der Rolle als Tagset fur Standardsprache, insbesondere anhand der in Tubingen erstellten Korpora, vorzunehmen. Eine solche Bestandsaufnahme soll verdeutlichen, welche Aspekte neben der deskriptiven Adaquatheit und der grundsatzlichen Anwendbarkeit wichtig sind, aber nur langfristig durch kontinuierliche Inspektion und Revision sichtbar werden. Die Frage, was jenseits der ursprunglichen Tagsetdefinition zu einer konsistenten Anwendung des STTS gehort, reicht dabei hinein in die ebenfalls wichtige Frage der Interoperabilitat mit bestehenden Werkzeugen und Ressourcen, die sich realiter auf eine bestimmte Ausdeutung des Standards bezieht und uber die ursprunglichen Richtlinien hinausgeht.
求助全文
通过发布文献求助,成功后即可免费获取论文全文。 去求助
来源期刊
自引率
0.00%
发文量
0
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术官方微信