{"title":"XML als Beschreibungssprache syntaktisch annotierter Korpora","authors":"Sven Naumann","doi":"10.21248/jlcl.18.2003.44","DOIUrl":null,"url":null,"abstract":"In den letzten Jahren ist die Zahl der verfügbaren linguistisch annotierten Korpora ständig gewachsen. Zu den bekanntesten gehören das Brown-Korpus, das SusanneKorpus, die Penn-Treebank, das Negra-Korpus, das Tiger-Korpus und die im Zusammenhang mit dem Verbmobil-Projekt entstandenen Korpora. Neben den bekannten Differenzen in den zur Annotierung verwendeten Vokabularen (morpho-syntaktische Tags und Merkmale, Bezeichner für syntaktische Kategorien und semantische Rollen, etc.) werden Analysen, die Daten aus mehreren dieser Korpora nutzen wollen, vor allem durch die Tatsache erschwert, dass fast jedes dieser Korpora ein eigenes Annotierungsschemata verwendet. Im Folgenden soll es darum gehen, (a) die Vorund Nachteile von XML als Korpusbeschreibungssprache anhand eines sich im Aufbau befindenden Korpus zu diskutieren, (b) die für dieses Korpus gewählte XML-Struktur zu beschreiben und (c) die zur Pflege und Entwicklung des Korpus konzipierte Software vorzustellen.","PeriodicalId":346957,"journal":{"name":"LDV Forum","volume":null,"pages":null},"PeriodicalIF":0.0000,"publicationDate":"2003-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"LDV Forum","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.21248/jlcl.18.2003.44","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0
Abstract
In den letzten Jahren ist die Zahl der verfügbaren linguistisch annotierten Korpora ständig gewachsen. Zu den bekanntesten gehören das Brown-Korpus, das SusanneKorpus, die Penn-Treebank, das Negra-Korpus, das Tiger-Korpus und die im Zusammenhang mit dem Verbmobil-Projekt entstandenen Korpora. Neben den bekannten Differenzen in den zur Annotierung verwendeten Vokabularen (morpho-syntaktische Tags und Merkmale, Bezeichner für syntaktische Kategorien und semantische Rollen, etc.) werden Analysen, die Daten aus mehreren dieser Korpora nutzen wollen, vor allem durch die Tatsache erschwert, dass fast jedes dieser Korpora ein eigenes Annotierungsschemata verwendet. Im Folgenden soll es darum gehen, (a) die Vorund Nachteile von XML als Korpusbeschreibungssprache anhand eines sich im Aufbau befindenden Korpus zu diskutieren, (b) die für dieses Korpus gewählte XML-Struktur zu beschreiben und (c) die zur Pflege und Entwicklung des Korpus konzipierte Software vorzustellen.