Die Verwendung von GermaNet zur Pflege und Erweiterung des Computerlexikons HaGenLex

LDV Forum Pub Date : 2004-07-01 DOI:10.21248/jlcl.19.2004.55

R. Osswald

{"title":"Die Verwendung von GermaNet zur Pflege und Erweiterung des Computerlexikons HaGenLex","authors":"R. Osswald","doi":"10.21248/jlcl.19.2004.55","DOIUrl":null,"url":null,"abstract":"Dieser Beitrag soll am Beispiel des semantikbasierten Computerlexikons HaGenLex aufzeigen, wie GermaNet für die Pflege und Erweiterung anderer lexikalisch-semantischer Ressourcen eingesetzt werden kann. Ausgangsbasis ist dabei eine Lesartenzuordnung zwischen GermaNetund HaGenLexEinträgen, welche die Übertragung der sinnrelationalen Zusammenhänge von GermaNet auf HaGenLex erlaubt. Auf der Grundlage dieser Kopplung lassen sich beispielsweise Inkonsistenzen in der semantischen Klassifikation von HaGenLex-Einträgen aufdecken. Neben weiteren Anwendungen werden einige sich dabei ergebenden Probleme sowie der mögliche Nutzen für die Aufdeckung von Fehlern in GermaNet angesprochen.1 1 Das Lexikon HaGenLex HaGenLex (Hagen German Lexicon) ist ein semantikbasiertes Computerlexikon für das Deutsche, das seit 1996 an der FernUniversität Hagen am Lehrgebiet Praktische Informatik VII entwickelt wird. Momentan umfasst es circa 20.000 Lesart-Einträge (etwa 9.200 Nomina, 6.500 Verben und 3.000 Adjektive). Die Einträge wurden primär auf der Grundlage von Frequenzlisten erstellt, mit Unterstützung diverser Wörterbücher Alle Verweise beziehen sich auf GermaNet 4.0. des Deutschen. Die Erstellung durch den Lexikographen wird maßgeblich durch eine Werkbank unterstützt, die zum einen die Eingabe leitet, und zum anderen die interne Repräsentation der Einträge als Merkmal-Wert-Strukturen vor dem Nutzer verbirgt bzw. in leicht verständlicher Umschreibung darbietet. Um Missverständnissen vorzubeugen sei darauf hingewiesen, dass sich HaGenLex von GermaNet in der Gebrauchsweise des Konzeptbegriffs unterscheidet: Während GermaNet, in der Tradition von WordNet, Konzepte durch Synsets repräsentiert sieht, wird in HaGenLex davon ausgegangen, dass jedes lexikalisierte Konzept genau einem Lexem entspricht. Ferner macht HaGenLex, im Gegensatz zu GermaNet, bislang nahezu keinen Gebrauch von künstlichen Konzepten. Im Folgenden soll der Aufbau von HaGenLex kurz skizziert werden; eine ausführlichere Beschreibung findet sich in (Hartrumpf et al., 2003). 1.1 Der MultiNet-Formalismus Die Mittel zur Darstellung semantischer Information in HaGenLex sind dem sogenannten MultiNet-Paradigma entnommen. Bei letzterem handelt es sich um einen Formalismus zur Darstellung der Semantik natürlicher Sprache mittels mehrschichtiger, erweiterter semantischer Netze.2 Grob gesprochen besteht ein solches semantisches Netz aus Knoten, die Konzepte repräsentieren, und Kanten, welche die semantischen Beziehungen zwischen den Konzepten zum Ausdruck brinFür eine detaillierte Darstellung sei der Leser auf (Helbig, 2001) verwiesen. gen.3 Zur Charakterisierung der Beziehung zwischen Konzepten stellt der MultiNet-Formalismus ein vordefiniertes und ausführlich dokumentiertes Repertoire von weit über hundert Relationen und Funktionen bereit. Darüber hinaus ist jeder Konzeptknoten von MultiNet hinsichtlich mehrerer Merkmale spezifiziert, die unter anderem zum Ausdruck bringen, ob das Konzept generisch zu interpretieren ist, ob seine Referenz bestimmt oder unbestimmt ist, ob es faktischen oder hypothetischen Charakter hat, und in welcher Weise es einer Quantifikation unterliegt.4 HaGenLex wurde in erster Linie zu dem Zweck entwickelt, die automatische Transformation natürlichsprachlicher Ausdrücke in MultiNetRepräsentationen zu unterstützen.5 Die hierzu erforderliche syntaktische und semantische Information ist weitgehend lexikalisiert, wobei die Semantik im Lexikon ebenfalls durch MultiNetDarstellungsmittel geprägt ist. Dazu zählen insbesondere die ontologische Sorte des zugehörigen Konzepts sowie die semantischen Relationen, in denen das Konzept zu anderen Konzepten steht. 1.2 Semantische Klassifikation Im Rahmen von MultiNet steht eine Hierarchie von 45 ontologischen Sorten zur Klassifikation von Konzepten und damit von Lexemen zur Verfügung. Auf oberster Ebene wird etwa zwischen Objekten, Sachverhalten, Sachverhaltsdeskriptoren, Qualitäten, Graduatoren, Quantitäten und formalen Entitäten unterschieden. Insbesondere um die Überprüfung von Selektionsrestriktionen zu unterstützen, sind HaGenLexLexeme außerdem hinsichtlich 16 binärer semantischer Merkmale klassifiziert. Da zwischen diesen Merkmalen, wie im Fall von HUMAN und ANIMATE, semantische Abhängigkeiten bestehen, sind die konsistenten Kombinationen von ontoMan beachte, dass hier nicht nur generische Konzepte gemeint sind, sondern dass etwa auch der diesjährige GermaNet-Workshop in Tübingen als ein Konzept aufgefasst wird, das einem Knoten in der zugehörigen semantischen Repräsentation entspricht. Vgl. auch (Hartrumpf and Helbig, 2002). Eine Beschreibung des dabei verwendeten Parsers gibt (Hartrumpf, 2003, Kap. 3). Eine Anwendung zur natürlichsprachlichen Informationsrecherche wird in (Leveling and Helbig, 2002) vorgestellt. logischer Sorte und semantischen Merkmalen zu sogenannten semantischen Sorten zusammengefasst. Beispielsweise verbirgt sich hinter der semantischen Sorte con-info (für ‘konkretes Informationsobjekt’) die ontologische Sorte d (für ‘Diskretum’) sowie (unter anderem) die semantischen Merkmale [ANIMATE ] (nicht belebt), [ARTIF ] (Artefakt), [INFO ] (Informationsträger) und [MOVABLE ] (beweglich). Subsumierte Lexeme wären in diesem Fall Abbildung und Zeitung. 1.3 Valenz und Kasusrahmen HaGenLex spezifiziert die Valenzen von Lexemen sowohl in syntaktischer als auch in semantischer Hinsicht. So ist zu jedem Verb angegeben, in welcher semantischen Beziehung die Partizipanten der vom Verb bezeichneten Situation zu letzterer stehen. Als Ausdrucksmittel stehen hierfür wiederum die im Rahmen von MultiNet vorgegebenen semantischen Relationen zur Verfügung, die insbesondere ein Inventar an thematischen Rollen beinhalten. In erster Näherung hat der Kasusrahmen für das Verb informieren in HaGenLex die folgende Form: AGT OBJ MCONT [POTAG ] [POTAG ] np / nom np / acc ‘über’-pp / acc optional optional Die erste Zeile listet die thematischen Rollen der Argumente auf, die zweite enthält Selektionsrestriktionen (wobei POTAG für ‘potential agent’ steht), die dritte gibt (unvollständig) die syntaktischen Valenzen wieder und die letzte Zeile zeigt an, ob es sich um obligatorische oder fakultative Valenzen handelt. Der vollständig spezifizierte Lexikoneintrag ist in Abbildung 2 des Anhangs wiedergegeben. 1.4 Lexikonstruktur und Datenformat Die lexikalische Information in HaGenLex ist in Form von typisierten Merkmal-Wert-Strukturen repräsentiert. Zugrunde liegt eine baumförmige Typhierarchie sowie zu jedem Typ eine Merkmalsdeklaration. Die für HaGenLex-Einträge verwendete Merkmal-Wert-Architektur ist im Anhang","PeriodicalId":346957,"journal":{"name":"LDV Forum","volume":"41 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2004-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"5","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"LDV Forum","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.21248/jlcl.19.2004.55","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}

引用次数: 5

Abstract

Dieser Beitrag soll am Beispiel des semantikbasierten Computerlexikons HaGenLex aufzeigen, wie GermaNet für die Pflege und Erweiterung anderer lexikalisch-semantischer Ressourcen eingesetzt werden kann. Ausgangsbasis ist dabei eine Lesartenzuordnung zwischen GermaNetund HaGenLexEinträgen, welche die Übertragung der sinnrelationalen Zusammenhänge von GermaNet auf HaGenLex erlaubt. Auf der Grundlage dieser Kopplung lassen sich beispielsweise Inkonsistenzen in der semantischen Klassifikation von HaGenLex-Einträgen aufdecken. Neben weiteren Anwendungen werden einige sich dabei ergebenden Probleme sowie der mögliche Nutzen für die Aufdeckung von Fehlern in GermaNet angesprochen.1 1 Das Lexikon HaGenLex HaGenLex (Hagen German Lexicon) ist ein semantikbasiertes Computerlexikon für das Deutsche, das seit 1996 an der FernUniversität Hagen am Lehrgebiet Praktische Informatik VII entwickelt wird. Momentan umfasst es circa 20.000 Lesart-Einträge (etwa 9.200 Nomina, 6.500 Verben und 3.000 Adjektive). Die Einträge wurden primär auf der Grundlage von Frequenzlisten erstellt, mit Unterstützung diverser Wörterbücher Alle Verweise beziehen sich auf GermaNet 4.0. des Deutschen. Die Erstellung durch den Lexikographen wird maßgeblich durch eine Werkbank unterstützt, die zum einen die Eingabe leitet, und zum anderen die interne Repräsentation der Einträge als Merkmal-Wert-Strukturen vor dem Nutzer verbirgt bzw. in leicht verständlicher Umschreibung darbietet. Um Missverständnissen vorzubeugen sei darauf hingewiesen, dass sich HaGenLex von GermaNet in der Gebrauchsweise des Konzeptbegriffs unterscheidet: Während GermaNet, in der Tradition von WordNet, Konzepte durch Synsets repräsentiert sieht, wird in HaGenLex davon ausgegangen, dass jedes lexikalisierte Konzept genau einem Lexem entspricht. Ferner macht HaGenLex, im Gegensatz zu GermaNet, bislang nahezu keinen Gebrauch von künstlichen Konzepten. Im Folgenden soll der Aufbau von HaGenLex kurz skizziert werden; eine ausführlichere Beschreibung findet sich in (Hartrumpf et al., 2003). 1.1 Der MultiNet-Formalismus Die Mittel zur Darstellung semantischer Information in HaGenLex sind dem sogenannten MultiNet-Paradigma entnommen. Bei letzterem handelt es sich um einen Formalismus zur Darstellung der Semantik natürlicher Sprache mittels mehrschichtiger, erweiterter semantischer Netze.2 Grob gesprochen besteht ein solches semantisches Netz aus Knoten, die Konzepte repräsentieren, und Kanten, welche die semantischen Beziehungen zwischen den Konzepten zum Ausdruck brinFür eine detaillierte Darstellung sei der Leser auf (Helbig, 2001) verwiesen. gen.3 Zur Charakterisierung der Beziehung zwischen Konzepten stellt der MultiNet-Formalismus ein vordefiniertes und ausführlich dokumentiertes Repertoire von weit über hundert Relationen und Funktionen bereit. Darüber hinaus ist jeder Konzeptknoten von MultiNet hinsichtlich mehrerer Merkmale spezifiziert, die unter anderem zum Ausdruck bringen, ob das Konzept generisch zu interpretieren ist, ob seine Referenz bestimmt oder unbestimmt ist, ob es faktischen oder hypothetischen Charakter hat, und in welcher Weise es einer Quantifikation unterliegt.4 HaGenLex wurde in erster Linie zu dem Zweck entwickelt, die automatische Transformation natürlichsprachlicher Ausdrücke in MultiNetRepräsentationen zu unterstützen.5 Die hierzu erforderliche syntaktische und semantische Information ist weitgehend lexikalisiert, wobei die Semantik im Lexikon ebenfalls durch MultiNetDarstellungsmittel geprägt ist. Dazu zählen insbesondere die ontologische Sorte des zugehörigen Konzepts sowie die semantischen Relationen, in denen das Konzept zu anderen Konzepten steht. 1.2 Semantische Klassifikation Im Rahmen von MultiNet steht eine Hierarchie von 45 ontologischen Sorten zur Klassifikation von Konzepten und damit von Lexemen zur Verfügung. Auf oberster Ebene wird etwa zwischen Objekten, Sachverhalten, Sachverhaltsdeskriptoren, Qualitäten, Graduatoren, Quantitäten und formalen Entitäten unterschieden. Insbesondere um die Überprüfung von Selektionsrestriktionen zu unterstützen, sind HaGenLexLexeme außerdem hinsichtlich 16 binärer semantischer Merkmale klassifiziert. Da zwischen diesen Merkmalen, wie im Fall von HUMAN und ANIMATE, semantische Abhängigkeiten bestehen, sind die konsistenten Kombinationen von ontoMan beachte, dass hier nicht nur generische Konzepte gemeint sind, sondern dass etwa auch der diesjährige GermaNet-Workshop in Tübingen als ein Konzept aufgefasst wird, das einem Knoten in der zugehörigen semantischen Repräsentation entspricht. Vgl. auch (Hartrumpf and Helbig, 2002). Eine Beschreibung des dabei verwendeten Parsers gibt (Hartrumpf, 2003, Kap. 3). Eine Anwendung zur natürlichsprachlichen Informationsrecherche wird in (Leveling and Helbig, 2002) vorgestellt. logischer Sorte und semantischen Merkmalen zu sogenannten semantischen Sorten zusammengefasst. Beispielsweise verbirgt sich hinter der semantischen Sorte con-info (für ‘konkretes Informationsobjekt’) die ontologische Sorte d (für ‘Diskretum’) sowie (unter anderem) die semantischen Merkmale [ANIMATE ] (nicht belebt), [ARTIF ] (Artefakt), [INFO ] (Informationsträger) und [MOVABLE ] (beweglich). Subsumierte Lexeme wären in diesem Fall Abbildung und Zeitung. 1.3 Valenz und Kasusrahmen HaGenLex spezifiziert die Valenzen von Lexemen sowohl in syntaktischer als auch in semantischer Hinsicht. So ist zu jedem Verb angegeben, in welcher semantischen Beziehung die Partizipanten der vom Verb bezeichneten Situation zu letzterer stehen. Als Ausdrucksmittel stehen hierfür wiederum die im Rahmen von MultiNet vorgegebenen semantischen Relationen zur Verfügung, die insbesondere ein Inventar an thematischen Rollen beinhalten. In erster Näherung hat der Kasusrahmen für das Verb informieren in HaGenLex die folgende Form: AGT OBJ MCONT [POTAG ] [POTAG ] np / nom np / acc ‘über’-pp / acc optional optional Die erste Zeile listet die thematischen Rollen der Argumente auf, die zweite enthält Selektionsrestriktionen (wobei POTAG für ‘potential agent’ steht), die dritte gibt (unvollständig) die syntaktischen Valenzen wieder und die letzte Zeile zeigt an, ob es sich um obligatorische oder fakultative Valenzen handelt. Der vollständig spezifizierte Lexikoneintrag ist in Abbildung 2 des Anhangs wiedergegeben. 1.4 Lexikonstruktur und Datenformat Die lexikalische Information in HaGenLex ist in Form von typisierten Merkmal-Wert-Strukturen repräsentiert. Zugrunde liegt eine baumförmige Typhierarchie sowie zu jedem Typ eine Merkmalsdeklaration. Die für HaGenLex-Einträge verwendete Merkmal-Wert-Architektur ist im Anhang

查看原文本刊更多论文

日耳曼人用来维护和扩展电脑词典

本文利用基于计算机的语义百科全书的例子，探讨如何利用日曼内特来维护和扩展其他的词汇语义资源。基基是单日耳曼和奇形体之间的索引分配，其中可以将日耳曼特对“血缘”联系起来。例如，根据这一个星期六的母音分类可以找出无源代码中的一致性。除了其他应用之外，我们还将讨论这些活动所造成的一些问题，以及揭露杰曼内事件的潜在漏洞的可能性。这种词典是德国人的电脑百科全书，从1996年起，在教学地区哈根大学推出。现在大约有20,000个易读条目(约9200个名义，6,500个动词，3 000个加词)。条目主要根据周期表创建，并使用各种词典支持，全部内容都是与日耳曼内藤4.0有关。德国.词典编纂方面的支持主要由一个引导输入的工具库提供，另一个工具库在用户前隐藏部分价值结构或以便于理解的方式显示列名。为了防止误解的是指出HaGenLex从GermaNet的Gebrauchsweise Konzeptbegriffs GermaNet不同:虽然在传统的单词、概念、Synsets所代表认为,会在HaGenLex假设每个lexikalisierte一种概念Lexem相对应.而且，妙莱曼涅并不像杰曼内这种虚构的概念在下一节中，我们将简要勾勒一下推论。详细的详细描述见《哈罗斯特和艾尔》。1.1在多网验证中给出给出语义信息的途径是从所谓的多网验证方式中拔出的。后者是阐述以Formalismus语义学自然语言通过多层次扩大semantischer Netze.2大体上说有这样一个semantisches网络节点的概念,代表和矽酸盐(semantic概念间关系表达brinFür详细描述是读者提到(Helbig, 2001) .3为了描述这一概念之间的关系，多网手续得出了一个预定义而详细的文件记录，范围远远超过100意义。此外，多网概念中的每个概念节点都针对一些特性指定，包括这个概念可能是有基因解释的，其参考资料可能带有事实或假定，以及它的本质和假定都服从数字。4混乱症的主要用途是辅助多线式翻译中自然产生的语言自动转换。5这些目标所需要的语法和语义信息已具有相当程度的渐进性，但语义方法也使用了多种网络手法。密切注意相关概念的本领，以及它的概念与其他概念的内在意义。在多网框架内采用的语域分类，有45种龙纹分类，也就是莱克版块。在最高层面上，将对象、物理观、事实描述、品德、研究生、数量和正式实体区分开来。此外，为协助研究选择限制，哈根莱克斯研究为16个二进制语义特性进行了分类。在这些特征之间,就像人类和ANIMATE语义成瘾存在ontoMan konsistenten组合的关注,他们认为这不仅是指两此概念,大约也是今年GermaNet-Workshop在图宾根看作是一个概念,建立符合.肿块(semantic格的一三六.类似的游戏(哈莉牌和赫尔比斯，2002)。在《特性和语义特性被结合为语义口味。例如，语义(意思是“特定信息着标”)的内置代码是d本体(意思是“隐密”)以及(但不是使出来的)语义特性、[不明识别文件]、[信息载体]和[可移动的]。水下调频为愈发发短信给学号、学号a。1.3谎话产生了连音和语义明确。因此，每一个动词都必须表明，在任何动词下，动词的分数会受到损害。不过，作为这些工作的表达手段，可用在多网络环境中明确找到的语义位置，其中特别包括专题作用。在第一次在渲染图像时启用Kasusrahmen HaGenLex通知动词的形式如下:AGT OBJ MCONT [POTAG] [POTAG] np /人的np / acc "关于" -pp / acc强制性的性的最上面一行到辩论委员会各专题的角色名单包含第二Selektionsrestriktionen (POTAG潜力探员")、第三(没有什么意义)编排Valenzen又和最后一行显示的,只有义务或安理会Valenzen .是佐证百科全书的附录2中译出了完整的词汇。嗅觉回来框架和数据格式冒险的词典信息以定型形式表现。它们的基础是树型繁殖形态以及每个类别的一个身分声明关于hagenlex条目的评分在附录中

本文章由计算机程序翻译，如有差异，请以英文原文为准。

求助全文

约1分钟内获得全文求助全文

来源期刊

LDV Forum

自引率

0.00%

发文量