{"title":"Die Verwendung von GermaNet zur Pflege und Erweiterung des Computerlexikons HaGenLex","authors":"R. Osswald","doi":"10.21248/jlcl.19.2004.55","DOIUrl":null,"url":null,"abstract":"Dieser Beitrag soll am Beispiel des semantikbasierten Computerlexikons HaGenLex aufzeigen, wie GermaNet für die Pflege und Erweiterung anderer lexikalisch-semantischer Ressourcen eingesetzt werden kann. Ausgangsbasis ist dabei eine Lesartenzuordnung zwischen GermaNetund HaGenLexEinträgen, welche die Übertragung der sinnrelationalen Zusammenhänge von GermaNet auf HaGenLex erlaubt. Auf der Grundlage dieser Kopplung lassen sich beispielsweise Inkonsistenzen in der semantischen Klassifikation von HaGenLex-Einträgen aufdecken. Neben weiteren Anwendungen werden einige sich dabei ergebenden Probleme sowie der mögliche Nutzen für die Aufdeckung von Fehlern in GermaNet angesprochen.1 1 Das Lexikon HaGenLex HaGenLex (Hagen German Lexicon) ist ein semantikbasiertes Computerlexikon für das Deutsche, das seit 1996 an der FernUniversität Hagen am Lehrgebiet Praktische Informatik VII entwickelt wird. Momentan umfasst es circa 20.000 Lesart-Einträge (etwa 9.200 Nomina, 6.500 Verben und 3.000 Adjektive). Die Einträge wurden primär auf der Grundlage von Frequenzlisten erstellt, mit Unterstützung diverser Wörterbücher Alle Verweise beziehen sich auf GermaNet 4.0. des Deutschen. Die Erstellung durch den Lexikographen wird maßgeblich durch eine Werkbank unterstützt, die zum einen die Eingabe leitet, und zum anderen die interne Repräsentation der Einträge als Merkmal-Wert-Strukturen vor dem Nutzer verbirgt bzw. in leicht verständlicher Umschreibung darbietet. Um Missverständnissen vorzubeugen sei darauf hingewiesen, dass sich HaGenLex von GermaNet in der Gebrauchsweise des Konzeptbegriffs unterscheidet: Während GermaNet, in der Tradition von WordNet, Konzepte durch Synsets repräsentiert sieht, wird in HaGenLex davon ausgegangen, dass jedes lexikalisierte Konzept genau einem Lexem entspricht. Ferner macht HaGenLex, im Gegensatz zu GermaNet, bislang nahezu keinen Gebrauch von künstlichen Konzepten. Im Folgenden soll der Aufbau von HaGenLex kurz skizziert werden; eine ausführlichere Beschreibung findet sich in (Hartrumpf et al., 2003). 1.1 Der MultiNet-Formalismus Die Mittel zur Darstellung semantischer Information in HaGenLex sind dem sogenannten MultiNet-Paradigma entnommen. Bei letzterem handelt es sich um einen Formalismus zur Darstellung der Semantik natürlicher Sprache mittels mehrschichtiger, erweiterter semantischer Netze.2 Grob gesprochen besteht ein solches semantisches Netz aus Knoten, die Konzepte repräsentieren, und Kanten, welche die semantischen Beziehungen zwischen den Konzepten zum Ausdruck brinFür eine detaillierte Darstellung sei der Leser auf (Helbig, 2001) verwiesen. gen.3 Zur Charakterisierung der Beziehung zwischen Konzepten stellt der MultiNet-Formalismus ein vordefiniertes und ausführlich dokumentiertes Repertoire von weit über hundert Relationen und Funktionen bereit. Darüber hinaus ist jeder Konzeptknoten von MultiNet hinsichtlich mehrerer Merkmale spezifiziert, die unter anderem zum Ausdruck bringen, ob das Konzept generisch zu interpretieren ist, ob seine Referenz bestimmt oder unbestimmt ist, ob es faktischen oder hypothetischen Charakter hat, und in welcher Weise es einer Quantifikation unterliegt.4 HaGenLex wurde in erster Linie zu dem Zweck entwickelt, die automatische Transformation natürlichsprachlicher Ausdrücke in MultiNetRepräsentationen zu unterstützen.5 Die hierzu erforderliche syntaktische und semantische Information ist weitgehend lexikalisiert, wobei die Semantik im Lexikon ebenfalls durch MultiNetDarstellungsmittel geprägt ist. Dazu zählen insbesondere die ontologische Sorte des zugehörigen Konzepts sowie die semantischen Relationen, in denen das Konzept zu anderen Konzepten steht. 1.2 Semantische Klassifikation Im Rahmen von MultiNet steht eine Hierarchie von 45 ontologischen Sorten zur Klassifikation von Konzepten und damit von Lexemen zur Verfügung. Auf oberster Ebene wird etwa zwischen Objekten, Sachverhalten, Sachverhaltsdeskriptoren, Qualitäten, Graduatoren, Quantitäten und formalen Entitäten unterschieden. Insbesondere um die Überprüfung von Selektionsrestriktionen zu unterstützen, sind HaGenLexLexeme außerdem hinsichtlich 16 binärer semantischer Merkmale klassifiziert. Da zwischen diesen Merkmalen, wie im Fall von HUMAN und ANIMATE, semantische Abhängigkeiten bestehen, sind die konsistenten Kombinationen von ontoMan beachte, dass hier nicht nur generische Konzepte gemeint sind, sondern dass etwa auch der diesjährige GermaNet-Workshop in Tübingen als ein Konzept aufgefasst wird, das einem Knoten in der zugehörigen semantischen Repräsentation entspricht. Vgl. auch (Hartrumpf and Helbig, 2002). Eine Beschreibung des dabei verwendeten Parsers gibt (Hartrumpf, 2003, Kap. 3). Eine Anwendung zur natürlichsprachlichen Informationsrecherche wird in (Leveling and Helbig, 2002) vorgestellt. logischer Sorte und semantischen Merkmalen zu sogenannten semantischen Sorten zusammengefasst. Beispielsweise verbirgt sich hinter der semantischen Sorte con-info (für ‘konkretes Informationsobjekt’) die ontologische Sorte d (für ‘Diskretum’) sowie (unter anderem) die semantischen Merkmale [ANIMATE ] (nicht belebt), [ARTIF ] (Artefakt), [INFO ] (Informationsträger) und [MOVABLE ] (beweglich). Subsumierte Lexeme wären in diesem Fall Abbildung und Zeitung. 1.3 Valenz und Kasusrahmen HaGenLex spezifiziert die Valenzen von Lexemen sowohl in syntaktischer als auch in semantischer Hinsicht. So ist zu jedem Verb angegeben, in welcher semantischen Beziehung die Partizipanten der vom Verb bezeichneten Situation zu letzterer stehen. Als Ausdrucksmittel stehen hierfür wiederum die im Rahmen von MultiNet vorgegebenen semantischen Relationen zur Verfügung, die insbesondere ein Inventar an thematischen Rollen beinhalten. In erster Näherung hat der Kasusrahmen für das Verb informieren in HaGenLex die folgende Form: AGT OBJ MCONT [POTAG ] [POTAG ] np / nom np / acc ‘über’-pp / acc optional optional Die erste Zeile listet die thematischen Rollen der Argumente auf, die zweite enthält Selektionsrestriktionen (wobei POTAG für ‘potential agent’ steht), die dritte gibt (unvollständig) die syntaktischen Valenzen wieder und die letzte Zeile zeigt an, ob es sich um obligatorische oder fakultative Valenzen handelt. Der vollständig spezifizierte Lexikoneintrag ist in Abbildung 2 des Anhangs wiedergegeben. 1.4 Lexikonstruktur und Datenformat Die lexikalische Information in HaGenLex ist in Form von typisierten Merkmal-Wert-Strukturen repräsentiert. Zugrunde liegt eine baumförmige Typhierarchie sowie zu jedem Typ eine Merkmalsdeklaration. Die für HaGenLex-Einträge verwendete Merkmal-Wert-Architektur ist im Anhang","PeriodicalId":346957,"journal":{"name":"LDV Forum","volume":null,"pages":null},"PeriodicalIF":0.0000,"publicationDate":"2004-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"5","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"LDV Forum","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.21248/jlcl.19.2004.55","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 5
Abstract
Dieser Beitrag soll am Beispiel des semantikbasierten Computerlexikons HaGenLex aufzeigen, wie GermaNet für die Pflege und Erweiterung anderer lexikalisch-semantischer Ressourcen eingesetzt werden kann. Ausgangsbasis ist dabei eine Lesartenzuordnung zwischen GermaNetund HaGenLexEinträgen, welche die Übertragung der sinnrelationalen Zusammenhänge von GermaNet auf HaGenLex erlaubt. Auf der Grundlage dieser Kopplung lassen sich beispielsweise Inkonsistenzen in der semantischen Klassifikation von HaGenLex-Einträgen aufdecken. Neben weiteren Anwendungen werden einige sich dabei ergebenden Probleme sowie der mögliche Nutzen für die Aufdeckung von Fehlern in GermaNet angesprochen.1 1 Das Lexikon HaGenLex HaGenLex (Hagen German Lexicon) ist ein semantikbasiertes Computerlexikon für das Deutsche, das seit 1996 an der FernUniversität Hagen am Lehrgebiet Praktische Informatik VII entwickelt wird. Momentan umfasst es circa 20.000 Lesart-Einträge (etwa 9.200 Nomina, 6.500 Verben und 3.000 Adjektive). Die Einträge wurden primär auf der Grundlage von Frequenzlisten erstellt, mit Unterstützung diverser Wörterbücher Alle Verweise beziehen sich auf GermaNet 4.0. des Deutschen. Die Erstellung durch den Lexikographen wird maßgeblich durch eine Werkbank unterstützt, die zum einen die Eingabe leitet, und zum anderen die interne Repräsentation der Einträge als Merkmal-Wert-Strukturen vor dem Nutzer verbirgt bzw. in leicht verständlicher Umschreibung darbietet. Um Missverständnissen vorzubeugen sei darauf hingewiesen, dass sich HaGenLex von GermaNet in der Gebrauchsweise des Konzeptbegriffs unterscheidet: Während GermaNet, in der Tradition von WordNet, Konzepte durch Synsets repräsentiert sieht, wird in HaGenLex davon ausgegangen, dass jedes lexikalisierte Konzept genau einem Lexem entspricht. Ferner macht HaGenLex, im Gegensatz zu GermaNet, bislang nahezu keinen Gebrauch von künstlichen Konzepten. Im Folgenden soll der Aufbau von HaGenLex kurz skizziert werden; eine ausführlichere Beschreibung findet sich in (Hartrumpf et al., 2003). 1.1 Der MultiNet-Formalismus Die Mittel zur Darstellung semantischer Information in HaGenLex sind dem sogenannten MultiNet-Paradigma entnommen. Bei letzterem handelt es sich um einen Formalismus zur Darstellung der Semantik natürlicher Sprache mittels mehrschichtiger, erweiterter semantischer Netze.2 Grob gesprochen besteht ein solches semantisches Netz aus Knoten, die Konzepte repräsentieren, und Kanten, welche die semantischen Beziehungen zwischen den Konzepten zum Ausdruck brinFür eine detaillierte Darstellung sei der Leser auf (Helbig, 2001) verwiesen. gen.3 Zur Charakterisierung der Beziehung zwischen Konzepten stellt der MultiNet-Formalismus ein vordefiniertes und ausführlich dokumentiertes Repertoire von weit über hundert Relationen und Funktionen bereit. Darüber hinaus ist jeder Konzeptknoten von MultiNet hinsichtlich mehrerer Merkmale spezifiziert, die unter anderem zum Ausdruck bringen, ob das Konzept generisch zu interpretieren ist, ob seine Referenz bestimmt oder unbestimmt ist, ob es faktischen oder hypothetischen Charakter hat, und in welcher Weise es einer Quantifikation unterliegt.4 HaGenLex wurde in erster Linie zu dem Zweck entwickelt, die automatische Transformation natürlichsprachlicher Ausdrücke in MultiNetRepräsentationen zu unterstützen.5 Die hierzu erforderliche syntaktische und semantische Information ist weitgehend lexikalisiert, wobei die Semantik im Lexikon ebenfalls durch MultiNetDarstellungsmittel geprägt ist. Dazu zählen insbesondere die ontologische Sorte des zugehörigen Konzepts sowie die semantischen Relationen, in denen das Konzept zu anderen Konzepten steht. 1.2 Semantische Klassifikation Im Rahmen von MultiNet steht eine Hierarchie von 45 ontologischen Sorten zur Klassifikation von Konzepten und damit von Lexemen zur Verfügung. Auf oberster Ebene wird etwa zwischen Objekten, Sachverhalten, Sachverhaltsdeskriptoren, Qualitäten, Graduatoren, Quantitäten und formalen Entitäten unterschieden. Insbesondere um die Überprüfung von Selektionsrestriktionen zu unterstützen, sind HaGenLexLexeme außerdem hinsichtlich 16 binärer semantischer Merkmale klassifiziert. Da zwischen diesen Merkmalen, wie im Fall von HUMAN und ANIMATE, semantische Abhängigkeiten bestehen, sind die konsistenten Kombinationen von ontoMan beachte, dass hier nicht nur generische Konzepte gemeint sind, sondern dass etwa auch der diesjährige GermaNet-Workshop in Tübingen als ein Konzept aufgefasst wird, das einem Knoten in der zugehörigen semantischen Repräsentation entspricht. Vgl. auch (Hartrumpf and Helbig, 2002). Eine Beschreibung des dabei verwendeten Parsers gibt (Hartrumpf, 2003, Kap. 3). Eine Anwendung zur natürlichsprachlichen Informationsrecherche wird in (Leveling and Helbig, 2002) vorgestellt. logischer Sorte und semantischen Merkmalen zu sogenannten semantischen Sorten zusammengefasst. Beispielsweise verbirgt sich hinter der semantischen Sorte con-info (für ‘konkretes Informationsobjekt’) die ontologische Sorte d (für ‘Diskretum’) sowie (unter anderem) die semantischen Merkmale [ANIMATE ] (nicht belebt), [ARTIF ] (Artefakt), [INFO ] (Informationsträger) und [MOVABLE ] (beweglich). Subsumierte Lexeme wären in diesem Fall Abbildung und Zeitung. 1.3 Valenz und Kasusrahmen HaGenLex spezifiziert die Valenzen von Lexemen sowohl in syntaktischer als auch in semantischer Hinsicht. So ist zu jedem Verb angegeben, in welcher semantischen Beziehung die Partizipanten der vom Verb bezeichneten Situation zu letzterer stehen. Als Ausdrucksmittel stehen hierfür wiederum die im Rahmen von MultiNet vorgegebenen semantischen Relationen zur Verfügung, die insbesondere ein Inventar an thematischen Rollen beinhalten. In erster Näherung hat der Kasusrahmen für das Verb informieren in HaGenLex die folgende Form: AGT OBJ MCONT [POTAG ] [POTAG ] np / nom np / acc ‘über’-pp / acc optional optional Die erste Zeile listet die thematischen Rollen der Argumente auf, die zweite enthält Selektionsrestriktionen (wobei POTAG für ‘potential agent’ steht), die dritte gibt (unvollständig) die syntaktischen Valenzen wieder und die letzte Zeile zeigt an, ob es sich um obligatorische oder fakultative Valenzen handelt. Der vollständig spezifizierte Lexikoneintrag ist in Abbildung 2 des Anhangs wiedergegeben. 1.4 Lexikonstruktur und Datenformat Die lexikalische Information in HaGenLex ist in Form von typisierten Merkmal-Wert-Strukturen repräsentiert. Zugrunde liegt eine baumförmige Typhierarchie sowie zu jedem Typ eine Merkmalsdeklaration. Die für HaGenLex-Einträge verwendete Merkmal-Wert-Architektur ist im Anhang