LDV ForumPub Date : 2005-07-01DOI: 10.21248/jlcl.20.2005.73
T. Trippel, Thierry Declerck, U. Heid
{"title":"Sprachressourcen in der Standardisierung","authors":"T. Trippel, Thierry Declerck, U. Heid","doi":"10.21248/jlcl.20.2005.73","DOIUrl":"https://doi.org/10.21248/jlcl.20.2005.73","url":null,"abstract":"Wir berichten über internationale Normungsarbeit im Bereich von Sprachressourcen. Die Normen werden von internationalen Arbeitsgruppen im Rahmen der International Organization for Standardization (ISO) entwickelt und jeweils national von entsprechenden Gruppen, in Deutschland koordiniert vom Deutschen Institut für Normung (DIN), begleitet und diskutiert. Für die automatische Sprachverarbeitung besteht seit Jahren zunehmend Bedarf an elektronischen Ressourcen: Lexika, Korpora, Grammatiken, Annotationskonventionen, Sprachdatensammlungen, usw. Damit solche Ressourcen über einen einzelnen Anwendungskontext hinaus wiederverwertbar sind und zwischen Arbeitsgruppen ausgetauscht werden können, wird an einer Normung ihrer Repräsentationsformate und der zur Beschreibung von Ressourceninhalten benutzbaren Vokabularien gearbeitet (Datenkategorien). Waren in der Vergangenheit Standardisierungsbemühungen auf bestimmte Ausschnitte aus dem Spektrum der linguistischen Beschreibungen von Ressourcen beschränkt (z.B. die EU-Projekte SAM im Bereich gesprochener Sprache, EAGLES und ISLE im Bereich von Morphosyntax, Syntax, lexikalischer Semantik in Texten und Lexika und Sprachtechnologie), so ist die Zielsetzung der 2002 und 2003 gegründeten ISO (TC 37 SC 4) bzw. DIN (NAT AA 6) Arbeitsgruppen breiter: es geht um Metarichtlinien für die Repräsentation und Annotation von Texten ebenso wie um Datenkategorien für Lexika, morphologische und morphosyntaktische Analyse, usw. Wir beschreiben den aktuellen Stand der Normungsdiskussion.","PeriodicalId":346957,"journal":{"name":"LDV Forum","volume":null,"pages":null},"PeriodicalIF":0.0,"publicationDate":"2005-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"130279039","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
LDV ForumPub Date : 2004-07-01DOI: 10.21248/jlcl.19.2004.60
Diana Steffen, Bogdan Sacaleanu, P. Buitelaar
{"title":"Domain Specific Sense Disambiguation with Unsupervised Methods","authors":"Diana Steffen, Bogdan Sacaleanu, P. Buitelaar","doi":"10.21248/jlcl.19.2004.60","DOIUrl":"https://doi.org/10.21248/jlcl.19.2004.60","url":null,"abstract":"Most approaches in sense disambiguation have been restricted to supervised training over manually annotated, non-technical, English corpora. Application to a new language or technical domain requires extensive manual annotation of appropriate training corpora. As this is both expensive and inefficient, unsupervised methods are to be preferred, specifically in technical domains such as medicine. In the context of a project in the medical domain, we developed and evaluated two unsupervised methods for sense disambiguation.","PeriodicalId":346957,"journal":{"name":"LDV Forum","volume":null,"pages":null},"PeriodicalIF":0.0,"publicationDate":"2004-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"129320982","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
LDV ForumPub Date : 2004-07-01DOI: 10.21248/jlcl.19.2004.61
Chris Biemann, Stefan Bordag, U. Quasthoff
{"title":"Lernen paradigmatischer Relationen auf iterierten Kollokationen","authors":"Chris Biemann, Stefan Bordag, U. Quasthoff","doi":"10.21248/jlcl.19.2004.61","DOIUrl":"https://doi.org/10.21248/jlcl.19.2004.61","url":null,"abstract":"Das Lernen paradigmatischer Relationen wie Synonymie, Homonymie, Antonymie und Hyponymie ist Thema verschiedener statistischer Ansatze. Die bisherigen Ansatze verwenden nur je ein statistisches Feature, um derartige Relationen aus grosen Textkorpora zu extrahieren. In diesem Papier soll eine Architektur vorgestellt, die es ermoglicht, Relationen zwischen Wortern durch eine Trainingsmenge zu lernen, um weitere in der Relation stehende Worter zu erhalten, um schlieslich lexikalischsemantische Wortnetze automatisch oder halbautomatisch zu erweitern. Hierzu wird zunachst eine passende Menge von Features aus einer grosen Menge vorhandener Features aufgrund der Trainingsmenge ausgewahlt, statistisch getestet und zum Erweitern des Wortnetzes verwendet.","PeriodicalId":346957,"journal":{"name":"LDV Forum","volume":null,"pages":null},"PeriodicalIF":0.0,"publicationDate":"2004-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"125338771","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
LDV ForumPub Date : 2004-07-01DOI: 10.21248/jlcl.19.2004.65
Petra H. Steiner
{"title":"FrameNet und WordNet - Perspektiven für die Verknüpfung zweier lexikalisch-semantischer Netze","authors":"Petra H. Steiner","doi":"10.21248/jlcl.19.2004.65","DOIUrl":"https://doi.org/10.21248/jlcl.19.2004.65","url":null,"abstract":"","PeriodicalId":346957,"journal":{"name":"LDV Forum","volume":null,"pages":null},"PeriodicalIF":0.0,"publicationDate":"2004-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"128041129","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
LDV ForumPub Date : 2004-07-01DOI: 10.21248/jlcl.19.2004.55
R. Osswald
{"title":"Die Verwendung von GermaNet zur Pflege und Erweiterung des Computerlexikons HaGenLex","authors":"R. Osswald","doi":"10.21248/jlcl.19.2004.55","DOIUrl":"https://doi.org/10.21248/jlcl.19.2004.55","url":null,"abstract":"Dieser Beitrag soll am Beispiel des semantikbasierten Computerlexikons HaGenLex aufzeigen, wie GermaNet für die Pflege und Erweiterung anderer lexikalisch-semantischer Ressourcen eingesetzt werden kann. Ausgangsbasis ist dabei eine Lesartenzuordnung zwischen GermaNetund HaGenLexEinträgen, welche die Übertragung der sinnrelationalen Zusammenhänge von GermaNet auf HaGenLex erlaubt. Auf der Grundlage dieser Kopplung lassen sich beispielsweise Inkonsistenzen in der semantischen Klassifikation von HaGenLex-Einträgen aufdecken. Neben weiteren Anwendungen werden einige sich dabei ergebenden Probleme sowie der mögliche Nutzen für die Aufdeckung von Fehlern in GermaNet angesprochen.1 1 Das Lexikon HaGenLex HaGenLex (Hagen German Lexicon) ist ein semantikbasiertes Computerlexikon für das Deutsche, das seit 1996 an der FernUniversität Hagen am Lehrgebiet Praktische Informatik VII entwickelt wird. Momentan umfasst es circa 20.000 Lesart-Einträge (etwa 9.200 Nomina, 6.500 Verben und 3.000 Adjektive). Die Einträge wurden primär auf der Grundlage von Frequenzlisten erstellt, mit Unterstützung diverser Wörterbücher Alle Verweise beziehen sich auf GermaNet 4.0. des Deutschen. Die Erstellung durch den Lexikographen wird maßgeblich durch eine Werkbank unterstützt, die zum einen die Eingabe leitet, und zum anderen die interne Repräsentation der Einträge als Merkmal-Wert-Strukturen vor dem Nutzer verbirgt bzw. in leicht verständlicher Umschreibung darbietet. Um Missverständnissen vorzubeugen sei darauf hingewiesen, dass sich HaGenLex von GermaNet in der Gebrauchsweise des Konzeptbegriffs unterscheidet: Während GermaNet, in der Tradition von WordNet, Konzepte durch Synsets repräsentiert sieht, wird in HaGenLex davon ausgegangen, dass jedes lexikalisierte Konzept genau einem Lexem entspricht. Ferner macht HaGenLex, im Gegensatz zu GermaNet, bislang nahezu keinen Gebrauch von künstlichen Konzepten. Im Folgenden soll der Aufbau von HaGenLex kurz skizziert werden; eine ausführlichere Beschreibung findet sich in (Hartrumpf et al., 2003). 1.1 Der MultiNet-Formalismus Die Mittel zur Darstellung semantischer Information in HaGenLex sind dem sogenannten MultiNet-Paradigma entnommen. Bei letzterem handelt es sich um einen Formalismus zur Darstellung der Semantik natürlicher Sprache mittels mehrschichtiger, erweiterter semantischer Netze.2 Grob gesprochen besteht ein solches semantisches Netz aus Knoten, die Konzepte repräsentieren, und Kanten, welche die semantischen Beziehungen zwischen den Konzepten zum Ausdruck brinFür eine detaillierte Darstellung sei der Leser auf (Helbig, 2001) verwiesen. gen.3 Zur Charakterisierung der Beziehung zwischen Konzepten stellt der MultiNet-Formalismus ein vordefiniertes und ausführlich dokumentiertes Repertoire von weit über hundert Relationen und Funktionen bereit. Darüber hinaus ist jeder Konzeptknoten von MultiNet hinsichtlich mehrerer Merkmale spezifiziert, die unter anderem zum Ausdruck bringen, ob das Konzept generisch zu interpretieren ","PeriodicalId":346957,"journal":{"name":"LDV Forum","volume":null,"pages":null},"PeriodicalIF":0.0,"publicationDate":"2004-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"131772677","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
LDV ForumPub Date : 2004-07-01DOI: 10.21248/jlcl.19.2004.54
Matthias Jörg
{"title":"Die semantische Auswertung von Produktanforderungen mit Hilfe von GermaNet","authors":"Matthias Jörg","doi":"10.21248/jlcl.19.2004.54","DOIUrl":"https://doi.org/10.21248/jlcl.19.2004.54","url":null,"abstract":"A method of making swimming pool walls with gutter and conduit constructions from sheet metal components that are fused together at welded junctions. The method is characterized by forming the individual components to specific configurations that are adapted for sequential assembly on a supporting structure. The configurations of the individual components are such that when assembled three of the components are fused together at a continuous single weld to effect a water tight closure for the gutter and conduit. This results in the elimination of one continuous welded seam and also simplifies the fabrication and assembly of the construction. The present method is further characterized by being adaptable to form a plurality of gutter and conduit types and capacities from standardized main components. In addition, the method is adapted to effect closer tolerances in alignment of the components during the assembly and welding thereof.","PeriodicalId":346957,"journal":{"name":"LDV Forum","volume":null,"pages":null},"PeriodicalIF":0.0,"publicationDate":"2004-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"131747726","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
LDV ForumPub Date : 2004-07-01DOI: 10.21248/jlcl.19.2004.63
Eva Anna Lenz, Benjamin Birkenhake, J. Maas
{"title":"Von der Erstellung bis zur Nutzung: Wortnetze als XML Topic Maps","authors":"Eva Anna Lenz, Benjamin Birkenhake, J. Maas","doi":"10.21248/jlcl.19.2004.63","DOIUrl":"https://doi.org/10.21248/jlcl.19.2004.63","url":null,"abstract":"","PeriodicalId":346957,"journal":{"name":"LDV Forum","volume":null,"pages":null},"PeriodicalIF":0.0,"publicationDate":"2004-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"134439862","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
LDV ForumPub Date : 2004-07-01DOI: 10.21248/jlcl.19.2004.59
A. Wagner
{"title":"Estimating Frequency Counts of Concepts in Multiple-Inheritance Hierarchies","authors":"A. Wagner","doi":"10.21248/jlcl.19.2004.59","DOIUrl":"https://doi.org/10.21248/jlcl.19.2004.59","url":null,"abstract":"This paper deals with methods for estimating frequencies of concepts in wordnets from corpus data. In particular, it addresses issues which multiple inheritance structures in wordnets raise regarding this task. One of the discussed approaches (tree cut) is problematic in this respect, because it requires a pure tree hierarchy. Applying this approach to a wordnet requires that its DAG structure is transformed into a tree. I propose a mathematically sound method for that purpose and compare this method to a commonly used ad-hoc strategy. This strategy leads to biases in the estimated frequencies which are avoided by the approach proposed here. Experiments with GermaNet demonstrate that these biases have significant impacts.","PeriodicalId":346957,"journal":{"name":"LDV Forum","volume":null,"pages":null},"PeriodicalIF":0.0,"publicationDate":"2004-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"125013186","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
LDV ForumPub Date : 2004-07-01DOI: 10.21248/jlcl.19.2004.57
D. Plewe, Manfred Stede, S. Meschkat
{"title":"GeneralNews - An Interactive Metabrowser","authors":"D. Plewe, Manfred Stede, S. Meschkat","doi":"10.21248/jlcl.19.2004.57","DOIUrl":"https://doi.org/10.21248/jlcl.19.2004.57","url":null,"abstract":"ion – a powerful invention Thinking in alternatives is important for progress since we develop new ideas by changing existing descriptions. Therein, abstraction as a thought pattern plays a major role, even though it is often used in the pejorative sense: “...too abstract”. Yet, a plead for abstraction would include the following topics: • Language and the structure of knowledge: according to current cognitive theories, we group our concepts in taxonomies. With these hierarchies, properties from the generic terms are inherited to the specific terms. This allows also to derive conclusions about","PeriodicalId":346957,"journal":{"name":"LDV Forum","volume":null,"pages":null},"PeriodicalIF":0.0,"publicationDate":"2004-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"134091716","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}