Modellierung eines Terminologienetzes für das automatische Linking auf der Grundlage von WordNet

LDV Forum Pub Date : 2004-07-01 DOI:10.21248/jlcl.19.2004.62
Michael Beißwenger, Angelika Storrer, Maren Runte
{"title":"Modellierung eines Terminologienetzes für das automatische Linking auf der Grundlage von WordNet","authors":"Michael Beißwenger, Angelika Storrer, Maren Runte","doi":"10.21248/jlcl.19.2004.62","DOIUrl":null,"url":null,"abstract":"Dieser Beitrag skizziert die Konzeption eines im Projekt „Hypertextualisierung auf textgrammtischer Grundlage“ (HyTex) modellierten terminologischen Wortnetzes (TermNet) zu den Fachtextdomanen Texttechnologie und Hypermedia. Schwerpunkt des Beitrags ist es zum einen, die Modellierung von TermNet in Hinblick auf fachsprachenund domanenspezifische Merkmale vorzustellen, und zum anderen, die Anwendung von TermNet fur die Generierung von Linkangeboten zur Rekonstruktion terminologiebedingter Wissensvoraussetzungen zu erortern. 1 Projektrahmen und Motivation des Ansatzes Unter Hypertextualisierung versteht man die Aufbereitung von Dokumenten fur die selektiven, interaktiven Nutzungsformen in einem Hypertextsystem, z.B. dem World Wide Web. Das Projekt HyTex 1 (Hypertextualisierung auf textgrammatischer Grundlage) sucht nach textgrammatisch geleiteten Verfahren fur eine hypertextadaquate Aufbereitung selektiv organisierter Fachtexte (wissenschaftliche Artikel, technische Spezifikationen), d.h. eine Aufbereitung, die hypertexttypischen selektiven Rezeptionsformen optimal entgegenkommt. Auf der technischen Seite benotigt man fur diese Aufgabe Konversionstools; auf der konzeptionellen Seite benotigt man Strategien und Verfahren fur die folgenden beiden Teilaufgaben der Hypertextualisierung: – Segmentierung (Zerlegung der Dokumente in Module). 1 HyTex wird seit April 2002 an der Universitat Dortmund durchgefuhrt (www.hytex.info) und ist ein Teilprojekt der Forschergruppe „Texttechnologische Informationsmodellierung“ (www.text-technology.de), die sich mit den theoretischen Grundlagen und Methoden der Modellierung von Sprachdaten mit Markup-Sprachen (insbesondere XML und Tochterstandards) beschaftigt. – Linking (Verknupfung der Module durch Hyperlinks). Fur die in HyTex entwickelte textgrammatisch geleitete Herangehensweise an diese Aufgaben gibt es zwei Leitlinien: (a) Reversibilitat und (b) Hypertextualisierung nach Koharenzkriterien. Ad a): Reversibilitat bedeutet, dass wir HypertextSichten auf lineare Dokumente als zusatzliche Sichten generieren, die regelgeleitet aus textgrammatischem Markup und anderen Wissensquellen – z.B. aus dem in diesem Papier beschriebenen Terminologienetz – abgeleitet werden. Die sequentielle Struktur und der Originalwortlaut eines Dokuments bleiben dabei als eine mogliche Sicht auf das Dokument erhalten. Damit geben wir dem Rezipienten die Moglichkeit, einen Text in der ursprunglichen linearen Form und Abfolge zu rezipieren, wenn er die Zeit dazu hat; die Hypertextsichten sind als zusatzliche Angebote fur den eiligen Querleser gedacht. Ad b): Das Ziel der Hypertextualisierung in unserem Ansatz ist es, Koharenzbildungsprozesse beim selektiven Querlesen besser zu unterstutzen als dies in Printmedien moglich ist und damit das Mehrwertpotenzial von Hypertexten auszureizen. Im Hinblick auf diese Zielsetzung spielen bei der Segmentierung und beim Linking Koharenzkriterien eine zentrale Rolle. Hypertextualisierung nach Koharenzkriterien ist eine Strategie, die Rainer Kuhlen (Kuhlen 1991) einer Strategie gegenuberstellt, die als „Hypertextualisierung nach formalen Texteigenschaften“ bezeichnet wird. Bei der Hypertextualisierung nach formalen Texteigenschaften erfolgt die Segmentation ausschlieslich anhand der typographisch angezeigten Unterteilung in Kapitel, Unterkapitel und Abschnitte. Diese werden dann in Nachbildung der hierarchischen Dokumentenstruktur wieder durch Links verknupft, d.h. die Teil-Ganzes-Bezuge zwischen Kapiteln, Unterka2 Streng genommen handelt es sich nicht um Reversibilitat im Sinne eines Umkehrprozesses, sondern die Hypertextualisierung erfolgt „on the fly“ auf der Basis der textgrammatischen Annotationen der weiterhin in der ursprunglichen Form verfugbaren Ausgangstexte. Wir verwenden den Ausdruck „reversibel“, um uns von Ansatzen zur Hypertextkonversion abzugrenzen, in denen der ursprungliche Text irreversibel in Form und Struktur umgestaltet wird. piteln und Abschnitten werden als Links nachgebildet und mit einem Inhaltsverzeichnis auf der Einstiegsseite verlinkt. Zusatzlich wird haufig ein Lesepfad gelegt, der in einer Tiefe-vor-BreiteStrategie auf genau demjenigen Weg durch den Hypertext fuhrt, der der Abfolge im gedruckten Pendant entspricht. Der in HyTex verfolgte Ansatz hingegen legt den Schwerpunkt bei der Strategiebildung auf textgrammatisch geleitete, verfeinerte Segmentationsund Linkingtechniken, die die Koharenzbildung des selektiv und quer lesenden Nutzers optimal unterstutzen. Eine wichtiger Strategietyp ist dabei das sog. Linking nach Wissensvoraussetzungen, welches darauf abzielt, mit automatischen Verfahren Links zu genau denjenigen Textsegmenten zu generieren, deren Inhalte fur das Verstandnis des von einem selektiv zugreifenden Hypertextrezipienten aktuell rezipierten Moduls benotigt werden. Hierbei orientieren wir uns an einem Szenario, das wir als Hypertext-Rezeptionsumgebung fur Fachtexte bezeichnen. Das Szenario ist zugeschnitten auf Nutzungssituationen, in welchen sich ein Nutzer unter Zeitdruck und mit einer ganz speziellen Zielsetzung Wissen zu einem Fachgebiet erarbeiten muss, fur welches er zwar bereits Wissensvoraussetzungen mitbringt, in dem er aber kein Experte ist. Beispiele, in denen solche Situationen auftreten, sind interdisziplinare Projektarbeit, Wissenschaftsjournalismus, Fachlexikographie, sowie interdisziplinares Arbeiten in Studium und Weiterbildung. Ganz unabhangig von WWW und Hypertext lesen Nutzer in solchen Situationen quer und partiell und rezipieren nur selektiv Teiltexte. Hypertextsichten kommen dieser Rezeptionsform nun prinzipiell entgegen, indem sie langere Dokumente bereits in modularisierter Form prasentieren und darin verschiedene Suchund Navigationsoptionen zur Verfugung stellen. Werden sequentiell organisierte Texte aber nur nach formalen Texteigenschaften hypertextualisiert, so besteht die Gefahr, dass dem selektiven Querleser wichtige Voraussetzungen fur das korrekte Verstandnis eines aktuell rezipierten Textausschnitts fehlen; schlieslich sind die Teiltexte der einzelnen Module ja weiterhin auf die Ganzlekture auf einem vorgebenen Leseweg hin formuliert. Dieses Koharenzproblem bei der Hypertextrezeption soll der bereits benannte Strategietyp eines „Linkings nach Wissensvoraussetzungen“ durch Generierung von Links und zusatz3 Vgl. (Beiswenger et al. 2002) und (Lenz et al. 2002). 4 Vgl. (Storrer 2002). lichen Sichten (z.B. der Glossarsicht, vgl. Abschnitt 4) kompensieren. Die hierbei entwickelten Strategien verarbeiten Informationen aus drei verschiedenen Ebenen, die in Abb. 1 visualisiert sind und die sich folgendermasen skizzieren lassen: annotiertes Fachtextkorpus TermNet Nutzermodellierung","PeriodicalId":346957,"journal":{"name":"LDV Forum","volume":null,"pages":null},"PeriodicalIF":0.0000,"publicationDate":"2004-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"12","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"LDV Forum","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.21248/jlcl.19.2004.62","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 12

Abstract

Dieser Beitrag skizziert die Konzeption eines im Projekt „Hypertextualisierung auf textgrammtischer Grundlage“ (HyTex) modellierten terminologischen Wortnetzes (TermNet) zu den Fachtextdomanen Texttechnologie und Hypermedia. Schwerpunkt des Beitrags ist es zum einen, die Modellierung von TermNet in Hinblick auf fachsprachenund domanenspezifische Merkmale vorzustellen, und zum anderen, die Anwendung von TermNet fur die Generierung von Linkangeboten zur Rekonstruktion terminologiebedingter Wissensvoraussetzungen zu erortern. 1 Projektrahmen und Motivation des Ansatzes Unter Hypertextualisierung versteht man die Aufbereitung von Dokumenten fur die selektiven, interaktiven Nutzungsformen in einem Hypertextsystem, z.B. dem World Wide Web. Das Projekt HyTex 1 (Hypertextualisierung auf textgrammatischer Grundlage) sucht nach textgrammatisch geleiteten Verfahren fur eine hypertextadaquate Aufbereitung selektiv organisierter Fachtexte (wissenschaftliche Artikel, technische Spezifikationen), d.h. eine Aufbereitung, die hypertexttypischen selektiven Rezeptionsformen optimal entgegenkommt. Auf der technischen Seite benotigt man fur diese Aufgabe Konversionstools; auf der konzeptionellen Seite benotigt man Strategien und Verfahren fur die folgenden beiden Teilaufgaben der Hypertextualisierung: – Segmentierung (Zerlegung der Dokumente in Module). 1 HyTex wird seit April 2002 an der Universitat Dortmund durchgefuhrt (www.hytex.info) und ist ein Teilprojekt der Forschergruppe „Texttechnologische Informationsmodellierung“ (www.text-technology.de), die sich mit den theoretischen Grundlagen und Methoden der Modellierung von Sprachdaten mit Markup-Sprachen (insbesondere XML und Tochterstandards) beschaftigt. – Linking (Verknupfung der Module durch Hyperlinks). Fur die in HyTex entwickelte textgrammatisch geleitete Herangehensweise an diese Aufgaben gibt es zwei Leitlinien: (a) Reversibilitat und (b) Hypertextualisierung nach Koharenzkriterien. Ad a): Reversibilitat bedeutet, dass wir HypertextSichten auf lineare Dokumente als zusatzliche Sichten generieren, die regelgeleitet aus textgrammatischem Markup und anderen Wissensquellen – z.B. aus dem in diesem Papier beschriebenen Terminologienetz – abgeleitet werden. Die sequentielle Struktur und der Originalwortlaut eines Dokuments bleiben dabei als eine mogliche Sicht auf das Dokument erhalten. Damit geben wir dem Rezipienten die Moglichkeit, einen Text in der ursprunglichen linearen Form und Abfolge zu rezipieren, wenn er die Zeit dazu hat; die Hypertextsichten sind als zusatzliche Angebote fur den eiligen Querleser gedacht. Ad b): Das Ziel der Hypertextualisierung in unserem Ansatz ist es, Koharenzbildungsprozesse beim selektiven Querlesen besser zu unterstutzen als dies in Printmedien moglich ist und damit das Mehrwertpotenzial von Hypertexten auszureizen. Im Hinblick auf diese Zielsetzung spielen bei der Segmentierung und beim Linking Koharenzkriterien eine zentrale Rolle. Hypertextualisierung nach Koharenzkriterien ist eine Strategie, die Rainer Kuhlen (Kuhlen 1991) einer Strategie gegenuberstellt, die als „Hypertextualisierung nach formalen Texteigenschaften“ bezeichnet wird. Bei der Hypertextualisierung nach formalen Texteigenschaften erfolgt die Segmentation ausschlieslich anhand der typographisch angezeigten Unterteilung in Kapitel, Unterkapitel und Abschnitte. Diese werden dann in Nachbildung der hierarchischen Dokumentenstruktur wieder durch Links verknupft, d.h. die Teil-Ganzes-Bezuge zwischen Kapiteln, Unterka2 Streng genommen handelt es sich nicht um Reversibilitat im Sinne eines Umkehrprozesses, sondern die Hypertextualisierung erfolgt „on the fly“ auf der Basis der textgrammatischen Annotationen der weiterhin in der ursprunglichen Form verfugbaren Ausgangstexte. Wir verwenden den Ausdruck „reversibel“, um uns von Ansatzen zur Hypertextkonversion abzugrenzen, in denen der ursprungliche Text irreversibel in Form und Struktur umgestaltet wird. piteln und Abschnitten werden als Links nachgebildet und mit einem Inhaltsverzeichnis auf der Einstiegsseite verlinkt. Zusatzlich wird haufig ein Lesepfad gelegt, der in einer Tiefe-vor-BreiteStrategie auf genau demjenigen Weg durch den Hypertext fuhrt, der der Abfolge im gedruckten Pendant entspricht. Der in HyTex verfolgte Ansatz hingegen legt den Schwerpunkt bei der Strategiebildung auf textgrammatisch geleitete, verfeinerte Segmentationsund Linkingtechniken, die die Koharenzbildung des selektiv und quer lesenden Nutzers optimal unterstutzen. Eine wichtiger Strategietyp ist dabei das sog. Linking nach Wissensvoraussetzungen, welches darauf abzielt, mit automatischen Verfahren Links zu genau denjenigen Textsegmenten zu generieren, deren Inhalte fur das Verstandnis des von einem selektiv zugreifenden Hypertextrezipienten aktuell rezipierten Moduls benotigt werden. Hierbei orientieren wir uns an einem Szenario, das wir als Hypertext-Rezeptionsumgebung fur Fachtexte bezeichnen. Das Szenario ist zugeschnitten auf Nutzungssituationen, in welchen sich ein Nutzer unter Zeitdruck und mit einer ganz speziellen Zielsetzung Wissen zu einem Fachgebiet erarbeiten muss, fur welches er zwar bereits Wissensvoraussetzungen mitbringt, in dem er aber kein Experte ist. Beispiele, in denen solche Situationen auftreten, sind interdisziplinare Projektarbeit, Wissenschaftsjournalismus, Fachlexikographie, sowie interdisziplinares Arbeiten in Studium und Weiterbildung. Ganz unabhangig von WWW und Hypertext lesen Nutzer in solchen Situationen quer und partiell und rezipieren nur selektiv Teiltexte. Hypertextsichten kommen dieser Rezeptionsform nun prinzipiell entgegen, indem sie langere Dokumente bereits in modularisierter Form prasentieren und darin verschiedene Suchund Navigationsoptionen zur Verfugung stellen. Werden sequentiell organisierte Texte aber nur nach formalen Texteigenschaften hypertextualisiert, so besteht die Gefahr, dass dem selektiven Querleser wichtige Voraussetzungen fur das korrekte Verstandnis eines aktuell rezipierten Textausschnitts fehlen; schlieslich sind die Teiltexte der einzelnen Module ja weiterhin auf die Ganzlekture auf einem vorgebenen Leseweg hin formuliert. Dieses Koharenzproblem bei der Hypertextrezeption soll der bereits benannte Strategietyp eines „Linkings nach Wissensvoraussetzungen“ durch Generierung von Links und zusatz3 Vgl. (Beiswenger et al. 2002) und (Lenz et al. 2002). 4 Vgl. (Storrer 2002). lichen Sichten (z.B. der Glossarsicht, vgl. Abschnitt 4) kompensieren. Die hierbei entwickelten Strategien verarbeiten Informationen aus drei verschiedenen Ebenen, die in Abb. 1 visualisiert sind und die sich folgendermasen skizzieren lassen: annotiertes Fachtextkorpus TermNet Nutzermodellierung
基于WordNet的自动连接方法模型
针对特定应用情况的行动需求制定方案让用户在紧迫的情况下争相掌握专业知识,但这些专业知识本已掌握,又不是专家。尽管如此,其中的例子也包括跨学科项目、科学新闻、专业词典、以及跨学科的学习和研究。在这类情况下,wifi和超文本都不能改变使用者只能通过不同选择性地阅读部分内容。现在它们原则上接受对文本的重写,并提供不同的搜索和导航选项。如果编辑带过文本被使用的是正式的文本,那么选择性掠夺性剪辑类型的正确理解就可能缺乏关键的基础。简单地说,每个模块的组成部分继续通过传统的阅读方式对整座塔编排文字。这种超文本的救市难题就是“知识为种的林金”战略类型,即通过链接和三三拨的补充三节。(2002年)4一三六.(Storrer 2002) .以及强制的观点(比如imf,反对反对。第四章所开发的战略是从三层不同的层面处理信息,图一,并提出了各种后果:开放式的讲习班模拟用户
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 求助全文
来源期刊
自引率
0.00%
发文量
0
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术官方微信