{"title":"Modellierung eines Terminologienetzes für das automatische Linking auf der Grundlage von WordNet","authors":"Michael Beißwenger, Angelika Storrer, Maren Runte","doi":"10.21248/jlcl.19.2004.62","DOIUrl":null,"url":null,"abstract":"Dieser Beitrag skizziert die Konzeption eines im Projekt „Hypertextualisierung auf textgrammtischer Grundlage“ (HyTex) modellierten terminologischen Wortnetzes (TermNet) zu den Fachtextdomanen Texttechnologie und Hypermedia. Schwerpunkt des Beitrags ist es zum einen, die Modellierung von TermNet in Hinblick auf fachsprachenund domanenspezifische Merkmale vorzustellen, und zum anderen, die Anwendung von TermNet fur die Generierung von Linkangeboten zur Rekonstruktion terminologiebedingter Wissensvoraussetzungen zu erortern. 1 Projektrahmen und Motivation des Ansatzes Unter Hypertextualisierung versteht man die Aufbereitung von Dokumenten fur die selektiven, interaktiven Nutzungsformen in einem Hypertextsystem, z.B. dem World Wide Web. Das Projekt HyTex 1 (Hypertextualisierung auf textgrammatischer Grundlage) sucht nach textgrammatisch geleiteten Verfahren fur eine hypertextadaquate Aufbereitung selektiv organisierter Fachtexte (wissenschaftliche Artikel, technische Spezifikationen), d.h. eine Aufbereitung, die hypertexttypischen selektiven Rezeptionsformen optimal entgegenkommt. Auf der technischen Seite benotigt man fur diese Aufgabe Konversionstools; auf der konzeptionellen Seite benotigt man Strategien und Verfahren fur die folgenden beiden Teilaufgaben der Hypertextualisierung: – Segmentierung (Zerlegung der Dokumente in Module). 1 HyTex wird seit April 2002 an der Universitat Dortmund durchgefuhrt (www.hytex.info) und ist ein Teilprojekt der Forschergruppe „Texttechnologische Informationsmodellierung“ (www.text-technology.de), die sich mit den theoretischen Grundlagen und Methoden der Modellierung von Sprachdaten mit Markup-Sprachen (insbesondere XML und Tochterstandards) beschaftigt. – Linking (Verknupfung der Module durch Hyperlinks). Fur die in HyTex entwickelte textgrammatisch geleitete Herangehensweise an diese Aufgaben gibt es zwei Leitlinien: (a) Reversibilitat und (b) Hypertextualisierung nach Koharenzkriterien. Ad a): Reversibilitat bedeutet, dass wir HypertextSichten auf lineare Dokumente als zusatzliche Sichten generieren, die regelgeleitet aus textgrammatischem Markup und anderen Wissensquellen – z.B. aus dem in diesem Papier beschriebenen Terminologienetz – abgeleitet werden. Die sequentielle Struktur und der Originalwortlaut eines Dokuments bleiben dabei als eine mogliche Sicht auf das Dokument erhalten. Damit geben wir dem Rezipienten die Moglichkeit, einen Text in der ursprunglichen linearen Form und Abfolge zu rezipieren, wenn er die Zeit dazu hat; die Hypertextsichten sind als zusatzliche Angebote fur den eiligen Querleser gedacht. Ad b): Das Ziel der Hypertextualisierung in unserem Ansatz ist es, Koharenzbildungsprozesse beim selektiven Querlesen besser zu unterstutzen als dies in Printmedien moglich ist und damit das Mehrwertpotenzial von Hypertexten auszureizen. Im Hinblick auf diese Zielsetzung spielen bei der Segmentierung und beim Linking Koharenzkriterien eine zentrale Rolle. Hypertextualisierung nach Koharenzkriterien ist eine Strategie, die Rainer Kuhlen (Kuhlen 1991) einer Strategie gegenuberstellt, die als „Hypertextualisierung nach formalen Texteigenschaften“ bezeichnet wird. Bei der Hypertextualisierung nach formalen Texteigenschaften erfolgt die Segmentation ausschlieslich anhand der typographisch angezeigten Unterteilung in Kapitel, Unterkapitel und Abschnitte. Diese werden dann in Nachbildung der hierarchischen Dokumentenstruktur wieder durch Links verknupft, d.h. die Teil-Ganzes-Bezuge zwischen Kapiteln, Unterka2 Streng genommen handelt es sich nicht um Reversibilitat im Sinne eines Umkehrprozesses, sondern die Hypertextualisierung erfolgt „on the fly“ auf der Basis der textgrammatischen Annotationen der weiterhin in der ursprunglichen Form verfugbaren Ausgangstexte. Wir verwenden den Ausdruck „reversibel“, um uns von Ansatzen zur Hypertextkonversion abzugrenzen, in denen der ursprungliche Text irreversibel in Form und Struktur umgestaltet wird. piteln und Abschnitten werden als Links nachgebildet und mit einem Inhaltsverzeichnis auf der Einstiegsseite verlinkt. Zusatzlich wird haufig ein Lesepfad gelegt, der in einer Tiefe-vor-BreiteStrategie auf genau demjenigen Weg durch den Hypertext fuhrt, der der Abfolge im gedruckten Pendant entspricht. Der in HyTex verfolgte Ansatz hingegen legt den Schwerpunkt bei der Strategiebildung auf textgrammatisch geleitete, verfeinerte Segmentationsund Linkingtechniken, die die Koharenzbildung des selektiv und quer lesenden Nutzers optimal unterstutzen. Eine wichtiger Strategietyp ist dabei das sog. Linking nach Wissensvoraussetzungen, welches darauf abzielt, mit automatischen Verfahren Links zu genau denjenigen Textsegmenten zu generieren, deren Inhalte fur das Verstandnis des von einem selektiv zugreifenden Hypertextrezipienten aktuell rezipierten Moduls benotigt werden. Hierbei orientieren wir uns an einem Szenario, das wir als Hypertext-Rezeptionsumgebung fur Fachtexte bezeichnen. Das Szenario ist zugeschnitten auf Nutzungssituationen, in welchen sich ein Nutzer unter Zeitdruck und mit einer ganz speziellen Zielsetzung Wissen zu einem Fachgebiet erarbeiten muss, fur welches er zwar bereits Wissensvoraussetzungen mitbringt, in dem er aber kein Experte ist. Beispiele, in denen solche Situationen auftreten, sind interdisziplinare Projektarbeit, Wissenschaftsjournalismus, Fachlexikographie, sowie interdisziplinares Arbeiten in Studium und Weiterbildung. Ganz unabhangig von WWW und Hypertext lesen Nutzer in solchen Situationen quer und partiell und rezipieren nur selektiv Teiltexte. Hypertextsichten kommen dieser Rezeptionsform nun prinzipiell entgegen, indem sie langere Dokumente bereits in modularisierter Form prasentieren und darin verschiedene Suchund Navigationsoptionen zur Verfugung stellen. Werden sequentiell organisierte Texte aber nur nach formalen Texteigenschaften hypertextualisiert, so besteht die Gefahr, dass dem selektiven Querleser wichtige Voraussetzungen fur das korrekte Verstandnis eines aktuell rezipierten Textausschnitts fehlen; schlieslich sind die Teiltexte der einzelnen Module ja weiterhin auf die Ganzlekture auf einem vorgebenen Leseweg hin formuliert. Dieses Koharenzproblem bei der Hypertextrezeption soll der bereits benannte Strategietyp eines „Linkings nach Wissensvoraussetzungen“ durch Generierung von Links und zusatz3 Vgl. (Beiswenger et al. 2002) und (Lenz et al. 2002). 4 Vgl. (Storrer 2002). lichen Sichten (z.B. der Glossarsicht, vgl. Abschnitt 4) kompensieren. Die hierbei entwickelten Strategien verarbeiten Informationen aus drei verschiedenen Ebenen, die in Abb. 1 visualisiert sind und die sich folgendermasen skizzieren lassen: annotiertes Fachtextkorpus TermNet Nutzermodellierung","PeriodicalId":346957,"journal":{"name":"LDV Forum","volume":null,"pages":null},"PeriodicalIF":0.0000,"publicationDate":"2004-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"12","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"LDV Forum","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.21248/jlcl.19.2004.62","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 12
Abstract
Dieser Beitrag skizziert die Konzeption eines im Projekt „Hypertextualisierung auf textgrammtischer Grundlage“ (HyTex) modellierten terminologischen Wortnetzes (TermNet) zu den Fachtextdomanen Texttechnologie und Hypermedia. Schwerpunkt des Beitrags ist es zum einen, die Modellierung von TermNet in Hinblick auf fachsprachenund domanenspezifische Merkmale vorzustellen, und zum anderen, die Anwendung von TermNet fur die Generierung von Linkangeboten zur Rekonstruktion terminologiebedingter Wissensvoraussetzungen zu erortern. 1 Projektrahmen und Motivation des Ansatzes Unter Hypertextualisierung versteht man die Aufbereitung von Dokumenten fur die selektiven, interaktiven Nutzungsformen in einem Hypertextsystem, z.B. dem World Wide Web. Das Projekt HyTex 1 (Hypertextualisierung auf textgrammatischer Grundlage) sucht nach textgrammatisch geleiteten Verfahren fur eine hypertextadaquate Aufbereitung selektiv organisierter Fachtexte (wissenschaftliche Artikel, technische Spezifikationen), d.h. eine Aufbereitung, die hypertexttypischen selektiven Rezeptionsformen optimal entgegenkommt. Auf der technischen Seite benotigt man fur diese Aufgabe Konversionstools; auf der konzeptionellen Seite benotigt man Strategien und Verfahren fur die folgenden beiden Teilaufgaben der Hypertextualisierung: – Segmentierung (Zerlegung der Dokumente in Module). 1 HyTex wird seit April 2002 an der Universitat Dortmund durchgefuhrt (www.hytex.info) und ist ein Teilprojekt der Forschergruppe „Texttechnologische Informationsmodellierung“ (www.text-technology.de), die sich mit den theoretischen Grundlagen und Methoden der Modellierung von Sprachdaten mit Markup-Sprachen (insbesondere XML und Tochterstandards) beschaftigt. – Linking (Verknupfung der Module durch Hyperlinks). Fur die in HyTex entwickelte textgrammatisch geleitete Herangehensweise an diese Aufgaben gibt es zwei Leitlinien: (a) Reversibilitat und (b) Hypertextualisierung nach Koharenzkriterien. Ad a): Reversibilitat bedeutet, dass wir HypertextSichten auf lineare Dokumente als zusatzliche Sichten generieren, die regelgeleitet aus textgrammatischem Markup und anderen Wissensquellen – z.B. aus dem in diesem Papier beschriebenen Terminologienetz – abgeleitet werden. Die sequentielle Struktur und der Originalwortlaut eines Dokuments bleiben dabei als eine mogliche Sicht auf das Dokument erhalten. Damit geben wir dem Rezipienten die Moglichkeit, einen Text in der ursprunglichen linearen Form und Abfolge zu rezipieren, wenn er die Zeit dazu hat; die Hypertextsichten sind als zusatzliche Angebote fur den eiligen Querleser gedacht. Ad b): Das Ziel der Hypertextualisierung in unserem Ansatz ist es, Koharenzbildungsprozesse beim selektiven Querlesen besser zu unterstutzen als dies in Printmedien moglich ist und damit das Mehrwertpotenzial von Hypertexten auszureizen. Im Hinblick auf diese Zielsetzung spielen bei der Segmentierung und beim Linking Koharenzkriterien eine zentrale Rolle. Hypertextualisierung nach Koharenzkriterien ist eine Strategie, die Rainer Kuhlen (Kuhlen 1991) einer Strategie gegenuberstellt, die als „Hypertextualisierung nach formalen Texteigenschaften“ bezeichnet wird. Bei der Hypertextualisierung nach formalen Texteigenschaften erfolgt die Segmentation ausschlieslich anhand der typographisch angezeigten Unterteilung in Kapitel, Unterkapitel und Abschnitte. Diese werden dann in Nachbildung der hierarchischen Dokumentenstruktur wieder durch Links verknupft, d.h. die Teil-Ganzes-Bezuge zwischen Kapiteln, Unterka2 Streng genommen handelt es sich nicht um Reversibilitat im Sinne eines Umkehrprozesses, sondern die Hypertextualisierung erfolgt „on the fly“ auf der Basis der textgrammatischen Annotationen der weiterhin in der ursprunglichen Form verfugbaren Ausgangstexte. Wir verwenden den Ausdruck „reversibel“, um uns von Ansatzen zur Hypertextkonversion abzugrenzen, in denen der ursprungliche Text irreversibel in Form und Struktur umgestaltet wird. piteln und Abschnitten werden als Links nachgebildet und mit einem Inhaltsverzeichnis auf der Einstiegsseite verlinkt. Zusatzlich wird haufig ein Lesepfad gelegt, der in einer Tiefe-vor-BreiteStrategie auf genau demjenigen Weg durch den Hypertext fuhrt, der der Abfolge im gedruckten Pendant entspricht. Der in HyTex verfolgte Ansatz hingegen legt den Schwerpunkt bei der Strategiebildung auf textgrammatisch geleitete, verfeinerte Segmentationsund Linkingtechniken, die die Koharenzbildung des selektiv und quer lesenden Nutzers optimal unterstutzen. Eine wichtiger Strategietyp ist dabei das sog. Linking nach Wissensvoraussetzungen, welches darauf abzielt, mit automatischen Verfahren Links zu genau denjenigen Textsegmenten zu generieren, deren Inhalte fur das Verstandnis des von einem selektiv zugreifenden Hypertextrezipienten aktuell rezipierten Moduls benotigt werden. Hierbei orientieren wir uns an einem Szenario, das wir als Hypertext-Rezeptionsumgebung fur Fachtexte bezeichnen. Das Szenario ist zugeschnitten auf Nutzungssituationen, in welchen sich ein Nutzer unter Zeitdruck und mit einer ganz speziellen Zielsetzung Wissen zu einem Fachgebiet erarbeiten muss, fur welches er zwar bereits Wissensvoraussetzungen mitbringt, in dem er aber kein Experte ist. Beispiele, in denen solche Situationen auftreten, sind interdisziplinare Projektarbeit, Wissenschaftsjournalismus, Fachlexikographie, sowie interdisziplinares Arbeiten in Studium und Weiterbildung. Ganz unabhangig von WWW und Hypertext lesen Nutzer in solchen Situationen quer und partiell und rezipieren nur selektiv Teiltexte. Hypertextsichten kommen dieser Rezeptionsform nun prinzipiell entgegen, indem sie langere Dokumente bereits in modularisierter Form prasentieren und darin verschiedene Suchund Navigationsoptionen zur Verfugung stellen. Werden sequentiell organisierte Texte aber nur nach formalen Texteigenschaften hypertextualisiert, so besteht die Gefahr, dass dem selektiven Querleser wichtige Voraussetzungen fur das korrekte Verstandnis eines aktuell rezipierten Textausschnitts fehlen; schlieslich sind die Teiltexte der einzelnen Module ja weiterhin auf die Ganzlekture auf einem vorgebenen Leseweg hin formuliert. Dieses Koharenzproblem bei der Hypertextrezeption soll der bereits benannte Strategietyp eines „Linkings nach Wissensvoraussetzungen“ durch Generierung von Links und zusatz3 Vgl. (Beiswenger et al. 2002) und (Lenz et al. 2002). 4 Vgl. (Storrer 2002). lichen Sichten (z.B. der Glossarsicht, vgl. Abschnitt 4) kompensieren. Die hierbei entwickelten Strategien verarbeiten Informationen aus drei verschiedenen Ebenen, die in Abb. 1 visualisiert sind und die sich folgendermasen skizzieren lassen: annotiertes Fachtextkorpus TermNet Nutzermodellierung