{"title":"Integration von regel- und statistikbasierten Methoden in der maschinellen Übersetzung","authors":"K. Eberle","doi":"10.21248/jlcl.24.2009.121","DOIUrl":null,"url":null,"abstract":"Warren Weavers Appell an die akademische Welt, zu untersuchen inwieweit es moglich ist, Texte automatisch zu ubersetzen, wird gemeinhin als Beginn der Maschinellen Ubersetzung verstanden (Weaver (2003); Hutchins (1995)). Seither sind rund 60 Jahre vergangen und das Problem der automatischen Ubersetzung von Texten ist keineswegs gelost, steht aber aktuell im Fokus der computerlinguistischen Forschung wie kaum ein anderes. Zu Beginn der Forschung standen eher Rechnerprobleme im Vordergrund und architektonisch die sogenannte direkte Ubersetzungsarchitektur, die schlagwortartig auch als Wort-zu-Wort-Ubersetzung gekennzeichnet wird. Danach, in der zweiten Generation der Maschinellen Ubersetzung, standen die sogenannten regelbasierten Ubersetzungssysteme im Zentrum, deren gemeinsames Grundprinzip, bei aller Vielfalt, die im Lauf der Jahre entstanden ist, gekennzeichnet ist durch die Idee, Satzen abstrakte strukturelle Analysen zuzuweisen und auf dieser Basis zu ubersetzen. (Diese Systeme werden zusammengefasst unter der Bezeichnung RBMT fur Rule Based Machine Translation). In der dritten Generation stehen statistische Modelle im Vordergrund (diese sind Instanzen der sog. SMT fur Statistics based Machine Translation). Ohne noch eine echte vierte Generation zu begrunden, stehen heute Forschungen im Zentrum, die versuchen, moglichst viel Wissen aus Sprachdaten abzuleiten und dabei Methoden verschiedener Ubersetzungstraditionen moglichst effizient in sogenannten hybriden Ansatzen zu verbinden. Eines der grosten Probleme fur die Maschinelle Ubersetzung, vermutlich das zentrale Problem uberhaupt, war und ist die Mehrdeutigkeit. Diese Eigenschaft erlaubt es den naturlichen Sprachen, mit einer moglichst geringen Anzahl von Zeichen und Zeichenkombinationen eine maximale Ausdruckskraft zu erzielen. Verwirrung wird dabei vermieden, indem Kontextwissen auserst effizient ausgenutzt wird, um die richtige Bedeutung hervorzuheben und die falschen Interpretationen auszufiltern. Dies aber ist das groste Hindernis fur den Erfolg einfacher Ubersetzungskonzeptionen. Wegen der Mehrdeutigkeit genugt es nicht, Ubersetzungsregeln als isolierte ein-eindeutige Wortbeziehungen anzulegen, sondern sie mussen als kontextsensitive n:m-Beziehungen definiert werden, wobei die qualitativ wirklich gute Ubersetzung bedeutet, dass zum Schluss der ganze Text und der Zweck des Texts in den Blick genommen werden muss, um die kontextuellen Einschrankungen vollstandig zu erfassen.","PeriodicalId":402489,"journal":{"name":"J. Lang. Technol. Comput. Linguistics","volume":"29 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2009-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"3","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"J. Lang. Technol. Comput. Linguistics","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.21248/jlcl.24.2009.121","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 3
Abstract
Warren Weavers Appell an die akademische Welt, zu untersuchen inwieweit es moglich ist, Texte automatisch zu ubersetzen, wird gemeinhin als Beginn der Maschinellen Ubersetzung verstanden (Weaver (2003); Hutchins (1995)). Seither sind rund 60 Jahre vergangen und das Problem der automatischen Ubersetzung von Texten ist keineswegs gelost, steht aber aktuell im Fokus der computerlinguistischen Forschung wie kaum ein anderes. Zu Beginn der Forschung standen eher Rechnerprobleme im Vordergrund und architektonisch die sogenannte direkte Ubersetzungsarchitektur, die schlagwortartig auch als Wort-zu-Wort-Ubersetzung gekennzeichnet wird. Danach, in der zweiten Generation der Maschinellen Ubersetzung, standen die sogenannten regelbasierten Ubersetzungssysteme im Zentrum, deren gemeinsames Grundprinzip, bei aller Vielfalt, die im Lauf der Jahre entstanden ist, gekennzeichnet ist durch die Idee, Satzen abstrakte strukturelle Analysen zuzuweisen und auf dieser Basis zu ubersetzen. (Diese Systeme werden zusammengefasst unter der Bezeichnung RBMT fur Rule Based Machine Translation). In der dritten Generation stehen statistische Modelle im Vordergrund (diese sind Instanzen der sog. SMT fur Statistics based Machine Translation). Ohne noch eine echte vierte Generation zu begrunden, stehen heute Forschungen im Zentrum, die versuchen, moglichst viel Wissen aus Sprachdaten abzuleiten und dabei Methoden verschiedener Ubersetzungstraditionen moglichst effizient in sogenannten hybriden Ansatzen zu verbinden. Eines der grosten Probleme fur die Maschinelle Ubersetzung, vermutlich das zentrale Problem uberhaupt, war und ist die Mehrdeutigkeit. Diese Eigenschaft erlaubt es den naturlichen Sprachen, mit einer moglichst geringen Anzahl von Zeichen und Zeichenkombinationen eine maximale Ausdruckskraft zu erzielen. Verwirrung wird dabei vermieden, indem Kontextwissen auserst effizient ausgenutzt wird, um die richtige Bedeutung hervorzuheben und die falschen Interpretationen auszufiltern. Dies aber ist das groste Hindernis fur den Erfolg einfacher Ubersetzungskonzeptionen. Wegen der Mehrdeutigkeit genugt es nicht, Ubersetzungsregeln als isolierte ein-eindeutige Wortbeziehungen anzulegen, sondern sie mussen als kontextsensitive n:m-Beziehungen definiert werden, wobei die qualitativ wirklich gute Ubersetzung bedeutet, dass zum Schluss der ganze Text und der Zweck des Texts in den Blick genommen werden muss, um die kontextuellen Einschrankungen vollstandig zu erfassen.