将标准与统计方法在机器翻译中统一起来

K. Eberle
{"title":"将标准与统计方法在机器翻译中统一起来","authors":"K. Eberle","doi":"10.21248/jlcl.24.2009.121","DOIUrl":null,"url":null,"abstract":"Warren Weavers Appell an die akademische Welt, zu untersuchen inwieweit es moglich ist, Texte automatisch zu ubersetzen, wird gemeinhin als Beginn der Maschinellen Ubersetzung verstanden (Weaver (2003); Hutchins (1995)). Seither sind rund 60 Jahre vergangen und das Problem der automatischen Ubersetzung von Texten ist keineswegs gelost, steht aber aktuell im Fokus der computerlinguistischen Forschung wie kaum ein anderes. Zu Beginn der Forschung standen eher Rechnerprobleme im Vordergrund und architektonisch die sogenannte direkte Ubersetzungsarchitektur, die schlagwortartig auch als Wort-zu-Wort-Ubersetzung gekennzeichnet wird. Danach, in der zweiten Generation der Maschinellen Ubersetzung, standen die sogenannten regelbasierten Ubersetzungssysteme im Zentrum, deren gemeinsames Grundprinzip, bei aller Vielfalt, die im Lauf der Jahre entstanden ist, gekennzeichnet ist durch die Idee, Satzen abstrakte strukturelle Analysen zuzuweisen und auf dieser Basis zu ubersetzen. (Diese Systeme werden zusammengefasst unter der Bezeichnung RBMT fur Rule Based Machine Translation). In der dritten Generation stehen statistische Modelle im Vordergrund (diese sind Instanzen der sog. SMT fur Statistics based Machine Translation). Ohne noch eine echte vierte Generation zu begrunden, stehen heute Forschungen im Zentrum, die versuchen, moglichst viel Wissen aus Sprachdaten abzuleiten und dabei Methoden verschiedener Ubersetzungstraditionen moglichst effizient in sogenannten hybriden Ansatzen zu verbinden. Eines der grosten Probleme fur die Maschinelle Ubersetzung, vermutlich das zentrale Problem uberhaupt, war und ist die Mehrdeutigkeit. Diese Eigenschaft erlaubt es den naturlichen Sprachen, mit einer moglichst geringen Anzahl von Zeichen und Zeichenkombinationen eine maximale Ausdruckskraft zu erzielen. Verwirrung wird dabei vermieden, indem Kontextwissen auserst effizient ausgenutzt wird, um die richtige Bedeutung hervorzuheben und die falschen Interpretationen auszufiltern. Dies aber ist das groste Hindernis fur den Erfolg einfacher Ubersetzungskonzeptionen. Wegen der Mehrdeutigkeit genugt es nicht, Ubersetzungsregeln als isolierte ein-eindeutige Wortbeziehungen anzulegen, sondern sie mussen als kontextsensitive n:m-Beziehungen definiert werden, wobei die qualitativ wirklich gute Ubersetzung bedeutet, dass zum Schluss der ganze Text und der Zweck des Texts in den Blick genommen werden muss, um die kontextuellen Einschrankungen vollstandig zu erfassen.","PeriodicalId":402489,"journal":{"name":"J. Lang. Technol. Comput. Linguistics","volume":"29 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2009-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"3","resultStr":"{\"title\":\"Integration von regel- und statistikbasierten Methoden in der maschinellen Übersetzung\",\"authors\":\"K. Eberle\",\"doi\":\"10.21248/jlcl.24.2009.121\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"Warren Weavers Appell an die akademische Welt, zu untersuchen inwieweit es moglich ist, Texte automatisch zu ubersetzen, wird gemeinhin als Beginn der Maschinellen Ubersetzung verstanden (Weaver (2003); Hutchins (1995)). Seither sind rund 60 Jahre vergangen und das Problem der automatischen Ubersetzung von Texten ist keineswegs gelost, steht aber aktuell im Fokus der computerlinguistischen Forschung wie kaum ein anderes. Zu Beginn der Forschung standen eher Rechnerprobleme im Vordergrund und architektonisch die sogenannte direkte Ubersetzungsarchitektur, die schlagwortartig auch als Wort-zu-Wort-Ubersetzung gekennzeichnet wird. Danach, in der zweiten Generation der Maschinellen Ubersetzung, standen die sogenannten regelbasierten Ubersetzungssysteme im Zentrum, deren gemeinsames Grundprinzip, bei aller Vielfalt, die im Lauf der Jahre entstanden ist, gekennzeichnet ist durch die Idee, Satzen abstrakte strukturelle Analysen zuzuweisen und auf dieser Basis zu ubersetzen. (Diese Systeme werden zusammengefasst unter der Bezeichnung RBMT fur Rule Based Machine Translation). In der dritten Generation stehen statistische Modelle im Vordergrund (diese sind Instanzen der sog. SMT fur Statistics based Machine Translation). Ohne noch eine echte vierte Generation zu begrunden, stehen heute Forschungen im Zentrum, die versuchen, moglichst viel Wissen aus Sprachdaten abzuleiten und dabei Methoden verschiedener Ubersetzungstraditionen moglichst effizient in sogenannten hybriden Ansatzen zu verbinden. Eines der grosten Probleme fur die Maschinelle Ubersetzung, vermutlich das zentrale Problem uberhaupt, war und ist die Mehrdeutigkeit. Diese Eigenschaft erlaubt es den naturlichen Sprachen, mit einer moglichst geringen Anzahl von Zeichen und Zeichenkombinationen eine maximale Ausdruckskraft zu erzielen. Verwirrung wird dabei vermieden, indem Kontextwissen auserst effizient ausgenutzt wird, um die richtige Bedeutung hervorzuheben und die falschen Interpretationen auszufiltern. Dies aber ist das groste Hindernis fur den Erfolg einfacher Ubersetzungskonzeptionen. Wegen der Mehrdeutigkeit genugt es nicht, Ubersetzungsregeln als isolierte ein-eindeutige Wortbeziehungen anzulegen, sondern sie mussen als kontextsensitive n:m-Beziehungen definiert werden, wobei die qualitativ wirklich gute Ubersetzung bedeutet, dass zum Schluss der ganze Text und der Zweck des Texts in den Blick genommen werden muss, um die kontextuellen Einschrankungen vollstandig zu erfassen.\",\"PeriodicalId\":402489,\"journal\":{\"name\":\"J. Lang. Technol. Comput. Linguistics\",\"volume\":\"29 1\",\"pages\":\"0\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2009-07-01\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"3\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"J. Lang. Technol. Comput. Linguistics\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.21248/jlcl.24.2009.121\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"J. Lang. Technol. Comput. Linguistics","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.21248/jlcl.24.2009.121","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 3

摘要

沃伦·韦弗呼吁学术界探讨翻译文件自动翻译的可行性,这通常被理解为机械翻译的开始(Weaver, 2003);哈钦(1995)).自那以后已经过去了大约60年,以至于笔者自动翻译的问题从来就没有什么意义,而今天,计算机语言学的研究却占据了最多的位置。在研究的早期,主要是计算上的问题,并且基于建筑上所谓的直接翻译,也被称为词汇对词汇的翻译。然后,在机器翻译的第二代中,核心是所谓的以规则为基础的翻译系统,其基本原则是这个系统的核心,这个原则的本质是为了进行抽象的结构性分析,并以此为基础进行翻译。这些系统被总结为Rule翻译。)第三代受统计模型(升幅和母理论)的推动。根据统计数据翻译)在没有真正的第四代烦恼的情况下,现在的研究中心是尝试从语言数据中增加更多知识,与此同时在不同的翻译传统中有效地结合。对于机器翻译最大的问题之一可能是中心问题这种特性使得自然语言可以用最小数量的字符或符号组合来达到最大的表达力。同时,可以有效地利用弹出的情景知识,强调正确的意义,过滤虚假的诠释,从而避免混淆。这是实现简单的概念的最大障碍。不为模糊不清的genugt Ubersetzungsregeln作为孤立ein-eindeutige Wortbeziehungen叫板,而是想办法把作为kontextsensitive n: m-Beziehungen定义,并将质量很好的Ubersetzung意味着最后的整个文本和用途《看待了,以的Einschrankungen真够理解.
本文章由计算机程序翻译,如有差异,请以英文原文为准。
Integration von regel- und statistikbasierten Methoden in der maschinellen Übersetzung
Warren Weavers Appell an die akademische Welt, zu untersuchen inwieweit es moglich ist, Texte automatisch zu ubersetzen, wird gemeinhin als Beginn der Maschinellen Ubersetzung verstanden (Weaver (2003); Hutchins (1995)). Seither sind rund 60 Jahre vergangen und das Problem der automatischen Ubersetzung von Texten ist keineswegs gelost, steht aber aktuell im Fokus der computerlinguistischen Forschung wie kaum ein anderes. Zu Beginn der Forschung standen eher Rechnerprobleme im Vordergrund und architektonisch die sogenannte direkte Ubersetzungsarchitektur, die schlagwortartig auch als Wort-zu-Wort-Ubersetzung gekennzeichnet wird. Danach, in der zweiten Generation der Maschinellen Ubersetzung, standen die sogenannten regelbasierten Ubersetzungssysteme im Zentrum, deren gemeinsames Grundprinzip, bei aller Vielfalt, die im Lauf der Jahre entstanden ist, gekennzeichnet ist durch die Idee, Satzen abstrakte strukturelle Analysen zuzuweisen und auf dieser Basis zu ubersetzen. (Diese Systeme werden zusammengefasst unter der Bezeichnung RBMT fur Rule Based Machine Translation). In der dritten Generation stehen statistische Modelle im Vordergrund (diese sind Instanzen der sog. SMT fur Statistics based Machine Translation). Ohne noch eine echte vierte Generation zu begrunden, stehen heute Forschungen im Zentrum, die versuchen, moglichst viel Wissen aus Sprachdaten abzuleiten und dabei Methoden verschiedener Ubersetzungstraditionen moglichst effizient in sogenannten hybriden Ansatzen zu verbinden. Eines der grosten Probleme fur die Maschinelle Ubersetzung, vermutlich das zentrale Problem uberhaupt, war und ist die Mehrdeutigkeit. Diese Eigenschaft erlaubt es den naturlichen Sprachen, mit einer moglichst geringen Anzahl von Zeichen und Zeichenkombinationen eine maximale Ausdruckskraft zu erzielen. Verwirrung wird dabei vermieden, indem Kontextwissen auserst effizient ausgenutzt wird, um die richtige Bedeutung hervorzuheben und die falschen Interpretationen auszufiltern. Dies aber ist das groste Hindernis fur den Erfolg einfacher Ubersetzungskonzeptionen. Wegen der Mehrdeutigkeit genugt es nicht, Ubersetzungsregeln als isolierte ein-eindeutige Wortbeziehungen anzulegen, sondern sie mussen als kontextsensitive n:m-Beziehungen definiert werden, wobei die qualitativ wirklich gute Ubersetzung bedeutet, dass zum Schluss der ganze Text und der Zweck des Texts in den Blick genommen werden muss, um die kontextuellen Einschrankungen vollstandig zu erfassen.
求助全文
通过发布文献求助,成功后即可免费获取论文全文。 去求助
来源期刊
自引率
0.00%
发文量
0
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术官方微信