机器翻译中汉语动结式生成的过程.docx
《机器翻译中汉语动结式生成的过程.docx》由会员分享,可在线阅读,更多相关《机器翻译中汉语动结式生成的过程.docx(16页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、机器翻译中汉语动结式生成的过程 1.引言当电子计算机1946年问世的时候,人们就提出了机器翻译的想法,并且在1954年进行了第一次机器翻译试验。然而与后来的各种语言信息处理探讨和应用(语言信息检索、文本自动分类、自动文摘、信息提取等等)相比,机器翻译却是进展最慢的。学者们倾其大半生精力、商家投入为数可观的资金,经验五十多年不懈的探讨和开发,得到的成果或者产品却经常不能令人满足。缘由是什么呢?从语言探讨的角度来说,机器翻译系统分析、理解和生成自然语言的实力都还不到位,处理不了的语言现象许多:有的是句子结构层次弄错了,有的是结构关系弄错了,有的是成分之间的语义关系弄错了,有的是词义辨识错了,还有的
2、错误是源语和目标语之间的对比差异造成的。下面是机器翻译处理汉语动结式不胜利的几个例子(来自三个机器翻译系统)。先看生成的状况,机器翻译目前还很难生成汉语的动结式,所以我们很少在汉语译文里见到含有动结式的句子。对于下面这个英译汉的例子,三个系统都不能翻译成他把地扫干净了:Hesweptthefloorclean.*他干净地扫地了。*他清扫清洁的地板。*他清扫地板干净。再看汉语动结式翻译成英语的例子,它们可以说明目前机器翻译系统分析和理解汉语动结式的实力:他踢坏了三双鞋。*Heplaysthreepairsofevilshoes.*Hekickedthreepairsofshoesbad.*Him
3、kickspoil3pairsofshoes.这段路把妈妈走累了。*Thewaymakemothertiredafterthewalk.*Thissectionofwaywaswalkedmothertired(ly).*Thisroadmotherwalktired.大家吃腻了剩菜。*Everybodyhasfeddedupwiththeleftovers.*Thateverybodyategreasy(ly)surplusvegetable.*Alleat,isloathetoleavevegetable.下面我们只探讨动结式的生成问题,其中不包括以下三种状况:1)补语用得字连接的;2)补
4、语虚化的,如:抓住、买着、看完、办成等;3)补语和动结式的宾语有固定搭配关系的,如:说走了板、看愣了神、苦出了头等等。2.机器翻译中的动结式问题为了说明机器翻译如何处理动结式述语结构,我们须要先看看机器翻译的过程。明显,这是一个志向化的机器翻译过程。从S到I再到T的过程是中介语言的翻译策略,中介语言通常是某种独立于源语和目标语的逻辑表达式。假如是英译汉,对英语的分析和理解要从表层深化究竟层,得到描述句子意义的中介语言逻辑表达式。同样地,汉语也要从底层到表层一步一步生成。分析时从表层究竟层走得越深,生成时从底层回到表层的过程也就越困难。因此,须要分别对这两种语言的句法和语义系统作深化的探讨。事实
5、上目前大部分机器翻译系统都作不到这个程度,常见的翻译策略是干脆法或转换法,或干脆和转换相结合的混合方法。我们可以通过一个英译汉的例子对干脆法、转换法和中介语言法这三种翻译策略作一个比较:在机器翻译系统中,用干脆法可以得到译句1;用基于句法的转换法,再加上一些语义关系的分析,能得到译句2;译句3是基于理解的,用中介语言法有可能作到。明显,前一节关于动结式英译汉和汉译英的例子,都不是基于理解的翻译。动结式的结构形式简洁,语义关系困难,在汉语里是很有特点的一种结构。吕叔湘先生(1986)曾用它说明汉语句法的敏捷性。人们在从各种角度论述动结式述补结构的时候,经常会提到它在对外汉语教学当中是个难点。同样
6、,在机器翻译中它也是个难题。在汉语翻译成外语的系统里,难的是如何分析和理解动结式述补结构。在外语翻译成汉语的系统里,难的是如何生成含有动结式的句子。我们在这里只探讨生成的状况。在这种状况下,源语(例如英语)往往没有相当于汉语动结式的结构形式,也很难用转换规则把英语的某些结构形式与汉语动结式联系起来。所以除非用个别处理的方法,采纳干脆法和转换法翻译策略的系统很难生成汉语的动结式译文。要让系统有生成动结式的实力,就要按中介语言法的思路,增加分析的深度,理解源语句子要表达的意思(各个成分的概念意义、成分之间的关系意义,句子的句式意义,等等),然后依据意义表达的须要,选择动结式的一种结构形式,再生成表
7、层的句子。目前我们对汉语的探讨还不足以支持这样的生成过程。所以在现有的机器翻译系统输出的汉语译文当中,很难找到地道的含有动结式述补结构的句子。于是就有了下面的译文:3.动结式的生成过程机器翻译译文生成的任务是从要表达的意义动身,经过选择词语、确定词语间的语义关系、确定目标语句子的句法结构等步骤,最终输出与源语言句子在意义上等价的表层字符串。对于动结式的生成,有以下几步:(一)确定要表达的意思(四)整合语义结构(二)选择词语、分派语义角色(五)选择句法表现形式(三)推断合法性(六)处理表层词语3.1制定要表达的意思汉语动结式述语结构表达的是一种动作—结果事务。比如要生成的意思是:小王
8、读了这篇文章,结果小王懂了这篇文章。在汉语生成起先之前,机器翻译系统用中介语言逻辑表达式表示要生成的译文是什么意思。一般来说,假如这个表达式里面有两个谓词结构,并且二者之间有动作—结果关系,就可以进入汉语动结式的生成过程。中介语言逻辑表达式是从源语(譬如英语)分析得到的,源语中的述谓结构和动作—结果关系会在表达式中有所体现。但这并不是推断能否生成汉语动结式的惟一依据。我们在上一节提到,英语往往没有相当于汉语动结式的结构形式,也很难用转换规则把英语的某些结构形式与汉语动结式联系起来,这是就句法结构来说的。事实上,由于英、汉语之间在动作—结果关系表达上的差异,(
9、注:戴浩一(2023)指出:动作—结果基模虽然在汉、英语中都存在,但是在汉语中占主导地位,而在英语中占次要甚至边缘地位。而且,这个基模在两个语言对客观状况的构建上也因阅历的概念化不同而呈现不同的形式。)在从源语分析得来的语义表达式里,可以用汉语动结式生成的动作—结果关系有时是隐含的,与此相关的述谓关系也有不同的表现形式。比如:还有,致使动作—结果事务发生的某些因素在汉语里经常可以充当动结式的一个论元角色,(注:袁毓林(2023)称其为外来的致事。)而在英语里它们往往充当其他成分:那场可怕的暴风雪冻死了不少人。Manypeoplefrozetodeathint
10、heterriblesnowstorm.沙发把你坐懒了。Youarebecominglazyonthesofa.所以我们须要一组规则,在要生成的语义表达式里推断有没有应当用汉语动结式表达的述谓关系。在这组规则里,除了两个谓词结构及其显性的动作—结果关系符合推断条件以外,还应当有能够识别和提取隐含的动作—结果关系及其述谓结构的条件。这就须要探讨英语和汉语在表达动作—结果关系时的差异。这种差异有时在某种类别下表现出来,有时又很特性化,只跟详细词语有关。目前机器翻译系统还没有找到这样的规则。所以我们就短暂只能看到她嫁给了错误的人和他进了错误的门这样的译文。3.2选
11、择词语选择词语须要有一部用于信息处理的汉语词典,告知我们词语和它们的意义,以及它们的用法(比如,谓词的配价结构及其论元的限制条件)。对于前面的例子,须要先在词典里选出小王、读、懂、文章这些词,然后依据词语的意义和逻辑关系为它们分派语义角色。这些词在中介语言逻辑表达式里是实体和谓词。了、结果、这等是算子或关系,把它们转成词汇形式还须要另外的分析和处理。词语选择和语义角色分派的结果可以表示成树形图或特征集合等形式。即使有一部详尽的词典,要让机器依据意义选择词语也不是一件简单的事情。我们常常须要在几个同义词或近义词当中进行取舍。比如,汉语的看有read的意思,用它来表达我们要生成的意思比读更地道。依
12、据什么样的规则选择看,不选择读?目前汉语词汇和语义的探讨还不能形式化地回答这个问题。机器翻译系统只好先依据词语搭配的优先关系来推断。一种作法是,借助描写词语概念的语义词典,用统计语言模型计算语义相像度,让计算机学会表示和比较词语搭配的优先关系。但是,用这种工程化的方法并不能绕过汉语探讨的作用,因为一个统计语言模型能否达到比较好的处理效果,很大程度上取决于采纳什么样的语言学学问作为参数。3.3推断合法性经过词语选择和角色分派,得到了图2表示的两个谓词结构。这一步的任务是,推断能不能用动结式述语结构表示这两个谓词结构及其关系。详细说就是,看和懂能不能合成看懂,并且表示中介语言逻辑表达式要求的动作&
13、mdash;结果关系。因此合法性的问题关系到哪些动词和哪些形容词(或动词)能够组合成符合汉语习惯的动结式。假如给机器翻译系统供应一个词表,列出一批动结式的词语,而看懂又刚好在这个词表里,那么推断这件事情就比较简单。譬如,在动词学的两个义项(学习和仿照)下面,汉语动词用法词典(孟琮等,1999)列举了8个动结式实例,中国语补语例解(侯精一等,2023)列举了12个。这两部词典是面对人的,假如给机器翻译用就还须要收录更多的实例。比如学懂、学腻,等等(我们在本文的第四部分列举了学下面84个可能须要生成的动结式实例)。事实上,词表只适用于小范围的试验型翻译系统。动结式述语是一种自由结构,是依据说话的须
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器翻译 汉语 结式 生成 过程
限制150内