统计机器翻译综述_刘群.pdf
《统计机器翻译综述_刘群.pdf》由会员分享,可在线阅读,更多相关《统计机器翻译综述_刘群.pdf(12页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、中 文 信 息 学 报第 17 卷 第 4 期 JOURNAL OF CHINESE INFORMATION PROCESSINGVol117 No14文章编号:1003-0077-(2003)04-0001-12统计机器翻译综述刘 群(北京大学 计算语言学研究所,北京 100871;中国科学院 计算技术研究所,北京 100080)摘要:本文综述了基于信源信道思想和基于最大熵思想的统计机器翻译方法并介绍了统计机器翻译的评测方法。基于信源信道的方法将翻译概率表示为一个语言模型和一个翻译模型。而基于最大熵的方法则是利用一系列实数值特征函数的线性组合来求解最优的译文。基于最大熵的统计机器翻译方法比基
2、于信源信道的方法更具有一般性,后者可以看做前者的一个特例。关键词:人工智能;机器翻译;综述;统计机器翻译;信源信道模型;最大熵方法中图分类号:TP391.2 文献标识码:ASurvey on Statistical Machine TranslationLIU Qun(Institute of Computational Linguistics,Peking University,Beijing 100871,China;Institute of Computing T echnology,Chinese Academy of Sciences,Beijing 100080,China)Abs
3、tract:The paper gives a survey on three approaches of statistical machine translation and the evaluation methodsused in SMT.The basic idea of parallel grammar based approach is to build parallel grammars for source and targetlanguages,which conform the same probabilistic distribution.In the source-c
4、hannel approach,the translation proba-bility is expressed as a language model and a translation model.In the maximum entropy approach,the optimaltranslation is searched according to a linear combination of a series of rea-l valued feature functions.T he source-chan-nel approach can be regard as a sp
5、ecial case of maximum entropy approach.Key words:artificial intelligence;machine translation;overview;statistical machine translation;source channelmodel;maximum entropy method一、概述统计机器翻译,又称为数据驱动(data-driven)的机器翻译。其思想其实并不新鲜。早在1949 年,Weaver 发表的以5翻译6为题的备忘录中就提出:/当我阅读一篇用俄语写的文章的时候,我可以说,这篇文章实际上是用英语写的,只不过它是
6、用另外一种奇怪的符号编了码而已,当我在阅读时,我是在进行解码。0这实际上就是基于信源信道思想的统计机器翻译方法的萌芽。实际上,早期的机器翻译系统通常都建立在对词类和词序分析的基础之上,分析中经常使用统计方法,只是后来以 Chomsky 转换生成语法为代表的理性主义方法兴起后,统计机器翻译方法几乎不再被人使用。90 年代初,IBM 的 Brown 等人提出了基于信源信道思想的统1收稿日期:2003-02-10基金项目:国家重点基础研究计划(973)支持项目(G1998030507-4;G1998030510)作者简介:刘群(1966),男,副研究员,在职博士,研究方向是自然语言处理和机器翻译.计
7、机器翻译模型,并且在实验中获得了初步的成功,引起了研究者广泛的关注和争议。不过由于当时计算能力等多方面限制,真正开展统计机器翻译方法研究的人并不多,统计机器翻译方法是否真正有效还受到人们普遍的怀疑。不过,近年来,随着越来越多的研究人员投入到统计机器翻译的研究中并取得了成功,统计方法已逐渐成为国际上机器翻译研究的主流方法之一。作者根据所查阅的文献,把基于统计的机器翻译方法大体上分为以下三类:第一类是基于平行概率语法的统计机器翻译方法,其基本思想是,用一个双语平行的概率语法模型,同时生成两种语言的句子,在对源语言句子进行理解的同时,就可以得到对应的目标语言句子。这种方法的主要代表有 Alshawi
8、 的Head Transducer 模型和吴德恺的 IT G 模型,由于这类方法影响较小,而本文篇幅有限,这里不对这类方法进行介绍。第二类是基于信源信道模型的统计机器翻译方法,这种方法是由 IBM 公司的 Peter Brown 等人在 90 年代初提出的 4,5,后来很多人都在这种方法的基础上做了很多改进工作,这也是目前最有影响的统计机器翻译方法,一般说的统计机器翻译方法都是指的这一类方法。第三类是德国 Och 等人最近提出基于最大熵的统计机器翻译方法 9,这种方法是比信源信道模型更一般化的一种模型。本文将依次介绍后两类统计机器翻译方法,然后介绍一下在统计机器翻译中经常使用的机器翻译自动评测
9、技术,最后给出总结。二、基于信源信道思想的统计机器翻译方法211 IBM 的统计机器翻译方法21111 基本原理基于信源信道模型的统计机器翻译方法的基本思想是,把机器翻译看成是一个信息传输的过程,用一种信源信道模型对机器翻译进行解释。假设一段目标语言文本 T,经过某一噪声信道后变成源语言 S,也就是说,假设源语言文本 S 是由一段目标语言文本T 经过某种奇怪的编码得到的,那么翻译的目标就是要将 S 还原成T,这也就是一个解码的过程。根据 Bayes 公式可推导得到:T=argmaxTP(T)P(S|T)这个公式在 Brown 等人的文章4中称为统计机器翻译的基本方程式(Fundamental
10、Equa-tion of Statistical Machine Translation)。在这个公式中,P(T)是目标语言的文本 T 出现的概率,称为语言模型。P(S|T)是由目标语言文本 T 翻译成源语言文本 S 的概率,称为翻译模型。语言模型只与目标语言相关,与源语言无关,反映的是一个句子在目标语言中出现的可能性,实际上就是该句子在句法语义等方面的合理程度;翻译模型与源语言和目标语言都有关系,反映的是两个句子互为翻译的可能性。也许有人会问,为什么不直接使用 P(T|S),而要使用 P(T)P(S|T)这样一个更加复杂的公式来估计译文的概率呢?其原因在于,如果直接使用 P(T|S)来选择合
11、适的 T,那么得到的 T 很可能是不符合译文语法的(il-l formed),而语言模型 P(T)就可以保证得到的译文尽可能的符合语法。这样,机器翻译问题被分解为三个问题:11 语言模型 Pr(t)的参数估计;221 翻译模型 Pr(s|t)的参数估计;31 搜索问题:寻找最优的译文;从 80 年代末开始到 90 年代中期,IBM 的机器翻译研究小组在统计机器翻译的思想指导下进行了一系列的研究工作 2,4,5并实现了一个法语到英语统计机器翻译系统。对于语言模型 Pr(t),他们尝试了采用 n 语法、链语法等语法模型。链语法模型比 n 元语法模型的优点在于可以处理长距离的依赖关系。下面我们着重介
12、绍翻译模型。21112 IBM 统计翻译模型对于翻译模型 Pr(f|e),IBM 公司提出了 5 种复杂程度递增的数学模型 5,简称为 IBMModel 1 5。模型 1 仅考虑词与词互译的概率 t(fj|ei)。模型 2 考虑了单词在翻译过程中位置的变化,引入了参数 Pr(aj|j,m,l),m 和l 分别是目标语和源语句子的长度,j 是目标语单词的位置,aj是其对应的源语单词的位置。模型 3 考虑了一个单词翻译成多个单词的情形,引入了产出概率(n|ei),表示单词 ei翻译成n 个目标语单词的概率。模型 4在对齐时不仅仅考虑词的位置变化,同时考虑了该位置上的单词(基于类的模型,自动将源语言
13、和目标语言单词划分到 50 个类中)。模型 5 是对模型 4 的修正,消除了模型 4 中的缺陷(deficiency),避免对一些不可能出现的对齐给出非零的概率。在模型 1 和 2 中,首先预测源语言句子长度,假设所有长度都具有相同的可能性。然后,对于源语言句子中的每个位置,猜测其与目标语言单词的对应关系,以及该位置上的源语言单词。在模型 3,4,5中,首先,对于每个目标语言单词,选择对应的源语言单词个数,然后再确定这些单词,最后,判断这些源语言单词的具体位置。这些模型的主要区别在于计算源语言单词和目标语言单词之间的连接(Connection)的概率的方式不同。模型 1最简单,只考虑词与词之间
14、互译的概率,不考虑词的位置信息,也就是说,与词序无关。好在模型 1 的参数估计具有全局最优的特点,也就是说最后总可以收敛于一个与初始值无关的点。模型 2 到 5 都只能收敛到局部最优,但在 IBM 的实验中,每一种模型的参数估计都依次把上一种模型得到的结果作为初始值,于是我们可以看到最后的结果实际上也是与初始值无关的。下面以模型 3为例,说明一下从源语言(英语)文本产生目标语言(法语)文本的过程:11 对于句子中每一个英语单词 e,选择一个产出率,其概率为 n(|e);21 对于所有单词的产出率求和得到 m-prime;31 按照下面的方式构造一个新的英语单词串:删除产出率为 0 的单词,复制
15、产出率为 1的单词,复制两遍产出率为 2 的单词,依此类推;41 在这 m-prime 个单词的每一个后面,决定是否插入一个空单词 NULL,插入和不插入的概率分别为 p 1和 p 0;51 设 0为插入的空单词 NULL 的个数。61 设 m 为目前的总单词数:m-prime+0;71 根据概率表 t(f|e),将每一个单词 e 替换为外文单词f;81 对于不是由空单词 NULL 产生的每一个外语单词,根据概率表 d(j|i,l,m),赋予一个位置。这里 j 是法语单词在法语串中的位置,i 是产生当前这个法语单词的对应英语单词在英语句子中的位置,l 是英语串的长度,m 是法语串的长度;91
16、如果任何一个目标语言位置被多重登录(含有一个以上单词),则返回失败;101 给空单词 NULL 产生的单词赋予一个目标语言位置。这些位置必须是空位置(没有3被占用)。任何一个赋值都被认为是等概率的,概率值为 1/r e(1-r/c)if c r 其中 c 为候选译文中单词的个数,r 为参考译文中与c 最接近的译文单词个数。根据 IBM 的实验,BLEU 可以相当好地模拟了人类专家对机器翻译的评测结果。参考下图中的曲线。其中 S1、S2、S3 分别是三个不同的机器翻译系统提供的译文,H1和 H2 是两个人类翻译者提供的译文。蓝线是 BLEU 系统评测的结果,红线是只懂目标语言的人类专家提供的评测
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计 机器翻译 综述 刘群
限制150内