统计机器翻译简介.ppt
《统计机器翻译简介.ppt》由会员分享,可在线阅读,更多相关《统计机器翻译简介.ppt(56页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、NLP课题组例会报告统计机器翻译简介 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望NLP课题组例会报告统计机器翻译方法的特点利用语料库作为知识来源l区别于规则方法:无需人工编写规则建立完整完整的统计模型l区别于实例方法或模板方法:必须为整个翻译过程建立统计模型2002-12-6NLP课题组例会报告统计机器翻译的分类基于平行概率语法的统计机器翻译模型基于信源信道思想的统计机器翻译模型lIBM的PeterBrown等人首先提出l目前影响最大l几乎成为统计机器翻译的同
2、义词基于最大熵的统计机器翻译模型l源于基于特征的自然语言理解lOch提出,获ACL2002最佳论文2002-12-6NLP课题组例会报告统计机器翻译的优缺点优点l无需人工编写规则,利用语料库直接训练得到机器翻译系统;(但可以使用语言资源)l系统开发周期短;l鲁棒性好;l译文质量好;缺点l时空开销大;l数据稀疏问题严重;l对语料库依赖性强;l算法研究不成熟。2002-12-6NLP课题组例会报告基于平行概率语法的统计机器翻译模型基本思想l两种语言建立一套平行的语法规则,l规则一一对应l两套规则服从同样的概率分布l句法分析的过程决定了生成的过程主要模型lAlshawi的基于HeadTransduc
3、er的MT模型l吴德恺的InverseTransductionGrammar(ITG)lTakeda的Pattern-basedCFGforMT2002-12-6NLP课题组例会报告Head Transducer MT(1)HeadTransducer(中心词转录机)是一种DefiniteStateAutomata(有限状态自动机)与一般的有限状态识别器的区别:l每一条边上不仅有输入,而且有输出;l不是从左至右输入,而是从中心词往两边输入2002-12-6NLP课题组例会报告Head Transducer MT(2)a:a 0:0 0:0 b:b a:a-1:+1 b:b-1:+1 例子:一个
4、可以将任何a,b组成的串倒置的HeadTransducer2002-12-6NLP课题组例会报告Head Transducer MT(3)所有的语言知识(词典、规则)都表现为HeadTransducer;HeadTransducer可以嵌套:一个HeadTransducer的边是另一个的识别结果;纯统计的训练方法;对齐的结果是依存树:不使用词性和短语类标记;Chart句法分析器。2002-12-6NLP课题组例会报告Inversion Transduction Grammar(1)比赛星期三开始。ThegamewillstartonWednesday。2002-12-6NLP课题组例会报告In
5、version Transduction Grammar(2)规则形式:lABClAlAx/y产生源语言和目标语言串分别为:lBCBC:词序相同lBCCB:词序交换lxy:词典2002-12-6NLP课题组例会报告Pattern-based CFG for MT(1)每个翻译模板由一个源语言上下文无关规则和一个目标语言上下文无关规则(这两个规则称为翻译模板的骨架),以及对这两个规则的中心词约束和链接约束构成;举例:S:2 NP:1 岁:MP:2 了S:be NP:1 be year:NP:2 old2002-12-6NLP课题组例会报告Pattern-based CFG for MT(2)中心
6、词约束:对于上下文无关语法规则中右部(子结点)的每个非终结符,可以指定其中心词;对于规则左部(父结点)的非终结符,可以直接指定其中心词,也可以通过使用相同的序号规定其中心词等于其右部的某个非终结符的中心词;链接约束:源语言骨架和目标语言骨架的非终结符子结点通过使用相同的序号建立对应关系,具有对应关系的非终结符互为翻译。2002-12-6NLP课题组例会报告信源信道模型假设目标语言文本T是由一段源语言文本S经过某种奇怪的编码得到的,那么翻译的目标就是要将T 还原成S,这也就是就是一个解码的过程。注意,源语言S是噪声信道的输入语言,目标语言T是噪声信道的输出语言,与整个机器翻译系统的源语言和目标语
7、言刚好相反。P(S)P(TS)2002-12-6NLP课题组例会报告统计机器翻译基本方程式P.Brown称上式为统计机器翻译基本方程式l语言模型:P(S)l翻译模型:P(T|S)语言模型反映“S像一个句子”的程度:流利度翻译模型反映“T像S”的程度:忠实度联合使用两个模型效果好于单独使用翻译模型,因为后者容易导致一些不好的译文。2002-12-6NLP课题组例会报告语言模型与翻译模型考虑汉语动词“打”的翻译:有几十种对应的英语词译文:打人,打饭,打鱼,打毛衣,打猎,打草稿,如果直接采用翻译模型,就需要根据上下文建立复杂的上下文条件概率模型如果采用信源信道思想,只要建立简单的翻译模型,可以同样达
8、到目标词语选择的效果:l翻译模型:不考虑上下文,只考虑单词之间的翻译概率l语言模型:根据单词之间的同现选择最好的译文词2002-12-6NLP课题组例会报告统计机器翻译的三个问题三个问题:l语言模型P(S)的参数估计l翻译模型P(T|S)的参数估计l解码(搜索)算法2002-12-6NLP课题组例会报告语言模型把一种语言理解成是产生一个句子的随机事件语言模型反映的是一个句子在一种语言中出现的概率语言模型lN元语法P(S)=p(s0)*p(s1|s0)*p(Sn|Sn-1Sn-N)l链语法:可以处理长距离依赖lPCFG(要使用句法标记)2002-12-6NLP课题组例会报告引入隐含变量:对齐A翻
9、译模型与对齐P(T|S)的计算转化为P(T,A|S)的估计对齐:建立源语言句子和目标语言句子的词与词之间的对应关系2002-12-6NLP课题组例会报告IBM Model对P(T,A|S)的估计IBMModel1仅考虑词对词的互译概率IBMModel2加入了词的位置变化的概率IBMModel3加入了一个词翻译成多个词的概率IBMModel4IBMModel52002-12-6NLP课题组例会报告IBM Model 3对于句子中每一个英语单词e,选择一个产出率,其概率为n(|e);对于所有单词的产出率求和得到m-prime;按照下面的方式构造一个新的英语单词串:删除产出率为0的单词,复制产出率为
10、1的单词,复制两遍产出率为2的单词,依此类推;在这m-prime个单词的每一个后面,决定是否插入一个空单词NULL,插入和不插入的概率分别为p1和p0;0为插入的空单词NULL的个数。设m为目前的总单词数:m-prime+0;根据概率表t(f|e),将每一个单词e替换为外文单词f;对于不是由空单词NULL产生的每一个外语单词,根据概率表d(j|i,l,m),赋予一个位置。这里j是法语单词在法语串中的位置,i是产生当前这个法语单词的对应英语单词在英语句子中的位置,l是英语串的长度,m是法语串的长度;如果任何一个目标语言位置被多重登录(含有一个以上单词),则返回失败;给空单词NULL产生的单词赋予
11、一个目标语言位置。这些位置必须是空位置(没有被占用)。任何一个赋值都被认为是等概率的,概率值为1/0。最后,读出法语串,其概率为上述每一步概率的乘积。2002-12-6NLP课题组例会报告翻译模型的参数训练ViterbiTraining(对比:EMTraining)1.给定初始参数;2.用已有的参数求最好(Viterbi)的对齐;3.用得到的对齐重新计算参数;4.回到第二步,直到收敛为止。IBMModel1:存在全局最优IBMModel25:不存在全局最优,初始值取上一个模型训练的结果2002-12-6NLP课题组例会报告统计机器翻译的解码借鉴语音识别的搜索算法:堆栈搜索参数空间极大,搜索不能
12、总是保证最优从错误类型看,只有两种:l模型错误:概率最大的句子不是正确的句子l搜索错误:没有找到概率最大的句子后一类错误只占总错误数的5%(IBM)搜索问题不是瓶颈2002-12-6NLP课题组例会报告IBM公司的Candide系统 1基于统计的机器翻译方法分析转换生成l中间表示是线性的l分析和生成都是可逆的分析(预处理):1.短语切分2.专名与数词检测3.大小写与拼写校正4.形态分析5.语言的归一化2002-12-6NLP课题组例会报告IBM公司的Candide系统 2转换(解码):基于统计的机器翻译解码分为两个阶段:l第一阶段:使用粗糙模型的堆栈搜索l输出140个评分最高的译文l语言模型:
13、三元语法l翻译模型:EM算法l第二阶段:使用精细模型的扰动搜索l对第一阶段的输出结果先扩充,再重新评分l语言模型:链语法l翻译模型:最大熵方法2002-12-6NLP课题组例会报告IBM公司的Candide系统 3ARPA的测试结果:FluencyFluencyAdequacyAdequacyTime RatioTime Ratio199219921993199319921992199319931992199219931993SystranSystran.466.466.540.540.686.686.743.743CandideCandide.511.511.580.580.575.575.
14、670.670TransmanTransman.819.819.838.838.837.837.850.850.688.688.625.625ManualManual.833.833.840.8402002-12-6NLP课题组例会报告JHU的1999年夏季研讨班由来lIBM的实验引起了广泛的兴趣lIBM的实验很难重复:工作量太大目的l构造一个统计机器翻译工具(EGYPT)并使它对于研究者来说是可用的(免费传播);l在研讨班上用这个工具集构造一个捷克语英语的机器翻译系统;l进行基准评价:主观和客观;l通过使用形态和句法转录机改进基准测试的结果;l在研讨班最后,在一天之内构造一个新语对的翻译器。
15、JHU夏季研讨班大大促进了统计机器翻译的研究2002-12-6NLP课题组例会报告EGYPT工具包EGYPT的模块1.GIZA:这个模块用于从双语语料库中抽取统计知识(参数训练)2.Decoder:解码器,用于执行具体的翻译过程(在信源信道模型中,“翻译”就是“解码”)3.Cairo:整个翻译系统的可视化界面,用于管理所有的参数、查看双语语料库对齐的过程和翻译模型的解码过程4.Whittle:语料库预处理工具EGYPT可在网上免费下载,成为SMT的基准2002-12-6NLP课题组例会报告EGYPT工具包的性能“当解码器的原形系统在研讨班上完成时,我们很高兴并惊异于其速度和性能。1990年代早
16、期在IBM公司举行的DARPA机器翻译评价时,我们曾经预计只有很短(10个词左右)的句子才可以用统计方法进行解码,即使那样,每个句子的解码时间也可能是几个小时。在早期IBM的工作过去将近10年后,摩尔定律、更好的编译器以及更加充足的内存和硬盘空间帮助我们构造了一个能够在几秒钟之内对25个单词的句子进行解码的系统。为了确保成功,我们在搜索中使用了相当严格的域值和约束,如下所述。但是,解码器相当有效这个事实为这个方向未来的工作预示了很好的前景,并肯定了IBM的工作的初衷,即强调概率模型比效率更重要。”引自JHU统计机器翻译研讨班的技术报告2002-12-6NLP课题组例会报告对IBM方法的改进IB
17、M方法的问题l不考虑结构:能否适用于句法结构差别较大的语言?l数据稀疏问题严重后续的改进工作l王野翊的改进lYamada和Knight的改进lOch等人的改进2002-12-6NLP课题组例会报告王野翊的改进(1)背景:德英口语翻译系统l语法结构差异较大l数据稀疏(训练数据有限)改进:两个层次的对齐模型l粗对齐:短语之间的对齐l细对齐:短语内词的对齐2002-12-6NLP课题组例会报告王野翊的改进(2)文法推导l词语聚类:基于互信息的方法l短语归并l规则学习优点l机器翻译的正确率提高:错误率降低了11%l提高了整个系统的效率:搜索空间更小l缓解了因口语数据缺乏导致的数据稀疏问题2002-12
18、-6NLP课题组例会报告Yamada和Knight的改进(1)基于语法的翻译模型(Syntax-basedTM):l输入是源语言句法树l输出是目标语言句子翻译的过程:l每个内部结点的子结点随机地重新排列:排列概率l在每一个结点的左边或右边随机插入一个单词l左、右插入和不插入的概率取决于父结点和当前结点标记l插入哪个词的概率只与被插入词有关,与位置无关 l对于每一个叶结点进行翻译:词对词的翻译概率l输出译文句子2002-12-6NLP课题组例会报告Yamada和Knight的改进(2)2002-12-6NLP课题组例会报告Yamada和Knight的改进(3)2002-12-6NLP课题组例会报
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计 机器翻译 简介
限制150内