语言信息处理-机器翻译II.ppt
《语言信息处理-机器翻译II.ppt》由会员分享,可在线阅读,更多相关《语言信息处理-机器翻译II.ppt(64页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、机器翻译IIMachine Translation II张宇哈尔滨工业大学计算机科学与技术学院哈尔滨工业大学计算机科学与技术学院12/18/202212/18/20221 1语言信息处理语言信息处理-机器翻译机器翻译II II大纲基于翻译记忆的机器翻译方法基于模板(模式)的机器翻译方法双语语料库对齐技术句子对齐句子对齐词语对齐词语对齐机器翻译的评价12/18/202212/18/20222 2语言信息处理语言信息处理-机器翻译机器翻译II II翻译记忆方法1翻译记忆方法(翻译记忆方法(Translation MemoryTranslation Memory)是基于实)是基于实例方法的特例;例方
2、法的特例;也可以把基于实例的方法理解为广义的翻译记忆也可以把基于实例的方法理解为广义的翻译记忆方法;方法;翻译记忆的基本思想:翻译记忆的基本思想:把已经翻译过的句子保存起来把已经翻译过的句子保存起来 翻译新句子时,直接到语料库中去查找翻译新句子时,直接到语料库中去查找如果发现相同的句子,直接输出译文如果发现相同的句子,直接输出译文否则交给人去翻译,但可以提供相似的句子的参考译文否则交给人去翻译,但可以提供相似的句子的参考译文12/18/202212/18/20223 3语言信息处理语言信息处理-机器翻译机器翻译II II翻译记忆方法2翻译记忆方法主要被应用于计算机辅助翻译(CAT)软件中翻译记
3、忆方法的优缺点翻译质量有保证翻译质量有保证随着使用时间匹配成功率逐步提高随着使用时间匹配成功率逐步提高特别适用于重复率高的文本翻译,例如公司的特别适用于重复率高的文本翻译,例如公司的产品说明书的新版本翻译产品说明书的新版本翻译与语言无关,适用于各种语言对与语言无关,适用于各种语言对缺点是匹配成功率不高,特别是刚开始使用时缺点是匹配成功率不高,特别是刚开始使用时12/18/202212/18/20224 4语言信息处理语言信息处理-机器翻译机器翻译II II翻译记忆方法3计算机辅助翻译(计算机辅助翻译(CATCAT)软件已经形成了比较成熟的产业)软件已经形成了比较成熟的产业 TRADOSTRAD
4、OS号称占有国际号称占有国际CATCAT市场的市场的70%70%MicrosoftMicrosoft、SiemensSiemens、SAPSAP等国际大公司和一些著名的国际组织都是等国际大公司和一些著名的国际组织都是其用户其用户 雅信雅信CATCAT适合中国人的习惯适合中国人的习惯产品已比较成熟产品已比较成熟 国际组织:国际组织:LISA LISA(Localisation Industry Standards AssociationLocalisation Industry Standards Association)面向用户:专业翻译人员面向用户:专业翻译人员数据交换:数据交换:LISAL
5、ISA制定了制定了TMXTMX(Translation Memory Translation Memory eXchangeeXchange)标准。)标准。12/18/202212/18/20225 5语言信息处理语言信息处理-机器翻译机器翻译II II翻译记忆方法4完整的计算机辅助翻译软件除了包括翻译记忆功能以外,还应该包括以下功能多种文件格式的分解与合成多种文件格式的分解与合成术语库管理功能术语库管理功能语料库的句子对齐(历史资料的重复利用)语料库的句子对齐(历史资料的重复利用)项目管理:项目管理:翻译任务的分解与合并翻译任务的分解与合并翻译工作量的估计翻译工作量的估计数据共享和数据交换数
6、据共享和数据交换12/18/202212/18/20226 6语言信息处理语言信息处理-机器翻译机器翻译II II翻译记忆方法512/18/202212/18/20227 7语言信息处理语言信息处理-机器翻译机器翻译II II基于模板(模式)的机器翻译方法1基于模板(基于模板(TemplateTemplate)或者模式()或者模式(PatternPattern)的机器翻译方)的机器翻译方法通常也被看做基于实例的机器翻译方法的一种延伸法通常也被看做基于实例的机器翻译方法的一种延伸所谓所谓“翻译模板翻译模板”或者或者“翻译模式翻译模式”可以认为是一种颗粒可以认为是一种颗粒度介于度介于“翻译规则翻译
7、规则”和和“翻译实例翻译实例”之间的翻译知识表示之间的翻译知识表示形式形式 翻译规则:颗粒度大,匹配可能性大,但过于抽象,容易出错翻译规则:颗粒度大,匹配可能性大,但过于抽象,容易出错 翻译实例:颗粒度小,不易出错,但过于具体,匹配可能性小翻译实例:颗粒度小,不易出错,但过于具体,匹配可能性小 翻译模板(模式):介于二者之间,是一种比较合适的知识表示翻译模板(模式):介于二者之间,是一种比较合适的知识表示形式形式一般而言,单语模板(或模式)是一个常量和变量组成的一般而言,单语模板(或模式)是一个常量和变量组成的字符串,翻译模板(或模式)是两个对应的单语模板(或字符串,翻译模板(或模式)是两个对
8、应的单语模板(或模式),两个模板之间的变量存在意义对应关系模式),两个模板之间的变量存在意义对应关系12/18/202212/18/20228 8语言信息处理语言信息处理-机器翻译机器翻译II II基于模板(模式)的机器翻译方法2模板举例:这个这个X X 比比Y Y 更更Z Z。The X is more Z than Y.The X is more Z than Y.模板方法的主要问题对模板中变量的约束对模板中变量的约束模板抽取模板抽取模板的冲突消解模板的冲突消解12/18/202212/18/20229 9语言信息处理语言信息处理-机器翻译机器翻译II IIPattern-Based CF
9、G for MT 1Koichi Takeda,Pattern-Based Context-Free Grammars for Machine Translation,Proc.of 34th ACL,pp.144-151,June 1996给出了翻译模式的一种形式化定义,并给出了相应的翻译算法以及算法复杂性的理论证明12/18/202212/18/20221010语言信息处理语言信息处理-机器翻译机器翻译II IIPattern-Based CFG for MT 2每个翻译模板由一个源语言上下文无关规则和一个目标每个翻译模板由一个源语言上下文无关规则和一个目标语言上下文无关规则(这两个规则称
10、为翻译模板的骨架)语言上下文无关规则(这两个规则称为翻译模板的骨架),以及对这两个规则的中心词约束和链接约束构成;,以及对这两个规则的中心词约束和链接约束构成;中心词约束:对于上下文无关语法规则中右部(子结点)中心词约束:对于上下文无关语法规则中右部(子结点)的每个非终结符,可以指定其中心词;对于规则左部的每个非终结符,可以指定其中心词;对于规则左部(父结点)的非终结符,可以直接指定其中心词,也可(父结点)的非终结符,可以直接指定其中心词,也可以通过使用相同的序号规定其中心词等于其右部的某个以通过使用相同的序号规定其中心词等于其右部的某个非终结符的中心词;非终结符的中心词;链接约束:源语言骨架
11、和目标语言骨架的非终结符子结链接约束:源语言骨架和目标语言骨架的非终结符子结点通过使用相同的序号建立对应关系,具有对应关系的点通过使用相同的序号建立对应关系,具有对应关系的非终结符互为翻译。非终结符互为翻译。12/18/202212/18/20221111语言信息处理语言信息处理-机器翻译机器翻译II IIPattern-Based CFG for MT 312/18/202212/18/20221212语言信息处理语言信息处理-机器翻译机器翻译II IIPattern-Based CFG for MT 3翻译的过程分为三步:翻译的过程分为三步:使用源语言使用源语言CFGCFG骨架分析输入句子
12、骨架分析输入句子s s 应用源语言到目标语言的应用源语言到目标语言的CFGCFG骨架的链接约束,生成一个译文骨架的链接约束,生成一个译文CFGCFG推导序列推导序列 根据译文根据译文CFGCFG推导序列产生译文推导序列产生译文模板排序的启发式原则:模板排序的启发式原则:对于源文对于源文CFGCFG骨架相同的模板,有中心词约束的模板优先于没有骨架相同的模板,有中心词约束的模板优先于没有中心词约束的模板;中心词约束的模板;对于同一跨度上的两个结点,比较其对应的模板的源文对于同一跨度上的两个结点,比较其对应的模板的源文CFGCFG骨架,骨架,非终结符少的模板优先于非终结符多的模板;非终结符少的模板优
13、先于非终结符多的模板;中心词约束被满足的结点优先于中心词约束不被满足的结点;中心词约束被满足的结点优先于中心词约束不被满足的结点;对于一个输入串而言,分析步骤越短(推导序列越短)越优先。对于一个输入串而言,分析步骤越短(推导序列越短)越优先。12/18/202212/18/20221313语言信息处理语言信息处理-机器翻译机器翻译II IIPattern-Based CFG for MT 4模板库的获取:假设模板库的获取:假设T T是一组翻译模板,是一组翻译模板,B B是双语是双语语料库,语料库,是一对互为翻译的句子是一对互为翻译的句子 如果如果T T能够翻译句子能够翻译句子s s为为t t,
14、那么,那么do nothingdo nothing;如果如果T T将将s s译为译为t t(不等于(不等于t t),那么:),那么:如果如果T T中存在中存在的推导的推导QQ,但这个推导不是最优,但这个推导不是最优解,那么给解,那么给QQ中的模板进行实例化;中的模板进行实例化;如果不存在这种推导,那么加入适当的模板,使如果不存在这种推导,那么加入适当的模板,使得推导成立;得推导成立;如果根本无法翻译如果根本无法翻译s s(分析失败),那么将(分析失败),那么将直接加直接加入到模板库中。入到模板库中。12/18/202212/18/20221414语言信息处理语言信息处理-机器翻译机器翻译II
15、II模板的自动提取利用一对实例进行泛化利用一对实例进行泛化 Jaime G.Carbonell,Ralf D.Brown,Generalized Jaime G.Carbonell,Ralf D.Brown,Generalized Example-Based Machine TranslationExample-Based Machine Translation http:/Research/GEBMT/http:/Research/GEBMT/利用两对实例进行比较利用两对实例进行比较 H.Altay Guvenir,Ilyas Cicekli,Learning Translation H.A
16、ltay Guvenir,Ilyas Cicekli,Learning Translation Templates from Examples Information Systems,1998Templates from Examples Information Systems,1998 张健,基于实例的机器翻译的泛化方法研究,中科院张健,基于实例的机器翻译的泛化方法研究,中科院计算所硕士论文,计算所硕士论文,2001200112/18/202212/18/20221515语言信息处理语言信息处理-机器翻译机器翻译II II通过泛化实例得到翻译模板已有实例:已有实例:Karl Marx was
17、 born in Trier,Germany in May 5,1818.Karl Marx was born in Trier,Germany in May 5,1818.卡尔卡尔 马克思于马克思于18181818年年5 5月月5 5日出生在德国特里尔城。日出生在德国特里尔城。泛化:泛化:was born in in was born in in 于于出生在出生在对齐对齐 12/18/202212/18/20221616语言信息处理语言信息处理-机器翻译机器翻译II II通过比较实例得到翻译模板已有两对翻译实例:我给玛丽一支笔我给玛丽一支笔 I gave Mary a pen.I gave
18、Mary a pen.我给汤姆一本书我给汤姆一本书 I gave Tom a book.I gave Tom a book.双侧单语句子分别比较,得到:我给我给#X#X 一一#Y#Z#Y#Z I give#W a#U.I give#W a#U.查找变量的对应关系:#X#X#W#W#Y#Y#Z#Z#U#U12/18/202212/18/20221717语言信息处理语言信息处理-机器翻译机器翻译II II实例库的匹配1实例匹配的目的是将输入句子分解成语料库中实实例匹配的目的是将输入句子分解成语料库中实例片断的组合,这是基于实例的机器翻译的关键例片断的组合,这是基于实例的机器翻译的关键问题之一,实例
19、匹配的各种方法有很大的差异,问题之一,实例匹配的各种方法有很大的差异,还没有那种做法显示出明显的优势;还没有那种做法显示出明显的优势;实例库匹配的效率问题:由于实例库规模较大,实例库匹配的效率问题:由于实例库规模较大,通常需要建立倒排索引;通常需要建立倒排索引;实例库匹配的其他问题:实例库匹配的其他问题:实例片断的分解:实例片断的分解:实例片断的组合:实例片断的组合:12/18/202212/18/20221818语言信息处理语言信息处理-机器翻译机器翻译II II实例库的匹配2实例片断的分解实例库中的句子往往太长,直接匹配成功率太实例库中的句子往往太长,直接匹配成功率太低,为了提高实例的重用
20、性,需要将实例库中低,为了提高实例的重用性,需要将实例库中的句子分解为片断的句子分解为片断几种通常的做法:几种通常的做法:按标点符号分解按标点符号分解任意分解任意分解通过组块分析进行分解通过组块分析进行分解12/18/202212/18/20221919语言信息处理语言信息处理-机器翻译机器翻译II II实例库的匹配3实例片断的组合一个被翻译的句子,往往可以通过各种不同的一个被翻译的句子,往往可以通过各种不同的实例片断进行组合,如何选择一个最好的组合实例片断进行组合,如何选择一个最好的组合?简单的做法:简单的做法:最大匹配最大匹配最大概率法:选择概率乘积最大的片断组合最大概率法:选择概率乘积最
21、大的片断组合有点像汉语词语切分问题有点像汉语词语切分问题12/18/202212/18/20222020语言信息处理语言信息处理-机器翻译机器翻译II II片断译文的选择由于语料库中一个片断可能有多种翻译方法,因此存在片断译文的选择问题;常用的方法:根据片断上下文进行排歧;根据片断上下文进行排歧;根据译文的语言模型选择概率最大的译文片断根据译文的语言模型选择概率最大的译文片断组合组合12/18/202212/18/20222121语言信息处理语言信息处理-机器翻译机器翻译II II实例库的对齐实例库又称双语语料库(实例库又称双语语料库(Bilingual CorpusBilingual Cor
22、pus)或平)或平行语料库(行语料库(Parallel CorpusParallel Corpus)双语语料库对齐的级别双语语料库对齐的级别 篇章对齐篇章对齐 段落对齐段落对齐 句子对齐句子对齐 词语对齐词语对齐 短语块对齐短语块对齐 句法结构对齐句法结构对齐基于实例的机器翻译中实例库必须至少做到句子基于实例的机器翻译中实例库必须至少做到句子级别的对齐级别的对齐12/18/202212/18/20222222语言信息处理语言信息处理-机器翻译机器翻译II II不同对齐级别的差异段落对齐和句子对齐要求保持顺序(允许局部顺序的调整)要求保持顺序(允许局部顺序的调整)只有一个层次只有一个层次词语对齐
23、和短语块对齐不要求保持顺序不要求保持顺序只有一个层次只有一个层次句法结构对齐不要求保持顺序不要求保持顺序多层次对齐多层次对齐12/18/202212/18/20222323语言信息处理语言信息处理-机器翻译机器翻译II II句子对齐1汉语汉语汉语汉语英语英语英语英语模式模式模式模式19951995年初我来成都的那天,年初我来成都的那天,没想到会是在一个冬季的没想到会是在一个冬季的漆黑的日子。漆黑的日子。I little thought when I arrived inI little thought when I arrived inChengdu in the dark,dark days
24、 ofChengdu in the dark,dark days ofwinter,early in 1995,that I would still be winter,early in 1995,that I would still be here more than five years later.here more than five years later.1 1:1 1那时我也根本没有想到会那时我也根本没有想到会在这儿呆上五年,也不知在这儿呆上五年,也不知道我会遇到一位成都的女道我会遇到一位成都的女儿,并且后来还娶她为妻。儿,并且后来还娶她为妻。一个完全陌生的家庭接纳一个完全陌生的
25、家庭接纳了我,我也因此成为成都了我,我也因此成为成都的一部分。的一部分。I little knew that I would meet one ofI little knew that I would meet one ofChengdus daughters,and later marryChengdus daughters,and later marryher,thus acquiring a whole newher,thus acquiring a whole newfamily who embraced me as one offamily who embraced me as on
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语言 信息处理 机器翻译 II
限制150内