统计机器翻译简明教程幻灯片.ppt
《统计机器翻译简明教程幻灯片.ppt》由会员分享,可在线阅读,更多相关《统计机器翻译简明教程幻灯片.ppt(37页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、统计机器翻译简明教程第1页,共37页,编辑于2022年,星期二提纲系统结构前处理词语对齐短语抽取解码后处理参数训练评测第2页,共37页,编辑于2022年,星期二 词语对齐第3页,共37页,编辑于2022年,星期二训练语料库训练语料库为双语语料库格式不固定,可以是文本格式,xml格式等等要求必须句子对齐back第4页,共37页,编辑于2022年,星期二语料预处理目的:将各种格式不同的生语料进行加工,形成格式统一的语料库,以便进行词语对齐步骤:汉语分词汉语分词工具:ICTCLAS汉语全半角转换汉语全半角转换 功能:将A3区的全角字符转换为半角字符程序:A2B命令行:A2B input output
2、英语分词英语分词工具:Brill英语首字母小写还原英语首字母小写还原功能:将英语语料库中的句首字母进行大小写转换。如果首单词在语料库中出现的次数小写多于大写,则将首字母变为小写。程序:Truecase命令行:Truecase input output第5页,共37页,编辑于2022年,星期二处理后训练语料库双语语料库汉语切词高新技术 产品 出口.亿 美元。全半角转换高新技术 产品 出口 37.6 亿 美元。英语切词The export of High-tech Products Reached 3.76 billion US dollars.the export of High-tech Pr
3、oducts Reached 3.76 billion US dollars.大小写转换back第6页,共37页,编辑于2022年,星期二词语对齐GIZA+词语对齐词语对齐后处理添加句首句尾标记第7页,共37页,编辑于2022年,星期二词语对齐 GIZA+训练输入:汉语文本,英语文本,一行一句,句子对齐chineseenglishplain2sntchinese.vcbenglish.vcbchinese_english.sntmkclschinese.vcb.classesenglish.vcb.classeschinese.vcb.classes.catsenglish.vcb.class
4、es.catsGiza+*.A3.final 第8页,共37页,编辑于2022年,星期二plain2snt:统计单词数,格式转换命令行./plain2snt.out chinese english2 上海 7383 浦东 764 开发 3895 与 3724chinese.vcbFormat:单词编号 单词 单词出现次数12 3 4 5 6 7 8 2 3 4 5 6 7 8 9 10 11 2 12 4 13 14 15chinese_english.sntFormat:每个句对占3行 句子出现次数 汉语句子 英语句子第9页,共37页,编辑于2022年,星期二mkcls:单词聚类命令行:./
5、mkcls-n1-pchinese-Vchinese.vcb.classes opt-n:表示训练迭代的次数,一般迭代1次-p:要聚类的文本,一行一句(已分词)-V:输出信息opt:优化运行1925年 171925日 47chinese.vcb.classesFormat:单词 词类2:1月份,83%,AmocoCadiz,_,百分之三十九点四3:+,TC,百二十万,百六十万,百五十万chinese.vcb.classes.catsFormat:词类:单词,单词第10页,共37页,编辑于2022年,星期二GIZA+:词语对齐命令行:./GIZA+-S chinese.vcb-T english
6、.vcb-C chinese_english.snt-O c2e -S:源语言单词表 -T:目标语言单词表 -C:源语言目标语言句子对 -O:输出文件夹 运行结束后,输出很多文件到c2e/文件夹中,主要是产生的对齐文件:#Sentence pair(1)source length 7 target length 16 alignment score:4.99368e-28the development of Shanghai s Pudong is in step with the establishment of its legal system NULL(1 3 8 11 13)上海(4)
7、浦东(5 6)开发(2)与(10)法制(15 16)建设()同步(7 9 12 14)*.A3.final,每句对3行:对齐概率目标句子源语言句子第11页,共37页,编辑于2022年,星期二GIZA+对齐几点说明一般双向训练,汉语-英语,英语-汉语训练流程:./plain2snt.out chinese english./mkcls-n1-pchinese-Vchinese.vcb.classes opt./mkcls-n1-penglish-Venglish.vcb.classes opt./mkdir c2e./mkdir e2c./GIZA+-S chinese.vcb-T englis
8、h.vcb-C chinese_english.snt-O c2e./GIZA+-S english.vcb-T chinese.vcb-C english_chinese.snt-O e2c第12页,共37页,编辑于2022年,星期二词语对齐后处理对GIZA+的词语对齐进行优化工具:WordAlign 命令行:WordAlign c2e.A3.final e2c.A3.final output输入:汉语到英语方向的.A3.final文件和英语到汉语方向的.A3.final文件输出:.xml格式的对齐文件第13页,共37页,编辑于2022年,星期二词语对齐后处理(续)(/完/)/(/end/)
9、/1:1/1 2:2/1 3:3/1句对以bead表示,包括源语言词,目标语言词,以及对齐信息。单词后面的/是词性的位置,如有需要,可以将/替换为相应的词性对齐后面的/1表示对齐概率,目前默认是1第14页,共37页,编辑于2022年,星期二添加句首句尾标记命令行:命令行:AddHeadTail input output功能:为对齐后的句子加上开始结束符,/(/完/)/(/end/)/1:1/1 2:2/1 3:3/1 4:4/1 5:5/1back第15页,共37页,编辑于2022年,星期二短语抽取从词语对齐的语料库中得到短语翻译工具:phraseExtractor功能:抽取短语,统计短语出现
10、次数phraseScoring功能:计算短语的词汇化翻译概率phraseExtractor.pl功能:驱动以上两个程序的脚本文件银行 和 保险 公司|banks and insurance companies|1 0.105599 1 0.0257825坚持 改革 开放|of reform and opening up|0.333333 0.00103337 1 0.014045第16页,共37页,编辑于2022年,星期二短语抽取(续)phraseExtractor.pl corpus-dir.corpus-file align.xml extract-file-name my-separat
11、or tab读取corpus-dir目录下的align.xml对齐文件,最终生成my.bp文件,分隔符为制表符 参数说明:-debug,if debug then the middle files will not be deleted,default is false;-corpus-dir,set the corpus dir;-corpus-file,the word aligned file from which phrases are extrated;-capacity,how many phrases in a file when extracting,default is 10
12、00000;-extract-file-name,the phrase table name,default is extract;-max-phrase-length,max source phrase length,default is 7;-separator,the separator between phrases,default is tab;-reorder-types,lexical reordering type,default is msd-fe;-fertility,how many words can a word aligned,default is 9;-orien
13、tation,extract lexical reordering table or not,default is 0;第17页,共37页,编辑于2022年,星期二短语表过滤根据测试文件对短语表进行过滤我是一个学生我I0.1 0.1 0.1 0.1我是I am 0.1 0.1 0.1 0.1我是 学生 I am a student0.1 0.1 0.1 0.1一个 学生 a student 0.1 0.1 0.1 0.1一个 小孩a child 0.1 0.1 0.1 0.1我I0.1 0.1 0.1 0.1我是I am 0.1 0.1 0.1 0.1一个 学生a student 0.1 0.
14、1 0.1 0.1测试文件源短语表过滤后短语表第18页,共37页,编辑于2022年,星期二短语表过滤(续)SelectBP bpfile testfile outfile c2ebpfile:短语文件testfile:输入文件(文本文件,一行一句),如果是汉语文件,不用分词。如果是英语文件,需要做tokenize。(注意:如果在短语抽取的时候,汉语英语进行了预处理,这里对输入文件也要做相应的预处理。例如,在短语抽取时,汉语做了A3区半角转换,则SelectBP的输入文件也要做半角转换;英语作了tokenize,输入文件也要做tokenize。如果加入了句首句尾标记,则测试文件也要加句首句尾标记
15、)outfile:过滤后的短语表c2e:1,表示汉英翻译,根据汉语文件过滤。0表示英汉翻译,根据英语文件过滤back第19页,共37页,编辑于2022年,星期二语言模型训练ngram-count-text english-lm lm.gz-unk-kndiscount -order 4-write-arpa-text:要训练的文本,一行一句-lm:输出文件名-unk:未登录词-kndiscount:平滑-order:语言模型的元数(n-gram)-write-arpa:apra格式back第20页,共37页,编辑于2022年,星期二Confucius的解码 基于短语的解码器解码器的配置文件Lo
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计 机器翻译 简明 教程 幻灯片
限制150内