双语语料库段落重组对齐方法研究.ppt
《双语语料库段落重组对齐方法研究.ppt》由会员分享,可在线阅读,更多相关《双语语料库段落重组对齐方法研究.ppt(32页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、双语语料库段落重组对齐方法研究 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望主要内容n引言n方法n结果n讨论2Information Retrieval Lab HIThttp:/构建双语语料库n机器翻译和跨语言检索解决人类的不同语言之间的障碍n双语资源给机器翻译和跨语言检索提供了有力的支持,尤其是双语语料库n构建双语语料库(英汉双语语料库)是一项十分有意义的工作3Information Retrieval Lab HIThttp:/真实双语文本的特征n网络资源
2、丰富n篇章级对齐n内容分散n格式复杂n风格各异4Information Retrieval Lab HIThttp:/目前的问题n不同的对齐精度n段落、句子、词和短语的对齐n上一级的对齐是下一级对齐的基础n经过统计发现90%以上的电子文本中的段落并不对应或者没有明显的段落标记5Information Retrieval Lab HIThttp:/段落对齐和段落重组对齐n段落对齐是进行对齐加工的第一步n对段落对齐研究的很少n段落对齐的目的是句子对齐n段落重组对齐是打破原有的段落标记,对篇章进行重新分段,仅仅在形式上对篇章进行对齐6Information Retrieval Lab HIThttp
3、:/句子对齐n基于长度的句子对齐n长句对应的译文长,短句对应译文短n根据长度的不同单词个数-Brown et al.(1991c)字符的个数-Gale and Church(1993)n基于词典的句子对齐7Information Retrieval Lab HIThttp:/段落重组对齐(1)n自动分段对齐研究(中科院计算所)n将原有的段落合并n通过汉英词汇对之间的特征比较,包括词的出现频率、字节偏移量、出现间隔向量n找到可以用于分段的锚点词汇对n通过锚点词所在句子的匹配获得锚点句子进行分段8Information Retrieval Lab HIThttp:/段落重组对齐(2)n适合含有较多
4、高频固定词的双语文本n适合于术语提取n数据稀疏(较少高频固定词)n需要分词等预处理9Information Retrieval Lab HIThttp:/主要内容n引言n方法n结果n讨论10Information Retrieval Lab HIThttp:/几个概念n锚点 n句珠n二分图(完全二分图)n匹配 n最优对齐匹配 11Information Retrieval Lab HIThttp:/锚点和句珠n锚点(anchor)nBrown在对Hansard语料库进行对齐时,引入了锚点的概念,认为锚点的作用就是将整个语料库分成一些小的对齐片断n句珠(Sentence bead)n每一对相对应
5、的句子称作句珠12Information Retrieval Lab HIThttp:/二分图n设G为无向图,G=,结点集V有两个子集V1,V2满足V1 V2V,V1V2,使G的每一条边eE时,e=vi,vj,viV1,vjV2,即同一子集Vi(il,2)中的任何两个结点都不邻接,称这样的图为二分图。13Information Retrieval Lab HIThttp:/完全二分图nG记为G=V1,E,V2。对于二分图G中,若V1的每个结点与V2的每个结点相邻接,反之亦然。则称G为完全二分图,若|V1|m,|V2|n,则简记为Km,n,如图所示 14Information Retrieval
6、 Lab HIThttp:/匹配(Matching)n设G是二分图,如E的一个子集M中的边无公共端点,即任两边均不邻接,则M为G的一个匹配。n最优对齐匹配15Information Retrieval Lab HIThttp:/最优对齐匹配nM为完全二分图G=的一个最优对齐匹配,满足以下条件:n二分图中所有的节点是有序的 n若|S|=m,|T|=n则首先默认sm,tnE;nM中若存在一条边e=si,tj满足d(si,tj)D(D为特定的阈值);此时,M中不存在边sk,tr使得kj或ki且rj成立;n采用贪心算法依次在完全二分图G中选取权值最小的边,直到M中边数达到饱和。16Informatio
7、n Retrieval Lab HIThttp:/最优对齐匹配(图示)S1,S2,S3,S4,S5,S6,S7 Sm-2,Sm-1,SmT1,T2,T3,T4,T5,T6,T7 Tn-2,Tn-1,Tn 17Information Retrieval Lab HIThttp:/段落对齐问题和模型的关系nS(s1,s2,s3,si,sj,sm)V1nT(t1,t2,t3,ti,tj,tn)V2n(1:1)型句珠(si,tj)的集合Km,nn默认文本中最后一句对齐sm,tnE n双语段落重组对齐 寻找最优对齐匹配18Information Retrieval Lab HIThttp:/段落重组对齐
8、的锚点选择 n(1:1)型正确对齐句珠在文本中的分布情况 n(1:1)的句对在全篇的比例均超过85%,并且有着良好的分布规律 19Information Retrieval Lab HIThttp:/段落重组对齐总体思想n篇章定位n句长搭配n词典校对20Information Retrieval Lab HIThttp:/形式对齐评价函数 nPi,j=a(Pui,j-P0)+(Pli,j-P0)+a(Pdi,j-P0)P0为对应文本长度之比;Pui,j为对应上文部分长度之比;Pli,j为对应句长度之比;Pdi,j对应下文部分长度之比;a为加权系数21Information Retrieval
9、Lab HIThttp:/第150句第50句第12句英语文本第120句第40句第10句 汉语文本重组段落对齐思想P0锚点句对Pui,jPli,jPdi,j22Information Retrieval Lab HIThttp:/锚点句对的校验n词典检验 L|表示全部元素的字符长度和;Match(S)表示译文出现在汉语句中英语单词;Match(T)表示成为英文单词译文的汉语单词;23Information Retrieval Lab HIThttp:/主要内容n引言n方法n结果n讨论24Information Retrieval Lab HIThttp:/试验结果(1)n召回率=(返回段落总数
10、错误段落总数)/双语文本中(1:1)型正确句珠总数;n准确率=(返回段落总数 错误段落总数)/返回段落总数;25Information Retrieval Lab HIThttp:/试验结果(2)文本1文本2(1:1)型句珠总数158169提取锚点总数108121准确率99.07%100%召回率68.35%71.60%n 重组分段的结果一般每一段落的句子数在10句以内。26Information Retrieval Lab HIThttp:/重组分段的实例(1)-originalnAround 30 people have staged a naked protest against GM f
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 双语 语料库 段落 重组 对齐 方法 研究
限制150内