欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    双语语料库段落重组对齐方法研究.ppt

    • 资源ID:77611547       资源大小:229.50KB        全文页数:32页
    • 资源格式: PPT        下载积分:20金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要20金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    双语语料库段落重组对齐方法研究.ppt

    双语语料库段落重组对齐方法研究 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望主要内容n引言n方法n结果n讨论2Information Retrieval Lab HIThttp:/构建双语语料库n机器翻译和跨语言检索解决人类的不同语言之间的障碍n双语资源给机器翻译和跨语言检索提供了有力的支持,尤其是双语语料库n构建双语语料库(英汉双语语料库)是一项十分有意义的工作3Information Retrieval Lab HIThttp:/真实双语文本的特征n网络资源丰富n篇章级对齐n内容分散n格式复杂n风格各异4Information Retrieval Lab HIThttp:/目前的问题n不同的对齐精度n段落、句子、词和短语的对齐n上一级的对齐是下一级对齐的基础n经过统计发现90%以上的电子文本中的段落并不对应或者没有明显的段落标记5Information Retrieval Lab HIThttp:/段落对齐和段落重组对齐n段落对齐是进行对齐加工的第一步n对段落对齐研究的很少n段落对齐的目的是句子对齐n段落重组对齐是打破原有的段落标记,对篇章进行重新分段,仅仅在形式上对篇章进行对齐6Information Retrieval Lab HIThttp:/句子对齐n基于长度的句子对齐n长句对应的译文长,短句对应译文短n根据长度的不同单词个数-Brown et al.(1991c)字符的个数-Gale and Church(1993)n基于词典的句子对齐7Information Retrieval Lab HIThttp:/段落重组对齐(1)n自动分段对齐研究(中科院计算所)n将原有的段落合并n通过汉英词汇对之间的特征比较,包括词的出现频率、字节偏移量、出现间隔向量n找到可以用于分段的锚点词汇对n通过锚点词所在句子的匹配获得锚点句子进行分段8Information Retrieval Lab HIThttp:/段落重组对齐(2)n适合含有较多高频固定词的双语文本n适合于术语提取n数据稀疏(较少高频固定词)n需要分词等预处理9Information Retrieval Lab HIThttp:/主要内容n引言n方法n结果n讨论10Information Retrieval Lab HIThttp:/几个概念n锚点 n句珠n二分图(完全二分图)n匹配 n最优对齐匹配 11Information Retrieval Lab HIThttp:/锚点和句珠n锚点(anchor)nBrown在对Hansard语料库进行对齐时,引入了锚点的概念,认为锚点的作用就是将整个语料库分成一些小的对齐片断n句珠(Sentence bead)n每一对相对应的句子称作句珠12Information Retrieval Lab HIThttp:/二分图n设G为无向图,G=,结点集V有两个子集V1,V2满足V1 V2V,V1V2,使G的每一条边eE时,e=vi,vj,viV1,vjV2,即同一子集Vi(il,2)中的任何两个结点都不邻接,称这样的图为二分图。13Information Retrieval Lab HIThttp:/完全二分图nG记为G=V1,E,V2。对于二分图G中,若V1的每个结点与V2的每个结点相邻接,反之亦然。则称G为完全二分图,若|V1|m,|V2|n,则简记为Km,n,如图所示 14Information Retrieval Lab HIThttp:/匹配(Matching)n设G是二分图,如E的一个子集M中的边无公共端点,即任两边均不邻接,则M为G的一个匹配。n最优对齐匹配15Information Retrieval Lab HIThttp:/最优对齐匹配nM为完全二分图G=的一个最优对齐匹配,满足以下条件:n二分图中所有的节点是有序的 n若|S|=m,|T|=n则首先默认sm,tnE;nM中若存在一条边e=si,tj满足d(si,tj)D(D为特定的阈值);此时,M中不存在边sk,tr使得kj或ki且rj成立;n采用贪心算法依次在完全二分图G中选取权值最小的边,直到M中边数达到饱和。16Information Retrieval Lab HIThttp:/最优对齐匹配(图示)S1,S2,S3,S4,S5,S6,S7 Sm-2,Sm-1,SmT1,T2,T3,T4,T5,T6,T7 Tn-2,Tn-1,Tn 17Information Retrieval Lab HIThttp:/段落对齐问题和模型的关系nS(s1,s2,s3,si,sj,sm)V1nT(t1,t2,t3,ti,tj,tn)V2n(1:1)型句珠(si,tj)的集合Km,nn默认文本中最后一句对齐sm,tnE n双语段落重组对齐 寻找最优对齐匹配18Information Retrieval Lab HIThttp:/段落重组对齐的锚点选择 n(1:1)型正确对齐句珠在文本中的分布情况 n(1:1)的句对在全篇的比例均超过85%,并且有着良好的分布规律 19Information Retrieval Lab HIThttp:/段落重组对齐总体思想n篇章定位n句长搭配n词典校对20Information Retrieval Lab HIThttp:/形式对齐评价函数 nPi,j=a(Pui,j-P0)+(Pli,j-P0)+a(Pdi,j-P0)P0为对应文本长度之比;Pui,j为对应上文部分长度之比;Pli,j为对应句长度之比;Pdi,j对应下文部分长度之比;a为加权系数21Information Retrieval Lab HIThttp:/第150句第50句第12句英语文本第120句第40句第10句 汉语文本重组段落对齐思想P0锚点句对Pui,jPli,jPdi,j22Information Retrieval Lab HIThttp:/锚点句对的校验n词典检验 L|表示全部元素的字符长度和;Match(S)表示译文出现在汉语句中英语单词;Match(T)表示成为英文单词译文的汉语单词;23Information Retrieval Lab HIThttp:/主要内容n引言n方法n结果n讨论24Information Retrieval Lab HIThttp:/试验结果(1)n召回率=(返回段落总数 错误段落总数)/双语文本中(1:1)型正确句珠总数;n准确率=(返回段落总数 错误段落总数)/返回段落总数;25Information Retrieval Lab HIThttp:/试验结果(2)文本1文本2(1:1)型句珠总数158169提取锚点总数108121准确率99.07%100%召回率68.35%71.60%n 重组分段的结果一般每一段落的句子数在10句以内。26Information Retrieval Lab HIThttp:/重组分段的实例(1)-originalnAround 30 people have staged a naked protest against GM food.The protesters spelled out no GM with their bodies in a meadow at Forest Row,East Sussex.nOrganiser Mike Grenville said he hoped it would send a message to the Government of peoples concern,particularly over commercial planting of GM crops.nMr Grenville,51,a self-employed business consultant from Forest Row,said:I think people were very pleased to have the opportunity to express how we feel,how frustrated we are about what seems to be the foregone conclusion,and the question many people are saying is What do we do next?.We hope others will follow our lead and find other ways to express how we feel.We do not want GM crops planted in the country at all.n约30名人士在英国苏塞克斯郡东部的福利斯劳的一处牧场裸体组成“反对基因改良作物”的字样。组织者迈克-格伦威利,希望通过这次行动向政府传达人们反对商业化种植基因改良作物的意愿。n51岁的格伦威利是福利斯劳一名自雇的商业顾问,他说:“当人们得知种植基因改良作物似乎不可避免时,他们感到十分沮丧。许多人都提出这样的问题,接下来我们该做什么?。令人欣慰的是,人们有机会表达内心的感受。希望其他人加入我们,跟我们一起找到其他表达内心感受的方法。我们根本不希望在这个国家里种植基因改良作物。27Information Retrieval Lab HIThttp:/重组分段的实例(2)-MergednAround 30 people have staged a naked protest against GM food.The protesters spelled out no GM with their bodies in a meadow at Forest Row,East Sussex.Organiser Mike Grenville said he hoped it would send a message to the Government of peoples concern,particularly over commercial planting of GM crops.Mr Grenville,51,a self-employed business consultant from Forest Row,said:I think people were very pleased to have the opportunity to express how we feel,how frustrated we are about what seems to be the foregone conclusion,and the question many people are saying is What do we do next?.We hope others will follow our lead and find other ways to express how we feel.We do not want GM crops planted in the country at all.n约30名人士在英国苏塞克斯郡东部的福利斯劳的一处牧场裸体组成“反对基因改良作物”的字样。组织者迈克-格伦威利,希望通过这次行动向政府传达人们反对商业化种植基因改良作物的意愿。51岁的格伦威利是福利斯劳一名自雇的商业顾问,他说:“当人们得知种植基因改良作物似乎不可避免时,他们感到十分沮丧。许多人都提出这样的问题,接下来我们该做什么?。令人欣慰的是,人们有机会表达内心的感受。希望其他人加入我们,跟我们一起找到其他表达内心感受的方法。我们根本不希望在这个国家里种植基因改良作物。28Information Retrieval Lab HIThttp:/重组分段的实例(3)-ReAlignnAround 30 people have staged a naked protest against GM food.The protesters spelled out“no GM”with their bodies in a meadow at Forest Row,East Sussex.Organiser Mike Grenville said he hoped it would send a message to the Government of peoples concern,particularly over commercial planting of GM crops.nMr Grenville,51,a self-employed business consultant from Forest Row,said:I think people were very pleased to have the opportunity to express how we feel,how frustrated we are about what seems to be the foregone conclusion,and the question many people are saying is What do we do next?.nWe hope others will follow our lead and find other ways to express how we feel.nWe do not want GM crops planted in the country at all.n约30名人士在英国苏塞克斯郡东部的福利斯劳的一处牧场裸体组成“反对基因改良作物”的字样。组织者迈克-格伦威利,希望通过这次行动向政府传达人们反对商业化种植基因改良作物的意愿。n51岁的格伦威利是福利斯劳一名自雇的商业顾问,他说:“当人们得知种植基因改良作物似乎不可避免时,他们感到十分沮丧。许多人都提出这样的问题,接下来我们该做什么?。令人欣慰的是,人们有机会表达内心的感受。希望其他人加入我们,n跟我们一起找到其他表达内心感受的方法。n我们根本不希望在这个国家里种植基因改良作物。29Information Retrieval Lab HIThttp:/主要内容n引言n方法n结果n讨论30Information Retrieval Lab HIThttp:/讨论n有效的抑制了错误蔓延n该算法有很强的鲁棒性n在进行词典检验时,无需对汉语分词,实现简单,代价较小n适合各种形式的语料31Information Retrieval Lab HIThttp:/Thanks!32Information Retrieval Lab HIThttp:/

    注意事项

    本文(双语语料库段落重组对齐方法研究.ppt)为本站会员(豆****)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开