欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    语言学分析技术探究.docx

    • 资源ID:61873699       资源大小:17KB        全文页数:3页
    • 资源格式: DOCX        下载积分:6金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要6金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    语言学分析技术探究.docx

    语言学分析技术探究语言学分析技术探究 机器翻译实现过程中会涉及到形态自动分析方法、各种句法分析、语义分析等分析方法,是机器翻译译文质量的关键环节。 形态自动分析 形态自动分析主要包括词例还原、词目还原、词性标注和词性消歧四步骤。 词例还原是指自动分割出一个句子当中所有的单词。英文中,词与词之间一般会有空格隔开,分割并非难事。如果是汉语,词例还原用自动分词方法即可。通过词例还原以后,句子当中符号串变成词例串,便利了形态分析过程。 词目还原是把词的变体形式还原成单词词典存储形式。这里词目是指变体形式单词,例如把复数形式单词还原成单数形式(如translators- translator),把动词的过去式或进行式改回动词原形(如translated-translate),把形容词的比较级改为没有比较级时候形式(如easier-easy)。 词性标注是指为每个单词指派一个词类或词汇类别进行标记。词性标注与词目还原均是形态分析最重要内容,同时词性标注在语音识别技术与信息检索技术中发挥重要作用。 词性标注难度大,歧义单词较多。值得庆幸的是,40%歧义单词可以消除歧义。词性消歧是指消除词的歧义性,具体是指词多义性,多时态性。 自动句法分析 自动句法分析方法很多,例如基于上下文无关语法、基于特征结构、基于依存语法、基于转移网络等,简要介绍一下基于转移网络自动句法分析。 转移网络主要包括递归转移网络和扩充转移网络两种。由于语言中嵌套结构比较复杂,有限状态转移网络难以处理这种情况,所以必须对有限状态转移网络做一些改进,便出现了递归性转移网络。递归性网络是有限转移网络扩充来的,是把单个弧用一个弧串表示,再用子网络表示这个弧串。然后通过子网络的名称来调用并遍历此弧串,从而变成递归性网络。递归性转移网络自身局限性是该网路不能处理好词序调整问题。有时候源语言与目标语言的词序恰好相反,例如源语言修饰词在前,但是目标语言的修饰词在后,这时候必须要把相应修饰词对应起来,这样一来在网络一侧分析源语言的修饰词,在网络另一侧还要生成对应目标语言的修饰词。显然,这要增加弧才能处理这个问题,如果修饰词不止一个,那么递归性网络分析变得很复杂。其实解决这个问题关键在于对源语言前置修饰词翻译的时候,对所修饰的名词进行翻译成目标语言所对应名词之后,把翻译的修饰词置于目标语言名词之后。 语义自动分析 语义分析法有很多,例如句法驱动语义分析、浅层语义分析、语义语法等。语义分析通常分为四个步骤:把词的一阶谓词验算表达式附着至树形图的词汇单元之上;把树形图无分叉子树子女节点上语义值复制给父母节点;把类似函数的一个表达式附着至句子中心动词之上,然后用该表达式处理此动词的一个或者多个子女节点;将带有逻辑量词的表达式用复杂项处理,并将处理的表达式作为一个单独项处理。 句法驱动语义分析是基于组成性原则方法,弗雷格认为:句子的含义可以是句子几个部分意义组合而成。即句子由词组成,各个单词的含义组合当然是句子代表的意义。值得思考的是,一个句子含义不仅依赖各个词的含义,还与词的顺序以及词与词之间的关系有关,与句法结构有关。所以从句法角度驱动语义分析,是该分析法基本依据,大致流程是:对输入句子经过剖析器进行句法分析,把结果作为语义分析器输入,经过语义分析器后便把其结果作为输出。该过程被称为“管道流方法”。句法驱动语义分析用到组成性原则时候,语义组成成分应和句法组成成分匹配。 语用自动分析 语用自动分析中语用指的是语言和使用所处环境之间的关系。这里使用所处环境包括话语上下文、人和物。其涉及到话语结构、听话者如何理解话语对象以及语言指示或者回指人和物的内容。语用分析主要有所指判定和文本连贯的分析方法。 所指判定是对所指语判定所指对象过程。一般句子与句子之间均存在某种关联,并非孤立存在的,而有时候靠单独句子根本不能理解所指对象。例如“Tim told Tom that he had passed the examination”的he是指Tim还是指Tom?无法判定。如果前面有语句“Tom was worried about his examination”,则可以断定he是指Tom。一般采用折半加权算法来判定代词所指对象,具体过程为:(1)搜集所有可能所指对象;(2)排除和代词在数、性不一致和句内句法同指约束的所指对象;(3)把话语模型在更新阶段计算的显著值和使用角色平行和提前指代的代词显著权重值相加,并计算所指对象总的显著值;(4)选择显著值最高所指对象作为最终代词指代对象。如果有显著值相同则选择靠的最近(指字符串位置)所指对象作为最终代词指代对象。 溯因推理既然是基于不可靠推理,那么就需要找出一种最佳解释。一种策略是基于概率模型,通过计算相关概率参数来选出最佳解释,不过概率模型前提需要一些事件语料库,否则会出问题。另一种策略是基于启发式策略。把假设数目最少的作为最佳解释,也可以把最具体的输入特征作为最佳解释。第三种策略是基于概率模型和启发式策略的混合策略。文本连贯中计算机模型构建十分重要,但现有推理方法难以覆盖范围更广的应用领域,有待进一步研究。 (作者单位:辽宁省机电工程学校) 3

    注意事项

    本文(语言学分析技术探究.docx)为本站会员(可****)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开