语言学分析技术探究.docx
《语言学分析技术探究.docx》由会员分享,可在线阅读,更多相关《语言学分析技术探究.docx(3页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、语言学分析技术探究语言学分析技术探究 机器翻译实现过程中会涉及到形态自动分析方法、各种句法分析、语义分析等分析方法,是机器翻译译文质量的关键环节。 形态自动分析 形态自动分析主要包括词例还原、词目还原、词性标注和词性消歧四步骤。 词例还原是指自动分割出一个句子当中所有的单词。英文中,词与词之间一般会有空格隔开,分割并非难事。如果是汉语,词例还原用自动分词方法即可。通过词例还原以后,句子当中符号串变成词例串,便利了形态分析过程。 词目还原是把词的变体形式还原成单词词典存储形式。这里词目是指变体形式单词,例如把复数形式单词还原成单数形式(如translators- translator),把动词的
2、过去式或进行式改回动词原形(如translated-translate),把形容词的比较级改为没有比较级时候形式(如easier-easy)。 词性标注是指为每个单词指派一个词类或词汇类别进行标记。词性标注与词目还原均是形态分析最重要内容,同时词性标注在语音识别技术与信息检索技术中发挥重要作用。 词性标注难度大,歧义单词较多。值得庆幸的是,40%歧义单词可以消除歧义。词性消歧是指消除词的歧义性,具体是指词多义性,多时态性。 自动句法分析 自动句法分析方法很多,例如基于上下文无关语法、基于特征结构、基于依存语法、基于转移网络等,简要介绍一下基于转移网络自动句法分析。 转移网络主要包括递归转移网络
3、和扩充转移网络两种。由于语言中嵌套结构比较复杂,有限状态转移网络难以处理这种情况,所以必须对有限状态转移网络做一些改进,便出现了递归性转移网络。递归性网络是有限转移网络扩充来的,是把单个弧用一个弧串表示,再用子网络表示这个弧串。然后通过子网络的名称来调用并遍历此弧串,从而变成递归性网络。递归性转移网络自身局限性是该网路不能处理好词序调整问题。有时候源语言与目标语言的词序恰好相反,例如源语言修饰词在前,但是目标语言的修饰词在后,这时候必须要把相应修饰词对应起来,这样一来在网络一侧分析源语言的修饰词,在网络另一侧还要生成对应目标语言的修饰词。显然,这要增加弧才能处理这个问题,如果修饰词不止一个,那
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语言学 分析 技术 探究
限制150内