评估方法研究——中科院自动化所 硕士论文-导师宗成庆37958.docx





《评估方法研究——中科院自动化所 硕士论文-导师宗成庆37958.docx》由会员分享,可在线阅读,更多相关《评估方法研究——中科院自动化所 硕士论文-导师宗成庆37958.docx(157页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 分类号 密级 UDC 编号 中国科学院研究究生院硕士学位论文 汉语词与句句子切分技术术及机器翻译译评估方法研研究 刘丁 指导教师师 宗成庆庆 研究员 博士 中国科学学院自动化研研究所 申请学位位级别 工学学硕士 学科专业业名称 模式式识别与智能能系统 论文提交交日期 20004年6月月 论文答辩辩日期 22004年66月 培养单位位 中国科学院院自动化研究究所 学位授予予单位 中中国科学院研研究生院 答辩委员员会主席 Approaches to Chinese Word Analysis, Utterance Segmentation and Automatic Evaluation of
2、Machine TranslationDisserttationn Submmittedd toInstituute off Autoomatioon, Chinnese Acadeemy of SScienccesin parttial ffulfilllmentt of tthe reequireementssfor thee degrree offMaster of EnngineeeringbyDing Liiu(Patterrn Reccognittion aand Inntelliigencee Systtem)Disserttationn Supeervisoor: Prrofe
3、sssor Chhengqiing ZoongI独创性声明本人声明所成交交的论文是我我个人在导师师指导下进行行的研究工作作及取得的研研究成果。尽尽我所知,除除了文中特别别加以标注和和致谢的地方方外,论文中中不包含其他他人已经发表表或撰写过的的研究成果。与与我一同工作作的同志对本本研究所做的的任何贡献均均已在论文中中作了明确地地说明并表示示了谢意。签名:_导导师签名:_ 日 期:_关于论文使用授授权的说明本人完全了解中中国科学院自自动化研究所所有关保留、使使用学位论文文的规定,即即:中国科学学院自动化研研究所有权保保留送交论文文的复印件,允允许论文被查查阅和借阅;可以公布论论文的全部或或部分内容
4、,可可以采用影印印、缩印或其其他复制手段段保存论文。(保密的论文在在解密后应遵遵守此规定)签名:_导导师签名:_ 日 期:_摘要本论文以统计计模型为基础础,在参考了大大量前人工作作的基础上,对汉语词法分析、口语句子切分和机器翻译评估进行了较为深入的探讨和研究。汉语词法分析是大部分中文处理的第一步,其重要性不言而喻;句子切分是语音翻译中连接语音识别和文本翻译的桥梁,无论语音识别和文本翻译单独的效果有多么好,这座桥没搭好,综合的性能依然无法提高;机器翻译的自动评估是构建机器翻译系统中很重要的辅助工作,其可以加速翻译系统的开发速度,缩短其开发周期。简言之,这三方面同属于自然语言处理的基础的研究领域,
5、其效果直接影响到高层应用的水平。在词法分析上,我我们利用隐马马尔可夫模型型(HMM)提提出了一种融融和了分词、词词性标注和命命名实体识别别的一体化词词法分析方法法。最初我们用用基于类别的的HMM,其其优点是对词词的覆盖面广广,系统开销销小;缺点是是不能精确地地预测词的出出现概率。为为了提升模型型的准确率,我我们引入基于于词汇的HMMM,并将两两者有机地结结合,并用一个“词到字”的概率平滑滑方法对基于于词的HMMM进行平滑。实验结果显显示,我们的的混合模型由由于综合考虑虑到了字、词、词性性以及命名实实体的知识,在在切分的准确确率和召回率率上都明显优优于单纯基于于类别或者基基于词的HMMM。此外在
6、在分词系统的的实现上,我我们借助对通通用分词系统APPCWS的整体框架和和各功能模块块的介绍,讨讨论了如何有有效地存储和和加载数据等等一些技术细节问题。在口语句子切分分上,我们提出了基于双向NN元模型和最大熵模型型的句子切分分算法,这种种算法由于通通过最大熵有机地地将正、逆向向N元切分结结合起来,综综合考虑到了了切分点左、右右的上下文,从从而得到了很很好的切分效效果。我们在在中、英文语语料上训练我们的的模型并作测测试,结果显显示其在性能上明明显优于基本本的正向N元元切分。在此此基础上,我我们分析并对对比了各模型的切分分结果,从而而验证了我们们当初对于模型型的预计:其其一方面保存了正向N元算算法
7、的正确切分,一一方面用逆向N元算算法有效地避避免了正向算算法的错误切切分。在机器翻译的自自动评估上,我我们首先介绍了两两种常用的基基于参考译文文的评估算法法BLEU和和NIST,然后给出了一种基于N元模型的句子流畅度评估方法E3。这种方法不需要借助任何参考译文,它通过区别地对待句子中不同的词的转移概率,达到了很好的评估效果。综上所述,本文文针对汉语词词法分析、口口语句子切分分和机器翻译译评估提出了了以统计模型型为基础的创创新方法,它它们不仅仅在在科学方法上上有重要的参参考价值,对对于实际应用中也有重要意义义。IABSTRACCTThis thhesis propoosed oour noove
8、l sstatissticall apprroachees on Chineese woord annalysiis, uttterannce seegmenttationn and autommatic evaluuationn of mmachinne traanslattion (MT). Word analyysis iis thee firsst steep forr mostt appllicatiion baased oon Chiinese languuage ttechnoologiees; uttterannce seegmenttationn is tthe brridg
9、e whichh connnects speecch reccognittion aand teext trranslaation in a speecch traanslattion ssystemm; auttomatiic evaaluatiion off machhine ttransllationn (MT) systtem caan speeed thhe ressearchh and devellopmennt of a MT systeem, reeduce its ddevelooping cost. In sshort, the threee aspeects aall b
10、eelong to thhe bassic reesearcch areea of Naturral Laanguagge Proocessiing (NNLP) aand haave siignifiicant meaniing too manyy impoortantt appllicatiions ssuch aas texxt traanslattion, speecch traanslattion aand soo on.In Chinnese wword aanalyssis, wwe prooposedd a noovel uunifieed appproachh baseed
11、on HMM, whichh effiicienttly coombinee wordd segmmentattion, Part of Sppeech (POS) taggging aand Naamed EEntityy (NE) recoognitiion. OOur fiirst mmodel is a classs-baseed HMMM. So as too incrrease its aaccuraacy, wwe inttroducce intto thee wordd-baseed HMMM and combiine itt withh the classs-baseed H
12、MMM. At last we ussed a “word-to-chharactter” smooothingg methhod foor preedictiing thhe proobabillity oof thoose woords wwhich dont occcur inn the trainning sset. TThe exxperimmentall resuults sshow tthat oour coombineed moddel, bby commpreheensiveely coonsideering the iinformmationn of CChinesse c
13、haaracteers, wwords, POS and NNE, acchieveed mucch bettter pperforrmancee in tthe prrecisiion annd reccall oof thee Chinnese wword ssegmenntatioon. Baased oon thee knowwledgee of oour coombineed moddel, wwe desscribeed thee detaails iin impplemennting the ggeneraal worrd seggmentaation systeem APCCW
14、S. WWe disscusseed somme tecchnicaal prooblemss in tthe daata saaving and lloadinng, annd desscribeed ourr moduules oof knoowledgge mannagemeent annd worrd latttice consttructiion.In utteerancee segmmentattion, this paperr propposed a novvel appproacch whiich waas bassed onn a bii-direectionnal N-gr
15、am modell and MMaximiized EEntroppy moddel. Thiss noveel metthod, whichh effeectiveely coombinees thee normmal annd revverse N-graam alggorithhm, iss ablee to mmake uuse off bothh the left and rright conteext off the candiidate site and aachievved veery goood peerformmance in uttterannce seegmenttat
16、ionn. We conduucted experrimentts botth in Chineese annd in Engliish. TThe reesultss showwed thhe efffect oof ourr noveel metthod wwas muuch beetter than the nnormall N-grram allgoritthm. TThen bby anaalyzinng thee expeerimenntal rresultts, wee founnd thee reasson whhy ourr noveel metthod aachievved
17、 beetter resullts: iit on one hhand rretainned thhe corrrect segmeentatiion off the normaal N-ggram aalgoriithm, on thhe othher haand avvoidedd the incorrrect segmeentatiion byy makiing usse of reverrse N-gram algorrithm.In autoomaticc evalluatioon of MT syystemss, we firstt intrroduceed twoo classs
18、ic mmethodds on autommatic evaluuationn whicch rellied oon refferencce traanslattions. Thenn we ppropossed ouur novvel seentencce fluuency evaluuationn methhod baased oon N-ggram mmodel. Thiss methhod, ccalledd as EE3, dooesnt neeed anyy refeerencee trannslatiions aand acchieveed verry welll evaalua
19、tiion peerformmance by diiscrimminateely usse thee diffferentt trannsmisssion pprobabbilitiies off wordds in the eevaluaating senteence. In summmarizaation, thiss thessis prroposeed novvel appproacches ffor thhe thrree baasic rresearrches in NLLP: Chhinesee wordd anallysis, utteerancee segmmentattio
20、n aand auutomattic evvaluattion oof MT systeems. WWe bellieve the ooriginnal iddeas iin theem nott onlyy havee impoortantt refeerencee valuue forr otheer ressearchhes, bbut allso caan be used to immprovee the perfoormancce of NLP aappliccationns.目录IV第一章 绪言1第二章 统计语语言模型32.1 N元模模型32.1.1 NN元模型定义义32.1.2参
21、数数估计42.2 隐马尔尔可夫模型82.2.1 定定义82.2.2 和和HMM相关联联的三个问题题92.3 最大熵熵模型132.3.1 介介绍132.3.2 定定义152.3.3 参参数训练172.4 小结20第三章 基于隐隐马尔可夫模模型的一体化化中文分词方方法213.1 相关工工作213.2 基于类类别的隐马尔尔可夫分词框框架233.2.1 词词的定义243.2.2 基基于类别的隐隐马尔可夫模模型243.2.3词的的生成模型263.2.4 基基于类别的隐隐马尔可夫模模型的小结293.3 对于基基于类别的隐隐马尔可夫模模型的改进293.3.1 基基于类别和基基于词的隐马马尔可夫模型型的合并3
22、03.3.2 “词到字”的平滑方法法313.4 实验323.4.1 训训练和测试语语料323.4.2 各各模型的测试试结果323.4.3 错错误分析343.5 通用分分词系统APPCWS实现现介绍353.5.1 AAPCWS系系统框架353.5.2 AAPCWS的的数据装载以以及知识管理理363.5.3 AAPCWS的的切分模块403.6 小结45第四章 基于双双向N元模型和最最大熵模型的的句子切分464.1 相关工工作474.2 最大熵熵平衡的双向向N元切分算法法504.2.1 正正向N元切分算法法504.2.2 逆逆向N元切分算法法514.2.3 双双向N元切分算法法524.2.4 基基于
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 评估方法研究中科院自动化所 硕士论文-导师宗成庆37958 评估 方法 研究 中科院 自动化 硕士论文 导师 宗成庆 37958

限制150内