汉语词与句子切分技术及机器翻译评估方法探讨14884.docx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《汉语词与句子切分技术及机器翻译评估方法探讨14884.docx》由会员分享,可在线阅读,更多相关《汉语词与句子切分技术及机器翻译评估方法探讨14884.docx(121页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 分类类号 密级级UDC 编号中国科学学院研究究生院硕士学位位论文汉语词与与句子切切分技术术及机器器翻译评评估方法法研究 刘丁丁 指导教师师 宗宗成庆 研究员员 博士士 中国国科学院院自动化化研究所所 申请学位位级别 工学硕硕士 学学科专业业名称 模式识识别与智智能系统统 论论文提交交日期 20004年66月 论论文答辩辩日期 20004年年6月 培培养单位位 中国国科学院院自动化化研究所所 学位授予予单位 中中国科学学院研究究生院 答辩委委员会主主席Approaches to Chinese Word Analysis, Utterance Segmentation and Automati
2、c Evaluation of Machine TranslationDissserttatiion Subbmitttedd tooInsttituute of Auttomaatioon, ChiinesseAccadeemy off Sccienncessin pparttiall fuulfiillmmentt off thhe rrequuireemenntsfor thee deegreee oofMastter of EnggineeeriingbyDinggLiuu(Pattterrn RRecoogniitioon aand Inttellligeencee Syysteem
3、)Dissserttatiion Suppervvisoor: Proofesssorr Chhenggqinng ZZongg独创性声声明本人声明明所成交交的论文文是我个个人在导导师指导导下进行行的研究究工作及及取得的的研究成成果。尽尽我所知知,除了了文中特特别加以以标注和和致谢的的地方外外,论文文中不包包含其他他人已经发表表或撰写写过的研研究成果果。与我我一同工工作的同同志对本本研究所所做的任任何贡献献均已在在论文中中作了明明确地说说明并表表示了谢谢意。签名:_导导师签名名:_ 日 期:_关于论文文使用授授权的说说明本人完全全了解中中国科学学院自动动化研究究所有关关保留、使使用学位位论文的
4、的规定,即即:中国国科学院院自动化化研究所所有权保保留送交交论文的的复印件件,允许许论文被被查阅和和借阅;可以公公布论文文的全部部或部分分内容,可可以采用用影印、缩缩印或其其他复制制手段保保存论文文。(保密的的论文在在解密后应应遵守此此规定)签名:_导导师签名名:_ 日 期:_摘要本论文以以统计模模型为基基础,在参考考了大量量前人工工作的基基础上,对汉语词法分析、口语句子切分和机器翻译评估进行了较为深入的探讨和研究。汉语词法分析是大部分中文处理的第一步,其重要性不言而喻;句子切分是语音翻译中连接语音识别和文本翻译的桥梁,无论语音识别和文本翻译单独的效果有多么好,这座桥没搭好,综合的性能依然无法
5、提高;机器翻译的自动评估是构建机器翻译系统中很重要的辅助工作,其可以加速翻译系统的开发速度,缩短其开发周期。简言之,这三方面同属于自然语言处理的基础的研究领域,其效果直接影响到高层应用的水平。在词法分分析上,我们们利用隐隐马尔可可夫模型型(HMMM)提提出了一一种融和和了分词词、词性性标注和和命名实实体识别别的一体体化词法法分析方方法。最初我我们用基基于类别别的HMMM,其其优点是是对词的的覆盖面面广,系系统开销销小;缺缺点是不不能精确确地预测测词的出出现概率率。为了了提升模模型的准准确率,我我们引入入基于词词汇的HHMM,并并将两者者有机地地结合,并用一个“词到字”的概率平滑方法对基于词的H
6、MM进行平滑。实验结果显示,我们的混合模型由于综合考虑到了字、词、词性以及命名实体的知识,在切分的准确率和召回率上都明显优于单纯基于类别或者基于词的HMM。此外在分词系统的实现上,我们借助对通用分词系统APCWS的整体框架和各功能模块的介绍,讨论了如何有效地存储和加载数据等一些技术细节问题。在口语句句子切分分上,我们提提出了基于双双向N元元模型和和最大熵熵模型的的句子切切分算法法,这种种算法由由于通过过最大熵熵有机地地将正、逆逆向N元元切分结结合起来来,综合合考虑到到了切分分点左、右右的上下下文,从从而得到到了很好好的切分分效果。我我们在中、英英文语料料上训练我我们的模模型并作作测试,结果显显
7、示其在性能能上明显显优于基基本的正正向N元元切分。在在此基础础上,我我们分析析并对比比了各模型型的切分分结果,从从而验证证了我们们当初对于于模型的的预计:其一方面面保存了正向NN元算法法的正确切切分,一一方面用用逆向NN元算法法有效地地避免了了正向算算法的错错误切分分。在机器翻翻译的自动评评估上,我我们首先先介绍了了两种常常用的基基于参考考译文的的评估算算法BLLEU和和NISST,然然后给出出了一种种基于NN元模型型的句子子流畅度度评估方方法E33。这种种方法不不需要借借助任何何参考译译文,它它通过区区别地对对待句子子中不同同的词的的转移概概率,达达到了很很好的评评估效果果。综上所述述,本文
8、针针对汉语语词法分分析、口口语句子子切分和和机器翻翻译评估提提出了以以统计模模型为基基础的创创新方法法,它们们不仅仅仅在科学学方法上上有重要要的参考考价值,对于实际应用中也有重要意义。ABSTTRACCTThiss thhesiis ppropposeed oour novvel staatissticcal appproaachees oon CChinnesee woord anaalyssis, uttterrancce ssegmmenttatiion andd auutommatiic eevalluattionn off maachiine traansllatiion (MTT)
9、.WWordd annalyysiss iss thhe ffirsst sstepp for mosst aappllicaatioon bbaseed oon CChinnesee laanguuagee teechnnoloogiees; uttteraancee seegmeentaatioon iis tthe briidgee whhichh coonneectss sppeecch rrecoogniitioon aand texxt ttrannslaatioon iin aa sppeecch ttrannslaatioon ssysttem; auutommatiic ee
10、valluattionn off maachiine traansllatiion (MTT) ssysttem cann sppeedd thhe rreseaarchh annd ddeveeloppmennt oof aa MTT syysteem, redducee itts ddeveeloppingg coost. Inn shhortt, tthe thrree asppectts aall bellongg too thhe bbasiic rreseearcch aareaa off Naaturral Lannguaage Proocesssinng (NLPP) aand
11、 havve ssignnifiicannt mmeanningg too maany impporttantt apppliicattionns ssuchh ass teext traansllatiion,speeechh trransslattionn annd sso oon.InChhineese worrd aanallysiis, we proopossed a nnoveel uuniffiedd appprooachh baasedd onn HMMM, whiich effficiienttly commbinne wwordd seegmeentaatioon, Par
12、rt oof SSpeeech (POOS) taggginng aand Nammed Enttityy (NNE) reccognnitiion. Ouur ffirsst mmodeel iis aa cllasss-baasedd HMMM. So aas tto iincrreasse iits acccuraacy, wee inntrooducce iintoo thhe wwordd-baasedd HMMM aand commbinne iit wwithh thhe cclasss-bbaseed HHMM. Att laast we useed aa “wordd-too
13、-chharaacteer” smmootthinng mmethhod forr prrediictiing thee prrobaabillityy off thhosee woordss whhichh doont ooccuur iin tthe traainiing sett. TThe expperiimenntall reesullts shoow tthatt ouur ccombbineed mmodeel, by commpreehennsivvelyy coonsiiderringg thhe iinfoormaatioon oof CChinnesee chharaac
14、teers, woordss, PPOS andd NEE, aachiieveed mmuchh beetteer pperfformmancce iin tthe preecissionn annd rrecaall of thee Chhineese worrd ssegmmenttatiion. Baasedd onn thhe kknowwleddge of oour commbinned moddel, wee deescrribeed tthe dettaills iin iimpllemeentiing thee geenerral worrd ssegmmenttatiion
15、 sysstemm APPCWSS. WWe ddisccusssed somme ttechhniccal proobleems in thee daata savvingg annd lloaddingg, aand desscriibedd ouur mmoduuless off knnowlledgge mmanaagemmentt annd wwordd laattiice connstrructtionn.In uutteerannce seggmenntattionn, tthiss paaperr prropoosedd a novvel appproaach whiich w
16、ass baasedd onn a bi-dirrecttionnal N-ggramm moodell annd MMaxiimizzed Enttroppy mmodeel. Thiis nnoveel mmethhod, whhichh efffecctivvelyy coombiiness thhe nnormmal andd reeverrse N-ggramm allgorrithhm, is ablle tto mmakee usse oof bboth thee leeft andd riightt coonteext of thee caandiidatte ssitee a
17、nnd aachiieveed vveryy goood perrforrmannce in uttteraancee seegmeentaatioon. We connducctedd exxperrimeentss booth in Chiinesse aand in Engglissh. Thee reesullts shoowedd thhe eeffeect of ourr noovell meethood wwas mucch bbettter thaan tthe norrmall N-gramm allgorrithhm. Theen bby aanallyziing thee
18、 exxperrimeentaal rresuultss, wwe ffounnd tthe reaasonn whhy oour novvel metthodd acchieevedd beetteer rresuultss: iit oon oone hannd rretaaineed tthe corrrecct ssegmmenttatiion of thee noormaal NN-grram alggoriithmm, oon tthe othher hannd aavoiidedd thhe iincoorreect seggmenntattion by makkingg uss
19、e oof rreveersee N-graam aalgooritthm.In aautoomattic evaaluaatioon oof MMT ssysttemss, wwe ffirsst iintrroduucedd twwo cclasssicc meethoods on auttomaaticc evvaluuatiion whiich relliedd onn reeferrencce ttrannslaatioons. Thhen we proopossed ourr noovell seenteencee flluenncy evaaluaatioon mmethhod
20、bassed oon NN-grram moddel. Thhis metthodd, ccallled as E3, dooesnnt nneedd anny rrefeerennce traansllatiionss annd aachiieveed vveryy weell evaaluaatioon pperfformmancce bby ddisccrimminaatelly uuse thee diiffeerennt ttrannsmiissiion proobabbiliitiees oof wwordds iin tthe evaaluaatinng ssenttencce.
21、 In ssummmariizattionn, tthiss thhesiis ppropposeed nnoveel aapprroacchess foor tthe thrree bassic ressearrchees iin NNLP: Chhineese worrd aanallysiis, uttteraancee seegmeentaatioon aand auttomaaticc evvaluuatiion of MT sysstemms. We bellievve tthe oriiginnal ideeas in theem nnot onlly hhavee immpor
22、rtannt rrefeerennce vallue forr ottherr reeseaarchhes, bbut alsso ccan be useed tto iimprrovee thhe pperfformmancce oof NNLP apppliccatiionss.目录第一章绪绪言1第二章统统计语言言模型332.1 N元模模型32.1.1 NN元模型型定义332.1.2参数数估计442.2 隐马尔尔可夫模模型82.2.1 定定义82.2.2 和和HMMM相关联联的三个个问题992.3 最大熵熵模型1132.3.1 介介绍1332.3.2 定定义1552.3.3 参参数训练练1
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 汉语 句子 切分 技术 机器翻译 评估 方法 探讨 14884
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内