北京大学本科生毕业论文-自动标注汉语多音词.doc
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《北京大学本科生毕业论文-自动标注汉语多音词.doc》由会员分享,可在线阅读,更多相关《北京大学本科生毕业论文-自动标注汉语多音词.doc(23页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、【精品文档】如有侵权,请联系网站删除,仅供学习与交流北京大学本科生毕业论文-自动标注汉语多音词.精品文档.本科生毕业论文题目: 自动标注汉语多音词 Automatic Tagging of Chinese Polyphony Word and Related Research 姓 名: 何辉辉 学 号: 00748250 院 系: 信息科学技术学院 专 业: 计算机科学与技术 指导教师: 段慧明 二二二年五月二十四日摘要汉语中存在着一字多音现象,很多高频字都具有两种或更多的读音,而这些多音字的读音并没有统一的规则可循。汉语多音词的自动标注,即将汉字序列转换成相应的拼音序列,是语音合成(TTS)
2、系统的关键步骤。由于汉语文化的多义性和上下文相关性等原因,目前的汉语注音系统很难达到100%的正确率。本文研究了多音词的读音规律,总结了中文分词和词性标记的相关技术;设计了汉语多音词的注音系统,重点研究词性标记串的注音问题;本系统由Java语言和MySQL数据库设计,采用统计与规则相结合的注音方法,通过不断完善总词表,尽可能提高注音准确率。从测试结果来看,系统对于封闭测试的正确率达到95.2%,基本满足现有要求,具有良好的实用性;随着数据库的逐渐完善,正确率还将不断提高。 关键词:汉语多音词;词性标记;自动注音;统计与规则。Automatic Tagging of Chinese Polyph
3、ony Word and Related ResearchAbstractIn Chinese, there are many frequently used characters, which have more than one pronunciation, and how to automatically tag those characters correctly is a key step in TTS system. However, because the pronunciation of a certain character is related to its context
4、 and may have ambiguity, its very hard to find a universal rule. As a result, current systems can hardly achieve a 100% precision. This thesis researched the law on Chinese polyphone words pronunciation, and summarized the related techniques on Chinese segmentation and POS tagging. In our work, we d
5、esigned a pinyin tagging system, which was designed by Java and MySQL database, to focus on the problem after POS tagging. We proposed an algorithm that combined the traditional statistical method and heuristic rules to achieve a better result. Moreover, we also conducted extensive experiments, and
6、the result showed that it can achieve accuracy of 95.2%; with the improvement of word database, its accuracy will continually increase.Key words:Chinese Polyphony Word;POS Tagging; Automatic Tagging; Statistics and Rules.目录摘要2Abstract3第一章 绪论51.1问题背景和研究意义51.2 发展现状61.3 本文组织结构6第二章 读音72.1 多音字与多音词72.2 读音
7、分类72.3 读音规律8第三章 分词与词性标注103.1 分词定义103.2 现有分词技术103.3 N元模型113.4 词性标注定义123.5 词性标记技术123.6 隐马尔可夫模型13第四章 拼音标注154.1 标音定义154.2 现有拼音标注技术154.3 规则与统计相结合的注音方法16第五章 多音词注音系统的实现175.1 注音系统简介175.2 开发环境175.3 数据库表结构175.4 程序模块结构185.5 注音流程205.6 功能测试20第六章 总结与展望22参考文献23致谢24第一章 绪论1.1 问题背景和研究意义随着计算机和Internet网络技术在全球范围内的飞速发展,计
8、算机应用日益渗透到人们日常生活的各个方面;而语言的高效交流,是社会正常运作的基础。现代信息社会生活节奏不断加快,人们需要计算机更好地理解自然语言,更方便地实现人机自由交流,从而更快捷地为我们提供服务。近年来兴起的语音转换(TTS: Text To Speech)技术,广泛地应用在语音识别、语音对话、口语翻译等领域,受到用户和研发人员的青睐。中国文化博大精深,语言更是源远流长。但长期以来,汉字的读音却没有标准的拼音方案,古时往往采用两字反切或直接拼出读音的方式;这种方法不仅繁琐,而且容易出错。自1958年起,我国才开始真正推广拉丁化注音标准,并沿用至今。目前已有多家研究机构实现了针对汉语的TTS
9、系统,但是专门针对字-音转换的研究还不够成熟。由于汉语中普遍存在着一字多音现象,很多高频字都具有两种或以上的读音,同时这些多音字的读音通常没有统一的规则可循,而且极具复杂性,这就给汉语字-音转换的正确性造成了困难。对于汉语TTS系统而言,汉语多音字的自动注音是合成系统需要首先解决的问题,其注音结果的正确率是影响合成语音的自然度与可懂度的关键。多音词的自动标注系统,对汉语TTS系统和人机对话交流起着重要的作用。此外,本系统还可以应用于汉语教学中。教师们为了教学或考试,经常需要为电子文本中的汉字添加适当的拼音;中小学学生遇到不认识的字词,可以通过本系统查询正确读音;出版社还可以利用本系统对文本注音
10、1。1.2 发展现状准确标注多音字的读音,至今仍是汉语TTS 系统中没有妥善解决的难题。在早期的汉语字-音转换研究中,往往采用对分词结果匹配读音的方法。对那些没有匹配上读音的词,就标注一个缺省读音通常是概率最大的读音,自然这种方法难以达到较高的正确率。此后,人们解决字-音转换问题所采取的思路是基于规则的方法,即通过人工方式建立多音字的读音规则,并应用于自动注音过程中。然而,人工建立这样的规则必须依靠一定的专家知识。对每个多音字都获得相对完备的规则集是相当繁琐的。随着研究的深入,人们越来越深刻的意识到,建立相应的注音语料库,并采用数据驱动的方法从语料库获取更多的知识,可以有效地提高注音正确率。这
11、是一种统计学习的方法,利用多音字的上下文信息对高频多音字自动建立规则,用于自动注音。但是这种方法需要超大规模语料库的支持,需要耗费大量的人力和相当长的时间2。自动字-音转换虽然不能保证完全准确,但能够解放大量的人力,同时节省时间提高效率。我们可以根据自动转换结果,对于可能存在错误的地方进行标记,进行少量的人工校对。这样,既节省了时间,同时也保证了准确率。1.3 本文组织结构本文总共分为6个部分。第一章是绪论,介绍选题背景和意义,以及多音词标注系统的研究现状;第二章研究多音字的分类,以及读音规律;第三章概述现有的分词和词性标注技术;第四章分析多音字注音的现有技术,提出一种综合考虑的方法;第五章介
12、绍设计的汉语多音词标注系统,以及测试结果和分析;第六章是总结与展望。第二章 汉字读音2.1 多音字与多音词汉字的多音字指有两个或两个以上读音的字;多音词指有两个或两个以上读音的词。汉字中有一些多音字,多数多音字在词的层面有唯一的读音。比如多音字“中” 有zhong1和zhong4两个读音:在词“中国”里只读zhong1;在词“中肯”中只读zhong4。多音词则包括单音节多音词(如:为wei2;为wei4)和双音节多音词(如:背着bei1 zhe1;背着bei4 zhe1)。由于多音字组成多音词,多音词本身又包含着多音字,本文将两者联系起来进行研究。2.2 汉语读音分类根据现代汉语词典,现代汉语
13、大约有1069个多音字。这些多音字按其多音字发音现象大致可以分为以下三类。第一类:单字成词时,仅有一种读音;组合成词时,该字具有确定读音。如“否”,作为单字词读 fou3;但是在多字词“否极泰来”中读pi3。对此类多音字,在分词正确的情况下,其读音可以确定下来。第二类:单字成词时,有多种读音;组合成词时,该字可发另外的确定读音。如“单”,作为单字词,读音有dan1和shan4,只有在多音词“单于”中才可能读chan2。此外还有少部分多字多音词,如“朝阳”,读音有chao2 yang2和zhao1 yang2两种。第三类:多音字不同读音的出现频率相差很大,仅有一个高频读音经常出现。如“说”,常读
14、为shuo1,极少读shui4。通过对现代汉语语法信息词典中73893个词的统计分析,从词的读音意义上,多音词大致可以分为以下三类。第一类:仅凭词形就可确定读音的词,共有71350个。如“不置可否”、“否极泰来”等。虽然含有多音字, 但是在特定词中的读音是固定的。第二类:结合词性可以确定读音的词,共有996个。如“为”,作为介词时读wei4,作为动词时读wei2。第三类:结合词形和词性仍然无法确定其读音的词,共有1547个。如“背”,作为动词可读bei1,也可读bei4。这类词中大部分为单字成词的多音字3。2.3 汉语读音规律规律一:词义不同,读音不同。 很多多音字之所以多音,最根本的原因在于
15、多义。表示的词义不一样,读音自然也就不一样。这类多音字读音差别较大,而且词义之间彼此基本没有关联,实际上可以看作是不同的字。例如,“参”字共有三个读音: can1(加入义):参加 shen1(名物义):人参 cen1 (不整齐义):参差不齐规律二:词性不同,读音不同。不同的读音具有区别词性的作用,词性不同,读音也就不同。一般说来,这类多音字读音非常相近,只在声、韵、调三者之中的某一方面存在细微差别。例如,“长”字共有两个读音: chang1(形容词):长久 zhang3(动词):成长规律三:语体不同,读音不同。 有些多音字的读音,分为“文”、“语”两类。“文”即“文读”,表示这个读音是书面语的
16、读音。“语”即“白读”,表示这个读音多用于口语中的单音词及少数日常用的复音词中。这类多音字词义基本相同,有时甚至完全相同,读音不同仅仅在于书面语和口头语的区别。例如“差”字:cha1(书面语音):差异cha4(口头语音):差不多规律四:特殊地方,读音特殊。 有些多音字在绝大多数情况下只有一种读音,但在作姓氏、地名等特殊情况时,有特殊读音。这种情况,实际上是“规律一”中比较特殊的一类。例如:“仇”作姓氏时读qiu2,而不读chou2。“蕃”在古族名“吐蕃”中读fan1,而不读fan2。4第三章 分词与词性标注3.1 分词定义分词即将汉语文字序列划分成词语序列。定义如下:对于一个中文句子,S=;一
17、个词串,W=。其中为一个汉语单元,是由组成的词。存在一个对应:F: S-P,将一个或多个映射到上。3.2 现有分词技术现有的分词技术种类有三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。 基于字符串匹配的分词方法:这种方法又被称为机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功,即切分出一个词。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大匹配方法和最小匹配方法5。这种方法不需要语料库支持,也是最早大多数系统采用的方法。还可以将上述各
18、种方法相互组合。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。 基于规则的分词方法:这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前
19、基于理解的分词系统还处在试验阶段。 基于统计的分词方法:从形式上看,词是稳定的字的组合。因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速
20、度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点2。3.3 N元模型由于语言的规律性,句子中前面出现的词对后面可能出现的词有很强的预示作用。给定一个句子中前面n-1个词,预测下面的词是哪个词,这时的语言模型叫做N元模型。例如,设有n个词构成一个序列W=,该序列W在文本中的连乘概率为P(W)。利用概率的乘积公式,P(W)可展开为:P(W)=P()P(|)P(|)wn|.)其中的概率参数可以通过大规模语料库进行估值,例如:P(|) f() / f()。上式中f()表示该符号序列的出现频率6。通常在实际应用中,N4。当N=1时,独立于历史,即它的出现与前面的历史无关,这样
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 北京大学 本科生 毕业论文 自动 标注 汉语 多音
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内