欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    北京大学本科生毕业论文-自动标注汉语多音词.doc

    • 资源ID:17501610       资源大小:321.50KB        全文页数:23页
    • 资源格式: DOC        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    北京大学本科生毕业论文-自动标注汉语多音词.doc

    【精品文档】如有侵权,请联系网站删除,仅供学习与交流北京大学本科生毕业论文-自动标注汉语多音词.精品文档.本科生毕业论文题目: 自动标注汉语多音词 Automatic Tagging of Chinese Polyphony Word and Related Research 姓 名: 何辉辉 学 号: 00748250 院 系: 信息科学技术学院 专 业: 计算机科学与技术 指导教师: 段慧明 二二二年五月二十四日摘要汉语中存在着一字多音现象,很多高频字都具有两种或更多的读音,而这些多音字的读音并没有统一的规则可循。汉语多音词的自动标注,即将汉字序列转换成相应的拼音序列,是语音合成(TTS)系统的关键步骤。由于汉语文化的多义性和上下文相关性等原因,目前的汉语注音系统很难达到100%的正确率。本文研究了多音词的读音规律,总结了中文分词和词性标记的相关技术;设计了汉语多音词的注音系统,重点研究词性标记串的注音问题;本系统由Java语言和MySQL数据库设计,采用统计与规则相结合的注音方法,通过不断完善总词表,尽可能提高注音准确率。从测试结果来看,系统对于封闭测试的正确率达到95.2%,基本满足现有要求,具有良好的实用性;随着数据库的逐渐完善,正确率还将不断提高。 关键词:汉语多音词;词性标记;自动注音;统计与规则。Automatic Tagging of Chinese Polyphony Word and Related ResearchAbstractIn Chinese, there are many frequently used characters, which have more than one pronunciation, and how to automatically tag those characters correctly is a key step in TTS system. However, because the pronunciation of a certain character is related to its context and may have ambiguity, it's very hard to find a universal rule. As a result, current systems can hardly achieve a 100% precision. This thesis researched the law on Chinese polyphone words pronunciation, and summarized the related techniques on Chinese segmentation and POS tagging. In our work, we designed a pinyin tagging system, which was designed by Java and MySQL database, to focus on the problem after POS tagging. We proposed an algorithm that combined the traditional statistical method and heuristic rules to achieve a better result. Moreover, we also conducted extensive experiments, and the result showed that it can achieve accuracy of 95.2%; with the improvement of word database, its accuracy will continually increase.Key words:Chinese Polyphony Word;POS Tagging; Automatic Tagging; Statistics and Rules.目录摘要2Abstract3第一章 绪论51.1问题背景和研究意义51.2 发展现状61.3 本文组织结构6第二章 读音72.1 多音字与多音词72.2 读音分类72.3 读音规律8第三章 分词与词性标注103.1 分词定义103.2 现有分词技术103.3 N元模型113.4 词性标注定义123.5 词性标记技术123.6 隐马尔可夫模型13第四章 拼音标注154.1 标音定义154.2 现有拼音标注技术154.3 规则与统计相结合的注音方法16第五章 多音词注音系统的实现175.1 注音系统简介175.2 开发环境175.3 数据库表结构175.4 程序模块结构185.5 注音流程205.6 功能测试20第六章 总结与展望22参考文献23致谢24第一章 绪论1.1 问题背景和研究意义随着计算机和Internet网络技术在全球范围内的飞速发展,计算机应用日益渗透到人们日常生活的各个方面;而语言的高效交流,是社会正常运作的基础。现代信息社会生活节奏不断加快,人们需要计算机更好地理解自然语言,更方便地实现人机自由交流,从而更快捷地为我们提供服务。近年来兴起的语音转换(TTS: Text To Speech)技术,广泛地应用在语音识别、语音对话、口语翻译等领域,受到用户和研发人员的青睐。中国文化博大精深,语言更是源远流长。但长期以来,汉字的读音却没有标准的拼音方案,古时往往采用两字反切或直接拼出读音的方式;这种方法不仅繁琐,而且容易出错。自1958年起,我国才开始真正推广拉丁化注音标准,并沿用至今。目前已有多家研究机构实现了针对汉语的TTS系统,但是专门针对字-音转换的研究还不够成熟。由于汉语中普遍存在着一字多音现象,很多高频字都具有两种或以上的读音,同时这些多音字的读音通常没有统一的规则可循,而且极具复杂性,这就给汉语字-音转换的正确性造成了困难。对于汉语TTS系统而言,汉语多音字的自动注音是合成系统需要首先解决的问题,其注音结果的正确率是影响合成语音的自然度与可懂度的关键。多音词的自动标注系统,对汉语TTS系统和人机对话交流起着重要的作用。此外,本系统还可以应用于汉语教学中。教师们为了教学或考试,经常需要为电子文本中的汉字添加适当的拼音;中小学学生遇到不认识的字词,可以通过本系统查询正确读音;出版社还可以利用本系统对文本注音1。1.2 发展现状准确标注多音字的读音,至今仍是汉语TTS 系统中没有妥善解决的难题。在早期的汉语字-音转换研究中,往往采用对分词结果匹配读音的方法。对那些没有匹配上读音的词,就标注一个缺省读音通常是概率最大的读音,自然这种方法难以达到较高的正确率。此后,人们解决字-音转换问题所采取的思路是基于规则的方法,即通过人工方式建立多音字的读音规则,并应用于自动注音过程中。然而,人工建立这样的规则必须依靠一定的专家知识。对每个多音字都获得相对完备的规则集是相当繁琐的。随着研究的深入,人们越来越深刻的意识到,建立相应的注音语料库,并采用数据驱动的方法从语料库获取更多的知识,可以有效地提高注音正确率。这是一种统计学习的方法,利用多音字的上下文信息对高频多音字自动建立规则,用于自动注音。但是这种方法需要超大规模语料库的支持,需要耗费大量的人力和相当长的时间2。自动字-音转换虽然不能保证完全准确,但能够解放大量的人力,同时节省时间提高效率。我们可以根据自动转换结果,对于可能存在错误的地方进行标记,进行少量的人工校对。这样,既节省了时间,同时也保证了准确率。1.3 本文组织结构本文总共分为6个部分。第一章是绪论,介绍选题背景和意义,以及多音词标注系统的研究现状;第二章研究多音字的分类,以及读音规律;第三章概述现有的分词和词性标注技术;第四章分析多音字注音的现有技术,提出一种综合考虑的方法;第五章介绍设计的汉语多音词标注系统,以及测试结果和分析;第六章是总结与展望。第二章 汉字读音2.1 多音字与多音词汉字的多音字指有两个或两个以上读音的字;多音词指有两个或两个以上读音的词。汉字中有一些多音字,多数多音字在词的层面有唯一的读音。比如多音字“中” 有zhong1和zhong4两个读音:在词“中国”里只读zhong1;在词“中肯”中只读zhong4。多音词则包括单音节多音词(如:为wei2;为wei4)和双音节多音词(如:背着bei1 zhe1;背着bei4 zhe1)。由于多音字组成多音词,多音词本身又包含着多音字,本文将两者联系起来进行研究。2.2 汉语读音分类根据现代汉语词典,现代汉语大约有1069个多音字。这些多音字按其多音字发音现象大致可以分为以下三类。第一类:单字成词时,仅有一种读音;组合成词时,该字具有确定读音。如“否”,作为单字词读 fou3;但是在多字词“否极泰来”中读pi3。对此类多音字,在分词正确的情况下,其读音可以确定下来。第二类:单字成词时,有多种读音;组合成词时,该字可发另外的确定读音。如“单”,作为单字词,读音有dan1和shan4,只有在多音词“单于”中才可能读chan2。此外还有少部分多字多音词,如“朝阳”,读音有chao2 yang2和zhao1 yang2两种。第三类:多音字不同读音的出现频率相差很大,仅有一个高频读音经常出现。如“说”,常读为shuo1,极少读shui4。通过对现代汉语语法信息词典中73893个词的统计分析,从词的读音意义上,多音词大致可以分为以下三类。第一类:仅凭词形就可确定读音的词,共有71350个。如“不置可否”、“否极泰来”等。虽然含有多音字, 但是在特定词中的读音是固定的。第二类:结合词性可以确定读音的词,共有996个。如“为”,作为介词时读wei4,作为动词时读wei2。第三类:结合词形和词性仍然无法确定其读音的词,共有1547个。如“背”,作为动词可读bei1,也可读bei4。这类词中大部分为单字成词的多音字3。2.3 汉语读音规律规律一:词义不同,读音不同。 很多多音字之所以多音,最根本的原因在于多义。表示的词义不一样,读音自然也就不一样。这类多音字读音差别较大,而且词义之间彼此基本没有关联,实际上可以看作是不同的字。例如,“参”字共有三个读音: can1(加入义):参加 shen1(名物义):人参 cen1 (不整齐义):参差不齐规律二:词性不同,读音不同。不同的读音具有区别词性的作用,词性不同,读音也就不同。一般说来,这类多音字读音非常相近,只在声、韵、调三者之中的某一方面存在细微差别。例如,“长”字共有两个读音: chang1(形容词):长久 zhang3(动词):成长规律三:语体不同,读音不同。 有些多音字的读音,分为“文”、“语”两类。“文”即“文读”,表示这个读音是书面语的读音。“语”即“白读”,表示这个读音多用于口语中的单音词及少数日常用的复音词中。这类多音字词义基本相同,有时甚至完全相同,读音不同仅仅在于书面语和口头语的区别。例如“差”字:cha1(书面语音):差异cha4(口头语音):差不多规律四:特殊地方,读音特殊。 有些多音字在绝大多数情况下只有一种读音,但在作姓氏、地名等特殊情况时,有特殊读音。这种情况,实际上是“规律一”中比较特殊的一类。例如:“仇”作姓氏时读qiu2,而不读chou2。“蕃”在古族名“吐蕃”中读fan1,而不读fan2。4第三章 分词与词性标注3.1 分词定义分词即将汉语文字序列划分成词语序列。定义如下:对于一个中文句子,S=;一个词串,W=。其中为一个汉语单元,是由组成的词。存在一个对应:F: S->P,将一个或多个映射到上。3.2 现有分词技术现有的分词技术种类有三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。 基于字符串匹配的分词方法:这种方法又被称为机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功,即切分出一个词。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大匹配方法和最小匹配方法5。这种方法不需要语料库支持,也是最早大多数系统采用的方法。还可以将上述各种方法相互组合。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。 基于规则的分词方法:这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。 基于统计的分词方法:从形式上看,词是稳定的字的组合。因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点2。3.3 N元模型由于语言的规律性,句子中前面出现的词对后面可能出现的词有很强的预示作用。给定一个句子中前面n-1个词,预测下面的词是哪个词,这时的语言模型叫做N元模型。例如,设有n个词构成一个序列W=,该序列W在文本中的连乘概率为P(W)。利用概率的乘积公式,P(W)可展开为:P(W)=P()P(|)P(|)wn|.)其中的概率参数可以通过大规模语料库进行估值,例如:P(|) f() / f()。上式中f()表示该符号序列的出现频率6。通常在实际应用中,N<4。当N=1时,独立于历史,即它的出现与前面的历史无关,这样的N元语言模型称为一元语法,也称之为零阶马尔可夫链;当N=2时,的出现概率只与前面紧邻的一个基元相关,这样的N元语言模型称为二元语法,也称之为一阶马尔可夫链;N=3时类似N=2。实际使用的通常是N=2或N=3的二元模型或三元模型。3.4 词性标注定义给定一个词串W = w1w2wn,如果T = t1t2tn是这个词串对应的词性标记串。所谓对W的词性标注,就是在给定W和带词性标记信息的此表条件下,求T的过程。从概率的视角看,对W进行词性标记,就是求已知W的条件下,使得P(T|W)概率最高的那个词性标记串T。T = argmax P(T|W) 73.5 词性标注技术词性标注系统的实现及效果依赖于词性标注的理论与方法,归纳起来,目前的词性标注系统一般采用的方法主要有以下几种类型: 基于规则的方法基于规则的方法是利用语言学家手工制定的内省的规则,对文本进行词性标注。最初的词性标注系统就是采用了这种方法。国外在70年代初主要采用这种方法,美国布朗大学的TAGGIT系统采用86种词类标记,利用3300条上下文框架规则对现代美国英语的Brown语料库进行词类白动标注,正确率达77%。20世纪90年代以来,产生了一种新的基于规则的词形标注方法,使用基于转换的学习(TBL)方法进行标注处理,获得95%96%的正确率,第一次使规则方法性能可以与统计方法媲美。Voutilanen则采用约束语法方法进行词性标注,获得99.3%的准确率,这一结果是迄今报道的最好的词性标注结果。尽管语言学方法能取得很好的消歧效果,但是要获得一个好的模型要付出人量人力,是一种非常耗时的方法,并且该方法不易保证规则的完备性和在真实文本处理中的有效性。 基于统计的方法对于给定的输入词串,基于统计的方法先确定其所有可能的词性串,然后对它们分别打分,并选择得分最高的词性串作为最佳的输出。常见的方法有基于频度的方法,基于元模型的方法和基于隐马尔可夫模型(HMM)的方法。其中,HMM结合Viterbi方法的词性标注方法最为常见与成熟。近年来,决策树、触发词和最大熵模型等方法也被用在词性标注上,也取得了不错的效果。 基于神经网络的方法近年来,出现了一些利用神经网络进行词性标注的方法。如“基于BP网络的汉语文本词类标注方法”,是一种基于人脑认识机制,具有同时利用语料中的概率知识和上下文信息进行推理的能力,这类方法还处在起步阶段,不是很成熟2。3.6 隐马尔可夫模型隐马尔可夫模型8(HMM)是描述连续符号序列的条件概率的一个统计模型,可以定义为一个五元组(我们用表示HMM):=(S, V, , A, B),其中:1) S代表状态集,S=1, 2, 3,N2) V代表可观察符号集,V=,3) A代表状态转移概率矩阵,A = ,= P(= j| = i),0<i,jN4) B代表可观察符号的概率分布B = (k),(k) = P(j)5) 代表初始状态的概率分布 =,= P(= i)在隐马尔可夫模型下,词性标注问题可以表述为:在给定观测值(W)和模型参数()的情况下,求状态序列T =使得这一状态序列可以“最好地解释”观察值序列W = ,可用公式表述为:T = argmax P(T|W,)根据条件概率公式可知:P(T|W,) = P(T,W|) / P(W|)对于所有的情况,都是一样的,可以省略。根据贝叶斯公式,于是有:P(T|W) = P(T,W) / P(W) = P(T)·P(W|T) / P(W)对于所有可能的标记结果,P(W)都是一样的,可将分母P(W)省略。因此:T = argmax P(T|W,) = argmax P(T)·P(W|T)其中 P(T) = P(|)P(|)P(|)根据一阶马尔科夫假设,当前词性标记只与它前面的词性标记有关,于是:P(T) = P(|)P(|)P(|)两个词性之间的转移概率P(|)可以通过训练语料中词性频度估算出来:P(|) = ti出现在ti-1之后的次数 / ti-1出现的总次数P(W|T)是已知标记串T的条件下词串W的概率:P(W|T) = P(|)P(|,)P(|,)根据HMM的独立性假设,P(W|T) = P(|)P(|)P(|)至此就可以求出其词性标注串的概率,进而得到可能性最大的词性标记串。然而这样的效率是很低的,因为对于每一个给定词串,都要穷尽所有可能的状态序列。假设有N个可能的词性,给定词串中有M个词,最坏情形下每个词都有N个可能的词性,全部可能的词性标记序列有NM个,计算复杂性是呈指数级增长的。这时我们可以用Viterbi的动态规划算法,采取“步步为营”的方式,递归地堆每一个状态求局部最优路径,最终达到整个问题的最优解,找到全局最佳路径。关于Viterbi的算法思想,参见文献7,在此不再赘述。第四章 汉语拼音标注4.1 标音定义拼音标注就是给分词、词性标注后的词串标注正确的读音。定义如下:对于词性标注序列T = ,拼音序列P = ,存在一个映射 f: T->P,使得每个单词都有一个拼音序列.与之对应。4.2 现有拼音标注技术关于多音字的拼音标注技术的主流技术有四种:最大概率注音的方法,基于规则的方法,基于统计的方法,基于机器学习的方法。最大概率注音的方法:一般来讲,汉语中几乎每个多音词都会有一个高频读音,相对于其他读音占大部分概率,即主体地位。而如果这个高频音占统计频率的95%以上,那么我们可以直接将其标注上高频读音,同时在它后面标记一个可能出错的标签。这种方法的局限性在于,多音字中很少有这样的绝对高频词,因此难以保证准确率。基于规则的方法:通过人工方式建立多音字的读音规则,并将这些规律写成计算机可以理解的规则形式,且仅涉及计算机可以获取的信息,计算机发现多音字时就按规则逐条进行条件匹配和消歧处理。人工建立这样的规则需要一定的专家知识,因此需要很大的人力和时间;而且由于多音字读音的复杂性,对每个多音字都获得相对完备的规则集是相当困难的,而且也很难保证每条规则的通用性、正确性。. 基于统计的方法:建立相应的注音语料库,充分利用语料库中的信息,自动预测出多音字的读音,可以有效提高正确率。但是这种方法需要大量语料库的支持,而这些数据尚未对外开放。目前通常的注音语料库大多只有几百万字的规模,而要建设更大规模的注音语料库,则需要耗费大量的人力和相当长的时间。一种思路是建立统计模型进行自动注音。这种方法回避了多音词的矛盾,而是通过最大后验概率来解决多音词的注音问题,得到了不错的结果。文献9中提出了一种统计学习方法,利用多音字的上下文信息对高频多音字自动建立规则,用于自动注音。 基于机器学习的方法我们可以把多音字消歧问题视为机器学习中的分类问题,首先收集包含多音字的语料库并标注每个多音字的正确读音,然后对于每个多音字,抽取前后词性,字面等上下文信息,通过机器学习的方法完成多音字消歧。通过对文献9中解决的多音词来看,实际上很大部分多音词可以通过正确的词性标注来确定其读音。随着标注语料库的发布,分词和词性标注技术的成熟,利用词性的知识能够进一步提高正确率。4.3规则与统计相结合的注音方法基于规则预测特定情况下的多音字读音的方法,具有很高的准确性。而基于统计的方法,随着训练语料库的增大,也能够得到比较令人满意的预测结果。但如果只单独采取以上一种方法,则由于其局限性,很难达到满意的准确率。我们可以结合规则和统计方法的优点,进行多音字注音。一方面,由于一些多音字的读音可以由其词性直接确定,所以我们可以从经过词性标注的语料库中,提取出含有特定词性的多音字的句子,这样就得到了包含这部分多音字的大量数据,通过统计的方法基本能解决这些多音字的训练问题。另一方面,多音字的读音与其所在的语言环境密切相关。多音字周围的词、词性以及其它语言学信息都对多音字的读音有较强的预测能力,其中以多音字前一词和后一词的预测能力最强,因此可以在多音字的前后词中,提取出对多音字读音有高可靠预测能力的词作为触发词,以此预测多音字的读音。决策树学习算法是应用最广的归纳推理算法之一,其学习过程大致为:选取具有最优分类性能的词的位置作为根节点的测试,根据相应位置的词性或位置信息将不同样本分支到各子节点,然后递归地选择当前的最优分类词位置作为本节点的测试,这样决策树不断生长。当分支到达一定程度时,则停止分支10。第五章 多音词注音系统的实现5.1 注音系统简介 多音词的自动标注系统,即将输入的汉字文本串,经过分词、词性标记和拼音标注后,输出带拼音的文本串。本模块实现的是上图第3步骤:为分词后的词性标注串,标注上正确的读音。5.2 开发环境本模块在Windows Vista操作系统,基于JDK6.0的Eclipse平台下进行开发。采用Java语言编写,数据库为MySQL 5.0,用户界面采用Java Swing编写。5.3数据库表结构1) 单音字(5875个)表:Mono (Mono_id,Mono_symbol,Mono_pinyin)表项数据类型描述Mono_idInt主键,单音字编号Mono_symbolVchar(2)单音字字形,如“北”Mono_pinyinVchar(8)单音字拼音,如bei3例如,对于单音字“哎”:Mono单音字表中的字段为(2,哎,ai1)。2) 多音字(985个)表:Poly (Poly_id,Poly_symbol,Poly_pinyin,Freq,Position)表项数据类型描述Poly_idInt主键,多音字编号Poly_symbolVchar(2)多音字字形,如“大”Poly_pinyinVchar(8)多音字拼音,如da4dai4Freqfloat多音字频度,如98.7%PositionInt词中位置,02(词首、词中、词尾)对于多音字“率”:Poly表中的字段为(5212,率,lv,97.8,2)。3)总词(73897个)表:Word (Word_id,Word_symbol,Word_pinyin,Property,Meaning,Prefix,Suffix)表项数据类型描述Word_idInt主键,词编号Word_symbolVchar(8)词形,如“北大”Word_pinyinVchar(40)词拼音,如bei3da4PropertyVchar(10)词性,如ns,v等MeaningVchar(20)词义,如“北京大学”PrefixVchar(40)前一个词的词性集合SuffixVchar(40)后一个词的词性集合4)此外,我还增加了一个新词表(NewWord)和错词表(FalseWord),表中字段结构与总词表(Word)相同。新词表用来记录新出现的词和未登录词,错词表用来记录注音词表或注音系统错误地注音的词。这两个表经过人工校对和修正后,再添加进总词表,这样可以不断完善词表数据库。5.4 程序模块结构整个工程由三个Java文件组成:Query.java主要完成与MySQL数据库的连接、查询和断开连接操作;WordToPinyin主要完成将词性标记串转换成拼音文本串的工作;GUI则是用户图形操作界面。注音模块的类图,如下所示:GUI用户界面效果,如下图所示: 5.4 注音流程词性标记串切词,保留已有注音、非中文词查询总词表依次为每个字注音,并加入新词表已有该词?NoYes直接注音读音唯一?Yes特定词性下读音唯一?No结合词性直接注音Yes根据规则注音,提示可能出错并加入错词表前后词性在规则集中?No YesNo按最大概率注音,提示可能出错并加入错词表5.5 功能测试功能测试,也称黑盒测试或行为测试,只需考虑模块的各个功能,不需要考虑整个软件的内部结构及代码。一般从软件产品的界面、架构出发,按照需求编写出来的测试用例,输入数据在预期结果和实际结果之间进行评测,进而使程序达到预期要求。功能测试理论上能检测出所有错误。部分测试用例及结果:编号输入:词性标记串输出:拼音串备注1北京大学/n 即将/d 放/v 暑假/n 。/wBei3 jing1 da4 xue2 ji2 jiang1 fang4 shu3 jia4。大学、即将、暑假读音固定在词形中2老师/n 为/v 我们/n 付出/v时间/n 。/wLao3 shi1 wei4 wo3 men1 fu4 chu1 shi2 jian1。为根据前后词的词性判断3他/n 背着/v 书包/n跑/v 了/u 。/wTa1 bei1 zhe1 shu1 bao1pao3 le1。背着以词性和规则,不足判断4事情/n 并/d 没有/d发生/v 。/wShi4 qing2 bing4 mei2 you3fa1 sheng1。并绝大多数情况念bing45我/n 的/u 帖子/n 被/p河蟹/v了/u。/wWo3 de1 tie3 zi1 bei4 he2 xie4 le1。河蟹网络新词,义同和谐注音正确率 = 注音正确的词数 / 测试的总词数。本系统采用封闭测试的方法,从训练语料中提取100组短句,共578词,通过本系统注音后进行人工校对,发现注音错误28词,正确率为95.2%。由于时间所限,未进行大规模语料库的测试。相信随着总词表数据库和规则集的不断完善,正确率将不断提升。通过对错误分析发现,出错的情况主要由三种:未登录词、同形多音词、最大概率注音。同形多音词指词形相同,但读音不同的词,如背着:bei1 zhe1和背着:bei4 zhe1。同形多音词注音错误,单靠完善总词表,仍难以提升正确率,可能需要结合上下文语境和自然语言理解的方法来判断读音;而其他两种错误,改进的办法是不断扩展总词表和完善规则集。第六章 总结与展望多音词注音的正确率,一直是影响语音技术发展的瓶颈。本文努力找到一种能更精确提高注音正确率的方法,并设计了汉语多音词注音系统。本文的主要工作如下: 概述多音词注音系统的背景、意义和发展现状。 探寻和总结多音词的读音规律。 对于汉语的自动分词、词性标注等技术,进行系统的学习和总结。 在Windows系统下使用Java语言和MySQL数据库实现汉语多音词标注系统,采用统计与规则相结合的注音方法,尽可能地提高正确率,基本达到要求。虽然目前的系统能满足基本要求,但还有一些问题需要进一步解决,因此仍有很大的发展空间。具体计划如下: 完善总词表,扩展规则集,增加训练语料库规模。 繁体中文注音:由于简-繁字存在一一对应的关系,可以先把繁体字转换成简体字,再根据本系统进行注音。 将数字音调转换成图形音调:如ni3 hao3n ho。 研究汉语变调、轻声、儿化音等问题,改进解决未登录词的方法。 引入一种基于错误的修正学习机制,让计算机像人一样“知错就改”。参考文献1 王洁,“现代汉语多音词自动标音研究”。硕士学位论文,北京语言大学,2005年7月。2 肖颖颖,“拼音标注系统中标音模块的设计与实现”。硕士学位论文,北京大学,2008年7月。3 田浩、林小俊等,“统计与规则相结合的多音字自动注与实现”。第八届全国人机语音通讯学术会议论文集,2005年10月。4 郑全、邓琼英,“探寻多音字的读音规律”,网址:5 杨宪泽、谈文蓉等,“自然语言处理的一些方法研究”。西南民族大学学报,2005.31(4)。6 王洁、荀恩东等,“现代汉语多音词自动标音研究”。全国第八届计算语言学联合学术会议论文集,2005年8月。7 俞士汶,计算语言学概论,商务印书馆,2007年版。8 胡春静、韩兆强,“基于隐马尔可夫模型(HMM)的词性标注的应用研究”。计算机工程与应用,2002(06)。9 张子荣、初敏,“解决多音字字一音转换的一种统计学习的方法”。中文信息学报,2002.16(3)。10 范明、胡国平等,“汉语字音转换中的多层面多音字读音消歧”。计算机工程与应用,2006.42(2)。致谢光阴荏苒,转眼间本科的学习生涯已接近尾声。回首过去的四年,当我写到此处时,不禁感慨万千。北京大学浓厚的学术氛围、优雅的学习环境、融洽的同学关系,这段经历将让我终生难忘。在此,我要特别感谢我的指导老师段慧明老师。从课题的选择到论文的最终完成,段老师都始终给予我细心的指导和亲切的关怀,多次询问研究进程,并为我指点迷津。段老师严谨细致的科研态度,勤奋踏实的工作作风,持之以恒的敬业精神,深深地感染和激励着我,在此谨向段老师致以诚挚的谢意和崇高的敬意。衷心感谢在计算语言学领域做出贡献的各位前辈们,你们的汗水与成果为我指明了正确的研究方向;衷心感谢我的班主任张路老师,三年来对我无微不至的关心和照顾;衷心感谢本科期间我的所有任课老师,你们孜孜不倦的教诲让我受益终生。最后要感谢我的父母,养育之恩终身难报,你们健康幸福是我最大的心愿;感谢亲朋好友们,你们对我的支持、鼓励和帮助,让我倍感温暖。怀着美好的回忆,怀着最初的梦想,我将继续努力,继续前行,脚踏实地走好未来每一步。谢谢你们!

    注意事项

    本文(北京大学本科生毕业论文-自动标注汉语多音词.doc)为本站会员(豆****)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开