基于统计与规则相结合的汉语计算语言模型 及其在语音识.pdf





《基于统计与规则相结合的汉语计算语言模型 及其在语音识.pdf》由会员分享,可在线阅读,更多相关《基于统计与规则相结合的汉语计算语言模型 及其在语音识.pdf(5页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、基于统计与规则相结合的汉语计算语言模型及其在语音识别中的应用(1997年6月5日收到,9月30日修回)关毅王晓龙张凯(哈尔滨工业大学计算机系哈尔滨150001)摘要把基于统计的语料概率统计方法与基于规则的自然语言理解方法结合起来,提出了一种新的汉语计算语言模型,并把该模型应用于语音识别后处理模块中,取得了较理想的结果。关键词:语言模型,短语规则,N元统计文法,语音识别一、引言建造计算语言模型是为了用计算的方法总结、获取和探索自然语言的规律。由于自然语言极其丰富和具有不确定性,而且其载体(如语音)会带来信息噪声和信息损失,使得自然语言的模型化工作非常复杂。通常有基于规则的自然语言理解方法和基于统
2、计的语料概率统计方法。这两种方法各有利弊。近年来,基于统计的方法因处理语言的覆盖面广,可以经训练而处理新出现的语言现象,处理速度较快,因而获得了越来越高度的重视,成为近年来人们重点研究的对象。统计语言模型在语音识别等实际应用中获得了巨大的成功,使得大词表语音识别系统接近了实用化的阶段。为了进一步提高系统的智能水平,提高系统的识别率,我们在统计语言模型的基础上加入了一些规则,提出了一种基于统计和规则相结合的计算语言模型,并将该模型应用于语音识别系统的后处理模块中,使得涵盖六万词条的非特定人孤立词的语音识别系统的准确率较单独使用词的TR IGRAM模型有了进一步的提高。二、计算语言模型建立现代汉语
3、的计算语言模型,主要有基于语法分析的短语结构语法分析方法与基于大规模语料库统计的统计方法两种。分析方法是在对汉语词汇分类的基础上,运用自然语言理解的词法、句法、语义、语用分析理解技术对同音字(词)进行辨析。这类系统一般只能处理有限的词汇和有限的句型,在语法的表达、获取以及系统维护等方面都遇到了很大困难。在最近的十年间通过统计建立汉语N元文法统计模型的方法渐渐成为汉语计算语言学的一个研究方向。统计方法的主要特点是语言处理的覆盖面更广,可实现高效实时的处理。缺点是它仅仅考虑了语言的上下文关系,而忽略了语言的结构化特征。因而对于汉语语言中的深度递归现象和远距离约束关系无能为力。我们认为汉语和其它自然
4、语言一样是结构化的语言,单词由短语结合规则而形成层次结构是结构化语言的必要特征,但是,单纯依靠规则由于规则的二义性、不完备性及互斥性,无法形成61高技术通讯1998141 男,1970年生,博士;研究方向:自然语言理解;联系人863计划资助项目(863230620320221)。1995-2004 Tsinghua Tongfang Optical Disc Co.,Ltd.All rights reserved.完整的语法分析树,而往往形成短语结构分析森林。此时,如果我们能够运用统计关联信息将各局部的短语分析树联系起来,仍然可以得到统计意义上最佳的语法分析效果。这样,根据短语形成规则生成短语
5、,再通过上下文同现关系约束短语之间的搭配,综合了基于规则匹配的语法分析方法和基于N元统计文法的上下文同现分析方法,我们建造了融规则与统计为一体的计算语言模型,其基本思想是:如果与某规则匹配,则使用规则,形成短语。统计信息用于匹配规则的多候选同音字的择优处理以及短语间搭配择优处理;如果无规则可以匹配,则直接使用统计信息,这是一种扩充了短语结合规则的马尔可夫汉语计算语言模型。为建立扩充了短语结合规则的可尔可夫汉语计算语言模型,我们首先建立了规则库,并建立了对规则库进行增加规则、删除规则、测试规则等操作的工具箱,以便动态地调节当前规则库的内容。规则库的建立需考虑以下因素:(1)规则库的规模。应视系统
6、对实时性的要求而定,规则匹配的效率问题是系统效率的瓶颈。由于需利用规则库中的短语归约规则生成符合语法规则的新的元素加入到统计排歧的侯选队列中,过多的规则不但会大大加重规则匹配生成新元素模块的工作量,而且使统计排歧模块的工作量成倍增长。因此,规则库的规模不宜过大。(2)规则的性质。本规则库中的规则是形如A 1+A 2+A n-B的短语归约规则。应选择确定性好,长度一般不超过四元的规则。当然,一条规则对于系统整体的影响体现在对音字转换正确率的提高与否以及对系统的效率的影响两个方面上,必须对两者进行折中考虑。由于规则仅仅反应了语言学家对于汉语规律的认识,而无法真实地反应它是否有助于正确的音字转换,对
7、于任一条规则,必须在实际应用中加以检验以确认其存在的价值。一条“正确”的规则可能大大加大系统的开销而对提高系统的音字转换正确率无所帮助。如规则Np+Np-Np,这里Np表示名词(名词短语),由于名词在词典中的数目最多,用此规则修饰的上下文对于区别歧义性作用非常有限。因此,必须从规则库中剔除这样的规则。总之,应选择确定性好,长度较短的规则加入规则库中,规则与规则之间不能互斥也不能相互包含,规则库的规模不能过大。这些仅仅是一般的标准,必须在实际中动态地调整规则库,以其是否有利于实时地提高系统的正确率为唯一标准。其次,我们建立了基于大规模语料库的三元文法统计模型,建模所应用的语料库规模为2000万字
8、。语料覆盖文化、经济、地理、历史、文学、军事、政治、科学等各个领域。在训练时把语料按类分成原始文本文件,用最少分词算法6对语料进行切分,系统分词词典共收词65000条。对各文本文件分别进行统计,然后,把它们合并得到最后的统计数据。训练采用了高比例压缩和快速排序算法。经过如上所述的准备工作,我们把基于统计的语料概率统计技术与基于规则的自然语言理解方法相结合而建立了汉语语言理解模型,该模型入口为汉语语句的拼音候选短阵,出口为可信度最高的汉字串。它大体可以分为规则匹配模块和多路径择优模块两部分。规则匹配模块的功能是将候选拼音矩阵转换为元素集。元素可定义如下:设系统词库为D,属性集为A,规则集为R,则
9、(1)如果单词wD,则w是元素,且有属性A ttr(w)A;(2)若有单词w1,w2,wtD,且属性A1A ttr(w1),A2A ttr(w2),AtA ttr(wt),且有规则A1+A2+AtBR,则词串构成一个元素,且有属性B。当且仅当(1)(2)生成元素,记为e。每一个元素包含候选(字)词本身、该词的属性、该词在句中的起止位置、属性可以激活的规则以及指向统计库中以该词为首的T rigram的索引,等等。规则匹配生成新元素的算法可简述如下:n=1;w hile(n=语句中音节的个数)begin71关毅等:基于统计与规则相结合的汉语计算语言模型及其在语音识别中的应用 1995-2004 T
10、singhua Tongfang Optical Disc Co.,Ltd.All rights reserved.把系统词库中所有以n为结尾的所有元素放入元素表;把被激活的所有新的规则放入规则表;如果有新的规则被激活则从第一个元素到以n-1为结尾的元素匹配所有新激活的规则;由n-1到n的新生成元素对所有规则重新匹配一遍;n=n+1;end由规则匹配生成的所有新元素送入多路径择优模块,一个语句候选定义为从起始时刻到终止时刻的一串首尾相连的元素结点序列s=语句候选的评价函数为:f(s)=p(e1e2eien)=1p(e1)2p(e2?e1)np(en?e1,e2,en-1)其中,i为规则的调整函
11、数,它的选择要考虑如下几个因素:生成元素ei的规则的可信度越高,i的取值越大。生成元素ei的规则的元数越高,i的取值越大。对于p(ei?e1ei-1)的计算,由于我们无法对由规则生成的新元素的频度进行统计,故只能用该元素所包含的词联接起来而形成的词串的概率来近似给出。设:元素ei-1由词wi-111,wi-112,wi-1,ti-1根据规则归结而成,元素ei由词wi,1wi,2wi,ti根据规则归结而成。p(ei?e1ei-1=p(wi-1,1)7ti-1k=2p(wi-1,k?wi-1,1wi-1,k-1)p(wi-1.1wi-1,ti-1)p(wi,1)7tik=2p(wi,k?wi,1w
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于统计与规则相结合的汉语计算语言模型 及其在语音识 基于 统计 规则 相结合 汉语 计算 语言 模型 及其 语音

限制150内