基于统计与规则相结合的汉语计算语言模型及其在语音识.pdf

上传人：qwe****56

文档编号：69623498

上传时间：2023-01-07

格式：PDF

页数：5

大小：185.60KB

( 4.5 )

《基于统计与规则相结合的汉语计算语言模型及其在语音识.pdf》由会员分享，可在线阅读，更多相关《基于统计与规则相结合的汉语计算语言模型及其在语音识.pdf（5页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、基于统计与规则相结合的汉语计算语言模型及其在语音识别中的应用(1997年6月5日收到,9月30日修回)关毅王晓龙张凯(哈尔滨工业大学计算机系哈尔滨150001)摘要把基于统计的语料概率统计方法与基于规则的自然语言理解方法结合起来,提出了一种新的汉语计算语言模型,并把该模型应用于语音识别后处理模块中,取得了较理想的结果。关键词:语言模型,短语规则,N元统计文法,语音识别一、引言建造计算语言模型是为了用计算的方法总结、获取和探索自然语言的规律。由于自然语言极其丰富和具有不确定性,而且其载体(如语音)会带来信息噪声和信息损失,使得自然语言的模型化工作非常复杂。通常有基于规则的自然语言理解方法和基于统

2、计的语料概率统计方法。这两种方法各有利弊。近年来,基于统计的方法因处理语言的覆盖面广,可以经训练而处理新出现的语言现象,处理速度较快,因而获得了越来越高度的重视,成为近年来人们重点研究的对象。统计语言模型在语音识别等实际应用中获得了巨大的成功,使得大词表语音识别系统接近了实用化的阶段。为了进一步提高系统的智能水平,提高系统的识别率,我们在统计语言模型的基础上加入了一些规则,提出了一种基于统计和规则相结合的计算语言模型,并将该模型应用于语音识别系统的后处理模块中,使得涵盖六万词条的非特定人孤立词的语音识别系统的准确率较单独使用词的TR IGRAM模型有了进一步的提高。二、计算语言模型建立现代汉语

3、的计算语言模型,主要有基于语法分析的短语结构语法分析方法与基于大规模语料库统计的统计方法两种。分析方法是在对汉语词汇分类的基础上,运用自然语言理解的词法、句法、语义、语用分析理解技术对同音字(词)进行辨析。这类系统一般只能处理有限的词汇和有限的句型,在语法的表达、获取以及系统维护等方面都遇到了很大困难。在最近的十年间通过统计建立汉语N元文法统计模型的方法渐渐成为汉语计算语言学的一个研究方向。统计方法的主要特点是语言处理的覆盖面更广,可实现高效实时的处理。缺点是它仅仅考虑了语言的上下文关系,而忽略了语言的结构化特征。因而对于汉语语言中的深度递归现象和远距离约束关系无能为力。我们认为汉语和其它自然

4、语言一样是结构化的语言,单词由短语结合规则而形成层次结构是结构化语言的必要特征,但是,单纯依靠规则由于规则的二义性、不完备性及互斥性,无法形成61高技术通讯1998141 男,1970年生,博士;研究方向:自然语言理解;联系人863计划资助项目(863230620320221)。1995-2004 Tsinghua Tongfang Optical Disc Co.,Ltd.All rights reserved.完整的语法分析树,而往往形成短语结构分析森林。此时,如果我们能够运用统计关联信息将各局部的短语分析树联系起来,仍然可以得到统计意义上最佳的语法分析效果。这样,根据短语形成规则生成短语

5、,再通过上下文同现关系约束短语之间的搭配,综合了基于规则匹配的语法分析方法和基于N元统计文法的上下文同现分析方法,我们建造了融规则与统计为一体的计算语言模型,其基本思想是:如果与某规则匹配,则使用规则,形成短语。统计信息用于匹配规则的多候选同音字的择优处理以及短语间搭配择优处理;如果无规则可以匹配,则直接使用统计信息,这是一种扩充了短语结合规则的马尔可夫汉语计算语言模型。为建立扩充了短语结合规则的可尔可夫汉语计算语言模型,我们首先建立了规则库,并建立了对规则库进行增加规则、删除规则、测试规则等操作的工具箱,以便动态地调节当前规则库的内容。规则库的建立需考虑以下因素:(1)规则库的规模。应视系统

6、对实时性的要求而定,规则匹配的效率问题是系统效率的瓶颈。由于需利用规则库中的短语归约规则生成符合语法规则的新的元素加入到统计排歧的侯选队列中,过多的规则不但会大大加重规则匹配生成新元素模块的工作量,而且使统计排歧模块的工作量成倍增长。因此,规则库的规模不宜过大。(2)规则的性质。本规则库中的规则是形如A 1+A 2+A n-B的短语归约规则。应选择确定性好,长度一般不超过四元的规则。当然,一条规则对于系统整体的影响体现在对音字转换正确率的提高与否以及对系统的效率的影响两个方面上,必须对两者进行折中考虑。由于规则仅仅反应了语言学家对于汉语规律的认识,而无法真实地反应它是否有助于正确的音字转换,对

7、于任一条规则,必须在实际应用中加以检验以确认其存在的价值。一条“正确”的规则可能大大加大系统的开销而对提高系统的音字转换正确率无所帮助。如规则Np+Np-Np,这里Np表示名词(名词短语),由于名词在词典中的数目最多,用此规则修饰的上下文对于区别歧义性作用非常有限。因此,必须从规则库中剔除这样的规则。总之,应选择确定性好,长度较短的规则加入规则库中,规则与规则之间不能互斥也不能相互包含,规则库的规模不能过大。这些仅仅是一般的标准,必须在实际中动态地调整规则库,以其是否有利于实时地提高系统的正确率为唯一标准。其次,我们建立了基于大规模语料库的三元文法统计模型,建模所应用的语料库规模为2000万字

8、。语料覆盖文化、经济、地理、历史、文学、军事、政治、科学等各个领域。在训练时把语料按类分成原始文本文件,用最少分词算法6对语料进行切分,系统分词词典共收词65000条。对各文本文件分别进行统计,然后,把它们合并得到最后的统计数据。训练采用了高比例压缩和快速排序算法。经过如上所述的准备工作,我们把基于统计的语料概率统计技术与基于规则的自然语言理解方法相结合而建立了汉语语言理解模型,该模型入口为汉语语句的拼音候选短阵,出口为可信度最高的汉字串。它大体可以分为规则匹配模块和多路径择优模块两部分。规则匹配模块的功能是将候选拼音矩阵转换为元素集。元素可定义如下:设系统词库为D,属性集为A,规则集为R,则

9、(1)如果单词wD,则w是元素,且有属性A ttr(w)A;(2)若有单词w1,w2,wtD,且属性A1A ttr(w1),A2A ttr(w2),AtA ttr(wt),且有规则A1+A2+AtBR,则词串构成一个元素,且有属性B。当且仅当(1)(2)生成元素,记为e。每一个元素包含候选(字)词本身、该词的属性、该词在句中的起止位置、属性可以激活的规则以及指向统计库中以该词为首的T rigram的索引,等等。规则匹配生成新元素的算法可简述如下:n=1;w hile(n=语句中音节的个数)begin71关毅等:基于统计与规则相结合的汉语计算语言模型及其在语音识别中的应用 1995-2004 T

10、singhua Tongfang Optical Disc Co.,Ltd.All rights reserved.把系统词库中所有以n为结尾的所有元素放入元素表;把被激活的所有新的规则放入规则表;如果有新的规则被激活则从第一个元素到以n-1为结尾的元素匹配所有新激活的规则;由n-1到n的新生成元素对所有规则重新匹配一遍;n=n+1;end由规则匹配生成的所有新元素送入多路径择优模块,一个语句候选定义为从起始时刻到终止时刻的一串首尾相连的元素结点序列s=语句候选的评价函数为:f(s)=p(e1e2eien)=1p(e1)2p(e2?e1)np(en?e1,e2,en-1)其中,i为规则的调整函

11、数,它的选择要考虑如下几个因素:生成元素ei的规则的可信度越高,i的取值越大。生成元素ei的规则的元数越高,i的取值越大。对于p(ei?e1ei-1)的计算,由于我们无法对由规则生成的新元素的频度进行统计,故只能用该元素所包含的词联接起来而形成的词串的概率来近似给出。设:元素ei-1由词wi-111,wi-112,wi-1,ti-1根据规则归结而成,元素ei由词wi,1wi,2wi,ti根据规则归结而成。p(ei?e1ei-1=p(wi-1,1)7ti-1k=2p(wi-1,k?wi-1,1wi-1,k-1)p(wi-1.1wi-1,ti-1)p(wi,1)7tik=2p(wi,k?wi,1w

12、i,k-1p(ei?ei-1)p(wi-1.1)7ti-1k=2p(wi-1,k?wi-1,k-1)p(wi,1?wi-1,ti-1)p(wi,1)7tik=2p(wi,k?wi,k-1)(当统计模型为二元文法时)p(wi-1.1)p(wi-1,2)7ti-1k=3p(wi-1,k?wi-1,k-2wi-1,k-1)p(wi-1,ti-1-1wi-1,ti-1)p(wi,1)p(wi,27tik=3p(wi,k?wi,k-2wi,k-1)(当统计模型为三元文法时)多路择优算法由V iterbi算法9给出,计算出具备最大可能性的完整路径,作为音字转换的结果和系统的输出。统计信息被应用于规则匹配中

13、的多候选择优处理,和多元素搭配形成完整语句处理中。这个汉语语言理解模型既利用了基于统计的上下文依赖关系信息,又融和了局部的语法分析方法。上述的自然语言理解模型再与汉语语音识别系统相结合而形成的汉语语音识别系统如图1所示。说话者的语音信号经验内部表示模块转换为计算机可以直接处理的数据格式,再经过特征提取模块和匹配查询块形成候选拼音矩阵送入语言理解模块,再经过规则匹配块和V iterbi打分模块选择分数最高的汉字串作为语音识别的最后输出结果。此处注意,词是最小的短语,当无规则匹配成功时(例如规则库为空),则该模型退化为单纯的三元统计文法。由于在语言理解模块中我们采用了统计与规则相结合的方法,我们的

14、语音识别系统可以处理语言中的远距离描配关系,如:“一只非常可爱的小花猫”和“一枝非常可爱的小花”中名词与数量词的修饰关系。同时也能处理语言中的递归现象,如“一千九百九十七年”等等。81高技术通讯1998141 1995-2004 Tsinghua Tongfang Optical Disc Co.,Ltd.All rights reserved.图1汉语语音识别系统图2规则与统计数据机器学习模块为提高系统的综合性能指标(主要是音字转换正确率,但必须考虑系统的实时性),我们设计实现了如图2所示的规则及统计数据机器学习模块,输入文本取自人民日报经汉字自动注音系统注音后,形成拼音流以整句为单位送入

15、音字转换模块,音字转换模块首先对其进行规则匹配,如果匹配成功则归约为短语结构并进行进一步的匹配,以短语为单位进行V iterbi打分同时在规则库中标记各个规则的命中率,为规则的量化处理以及参考该规则对于音字转换正确率的影响提供依据。拼音流经过音字转换模块转换为汉字串与原文本比较计算出音字转换的正确率,并以此为依据,调用规则库管理模块对规则库进行规则重排和规则的增删;调用统计库管理模块对统计库的有关参数进行调整。三、实验结果这是测试统计与规则相结合语言模型在大词表非特定人孤立词语音识别中的实验。实验中选取了六组男声和六组女声每组五句话的语音数据进行测试,每句话长度在10个词左右,约3040字长度

16、不等。语音识别采用离散HMM模型,统计语言模型采用基于六万词的TR IGRAM,统计数据库约20M词典收词65000条,采用1993、1994年人民日报作为训练语料。实验平台为PC586?133,32 M内存。所有程序用VC+115编写。在单独使用TR IGRAM的情况下,男声平均识别率为8117%,女声平均识别率为8717%;采用规则和统计相结合的方法,男生平均识别率91关毅等:基于统计与规则相结合的汉语计算语言模型及其在语音识别中的应用 1995-2004 Tsinghua Tongfang Optical Disc Co.,Ltd.All rights reserved.为8616%,女

17、声平均识别率为9112%。分别提高了419%和315%,如表1、表2所示。表1TR IGRAM语言模型的识别结果测试人男声女声第一人7715%9315%第二人8813%8314%第三人8512%7811%第四人7418%9317%第五人8313%91%第六人8115%8618%平均8117%8717%时间113小时113小时表2TR IGRAM与规则相结合语言模型的识别结果测试人男声女声第一人8212%9417%第二人9115%8812%第三人8716%8514%第四人8113%9417%第五人8917%9411%第六人8716%9013%平均8616%9112%时间115小时114小时四、结

18、论本文提出了作为语音识别后处理的汉语语言理解技术的一种统计与规则相结合的短语构成技术,该技术具有处理语言的远距离约束关系和递归现象的能力,在大词表非特定人语音识别等应用中,已经取得了良好的效果。该技术不仅可以直接用于语音识别领域里,而且对键盘输入文字识别等汉字输入领域,以及自然语言理解、机器学习、智能中文信息处理等领域均具有重要的科学意义和广阔的应用前景。致谢:参加本项目研究工作的还有王轩、赵以宝、王平、刘秉权、高升、徐志明等,在此谨表谢意。参考文献:1 Sproat R.A n Application of Statistical Opti m ization w ith Dynam ic

19、Programm ing to Phinetic2Input2toCharacter Conversion for Chinese,Processing of R.O.C.ComputationalL inguistics Conference III,1990,3792 Jelinek F.Self2O rganized L anguageM odeling for Speech Recognition,IEEE ICA SSP89,1989,587 3 Bahl L R,Brown P F,de Souza et al.A method for the constructuon of ac

20、oustic M arkov models forwords.IEEE T ransactions on Speech and A uido Processing,1993,1(4):4434王晓龙等 1 音字转换中的机器学习研究,计算机学报,1993,16(5)5王晓龙,王开铸 1 声音语句输入的研究,计算机学报,1994,17(2)6王晓龙,王开铸,李仲荣等 1 最少分词问题及其解法,科学通报,1989,34(13)7徐波,基于HMM的汉语语音全音节识别极大词汇识别的研究,中科院自动化所硕士学位论文8潘凌云,杨长生 1 拼音、汉字计算机自动转换系统,计算机学报,第4期,19909 V it

21、erbiA J.ErrorBounds for ConvolutionalCodes and A n A symptoticallyOpti malDecodingA lgorithm.IEEE T ransaction on Information Theory,IT213,20226910 L afferty J,Sleator D,Temperley D.Grammatical trigram s:A probablilisticmodel of link grammar.Inproceedings of the AAA I Fall Symposium on Probablilisti

22、cApproaches to N atualL anguage,1992The Chinese LanguageM odel Based on the Combination of Rulesand Statistics and Its Applicaition in Speech Recogn ition(received June 5,1997)Guan Yi,W ang Xiaolong,Zhang Kai(Department of Computer Science and Technology,Harbin Institute ofTechnology,Harbin,150001)A

23、bstractA Chinese language modelw hich is on the basis of both rule2based natural language under2standing method and statistic2based probability inference method is built up.The model is usedas the post2processor of speech recognition and the satisfied result has been gained.Key words:L anguage model,Phrase rule,N2gram,Speech recognition02高技术通讯1998141 1995-2004 Tsinghua Tongfang Optical Disc Co.,Ltd.All rights reserved.

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

15 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于统计与规则相结合的汉语计算语言模型及其在语音识基于统计规则相结合汉语计算语言模型及其语音

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：基于统计与规则相结合的汉语计算语言模型及其在语音识.pdf
链接地址：https://www.taowenge.com/p-69623498.html

基于统计与规则相结合的汉语计算语言模型 及其在语音识.pdf

基于统计与规则相结合的汉语计算语言模型及其在语音识.pdf