《自然语言理解 (2)幻灯片.ppt》由会员分享,可在线阅读,更多相关《自然语言理解 (2)幻灯片.ppt(53页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、自然语言理解第1页,共53页,编辑于2022年,星期二第8章 自然语言理解及其应用8.1 自然语言理解的概念与发展历史自然语言理解的概念与发展历史 8.2 语音分析语音分析8.3 词法分析词法分析8.4 句法分析句法分析8.5 语义分析语义分析 8.6 基于语料库的大规模真实文本的处理基于语料库的大规模真实文本的处理 8.7 机器翻译机器翻译8.8 语音识别语音识别2第2页,共53页,编辑于2022年,星期二第8章 自然语言理解及其应用8.1 自然语言理解的概念与发展历史自然语言理解的概念与发展历史 8.2 语音分析语音分析8.3 词法分析词法分析8.4 句法分析句法分析8.5 语义分析语义分
2、析 8.6 基于语料库的大规模真实文本的处理基于语料库的大规模真实文本的处理 8.7 机器翻译机器翻译8.8 语音识别语音识别3第3页,共53页,编辑于2022年,星期二8.1.1 自然语言理解的概念微观角度:从自然语言到机器内部的一个映射。微观角度:从自然语言到机器内部的一个映射。宏观角度:使机器能够执行人类所期望的某种语言宏观角度:使机器能够执行人类所期望的某种语言功能。功能。(1)回答问题:计算机正确地回答用自然语言输入的有关问题。)回答问题:计算机正确地回答用自然语言输入的有关问题。(2)文摘生成:机器能产生输入文本的摘要。)文摘生成:机器能产生输入文本的摘要。(3)释义:机器能用不同
3、的词语和句型来复述输入的自然语言信息)释义:机器能用不同的词语和句型来复述输入的自然语言信息。(4)翻译:机器能)翻译:机器能把一种语言翻译成另外一种语言。把一种语言翻译成另外一种语言。4第4页,共53页,编辑于2022年,星期二8.1.2 自然语言理解研究的产生与发展 1.萌芽时期萌芽时期(20世纪世纪40年代末年代末50年代初)年代初)2.以关键词匹配技术为主的时期以关键词匹配技术为主的时期(20世纪世纪60年代始年代始)A.Donald Booth&W.Weaver M.Chomsky 形式语言和文法形式语言和文法3.以句法语义分析技术为主的时期以句法语义分析技术为主的时期(20世纪世纪
4、70年代后)年代后)4.基于知识的自然语言理解发展时期基于知识的自然语言理解发展时期 5.基于大规模语料库的自然语言理解发展时期基于大规模语料库的自然语言理解发展时期 68年B.Raphael:语义检索系统SIRJ.Weizenbaum:心理医疗ELIZA 72年W.Woods:语音接口LUNART.Winograd:英语对话SHEDLU5第5页,共53页,编辑于2022年,星期二第8章 自然语言理解及其应用8.1自然语言理解的概念与发展历史自然语言理解的概念与发展历史 8.2 语音分析语音分析8.3 词法分析词法分析8.4 句法分析句法分析8.5 语义分析语义分析 8.6 基于语料库的大规模
5、真实文本的处理基于语料库的大规模真实文本的处理 8.7 机器翻译机器翻译8.8 语音识别语音识别6第6页,共53页,编辑于2022年,星期二文字表达句子的层次:词素词或词形词组或句子。声音表达句子的层次:音素音节音词音句。语言处理过程分为五个层次:语音分析、词法分析、句法分析、语义分析和语用分析。语用分析:研究语言所存在的外界环境对语言使用产语用分析:研究语言所存在的外界环境对语言使用产生的影响。生的影响。构成单词发音的独立单元是音素。上下文不同而发音不同。语音分析就是根据音位规则,从语言流中区分出一个个独立的音素,再根据音位形态规则找出一个个音节及其对应的词素或词。8.2 语音分析7第7页,
6、共53页,编辑于2022年,星期二第8章 自然语言理解及其应用8.1自然语言理解的概念与发展历史自然语言理解的概念与发展历史 8.2 语音分析语音分析8.3 词法分析词法分析8.4 句法分析句法分析8.5 语义分析语义分析 8.6 基于语料库的大规模真实文本的处理基于语料库的大规模真实文本的处理 8.7 机器翻译机器翻译8.8 语音识别语音识别8第8页,共53页,编辑于2022年,星期二8.3 词法分析 定义定义:从句子中切分出单词,找出词汇的各个词素,并确定其词义。例:例:unchangeable:un-change-able 英语词法分析英语词法分析 特点:切分单词容易,找出词素复杂。特点
7、:切分单词容易,找出词素复杂。例:例:importable分为分为 import-able或或 im-port-able词法分析算法举例:词法分析算法举例:repeatlook for word in dictionary if not found then modify the wordUntil word is found or no further modification possible 9第9页,共53页,编辑于2022年,星期二8.3 词法分析例如例如:对于单词对于单词catches、ladies可以做如下的分析。可以做如下的分析。catches ladies,词典中查不到词典中
8、查不到 catche ladie 修改修改1:去掉:去掉s catch ladi 修改修改2:去掉:去掉e lady 修改修改3:把:把i变成变成y这样,在修改这样,在修改2的时候,就可以找到的时候,就可以找到catch,在修改,在修改3的时候就可以找到的时候就可以找到lady。例如:优秀人才学人才学例如:优秀人才学人才学1.优秀人才学人才学优秀人才学人才学2.优秀人才学人才学优秀人才学人才学 汉语词法分析汉语词法分析 特点:找出词素简单,切分出词困难。ly副词后辍;ed动词过去分词10第10页,共53页,编辑于2022年,星期二第8章 自然语言理解及其应用8.1自然语言理解的概念与发展历史自
9、然语言理解的概念与发展历史 8.2 语音分析语音分析8.3 词法分析词法分析8.4 句法分析句法分析8.5 语义分析语义分析 8.6 基于语料库的大规模真实文本的处理基于语料库的大规模真实文本的处理 8.7 机器翻译机器翻译8.8 语音识别语音识别11第11页,共53页,编辑于2022年,星期二8.4 句法分析8.4.1 乔姆斯基的形式文法乔姆斯基的形式文法 8.4.2 句法分析树句法分析树8.4.3 转移网络转移网络8.4.4 扩充转移网络扩充转移网络12第12页,共53页,编辑于2022年,星期二8.4.1 乔姆斯基的形式文法1950年提出,表示形式:年提出,表示形式:G=(T,N,S,P
10、)T:终结符集合:终结符集合 N:非终结符集合:非终结符集合 S:起始符:起始符 P:产生式规则集:产生式规则集 T=(the,man,killed,a,deer,likes)N=(S,NP,VP,N,ART,V,Prep,PP)S=S P:(1)SNP+VP (2)NPN (3)NPART+N (4)VPV (5)VPV+NP (6)ARTthe|a (7)Nman|deer (8)Vkilled|likes例例 1 G=(T,N,S,P)13第13页,共53页,编辑于2022年,星期二n 1型文法型文法:上下文有关文法上下文有关文法n 2型文法:上下文无关文法型文法:上下文无关文法 n 3
11、型文法:正则文法型文法:正则文法 左左线性文法:线性文法:ABt 或或 At(ABtCt*t)右线性文法右线性文法:AtB或或At产生式规则产生式规则:xy 产生式规则产生式规则:xy例:例:ABCDE ABCDE XaYXbY 产生式规则:产生式规则:Axn 0型文法:无约束短语结构文法型文法:无约束短语结构文法8.4.1 乔姆斯基的形式文法14第14页,共53页,编辑于2022年,星期二8.4.2 句法分析树 例如例如:The man killed a deer.S NP+VP ART+N+VP The man+VP The man+V+NP The man killed+NP The m
12、an killed+ART+N The man killed a deer.在对一个句子进行分析的过程中,如果把分析句子各成分在对一个句子进行分析的过程中,如果把分析句子各成分间关系的推导过程用树形图表示出来,那么这种图称为句法间关系的推导过程用树形图表示出来,那么这种图称为句法分析树。分析树。15第15页,共53页,编辑于2022年,星期二8.4.2 句法分析树句法分析树举例句法分析树举例16第16页,共53页,编辑于2022年,星期二8.4.3 转移网络例:例:转移网络的一般结构转移网络的一般结构由结点和带有标记的弧构成,其中结点表示状态,弧对应于由结点和带有标记的弧构成,其中结点表示状态
13、,弧对应于符号,实现从一个状态转移到另一个状态。符号,实现从一个状态转移到另一个状态。开始状态中间状态终止状态NPVP开始状态开始状态中间状态中间状态终止状态终止状态ARTNVNPVNSNP+VPNPART+NNPNNPV+NPNPV17第17页,共53页,编辑于2022年,星期二8.4.3 转移网络例例 The man laughed.18第18页,共53页,编辑于2022年,星期二8.4.4 扩充转移网络ATN(augmented transition network)ATN由由一一组组转转移移网网络络组组成成:每每个个TN都都有有一一个个网网络络名名,弧上的条件扩充为条件加上操作。由寄存
14、器的方式实现。弧上的条件扩充为条件加上操作。由寄存器的方式实现。数:单数和复数,缺省为空数:单数和复数,缺省为空 ATN的寄存器构成:句法特征寄存器和句法功能寄存器。的寄存器构成:句法特征寄存器和句法功能寄存器。n 特特征征寄寄存存器器:每每一一维维特特征征都都由由一一个个特特征征名名和和一一组组特特征征值值以以及及一个缺省值来表示。一个缺省值来表示。n 功能寄存器:反映了句法成分之间的关系和功能功能寄存器:反映了句法成分之间的关系和功能。19第19页,共53页,编辑于2022年,星期二8.4.4 扩充转移网络短语(短语(NP)的扩充转移网络)的扩充转移网络:fg A:Number*.Numb
15、er gh C:Number*.Number or 应用:检查应用:检查NP中数的一致问题,其中特征是中数的一致问题,其中特征是“数数”,值为单数,值为单数和复数。和复数。C是弧上的条件,是弧上的条件,A是弧上的操作。是弧上的操作。*是当前值。是当前值。this book,the book,the books,these books 可以顺利通过,可以顺利通过,而而this books或或these book就无法通过。就无法通过。20第20页,共53页,编辑于2022年,星期二第8章 自然语言理解及其应用8.1 自然语言理解的概念与发展历史自然语言理解的概念与发展历史 8.2 语音分析语音分
16、析8.3 词法分析词法分析8.4 句法分析句法分析8.5 语义分析语义分析 8.6 基于语料库的大规模真实文本的处理基于语料库的大规模真实文本的处理 8.7 机器翻译机器翻译8.8 语音识别语音识别21第21页,共53页,编辑于2022年,星期二8.5 语义分析 语义分析是将句法成分与应用领域中的目标表示相关语义分析是将句法成分与应用领域中的目标表示相关联。联。简单做法:依次使用独立的句法分析程序和语义解释程序。缺点:使句法分析、语义分析分离语义文法格文法22第22页,共53页,编辑于2022年,星期二8.5.1 语义文法 语义文法是将文法知识和语义知识组合起来,以统一的语义文法是将文法知识和
17、语义知识组合起来,以统一的方式定义为文法规则集。方式定义为文法规则集。舰船信息:SPRESENT the ATTRIBUTE OF SHIPPRESENTWhat is|Can you tell meATTRIBUTElength|classSHIPthe SHIPNAME|CLASSNAMESHIPNAMEHUANGHE|CHANGJIANGCLASSNAMEcarrier|submarine23第23页,共53页,编辑于2022年,星期二8.5.2 格文法 目目的的:为为了了找找出出动动词词和和跟跟动动词词处处在在结结构构关关系系中中的的名名词词的的语语义义关关系系,同同时时也也涉涉及及动
18、动词词或或动动词词短短语语与与其其他他的的各各种种名名词词短短语语之间的关系。之间的关系。特特点点:允允许许以以动动词词为为中中心心构构造造分分析析结结果果,尽尽管管文文法法规规则则只只描描述述句句法法,但但分分析析结结果果产产生生的的结结构构却却对对应应于于语语义义关关系系,而而非非严格的句法关系。严格的句法关系。例:例:Mary hit Bill Bill was hit by Mary (Hit(Agent Mary)(Dative Bill)24第24页,共53页,编辑于2022年,星期二25第25页,共53页,编辑于2022年,星期二第8章 自然语言理解及其应用8.1 自然语言理解的
19、概念与发展历史自然语言理解的概念与发展历史 8.2 语音分析语音分析8.3 词法分析词法分析8.4 句法分析句法分析8.5 语义分析语义分析 8.6 基于语料库的大规模真实文本的处理基于语料库的大规模真实文本的处理 8.7 机器翻译机器翻译8.8 语音识别语音识别26第26页,共53页,编辑于2022年,星期二8.6.1 语料库及其特征1990年l 3届国际计算机语言学大会提出大规模真实文本目标基于规则方法的缺点:自然语言理解的复杂性,各种知识的基于规则方法的缺点:自然语言理解的复杂性,各种知识的“数量数量”繁多,高度的不确定性和模糊性。繁多,高度的不确定性和模糊性。传统词典特征及不足:传统词
20、典特征及不足:l 特特征征:把把各各类类不不同同的的信信息息放放入入一一个个词词汇汇单单元元中中,包包括括拼拼音音、读读音音、词词形形变变化化及及派派生生词词、词词根根、短短语语、时时态态变变换换的的定定义义及及说说明、同义词、反义词、特殊用法注释,偶尔还有图示或插图。明、同义词、反义词、特殊用法注释,偶尔还有图示或插图。l 不不足足:以以“树树”为为例例,解解释释为为一一种种大大型型的的、木木制制的的、多多年生长的、具有明显树干的植物。年生长的、具有明显树干的植物。缺失了很多构造性信息27第27页,共53页,编辑于2022年,星期二8.6.1 语料库及其特征9090年代,自然语言理解的研究在
21、基于规则的技术中引入年代,自然语言理解的研究在基于规则的技术中引入语料库,包括统计方法、基于实例的方法和通过语料加语料库,包括统计方法、基于实例的方法和通过语料加工手段使语料库转化为语言知识库的方法等。工手段使语料库转化为语言知识库的方法等。l WordNet语语料料库库:1990年年由由Princeton大大学学的的Miller等等人人设设计计和和构造的。构造的。l包包含含将将近近95 600个个词词形形(51 500单单词词和和44100搭搭配配词词)和和70 100个个词词义义,分为名词、动词、形容词、副词和虚词分为名词、动词、形容词、副词和虚词5类。类。lWordNet中中,按按语语义
22、义而而不不是是按按词词性性来来组组织织词词汇汇信信息息,名名词词有有57 000个个,含含有有48 800个个同同义义词词集集,分分成成25类类文文件件,平平均均深深度度12层层。最最高层为根概念,不含有固有名词。高层为根概念,不含有固有名词。28第28页,共53页,编辑于2022年,星期二8.6.2 汉语自动分词方法(1)最最大大匹匹配配法法:在在计计算算机机中中存存放放一一个个分分词词用用词词典典,从从待待切切分分的的文文本本中中按按自自左左到到右右的的顺顺序序截截取取一一个个定定长长的的汉汉字字串串,与与词词典典中中的的词词进进行行匹匹配配,若若匹匹配配不不成成功功,则则把把该该字字符符
23、串串从从右右边边逐逐次减去一个汉字,再与词典中的词进行匹配,直到成功为止。次减去一个汉字,再与词典中的词进行匹配,直到成功为止。(2)逆逆向向最最大大匹匹配配法法:从从待待切切分分文文本本中中截截取取字字符符串串的的方方向向是是从从右右到到左左。匹匹配配不不成成功功时时,将将所所截截取取的的汉汉字字串串从从左左至至右右逐逐次次减减去去一一个个汉汉字字,再再与与词词典典中中的的词词进进行行匹匹配配,直直到到匹匹配配成成功功为为止。止。(3)逐逐词词遍遍历历匹匹配配法法:逐逐词词遍遍历历匹匹配配法法中中存存放放的的词词按按由由长长到到短短的的顺顺序序,逐逐个个与与待待切切分分的的语语料料文文本本进
24、进行行匹匹配配,直直到到把把文本中的所有词都切分出来为止。文本中的所有词都切分出来为止。29第29页,共53页,编辑于2022年,星期二8.6.2 汉语自动分词方法 汉语自动分词难点:汉语自动分词难点:(1)词的概念(2)岐义问题(3)未登录词的识别 各类名字、缩略语、派生词、专业术语 30第30页,共53页,编辑于2022年,星期二8.6.3 汉语词性的标注方法 难点:难点:兼类词的词类歧义排除兼类词的词类歧义排除 意义意义(1)对文本进行文法分析或句法分析等更高层次的文本加)对文本进行文法分析或句法分析等更高层次的文本加 工提供基础。工提供基础。(2)通过对标注过的语料进行统计分析等处理。
25、)通过对标注过的语料进行统计分析等处理。具有两个或两个以上词性的词具有两个或两个以上词性的词 31第31页,共53页,编辑于2022年,星期二8.6.4 汉语词义的标注方法 难点:多义词的歧义排除难点:多义词的歧义排除 意义意义(1)对文本中的每个词根据其所属上下文给出它的语义编码。)对文本中的每个词根据其所属上下文给出它的语义编码。(2)语音合成、情报检索、机器翻译、自动校对等。)语音合成、情报检索、机器翻译、自动校对等。32第32页,共53页,编辑于2022年,星期二第8章 自然语言理解及其应用8.1 自然语言理解的概念与发展历史自然语言理解的概念与发展历史 8.2 语音分析语音分析8.3
26、 词法分析词法分析8.4 句法分析句法分析8.5 语义分析语义分析 8.6 基于语料库的大规模真实文本的处理基于语料库的大规模真实文本的处理 8.7 机器翻译机器翻译8.8 语音识别语音识别33第33页,共53页,编辑于2022年,星期二8.7 机器翻译8.7.1 机器翻译方法概述机器翻译方法概述 8.7.2 范例式机器翻译系统范例式机器翻译系统8.7.3 翻译记忆翻译记忆 34第34页,共53页,编辑于2022年,星期二8.7.1 机器翻译方法概述发展历程:发展历程:直接型直接型间接型间接型中间语言型中间语言型转换型转换型35第35页,共53页,编辑于2022年,星期二 1.直译式翻译系统直
27、译式翻译系统(direct translation MT systems)通过快速的分析和双语词典,将原文译出。通过快速的分析和双语词典,将原文译出。2.规则式翻译系统规则式翻译系统(rule-based MT systems)先分析原文内容,产生原文的句法结构,再转换成译先分析原文内容,产生原文的句法结构,再转换成译 文的句法结构,最后再生成译文。文的句法结构,最后再生成译文。8.7.1 机器翻译方法概述36第36页,共53页,编辑于2022年,星期二 3.中介语式翻译系统中介语式翻译系统(inter-lingual MT systems)先生成一种中介的表达方式,而非特定语言的结构;先生成
28、一种中介的表达方式,而非特定语言的结构;再由中介的表达式,转换成译文。再由中介的表达式,转换成译文。基于规则的翻译基于规则的翻译中介语式的翻译中介语式的翻译8.7.1 机器翻译方法概述37第37页,共53页,编辑于2022年,星期二 4.知识库式翻译系统知识库式翻译系统(knowledge-based MT systems)翻译经常需要除了词汇之外的各种知识,使用知识获取工具翻译经常需要除了词汇之外的各种知识,使用知识获取工具(knowledge acquisition),以充实知识库的内容。,以充实知识库的内容。6.范例式翻译系统范例式翻译系统(example-based MT system
29、s)将过去的翻译结果,当成范例,产生一个范例库。将过去的翻译结果,当成范例,产生一个范例库。5.统计式翻译系统统计式翻译系统(Statistics-based MT systems)源语言中任一句子都可能是目标语言中某些句子相似。源语言中任一句子都可能是目标语言中某些句子相似。7.混合式翻译系统混合式翻译系统(Statistics-based MT systems)同时采用多种策略,以达成翻译的目标。同时采用多种策略,以达成翻译的目标。8.7.1 机器翻译方法概述38第38页,共53页,编辑于2022年,星期二 范例式翻译系统(范例式翻译系统(example-based MT systems)
30、对被翻译的源语句通过翻译实例数据库检索出要翻译的对被翻译的源语句通过翻译实例数据库检索出要翻译的 目标语句目标语句。范例式机器翻译系统主要包括两部分工作:范例式机器翻译系统主要包括两部分工作:(1)建立翻译实例数据库。建立翻译实例数据库。(2)翻译的操作检索算法。)翻译的操作检索算法。8.7.2 范例式机器翻译系统39第39页,共53页,编辑于2022年,星期二 基本原理:用户利用已有的原文和译文,建立起一个或多基本原理:用户利用已有的原文和译文,建立起一个或多个翻译记忆库,在翻译过程中,系统将自动搜索翻译记忆个翻译记忆库,在翻译过程中,系统将自动搜索翻译记忆库中相同或相似的翻译资源(如句子、
31、段落等),给出参库中相同或相似的翻译资源(如句子、段落等),给出参考译文,使用户避免无谓的重复劳动,只需专注于新内容考译文,使用户避免无谓的重复劳动,只需专注于新内容的翻译。翻译记忆库同时在后台不断学习和自动储存新的的翻译。翻译记忆库同时在后台不断学习和自动储存新的译文,变得越来越译文,变得越来越“聪明聪明”。德国塔多思(德国塔多思(TRADOS)公司的翻译记忆软件基于)公司的翻译记忆软件基于UNICODE(统一字符编码),支持(统一字符编码),支持55种语言,覆盖了几种语言,覆盖了几乎所有语言版本的乎所有语言版本的 Windows9598NT。8.7.3 翻译记忆40第40页,共53页,编辑
32、于2022年,星期二第8章 自然语言理解及其应用8.1 自然语言理解的概念与发展历史自然语言理解的概念与发展历史 8.2 语音分析语音分析8.3 词法分析词法分析8.4 句法分析句法分析8.5 语义分析语义分析 8.6 基于语料库的大规模真实文本的处理基于语料库的大规模真实文本的处理 8.7 机器翻译机器翻译8.8 语音识别语音识别41第41页,共53页,编辑于2022年,星期二8.8.1 引言语语音音识识别别用用语语音音作作为为输输入入,口口语语对对话话与与语语音音信信号号中中语语言提取的不同:言提取的不同:(1)上下文猜测)上下文猜测 (2)肢体语言传达信息)肢体语言传达信息 机机器器翻翻
33、译译用用印印刷刷文文本本作作为为输输入入,能能清清楚楚地地区区分分单单个个单单词和单词串词和单词串。fare|fairmale|mail42第42页,共53页,编辑于2022年,星期二8.8.2 语音信号采集与预处理 语音信号采集系统语音信号采集系统 基于单片机,基于单片机,DSP芯片芯片 基于基于PC机机 语音信号预处理语音信号预处理预滤波预滤波(1)抑抑制制输输入入信信号号各各频频域域分分量量中中频频率率超超出出采采样样频频率率的的一一半半的的所有分量,以防止混叠干扰。所有分量,以防止混叠干扰。(2)抑制)抑制50Hz的电源工频干扰。的电源工频干扰。43第43页,共53页,编辑于2022年
34、,星期二8.8.2 语音信号采集与预处理 语音信号预处理语音信号预处理 采采样样:对对信信号号进进行行量量化化,量量化化不不可可避避免免地地会会产产生生误误差差。量量化化后后的的信信号号值值与与原原信信号号值值之之间间的的差差值值为为量量化化误误差差,又又称为量化噪声。称为量化噪声。预预加加重重:是是提提升升高高频频部部分分,使使信信号号的的频频谱谱变变得得平平坦坦,保保持持在在低低频频到到高高频频的的整整个个频频带带中中,能能用用同同样样的的信信噪噪比比求求频频谱谱,以以便便于频谱分析或声道参数分析。于频谱分析或声道参数分析。端端点点检检测测:包包含含语语音音的的一一段段信信号号中中确确定定
35、出出语语音音的的起起点点以以及及终点。终点。44第44页,共53页,编辑于2022年,星期二8.8.2 语音信号采集与预处理过零率:信号中波形穿越零电平的次数来描述幅度变化的剧烈程度。ZCR(i)=|sgn(xi(n)sgn(xi(n+1)|45第45页,共53页,编辑于2022年,星期二46第46页,共53页,编辑于2022年,星期二8.8.4 矢量量化矢量量化(矢量量化(vector quantization,VQ)技术是七十年代后)技术是七十年代后期发展起来的一种数据压缩和编码技术。期发展起来的一种数据压缩和编码技术。在标量量化中整个动态范围被分成若干个小区间,每在标量量化中整个动态范围
36、被分成若干个小区间,每个小区间有一个代表值,对于一个输入的标题信号,个小区间有一个代表值,对于一个输入的标题信号,量化时落入小区间的值就用这个代表值代替。量化时落入小区间的值就用这个代表值代替。矢量量化的基本原理:将若干个标量数据组成一个矢量矢量量化的基本原理:将若干个标量数据组成一个矢量在多维空间给予整体量化,从而可以在信息量损失较小在多维空间给予整体量化,从而可以在信息量损失较小的情况下压缩数据量。的情况下压缩数据量。47第47页,共53页,编辑于2022年,星期二8.8.5 识别识别系统的输入是从语音信号中提出的特征参数识别系统的输入是从语音信号中提出的特征参数语音识别所采用的方法一般有
37、:语音识别所采用的方法一般有:模板匹配法。在训练阶段,用户将词汇表中的每一个词依次说一遍,模板匹配法。在训练阶段,用户将词汇表中的每一个词依次说一遍,将其特征矢量作为模板存入模板库。在识别阶段,将输入语音的特将其特征矢量作为模板存入模板库。在识别阶段,将输入语音的特征矢量序列依次与模板库中的每个模板进行相似度比较,将相似度征矢量序列依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。最高者作为识别结果输出。随机模型法。如隐马尔可夫模型随机模型法。如隐马尔可夫模型(HMM)。用。用HMM的概率参数来的概率参数来对似然函数进行估计与判决,从而得到识别结果。对似然函数进行估计与判
38、决,从而得到识别结果。概率语法分析法。不同的人说同一些语音时,相应的语谱总概率语法分析法。不同的人说同一些语音时,相应的语谱总有一些共同的特点以区分于其他语音。将区别性特征与来自有一些共同的特点以区分于其他语音。将区别性特征与来自构词、句法、语义等语用约束相互结合,构成由底向上或自构词、句法、语义等语用约束相互结合,构成由底向上或自顶向下的交互作用知识系统。顶向下的交互作用知识系统。48第48页,共53页,编辑于2022年,星期二8.8.6基于隐马尔可夫模型的语音识别方法隐马尔可夫模型:隐马尔可夫模型:表示序列可能出现的一种方法。表示序列可能出现的一种方法。y跟在ph后面出现的概率跟在t后面出
39、现的概率例例 序列:1 2 3 3 4。则概率0.90.50.40.6=0.108 49第49页,共53页,编辑于2022年,星期二状态隐含,观察可测状态隐含,观察可测8.8.6 基于隐马尔可夫模型的语音识别方法(1)观察符号是一帧帧的语音参数(2)状态序列是具体的语音内容LPC或MFCC前进,后退例:例:50第50页,共53页,编辑于2022年,星期二解决三个基本问题:解决三个基本问题:(1)输出概率计算问题:给定观察序列 和HMM模型,计算输出概率 。(2)状态序列解码问题:给定观察序列 和HMM模型,确定最优的转移序列。(3)模型参数估计问题:调整模型 的参数,以使 最大。8.8.6 基于隐马尔可夫模型的语音识别方法51第51页,共53页,编辑于2022年,星期二输入语音输入语音比较结果比较结果语音分析语音分析矢量量化矢量量化语音模型语音模型比较判断比较判断HMM训练训练概率计算概率计算特征提取特征提取8.8.6 基于隐马尔可夫模型的语音识别方法基于HMM的孤立字(词)识别52第52页,共53页,编辑于2022年,星期二THE ENDArtificial Intelligence Principles and Applications53第53页,共53页,编辑于2022年,星期二
限制150内