人与人、人与计算机之间的语音信息流程图.ppt
《人与人、人与计算机之间的语音信息流程图.ppt》由会员分享,可在线阅读,更多相关《人与人、人与计算机之间的语音信息流程图.ppt(69页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第12章 语音合成,目录,1 概述2语音合成原理2.1语音合成的方法2.2语音合成系统的特性3共振峰合成3.1共振峰合成原理3.2共振峰合成实例4线性预测合成5语音合成的关键技术6专用语音合成硬件及语音合成器芯片7语音合成的应用,人与人、人与计算机之间的语音信息流程图,概述,音节和音素,语音信号的最基本组成单位是音素,音素可以分为浊音和清音,在短时分析的基础上可以判断一段语音属于哪一类。浊音短时谱的特点:具有明显的周期性起伏结构具有明显的凸起点,称为“共振峰”(formant)清音短时谱的特点:随机噪声,概述,音节,音节是发声的最小单位,一个音节由元音和辅音构成,“辅音-元音”,概述,声道,不
2、同的韵母是由于声道形状的不同造成的,声道可以用一段变截面积的声管来表示。声道形状主要取决于三个方面:舌在口腔中的前后位置不同,造成收紧点(面积最小点)的位置不同舌位的高低,舌位越高嘴张的越大,也称开口度大唇的圆展程度,概述,元音(汉语中称为韵母),单韵母5个,a,i,u, e,o复韵母14个,ai,ei,au,ou,ia,ie,ua,uo ,e ,iao ,uai ,uei鼻韵母16 个 ,an ,ian ,uan , an ,en ,in ,uen ,n ,ang ,iang ,uang ,eng ,ing ,ueng ,ong ,iong,概述,舌位的前后主要影响第二共振峰,舌位靠前,收紧
3、点靠前,第二共振峰越高。舌位上下即开口度主要影响第一共振峰,开口度越小,第一共振峰越低。唇的圆展程度对第一共振峰和第二共振峰都有影响,概述,单韵母发音及频谱特点,概述,声母,汉语普通话声母的划分不送气塞音 b,d,g送气塞音p,t,k清擦音s,sh,x,f,h不送气塞擦音z,zh,j送气塞擦音c,ch,q鼻音m,n边音l卷舌音r,概述,语音合成,语音合成是讨论如何使机器说出人的语言,以满足人类的各种需要的问题。从指导思想上来说,要使得机器说话有两类方法:一类可以称为“分析-存储-合成”。这里存储是核心,也就是说只要事先将语音存储起来,然后在需要机器说话时只要再取出来就可以得到语音了。在数字语音
4、合成中,为了便于存储,必须先进行分析或变换,因而在取出合成前还必须进行相应的反变换,最简单的变换是模数变换和数模变换,或称为PCM波形合成法。这种方法合成语音,其词汇量不能很大,所需的存储空间太大。如要让机器讲1秒钟的语音,就需要64kbit以上的存储容量。为了节约存储量,必须先对语音信号进行各种分析,得到诸如线性预测系数、线谱对参数或共振峰参数等有限个参数,以压缩存储容量,这种方法称为参数合成法。,语音合成原理,语音合成,但应该指出,在目前的技术水平下,要想合成任意一语种的无限词汇量的语音,仅采用上述的“分析-存储-合成”法是不可能的。甚至对于以音节为基础,且字汇量较少的汉语,若以音节字为合
5、成基元,也有1300个音节字,即使使用参数存储也将是很困难的。因此国际上都在努力开发另一类无限(全)词(字)汇量的语音合成方法,这第二类法就是所谓“按语言学规则的从文本至语言”的语言合成法(Test- to Speech Synthesis by Rule)。,语音合成原理,语音合成,在波形合成法中,也可以使用波形编码技术(如ADPCM, APC等)略微压缩一些存储量。通常情况下,波形合成法可以合成的语音词汇量约在500以下,而参数合成法则可以达到数千左右。当然,在参数合成时,由于抽取参数或编码过程中,难免存在逼近误差,所以合成的语音质量(清晰度)也就比波形合成法要差一些了。在语音合成中,另一
6、个重要问题就是合成基元的选择问题,也就是存储的语音基元的选择问题。显然,合成词汇量越大,必须采用越小的基元,否则存储量就太大了;反之,合成词汇量越小,可用较大的基元。例如在英语中,词的数量有千千万万,但是音素质有成百个。因此存储全部词的容量远远大于存储全部音素的容量。但是我们知道,基元越大,合成的语音自然度就越好。例如存储的是整个句子的语音波形或参数,则合成的语音在该句范围内,合成语音的自然度就接近于原始语音,不会有那种不连贯的机器味。通常,在波形合成法中,由于合成的是有限长度的语音,甚至可以用整个句子作为合成基元,但是在参数合成法中,则不得不用字至多也只能用词作为合成基元。,语音合成原理,语
7、音合成,我国的汉语,在无限字(词)汇量的语音合成,具有得天独厚的优越性。汉语的句子是由词组成的,而词又是由音节字组成的。虽然存在一音多字的问题,但是对于机器讲话、人听话的语音合成情况来说,这个同音字问题是不必考虑的。因为人在听话时会自然的理解这些同音字,也就是说,汉语合成时只是要求机器讲出音节字(拼音字)就可以了。汉语的全部音节字只有1300个左右,即使不用更小的声母、韵母作为基元就用音节字作为基元,其语音库也不算太大。,语音合成原理,语音合成(Speech Synthesis),语音合成技术可以分为四类:波形编码合成方法 (Waveform Coding Synthesis)参数式分析合成方
8、法(Parametric Analysis Synthesis)规则合成方法(Synthesis by Rule)文语转换(Text to Speech Conversion System)无论波形合成法或是参数合成法,其原理都等同于语音通信的语音编码或声码器中的接收端的工作过程,只是现在没有从信道送来的参数与编码的序列,而代之以从分析或变换得到的存储在语音库中的参数或码序列。,语音合成原理,语音的波形编码方法,这种方式以语句、短语、词或音节为合成单元,这些单元分别被录音后直接进行数字编码,经过适当的数据压缩,组成一个合成语音库。重放时,根据待输出的信息,在语音库中取出相应单元的波形数据,串接
9、或编辑在一起,经过解码还原出语音,这种合成方法也叫录音编辑合成。合成单元越大, 合成的自然度越好,系统结构简单,价格低廉,合成语音的数码率较大,存储量也大,因而合成的词汇有限。在自动报时、报号、报站或报警等装置中,多采用这种技术,现有多种合成芯片可供选用。,语音合成原理,语音的参数式分析合成,这种合成方法多以音节、半音节或音素为合成单元。首先按照语音理论,对所有合成单元的语音进行分析,一帧一帧提取有关语音参数,这些参数经编码后组成一个合成语音库。输出时,根据待合成的语音的信息,从语音库中提取出相应的合成参数, 经编辑和连接顺序送入语音合成器中,在合成器中合成参数的控制下,一帧一帧的重新还原语音
10、波形。主要的合成参数有:控制音强的幅度、控制音高的基频和控制音色的共振峰参数。这种方式的速码率比波形编辑方式小的多,但是系统结构也复杂些,合成音质也差些。目前已有专用的芯片和界线板,语音合成原理,语音的规则合成,这种合成方法以通过语音学规则来产生任何语音为目的,规则合成系统存储的是较小的语音单位的声学参数以及由音素组成音节,再由音节组成词或句子的各种规则。当输入字母符号时,合成系统利用规则自动将它们转换为连续的语音声波。由于语音中存在协同发声效应,单独存在的元音和辅音与连续发音中的元音和辅音不同,所以合成规则是在分析每一语音单元出现在不同环境中的协同发音后,归纳其规律而制定的如共振峰的频率规则
11、、时长规则、声调和语调规则等。与分析合成方法相比,规则合成方法的语音库的存储量更小,这是以牺牲音质为代价的,这种方式涉及到许多语音学和语音学模型,系统结构复杂。目前合成规则还不完善,合成音质一般较差。,语音合成原理,语音合成-文-语合成,文-语合成的指导思想是:挖掘出人在讲话时,是按照什么规则来组织语音单元的,并将这些规则的知识赋予机器,因而机器在合成语音时,只要输入合成基元,机器就应该会按照所赋给的规则来合成出与人讲话是相同的语音来。应该指出,所使用的文本的合成基元越小,合成规则就越多越复杂,当然所用的存储量也就越小。因此在选择文本的合成基元时应该折衷考虑。目前英语中多用音素、双音素为文本的
12、合成基元,因为对于西方语言,用词作为基元的按规则合成几乎是不可能的。而汉语可以用声母和韵母,甚至直接用音节字作为文本基元,以减少规则的知识。这时就不必靠与音素有关的规则,而只需用到音节字之间的有关规则就可以了。,语音合成原理,文语转换系统,这是一种以文字串为输入的规则合成系统,其输入的文字串是通常的文本字串,系统中的文本分析器首先根据发音字典,将输入的文字串分解为带有属性标记的词及其读音符号,再根据语义规则和语音规则,为每个词、每个音节确定重音等级和语句结构及语调、以及各种停顿等,这样,文字串就变换为代码串,规则合成系统就可以据此合成抑扬顿挫和不同语气的语句。文语转换系统除了依赖各种规则(包括
13、语义规则,词规则,语音学规则)外,还必须对文字内容有正确的理解,也就是自然语言理解问题,所以真正的文语转换系统实际上是一个人工智能系统。迄今为止,还没有开发出一套相当满意的文语转换系统。,语音合成原理,三种语音合成方式特征比较,语音合成原理,关于语音合成的基本术语合成单元(Synthesis Unit),合成单元也称为合成单位,是语音合成系统所处理的最小的语音学基本单位,待合成词语的合成语音库就是所有合成单元的集合。按由小到大的顺序排列,语音学中的音素、双音素、半音节、音节、词、短语和句子都可以用作合成单元,合成单元越大,合成语音音质越好,但合成语音的数量及其数码率也越大。在波形编码合成方式中
14、,合成单元较大,多为词、短语或句子。在参数式分析合成和规则合成方式中,英语或日语的合成多采用音素,辅音加元音和元音加辅音等合成单元,汉语的合成单元多采用音节和声、韵母作合成单元。,语音合成原理,关于语音合成的基本术语合成参数(Synthesis Parameters),在参数式分析合成和规则合成方式中,控制语音合成器以输出所需语音的一组参数。合成参数分为两类:音色参数韵律参数音色参数又称为音段参数,常用的有:共振峰频率,线性预测系数,LSF系数和生理发音参数。韵律参数又称为超音段参数,主要有控制音强的幅度参数,控制音高的基频参数,控制音长的时间参数等。,语音合成原理,关于语音合成的基本术语合成
15、参数(Synthesis Parameters),在参数式分析合成方式中,每个合成单元的每帧合成参数直接取自该合成单元实际录音的分析数据。在规则合成方式中,每个合成单元的合成参数是对大量语音材料进行声学分析后,经反复调试归纳得出的,合成参数的选取和调试对合成音质关系极大。,语音合成原理,关于语音合成的基本术语合成语音库(Database for Synthesis ),在语音合成系统中,所有合成单元的编码数据或合成参数数据的集合称为合成语音库。对于波形编码合成方式,语音库中存储的是合成单元的波形编码对于参数式分析合成方式,语音库中存储的是各合成单元逐帧的合成系数在规则合成方式中,语音库中存储的
16、是各合成单元的声学参数和一系列合成规则,语音合成原理,关于语音合成的基本术语语音合成器(Speech Synthesizer ),在参数式分析合成和规则合成系统中,将语音合成参数转变为语音波形的软件和硬件系统就是语音合成器。语音合成器是按照语音产生的声学模型构成的,它模拟了语音产生的三个过程:声源激励、声道(即口腔、鼻腔和咽腔的总和)共鸣和口鼻辐射,其中模拟声道共鸣特性的数字滤波器尤为关键。依据控制语音音色的合成参数和数字滤波器的构造的不同,语音合成器可分为共振峰合成器、线性预测合成器、线谱对合成器和发音参数合成器等类别。,语音合成原理,关于语音合成的基本术语合成音质(Quality of S
17、ynthetic Speech ),合成音质是指语音合成系统所输出的语音的质量,一般从清晰度(或可懂度)、自然度和连贯性等方面来进行主观评价。清晰度是正确听辨有意义词语的百分率自然度用来评价合成语音音质是否接近人说话的声音,合成词语的语调是否自然连贯性用来评价合成语音是否流畅。,语音合成原理,共振峰式语音合成器,音色各异的语音具有不同的共振峰模式,因此以每个共振峰频率及其带宽为参数,可以构成一个共振峰滤波器,用若干个这种滤波器的组合来模拟声道的传输频响,对激励源发出的信号进行调制,再经过辐射即可得到合成语音。早期的共振峰滤波器是用模拟电路来实现的,现在都用数字滤波器来实现。,共振峰式语音合成器
18、,在采样周期一定的情况下,滤波器的传输频响是由共振峰频率和带宽唯一决定的。如果在所需的频率范围内,一次配置几个这样的滤波器,使其谐振频率分别对应于各共振峰频率即可逼近整个声道的传输特性。共振峰合成器又两种基本构成方式:级联(串联)式和并联式。级联式共振峰滤波器首尾相接,并联式中,输入信号首先分别通过幅度调节,在加到每一共振峰滤波器上,各路的输出再叠加起来。对于合成声源位于声道末端的语音,级联式合乎语音产生的声学理论,且无需为每一滤波器分设幅度调节。对于合成声源位于声道中间的语音(大多数清擦音和塞音),并联式比较合适,但其幅度调节很复杂。,共振峰语音合成原理如下: 浊音和清音分别采用不同的激励源
19、。 发不同语音对应不同声道路径和滤波器。 发不同语音对应不同幅值控制和频率控制。 共振峰和基频是语音信号的2个主要特征。Vortax公司推出的Computalker是一种典型的语音合成产品最早进入计算机业余爱好者市场。采用的便是共振峰语音合成原理。,共振峰式语音合成器,激励源对合成语音的自然度有明显的影响,激励源有三种类型:合成浊音语音时用周期冲激序列,合成清音语音时用伪随机噪声,合成浊擦音时用周期冲激调制的噪声,图12-1共振峰合成系统,共振峰式语音合成器,发浊音时:最简单的是三角波脉冲,但这种模型不够精确,可以采用其他更为精确的形式。对于高质量的语音合成,激励源的脉冲形状是十分重要的。但是
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算机 之间 语音 信息 流程图
限制150内