《语音合成的原理及分类幻灯片.ppt》由会员分享,可在线阅读,更多相关《语音合成的原理及分类幻灯片.ppt(51页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、语音合成的原理及分类语音合成的原理及分类第1页,共51页,编辑于2022年,星期二9.1 概述概述 语语音音合合成成是是人人机机语语声声通通信信的的一一个个重重要要组组成成部部分分,解解决决让机器像人那样说话的问题。让机器像人那样说话的问题。最最早早的的合合成成器器是是1835年年由由W.von Kempelen发发明明,经经Weston改改进进的的机机械械式式会会讲讲话话的的机机器器。而而最最早早的的电电子子式式语语音音合合成成器器也也是是1939年年Homer Dudley发发明明的的声声码码器器,它它不不是是简简单单的的模模拟拟人人的的生生理理过过程程,而而是是通通过过电电子子线线路路来
2、来实现基于语音产生的源实现基于语音产生的源-滤波器理论。滤波器理论。第2页,共51页,编辑于2022年,星期二 在在语语音音合合成成技技术术发发展展中中,早早期期研研究究主主要要是是采采用用参参数合成方法。数合成方法。1990年年提提出出的的基基音音同同步步叠叠加加PSOLA方方法法,使使基基于于时域波形拼接方法合成的语音音色和自然度大大提高。时域波形拼接方法合成的语音音色和自然度大大提高。我我国国的的汉汉语语语语音音合合成成研研究究从从80年年代代初初就就基基本本上上与与国国际际研研究究同同步步发发展展。大大致致也也经经历历了了共共振振峰峰合合成成、LPC合合成成到应用到应用PSOLA技术的
3、过程。技术的过程。第3页,共51页,编辑于2022年,星期二9.2 语音合成的原理及分类语音合成的原理及分类 9.2.1 波形合成法波形合成法 波波形形编编码码合合成成法法是是一一种种波波形形合合成成法法,类类似似于于语语音音编编码码中中的的波波形形编编解解码码方方法法,该该方方法法直直接接把把要要合合成成的的语语音音的的发发音音波波形形进进行行存存储储或或者者进进行行波波形形编编码码压压缩缩后后存存储储,合合成成重重放放时时再解码组合输出。再解码组合输出。特特点点:所所需需的的存存储储容容量量太太大大,词词汇汇量量不不能能很很大大;相相对对简简单单,通通常常只只能能合合成成有有限限词词汇汇的
4、的语语音音段段。目目前前用用于于自自动动报报时时、报站和报警等。报站和报警等。第4页,共51页,编辑于2022年,星期二 另另一一种种波波形形合合成成法法是是波波形形编编辑辑合合成成,它它把把波波形形编编辑辑技技术术用用于于语语音音合合成成,通通过过选选取取音音库库中中采采取取自自然然语语言言的的合合成成单单元元的的波波形形,对对这这些些波波形形进进行行编编辑辑拼拼接接后后输输出出。它它采采用用语语音音编编码码技技术术,存存储储适适当当的的语语音音基基元元,合合成成时时,经经解解码码、波波形形编编辑辑拼拼接接、平平滑滑处处理理等等输输出出所所需需的的短短语语、语语句句或段落。或段落。第5页,共
5、51页,编辑于2022年,星期二9.2.2 参数合成法参数合成法 参数合成法也称为分析合成法。参数合成法也称为分析合成法。参参数数合合成成法法有有:发发音音器器官官参参数数合合成成和和声声道道模模型型参参数数合合成。成。发音器官参数合成法:发音器官参数合成法:是是对对人人的的发发音音过过程程直直接接进进行行模模拟拟。它它定定义义了了唇唇、舌舌、声声带带的的相相关关参参数数,如如唇唇开开口口度度、舌舌高高度度、舌舌位位置置、声声带带张张力力等等,由由发发音音参参数数估估计计声声道道截截面面积积函函数数,进进而而计计算算声声波。波。缺点:合成语音的质量不理想。缺点:合成语音的质量不理想。第6页,共
6、51页,编辑于2022年,星期二 参参数数合合成成方方法法的的优优点点:音音库库一一般般较较小小,并并且且整整个个系系统统能能适适应应的的韵韵律律特特征征的的范范围围较较宽宽,这这类类合合成成器器比比特特率率低低,音质适中。音质适中。缺缺点点:算算法法复复杂杂,参参数数多多,并并且且在在压压缩缩比比较较大大时时,信息丢失亦大,合成出的语音总是不够自然、清晰。信息丢失亦大,合成出的语音总是不够自然、清晰。为为了了改改善善音音质质,近近几几年年发发展展了了混混合合编编码码技技术术,以以改改善激励信号的质量。善激励信号的质量。第7页,共51页,编辑于2022年,星期二9.2.3 规则合成法规则合成法
7、 规规则则合合成成方方法法:一一种种高高级级的的合合成成方方法法,通通过过语语音音学学规规则则产产生生语语音音,可可以以合合成成无无限限词词汇汇的的语语句句。合合成成的的词词汇汇表表不不是是事事先先确确定定,系系统统中中存存储储的的是是最最小小的的语语音音单单位位的的声声学学参参数数,以以及及由由音音素素组组成成音音节节、由由音音节节组组成成词词、由词组成句子和控制音调、轻重音等韵律的各种规则。由词组成句子和控制音调、轻重音等韵律的各种规则。算算法法中中,用用于于波波形形拼拼接接和和韵韵律律控控制制的的较较有有代代表表性的算法是基音同步叠加性的算法是基音同步叠加PSOLA技术。技术。第8页,共
8、51页,编辑于2022年,星期二9.2.3 规则合成法规则合成法 基音同步叠加基音同步叠加PSOLA技术技术主要特点:主要特点:在在语语音音波波形形片片断断拼拼接接之之前前,首首先先根根据据语语义义,用用PSOLA算算法法对对拼拼接接单单元元的的韵韵律律特特征征进进行行调调整整,使使合合成成波波形形既既保保持持了了原原始始语语音音基基元元的的主主要要音音段段特特征征,又又使使拼拼接接单单元元的的韵韵律律特特征征符符合合语语义义,从从而而获获得得很很高高的的可可懂懂度度和和自自然然度。度。第9页,共51页,编辑于2022年,星期二项目项目波形合成方式波形合成方式参数合成方式参数合成方式按规则合成
9、方式按规则合成方式语音语音质量质量可懂度可懂度高高高高中中自然度自然度高高中中低低词汇量词汇量小(小(500字以下)字以下)大(数千字)大(数千字)无限无限合成方法合成方法PCM,ADPCMLPC,LSP,共振峰共振峰LPC,LSP共振峰共振峰数码率数码率9.664kbit/s 2.49.6 kbit/s5075 kbit/s1兆比特可合成兆比特可合成的语音长度的语音长度15秒秒100秒秒100秒秒7分分无限无限合成基元合成基元音节、词组、句音节、词组、句子子音节、词组、句子音节、词组、句子音素、双音素、音音素、双音素、音节节装置装置简单简单比较复杂比较复杂复杂复杂硬件主体硬件主体存储器存储器
10、存储器和处理器存储器和处理器处理器处理器表表9.1 三种语音合成方式的比较三种语音合成方式的比较第10页,共51页,编辑于2022年,星期二9.3 共振峰合成法共振峰合成法 共共振振峰峰合合成成理理论论中中声声道道参参数数、声声道道谐谐振振特特性性一一直是研究的重点。直是研究的重点。共共振振峰峰合合成成模模型型是是把把声声道道视视为为一一个个谐谐振振腔腔,利利用用腔腔体体的的谐谐振振特特性性,如如共共振振峰峰频频率率及及带带宽宽,以以此此为为参参数数构构成成一一个个共共振振峰峰滤滤波波器器。因因为为音音色色各各异异的的语语音音有有不不同同的的共共振振峰峰模模式式,以以每每个个共共振振峰峰频频率
11、率及及其其宽宽带带为为参参数数,可以构成一个共振峰滤波器。可以构成一个共振峰滤波器。第11页,共51页,编辑于2022年,星期二9.3 共振峰合成法共振峰合成法 共振峰语音合成器的构成原理:共振峰语音合成器的构成原理:将多个共振峰滤波器组合起来模拟声道的传输特性,将多个共振峰滤波器组合起来模拟声道的传输特性,对激励声源发生的信号进行调制,经过辐射得到合成语音。对激励声源发生的信号进行调制,经过辐射得到合成语音。基于共振峰的理论有三种实用模型。基于共振峰的理论有三种实用模型。第12页,共51页,编辑于2022年,星期二9.3.1 级联型共振峰模型级联型共振峰模型 在在该该模模型型中中,声声道道被
12、被认认为为是是一一组组串串联联的的二二阶阶谐谐振振器器,共共振振峰峰滤滤波波器器首首尾尾相相接接,其其传传递递函函数数为为各各个个共共振振峰的传递函数相乘的结果。峰的传递函数相乘的结果。第13页,共51页,编辑于2022年,星期二激励源激励源V1V2-V5辐射模型辐射模型 语音语音G一个五个极点的共振峰级联模型如下一个五个极点的共振峰级联模型如下图图9.2 共振峰级联模型共振峰级联模型五个极点的共振峰级联模型传递函数为:五个极点的共振峰级联模型传递函数为:即:即:式中,式中,G为增益因子。为增益因子。第14页,共51页,编辑于2022年,星期二9.3.2 并联型共振峰模型并联型共振峰模型 在在
13、并并联联型型模模型型中中,输输入入信信号号先先分分别别进进行行幅幅度度调调节节,再再加加到到每每一一个个共共振振峰峰滤滤波波器器上上,然然后后将将各各路路的的输输出叠加起来。出叠加起来。其传递函数为其传递函数为:第15页,共51页,编辑于2022年,星期二 上式可分解成以下部分分式之和:上式可分解成以下部分分式之和:其中其中Al为各路的增益因子。为各路的增益因子。第16页,共51页,编辑于2022年,星期二下图就是一个下图就是一个M=5的并联型共振峰模型。的并联型共振峰模型。激励源激励源+辐射模型辐射模型语音语音图图9.3 并联型共振峰模型并联型共振峰模型第17页,共51页,编辑于2022年,
14、星期二9.3.3 混合型共振峰模型混合型共振峰模型 比比较较以以上上两两种种模模型型,对对于于大大多多数数的的元元音音,级级联联型型合合乎乎语语音音产产生生的的声声学学理理论论,并并且且无无需需为为每每一一个个滤滤波波器器分分设设幅幅度度调调节节;而而对对于于大大多多数数清清擦擦音音和和塞塞音音,并并联联型型则则比比较较合合适适,但但是是其其幅幅度度调调节节很很复复杂杂。于于是是考考虑虑将将两两者结合在一起,提出了混和型共振峰模型。者结合在一起,提出了混和型共振峰模型。第18页,共51页,编辑于2022年,星期二混和型共振峰模型如下图所示:混和型共振峰模型如下图所示:图图9.4 混和型共振峰模
15、型混和型共振峰模型第19页,共51页,编辑于2022年,星期二 对于共振峰合成器的激励,简单地将其分为浊音和对于共振峰合成器的激励,简单地将其分为浊音和清音两种类型是有缺陷的,为了得到高质量的合成语音,清音两种类型是有缺陷的,为了得到高质量的合成语音,激励源应具备多种选择,以适应不同的发音情况。激励源应具备多种选择,以适应不同的发音情况。混和型共振峰模型中激励源有三种类型:合成浊音混和型共振峰模型中激励源有三种类型:合成浊音语音时用周期冲激序列;合成清音语音时用伪随机噪声;语音时用周期冲激序列;合成清音语音时用伪随机噪声;合成浊擦音语音时用周期冲激调制的噪声。合成浊擦音语音时用周期冲激调制的噪
16、声。第20页,共51页,编辑于2022年,星期二 共振峰合成技术弱点共振峰合成技术弱点:(1)由由于于它它是是建建立立在在对对声声道道的的模模拟拟上上,因因此此,声声道道模模型的不精确势必会影响其合成质量。型的不精确势必会影响其合成质量。(2 2)实实际际工工作作中中共共振振峰峰模模型型并并不不能能表表征征影影响响语语音音自自然然度度的的其他许多细微的语音成分,从而影响了合成语音的自然度。其他许多细微的语音成分,从而影响了合成语音的自然度。(3 3)共振峰合成器控制十分复杂,实现起来十分困难。)共振峰合成器控制十分复杂,实现起来十分困难。第21页,共51页,编辑于2022年,星期二9.4 线性
17、预测参数合成法线性预测参数合成法 是是一一种种“源源滤滤波波器器”模模型型,由由白白噪噪声声序序列列和和周周期期脉脉冲冲序序列列构构成成的的激激励励信信号号,经经过过选选通通、放放大大并并通通过过时时变变数数字字滤波器,就可以再获得原语音信号。滤波器,就可以再获得原语音信号。图图9.5 LPC语音合成器的框图语音合成器的框图第22页,共51页,编辑于2022年,星期二 线线性性预预测测合合成成的的形形式式有有两两种种:一一种种是是直直接接用用预预测测器器系系数数构构成成的的递递归归型型合合成成滤滤波波器器,用用这这种种方方法法定定期期地地改改变变激激励励参参数数u(n)和和预预测测系系数数,就
18、就能能合合成成出出语语音音。它它合合成成的的语语音样本由下式决定音样本由下式决定:其其中中:ai为为预预测测系系数数;G为为模模型型增增益益;u(n)为为激激励励;合合成成样本为样本为s(n);p为预测器阶数。为预测器阶数。第23页,共51页,编辑于2022年,星期二图图9.6 直接用预测器系数直接用预测器系数ai构成的合成滤波器构成的合成滤波器 第24页,共51页,编辑于2022年,星期二 另另一一种种合合成成的的形形式式是是采采用用反反射射系系数数构构成成的的格格型型合合成成滤滤波器。它的合成语音样本由下式决定波器。它的合成语音样本由下式决定:其中:其中:G为模型增益;为模型增益;u(n)
19、为激励;为激励;ki为反射系数;为反射系数;bi(n)为后向预测误差;为后向预测误差;p为预测器阶数。为预测器阶数。第25页,共51页,编辑于2022年,星期二 LPC语音合成和共振峰语音合成比较:语音合成和共振峰语音合成比较:(1)LPC语语音音合合成成有有比比较较简简单单和和完完全全自自动动的的分分析析步步骤骤,合合成成器器结结构构也也比比较较简简单单,采采用用格格形形滤滤波波器器时时,量量化化特特性性和和稳稳定定性性都都比比较较好好,硬硬件件实实现现容容易易;而而共共振振峰峰合合成成需要较多的参数调整,合成器结构相对讲要复杂些。需要较多的参数调整,合成器结构相对讲要复杂些。(2)共共振振
20、峰峰合合成成原原理理和和实实际际发发声声原原理理联联系系紧紧密密,它它的的模模型型控控制制参参数数对对合合成成语语音音谱谱特特性性的的影影响响比比较较直直观观。LPC合成中,控制合成中,控制LPC系数的变化轨迹十分有限。系数的变化轨迹十分有限。第26页,共51页,编辑于2022年,星期二 (3)共共振振峰峰语语音音合合成成比比较较灵灵活活,允允许许简简单单地地变变换换以以模模仿仿不不同同人人的的发发音音,通通过过共共振振峰峰频频率率的的移移动动,容容易易改改变变语语声声中中和和讲讲话话人人特特征征有有关关的的部部分分;LPC合合成成较较困困难难,只只有有将将LPC的的反反射射系系数数转转变变成
21、成极极点点的的位位置置,才才有有可可能能作作类类似似的的修正。修正。(4)线线性性预预测测方方法法对对谱谱包包络络谷谷点点的的模模型型要要比比峰峰点点差差得得多多,因因此此共共振振峰峰带带宽宽的的估估计计一一般般是是不不合合适适的的;共共振振峰峰合合成成方方法法中中,共共振振峰峰的的带带宽宽还还可可以以从从离离散散傅傅里里叶叶变变换换谱来估计。谱来估计。第27页,共51页,编辑于2022年,星期二(5)标标准准LPC的的全全极极点点模模型型,对对具具有有零零点点谱谱特特性性的的那那些些音音,特特别别是是鼻鼻音音,效效果果比比较较差差;共共振振峰峰合合成成方方法法则则可可以以采采用用反反谐谐振振
22、器器来来直直接接模模拟拟鼻鼻音音中中最最重重要要的的频频谱谱零零点点,使使得得合合成语音音质得以提高。成语音音质得以提高。(6)从总体上说,选择)从总体上说,选择LPC语音合成还是共振峰合成,基语音合成还是共振峰合成,基于二个因素的折衷;于二个因素的折衷;LPC合成具有简单,可自动进行系合成具有简单,可自动进行系数分析的优点;而比较复杂的共振峰合成可望产生较数分析的优点;而比较复杂的共振峰合成可望产生较高质量的合成语音。高质量的合成语音。第28页,共51页,编辑于2022年,星期二9.5 基音同步叠加法基音同步叠加法 基基音音同同步步叠叠加加PSOLA算算法法核核心心思思想想:直直接接对对存存
23、储储于于音音库库中中的的语语音音运运用用PSOLA算算法法进进行行拼拼接接,从从而而整整合合成成完整的语音。完整的语音。该该系系统统首首先先要要在在大大量量语语音音库库中中,选选择择最最合合适适的的语语音音单单元元用用于于拼拼接接,并并且且在在选选择择语语音音单单元元的的过过程程中中往往往往采采用用多多种种复复杂杂的的技技术术,最最后后在在拼拼接接时时,使使用用PSOLA算算法法,根根据上下文的要求,对其合成语音的韵律特征进行修改。据上下文的要求,对其合成语音的韵律特征进行修改。第29页,共51页,编辑于2022年,星期二 由由于于韵韵律律修修改改所所针针对对的的侧侧面面不不同同,PSOLA算
24、算法法的的实实现现目前有目前有3种方式。分别为:种方式。分别为:时域基音同步叠加时域基音同步叠加TD-PSOLA 线性预测基音同步叠加线性预测基音同步叠加LPC-PSOLA 频域基音同步叠加频域基音同步叠加FD-PSOLA 其其中中TD-PSOLA算算法法计计算算效效率率较较高高,已已被被广广泛泛应应用用,是是一种经典算法,这里只介绍一种经典算法,这里只介绍TD-PSOLA算法原理。算法原理。第30页,共51页,编辑于2022年,星期二 9.5.1 基音同步叠加基音同步叠加PSOLA算法原理算法原理 信号信号x(n)的短时傅里叶变换为:的短时傅里叶变换为:其中其中w(n)是长度为是长度为N的窗
25、序列,的窗序列,Z表示全体整数集合。表示全体整数集合。是是变变量量n和和的的二二维维时时频频函函数数,对对于于n的的每每个个取取值值都都对对应应有有一一个个连连续续的的频频谱谱函函数数,显显然然存存在在较较大大的的信信息息冗冗余余,所所以以可可以以在在时时域域每每隔隔若若干干个个(例例如如R个个)样样本本取取一个频谱函数来重构原信号一个频谱函数来重构原信号x(n)。第31页,共51页,编辑于2022年,星期二令:令:其傅里叶逆变换为:其傅里叶逆变换为:然后将然后将 叠接相加便可得到:叠接相加便可得到:通常选通常选w(n)是对称的窗函数,所以有是对称的窗函数,所以有w(rR-n)=w(n-rR)
26、第32页,共51页,编辑于2022年,星期二 可可以以证证明明,对对于于汉汉明明窗窗来来说说,当当时时,无无论论m为为何何值值都都有:有:所以所以 其其中中 为为w(n)的的傅傅里里叶叶变变换换。上上式式说说明明,用用叠叠接接相相加加法法重构的信号重构的信号y(n)与原信号与原信号x(n)只相差一个常数因子。只相差一个常数因子。第33页,共51页,编辑于2022年,星期二 这这里里采采用用原原始始信信号号谱谱与与合合成成信信号号谱谱均均方方误误差差最最小小的的叠叠接接相相加合成公式。定义两信号加合成公式。定义两信号x(n)和和y(n)之间谱距离测度:之间谱距离测度:上式可改写为:上式可改写为:
27、(9-14)第34页,共51页,编辑于2022年,星期二 要求合成信号要求合成信号y(n)满足谱距离最小,可以令:满足谱距离最小,可以令:解得:解得:窗窗函函数数w1(n)和和w2(n)可可以以是是两两种种不不同同的的窗窗函函数数,长长度度也也可可以以不不相相等等。上上式式就就是是在在谱谱均均方方误误差差最最小小意意义义下下的的时时域域基基音同步叠接相加合成公式。音同步叠接相加合成公式。第35页,共51页,编辑于2022年,星期二 实际合成时实际合成时w1(n)和和w2(n)可以用完全相同的窗,分可以用完全相同的窗,分母可视为常数,而且可以加一个短时幅度因子母可视为常数,而且可以加一个短时幅度
28、因子 来调来调整短时能量,即:整短时能量,即:基音同步叠接相加法优点:基音同步叠接相加法优点:良好的韵律调整能力的;良好的韵律调整能力的;缺缺点点:基基音音频频率率修修改改过过大大时时可可能能出出现现严严重重的的谱谱包包络失真。络失真。第36页,共51页,编辑于2022年,星期二9.5.2 基音同步叠加基音同步叠加PSOLA算法实现步骤算法实现步骤 概概括括起起来来说说,用用PSOLA算算法法实实现现语语音音合合成成时时主主要要有有三三个个步步骤骤。分分别别为为基基音音同同步步分分析析、基基音音同同步步修修改改和和基基音音同同步步合成。下面介绍这三个步骤。合成。下面介绍这三个步骤。第37页,共
29、51页,编辑于2022年,星期二 1.基音同步分析基音同步分析 同同步步标标记记是是与与合合成成单单元元浊浊音音段段的的基基音音保保持持同同步步的的一一系系列列位位置置点点,用用它它们们来来准准确确反反映映各各基基音音周周期期的的起起始始位位置置。同同步步分分析析的的功功能能主主要要是是对对语语音音合合成成单单元元进进行行同同步步标标记记设设置置。PSOLA技技术术中中,短短时时信信号号的的截截取取和和叠叠加加,时时间间长长度度的的选选择择,均均是是依依据据同同步步标标记记进进行行的的。对对于于浊浊音音段段有有基基音音周周期期,而而清清音音段段信信号号则则属属于于白白噪噪声声,所所以以这两种类
30、型需要区别对待。这两种类型需要区别对待。第38页,共51页,编辑于2022年,星期二 2.基音同步修改基音同步修改 同同步步修修改改通通过过对对合合成成单单元元同同步步标标记记的的插插入入、删删除除来来改改变变合合成成语语音音的的时时长长;通通过过对对合合成成单单元元标标记记间间隔隔的的增加、减小来改变合成语音的基频等。增加、减小来改变合成语音的基频等。若若短短时时分分析析信信号号为为x(ta(s),n),短短 时时 合合 成成 信信 号号 为为x(ts(s),n),则有:,则有:式中式中ta(s)为分析基音标记,为分析基音标记,ts(s)为合成基音标记。为合成基音标记。第39页,共51页,编
31、辑于2022年,星期二 3.基音同步合成基音同步合成 基基音音同同步步合合成成是是利利用用短短时时合合成成信信号号进进行行叠叠加加合合成成。如如果果合合成成信信号号仅仅仅仅在在时时长长上上有有变变化化,则则增增加加或或减减少少相相应应的的短短时时合合成成信信号号;如如果果是是基基频频上上有有变变化化,则则首首先先将将短短时时合成信号变换成符合要求的短时合成信号再进行合成。合成信号变换成符合要求的短时合成信号再进行合成。第40页,共51页,编辑于2022年,星期二图图9.7 时域基频同步合成语音时域基频同步合成语音a)语音基频被降低语音基频被降低 b)语音被延长但基频保持不变语音被延长但基频保持
32、不变第41页,共51页,编辑于2022年,星期二9.6 文语转换系统文语转换系统 9.6.1 文文语语转转换换系系统统的的组组成成 在在文文语语转转换换系系统统中中,必必须须事事先先对对文文本本进进行行分分析析,根根据据上上下下文文的的关关系系来来确确定定每每个个字字发发音音的的声声调调应应如如何何变变化化,然后用这些声调变化参数去控制语音的合成。然后用这些声调变化参数去控制语音的合成。第42页,共51页,编辑于2022年,星期二图图9.8 TTS系统基本框图系统基本框图 文本分析、韵律控制和语音合成这三个模块是文语转文本分析、韵律控制和语音合成这三个模块是文语转换系统的三个核心部分。其结构如
33、下图所示:换系统的三个核心部分。其结构如下图所示:9.6.1 文语转换系统的组成文语转换系统的组成第43页,共51页,编辑于2022年,星期二 1.文本分析文本分析 工作过程包括:工作过程包括:将将输输入入的的文文本本规规范范化化,并并处处理理用用户户可可能能的的拼拼写写错错误误,将将出现的不规范或无法发音的字符过滤掉;出现的不规范或无法发音的字符过滤掉;分分析析文文本本中中的的词词或或短短语语的的边边界界,确确定定文文字字的的读读音音,同同时时分分析析文文本本中中出出现现的的数数字字、姓姓氏氏、特特殊殊字字符符以以及及各种多音字的读音方式;各种多音字的读音方式;确确定定发发音音时时语语气气的
34、的变变换换及及不不同同音音的的轻轻重重方方式式。最最终终,将将输输入入的的文文字字转转换换成成计计算算机机能能够够处处理理的的内内部部参参数数,便便于于后后续续模块进一步处理并生成相应的信息。模块进一步处理并生成相应的信息。第44页,共51页,编辑于2022年,星期二 2.韵律控制韵律控制 任任何何人人说说话话都都有有韵韵律律特特征征,有有不不同同的的声声调调、语语气气、停停顿顿方方式式,发发音音长长短短也也各各不不相相同同,这这些些都都属属于于韵韵律律特特征征。而而韵韵律律参参数数则则包包括括了了能能影影响响这这些些特特征征的的声声学学参参数数,如如:基基频频、音音长长、音音强强等等。最最终
35、终系系统统能能够够用用来来进进行行语语音音信信号号合合成成的的具具体体韵韵律律参参数数,还还要要靠靠韵律控制模块。韵律控制模块。3.语音合成语音合成 文文语语转转换换系系统统的的合合成成语语音音模模块块一一般般采采用用波波形形拼拼接接来来合合成成语语音音的的方方法法,其其中中最最具具代代表表性性的的是是前前面面介介绍绍过的基音同步叠加法过的基音同步叠加法PSOLA。第45页,共51页,编辑于2022年,星期二9.6.2 汉语按规则合成汉语按规则合成 通通过过语语音音学学规规则则产产生生语语音音,对对于于不不同同的的语语种种,其其规规则则是是完完全全不不同同的的,这这里里仅仅讨讨论论文文语语转转
36、换换层层次次上上的的汉汉语语按规则合成中有关韵律规则的几个基本问题。按规则合成中有关韵律规则的几个基本问题。第46页,共51页,编辑于2022年,星期二 1.重音规则重音规则 汉汉语语的的重重音音,是是指指说说话话或或朗朗读读时时读读的的比比较较重重的的音音节或词语。节或词语。汉语重音分为:词重音和句重音两大类。汉语重音分为:词重音和句重音两大类。词重音:指词的某个音节可分为重轻等级。词重音:指词的某个音节可分为重轻等级。音音长长特特征征是是区区分分这这个个等等级级的的主主要要标标志志,轻轻声声的的音音长长较较短短。另另外外一一个个重重要要的的区区分分特特征征是是声声调调域域,轻轻声声的的声声
37、调调域域缩缩小小,这这就就使使轻轻声声字字所所需需的的能能量量减减少少,但但强强度度并并不不一一定定减减弱弱。汉汉语语重重音音的的声声学学特特征征表表现现在在音音域域加加宽宽、音程加大,气流加强。音程加大,气流加强。第47页,共51页,编辑于2022年,星期二 2.转接与音渡规则转接与音渡规则 转转接接与与音音渡渡是是音音素素序序列列转转变变成成语语音音流流时时的的动动态态变化规律。变化规律。在在汉汉语语发发音音中中,存存在在两两种种基基本本的的过过渡渡,即即辅辅音音与与元元音音组组合合和和元元音音与与元元音音组组合合。前前者者出出现现在在声声母母和和韵韵母母的的拼拼接接过过程程中中,称称为为
38、“转转接接”;后后者者出出现现在在复复合韵母内部,称为合韵母内部,称为“音渡音渡”。第48页,共51页,编辑于2022年,星期二 转转接接是是指指前前一一个个辅辅音音对对其其后后元元音音共共振振峰峰的的影影响响。同同一一元元音音的的共共振振峰峰特特性性受受不不同同辅辅音音的的影影响响会会有有很很大大的的变变化化,表表现现出出来来的的转转接接现现象象不不同同;反反之之,同同一一辅辅音音对对不不同同元元音音的的影影响响也也是是不不同同的的。共共振振峰峰的的转转接接现现象象比比较较复杂,至今尚没找到普遍的规律。复杂,至今尚没找到普遍的规律。第49页,共51页,编辑于2022年,星期二 3.声调与变调
39、规则声调与变调规则 汉汉语语是是一一种种“声声调调语语音音”,在在用用汉汉语语相相互互交交谈谈中中,人人们们不不但但凭凭不不同同的的声声母母、韵韵母母(或或元元音音,辅辅音音)来来辨辨别别字字和和词词的的意意义义,还还需需要要从从不不同同的的声声调调来来区区别别它它们们,这这就就是是“声调语音声调语音”的特点。的特点。汉汉语语的的声声调调具具有有辨辨义义的的功功能能,它它和和辅辅音音、元元音音在在语音的区别特征上同样重要。语音的区别特征上同样重要。第50页,共51页,编辑于2022年,星期二 4.音长问题音长问题 音音长长也也是是语语音音的的重重要要特特征征之之一一,对对语语音音的的可可懂懂度度、自自然然度度都都有有一一定定的的影影响响。汉汉语语中中音音长长主主要要体体现现在在韵韵母母的的调调型型段段长长度度上上,调调长长和和调调型型是是密密切切相相关关的的,通通常常认认为为,上声音节最长,阴平、阳平次之,去声最短。上声音节最长,阴平、阳平次之,去声最短。除除音音长长外外,音音节节之之间间的的间间隙隙也也对对合合成成语语音音效效果果有有一一定定的的影影响响,适适当当的的间间隙隙会会使使语语言言听听起起来来更更为为生生动。动。第51页,共51页,编辑于2022年,星期二
限制150内