一种改进的CG-GMM和谱激励联合语音转换技术研究硕士论文(55页).doc
《一种改进的CG-GMM和谱激励联合语音转换技术研究硕士论文(55页).doc》由会员分享,可在线阅读,更多相关《一种改进的CG-GMM和谱激励联合语音转换技术研究硕士论文(55页).doc(54页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、-一种改进的CG-GMM和谱激励联合语音转换技术研究硕士论文-第 48 页学科门类: 工学 分 类 号: 论文编号: 硕101 密 级: 硕 士 学 位 论 文论 文 题 目 一种改进的CG-GMM和谱激励联合语音转换技术研究 专 业 名 称 信号与信息处理 研 究 方 向 现代语音通信技术 论文提交日期 2010-3-7 摘 要语音转换是指改变一个人(源说话人)的语音特征,使之具备另一个人(目标说话人)的语音特征,从而使源说话人的语音听起来像目标说话人的语音的一种语音处理技术。该技术无论在商业领域还是在实用领域都有良好的发展前景和巨大的应用价值。本文首先对LPC倒谱和线谱对LSF两种参数的转
2、换性能进行比较;然后在现有的基音周期检测方法的基础上,提出一种基于Hilbert变换的残差倒谱基音周期检测方法,该方法能够提高基音检测的准确性。其次重点研究了基于GMM的频谱包络转换方法,并对现有的CG-GMM方法进行改进,通过引入后验概率门限将GMM和VQ很好地结合起来,既避免了VQ的非连续性又减轻了CG-GMM的过平滑性。 最后对谱激励转换方法进行改进:基于MMSE准则,引入一个权重因子,将预测目标激励和残差波形转换这两种方法很好地结合起来,获取比较好的激励信号。本文利用MATLAB仿真,从主、客观两个方面对系统的性能进行评价。仿真结果表明,本文提出的改进方法能够取得较好的效果。关键词:语
3、音转换,谱包络转换,高斯混合模型,谱激励转换,Hilbert变换,基音标注,后验概率门限ABSTRACTVoice conversion is a technology about that changes one persons (source speaker) voice character into another speakers (target speaker) voice character, so that the source speakers voice sounds like the target speakers voice. The technology has goo
4、d prospects in business and practical areas.Firstly, this paper compares LPC cepstral parameter and LSF parameter;Then it proposes a new residual cepstral pitch detection algorithm that based on Hilbert transform,This algorithm can improve the accuracy of pitch detection.Secondly, this paper propose
5、d a new method based on the existing CG-GMM method which combines the GMM algorithm and the VQ algorithm by introducing posterior probability threshold. This method not only reduces the problem of non-continuity but also relieves the over-smoothing problem.Finally, this paper improves the traditiona
6、l spectral excitation conversion method by combining the predicted target residual method and residual waveform conversion method,Simulation results show that the methods proposed in the paper can achieve better effects.Keyword: Voice Conversion, Spectral Envelope Transformation, Gaussian Mixture Mo
7、del, Spectral Excitation Transformation, Hilbert Transform, Pitch Marking, Posterior Probability Threshold.目 录摘 要IABSTRACTII目录III第一章 绪论11.1语音转换的研究意义11.2语音转换的研究现状21.3语音的特性描述31.3.1语音的产生机理31.3.2语音的数学模型51.4语音转换的评价方法61.4.1客观评价方法61.4.2主观评价方法71.5本文的研究内容和组织结构8第二章 语音转换技术研究102.1语音转换框架102.2语音模型112.3语音预处理122.4线
8、性预测分析142.4.1线性预测分析原理142.4.2两种推演参数的比较162.5频谱包络转换192.5.1矢量码本映射(VQ)192.5.2高斯混合模型(GMM)212.6语音合成232.7本章小结24第三章 基音检测方法研究253.1基音周期转换方法253.2基音周期转换仿真结果263.3基音周期估计273.3.1自相关法(ACF)283.3.2平均幅度差函数法(AMDF/SMDF)303.3.3倒谱法(CEP)313.3.4残差倒谱基音检测法(LP-CEP)323.3.5一种新的基于Hilbert变换的残差倒谱基音检测法343.4语音的基音标注363.5本章小结36第四章 一种改进的CG
9、-GMM和谱激励联合转换研究374.1基于CG-GMM的语音转换研究374.1.1传统GMM存在的问题374.1.2语音转换的算法研究374.1.3后验概率门限404.1.4 CG-GMM转换方法的研究414.1.5 改进的CG-GMM转换方法研究434.2谱激励转换研究464.2.1声门波激励464.2.2谱激励转换的研究现状474.2.3传统的谱激励转换方法474.2.4改进的谱激励转换方法504.3本章小结52第五章 实验结果及性能研究535.1实验平台和框架535.1.1实验平台535.1.2实验框图535.1.3实验结果555.2客观测试结果605.3主观测试结果615.4本章小结6
10、2第六章 总结与展望636.1本文工作总结636.2 今后研究展望63第一章 绪论1.1语音转换的研究意义语音转换(VT, Voice Transformation或VC, Voice Conversion)是指将一个说话人(源说话人, Source Speaker)的语音特征转换成另一说话人(目标说话人,Target Speaker)的语音特征,这就要求在转换过程中改变源语音个性化信息的同时保持语义信息不变,使源说话人的声音听起来像目标说话人的声音。语音转换技术最初属于语音识别的技术范畴,对说话人语音特征的转换主要有两大方面:音段特征的转换和韵律特征的转换。音段特征一般由语音的频谱包络表示;
11、韵律特征(超音段特征)则由基音周期、时长、能量表示。语音转换技术有着良好的发展前景和巨大的应用价值,具体体现在以下几个方面:(1)在文语转换系统中的应用(TTS,Text-To-Speech)。所谓文语转换就是指将文本文件通过一定的软硬件转换后由计算机或者电话语音等系统输出语音的过程,现有的文语转换系统无论采用哪种方法,最终合成的语音的个性特征都是单一的,缺乏个性化的特征,但如果在合成语音的过程中进行相关的语音转换处理,那么合成出来的语音就增加了说话人的个性特征。(2)在保密通信中的应用。例如将说话人的语音特征参数在一定的规则下进行转换,相当于对语音进行“加密”处理。这样在传输过程中即使是被窃
12、听,也很难猜测出接收的语音内容。(3)在医学领域的应用。在医学上可以将语音转换用于恢复受损的声音,提高一些声道受损的人的语音质量,增加受损声音的可懂度。(4)在电影配音中的应用。在很多电影中我们听到的声音是配音演员的声音,而配音演员跟演员本人的语音个性特征差别很大,因此效果不是很好。若是运用语音转换技术使配音的人具有与演员本身相同的语音特征,效果就会好很多。(5)在一些特殊场合的应用。例如潜水员在深海下的氦气里发出的声音清晰度很低,如果不做任何处理,几乎无法听懂。利用语音转换技术可以提高语音的清晰度。 1.2语音转换的研究现状 在过去近二十年中,语音转换引起了人们的重视,一些语音学者相继在这方
13、面做了很多工作。国外的研究状况:Abe提出了基于矢量量化的码本映射进行频谱包络转换的方法,取得了较好的效果,但此方法存在频谱不连续的缺点,造成转换后的语音的音质不佳;Arslan对此进行改进,提出加权矢量量化法;Mizuno则提出了提取共振峰并对各共振峰分别采用线性转换的方法实现谱包络的转换;Narendranath采用BP神经网络来实现共振峰值的转换; Stylianou和Kain采用GMM法对谱包络参数进行建模,克服了矢量量化法在转换时引起的不连续现象;Iwahashi提出了采用说话人语音插值的方法来实现谱包络参数的转换;Valbret提出采用线性多变量回归法(LMR, Linear Mu
14、ltivariate Regression)和动态频率弯折(DFW, Dynamic Frequency Wraping )法进行谱包络的转换;Stylianou提出的GMM法虽然能够克服矢量量化法引起的不连续问题,得到较好的音质,但是会出现共振峰过平滑的问题,对此Toda提出采用DFW法和GMM法相结合的方法;Lee将语音的LPC倒谱分解为时间变化(time-variant)部分和时间不变(time-invariant)部分,对时间变化部分进行转换;Duxans对GMM频谱包络转换法进行扩展,采用与音素相关的HMM技术进行谱包络转换,以此来实现语音动态特征的转换;Rentzos采用HMM对共
15、振峰的频谱特征进行建模转换;Tamura在基于HMM的语音合成系统中采用MLLR(Maximum likelihood linear regression)技术合成出多样语音;Seneff通过估计频谱包络的方式,将语音信号解卷积,得到语音信号的激励,这一方法避免了提取基频的问题;Kuwabara采用分析-合成的方法进行语音转换,通过线性预测解卷积算法将语音信号分解为嗓音源信号和声道传输函数,通过求解声道传输函数的零点得到共振峰的位置,同时采用线性预测的残差信号作为激励来合成语音;Childers采用基于固定长度帧的非基音同步的方法和信号相关的方法来进行分析,并采用了脉冲信号三角波信号Fant嗓
16、音源信号LF微分声门波信号以及DEGG信号作为激励源,利用线性频谱搬移和分析合成的方法,进行男女音之间的转换,取得了较好的效果。 国内的研究状况:初敏等人采用TD-PSOLA方法进行男女语音转换研究:基音周期的变换采用TD-PSOLA法来实现,而声道响应特性的转换则通过采样的方法来实现;王聪修对噪音源特性进行研究:基于嗓音源模型进行韵律转换,谱包络转换采用线性和非线性频谱搬移的方法实现实现男女语音的转换。1.3语音的特性描述1.3.1语音的产生机理语音就是人类说话的声音,是语言信息的表现形式。人的发音器官(肺、气管、喉、咽、鼻、口)共同形成一条形状复杂的管道,喉的部分称为声门,从声门到嘴唇的呼
17、气通道称为声道(Vocal Tract),声道形状的不断改变发出不同的声音。图1-1 “中央革命根据地”(16KHZ抽样、16bit量化)波形图现将语音的声学参数介绍如下:音色:也叫音质,是一种声音区别于另一种声音的基本特征。音长:声音的长短,取决于发声时间的长短。音调:声音的高低,取决于声波的频率。音强:声音的强弱,由声波的振动幅度决定。音节(syllable):说话时一次发出的、具有一个响亮中心、并被明显感觉到的语音片段叫做音节。音素(phoneme):一个音素或者几个音素构成一个音节,它是语音发声的最小单位,现在很多语音转换的研究都是基于音素的研究。元音(vowel):元音的一个重要特征
18、是共振峰(formant)。共振峰:当元音激励进入声道时会引起共振特性,产生一组共振频率简称共振峰。语音一般由三到五个共振峰表示(如图1-2)。辅音(consonant):辅音只出现在音节的前端或后端,它们的时长和能量与元音相比都很小,发辅音时声带是否振动引起浊音和清音的区别。浊音(voice):当气流通过声门时,如果声带的张力刚好使声带产生较低频率的张弛振荡,形成准周期的空气脉冲,那么这些空气脉冲激励声道就会产生浊音(如图1-3)。清音(unvoice):如果声道中某处面积很小,气流高速冲过此处时产生的湍流就是清音(如图1-4)。基音频率:浊音的声带振动基本频率,一般用表示,的变化轨迹称为声
19、调轨迹,反映韵律特性。一般情况下,平均基频随着年龄的增加而降低,女音的平均基频要比男音的平均基频高。基频的分布范围反映发音人的声带振动频率的可调程度,男音的基频范围大约为60200HZ,女音和儿童的基频范围大约为200450HZ。图1-2 语音谱包络的共振峰特性图1-3浊音(voice)波形图图1-4清音(unvoice)波形图关于各声学参数对语音的个性贡献大小的问题,Matsumoto研究得出:基音频率均值贡献最大,其次是共振峰频率,然后是基音频率的波动和声源频谱倾斜;Takagi研究得出:共振峰频率对说话人个性贡献最大,基音频率和共振峰带宽次之;Furui研究得出:由倒谱系数得到的长时平均
20、谱包络对语音的个性特征贡献最大,特别是2.53.5KHZ频率范围的谱包络,平均基音频率为其次;Nakatsui认为基音频率比声道共振特性对语音的个性贡献大;Itoh等认为频谱包络对语音的个性特征影响最大,其次是基音频率和它们的时间轮廓结构。虽然学者们的观点各不相同,但可以肯定,无论哪个声学参数都无法包含所有的语音个性信息,语音的个性特征是许多声学参数共同作用的结果。1.3.2语音的数学模型根据发音器官和语音产生机理的分析,语音的数学模型可以用激励模型、声道模型和辐射模型三个模型串联表示。图1-5给出语音发声的数学模型,其中是激励信号,浊音时是声门脉冲,清音时为随机噪声;是声道传输函数,既可用声
21、管模型描述也可用共振峰模型来描述,实际应用中我们常常将其看作全极点模型,其中H(z)的极点对应于共振峰的位置。 (1-1)则是辐射模型函数,一般用一阶高通的形式表示: (1-2)其中为语音的自相关函数,对于浊音,对于清音该值很小。周期脉冲发生器基音频率F0声门脉冲模型G(z)随机噪声发生器声道模型H(z)辐射模型R(z)AvAu激励模型声道模型辐射模型图1-5 语音发声的数学模型1.4语音转换的评价方法 语音转换性能评估也是语音转换的重要组成部分。最后合成的语音的评价指标主要有可懂度、自然度和清晰度等,单纯用一种评估方法很难完全评估语音的质量。一般来说从主观和客观两个方面对转换后的语音进行评价
22、。1.4.1客观评价方法语音转换的客观评价方法一般是建立在语音幅度谱的具体数值上进行的,通过数学计算结果得出。一般从频谱失真度、信噪比、说话人辨识三方面对语音进行客观评价。下面简单介绍这三种评价标准。1、频谱失真度:所谓频谱失真测度(SD: Spectral Distortion)是指采用与源语音、转换语音、目标语音间的频谱失真度SD相关的方法来评估语音,是语音转换领域广泛采用的客观评价方法: (1-3)式中用表示转换后的语音频谱参数,用表示目标语音的频谱参数,表示用来测试的语音帧的数目。也可以使用相对的频谱失真测度表示: (1-4)式中、分别表示目标语音、转换后的语音和源语音的频谱包络,值越
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一种 改进 CG GMM 激励 联合 语音 转换 技术研究 硕士论文 55
限制150内