语音识别关键技术及其改进算法研究_刘方洲 (1).docx
《语音识别关键技术及其改进算法研究_刘方洲 (1).docx》由会员分享,可在线阅读,更多相关《语音识别关键技术及其改进算法研究_刘方洲 (1).docx(94页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 Study on the Key Technology of the Speech Recognition and ifs Improved Algorithm A Dissertation Submitted for the Degree of Master Candidate: Liu Fangzhou Supervisor : Prof. Ma Ronggui Changan University, Xian, China 论文独创性声明 本人声明:本人所呈交的学位论文是在导师的指导下,独立进行 研究工作所取得的成果。除论文中已经注明引用的内容外,对论文的 研究做出重要贡献的个人和集体
2、,均己在文中以明确方式标明。本论 文中不包含任何未加明确注明的其他个人或集体己经公开发表的成 果。 本声明的法律责任由本人承担。 论 文 作 者 签 名 : 丨 年 6 月 卜 曰 论文知识产权权属声明 本人在导师指导下所完成的论文及相关的职务作品,知识产权归 属学校。学校享有以任何方式发表、复制、公开阅览、借阅以及申请 专利等权利。本人离校后发表或使用学位论文或与该论文直接相关的 学术论文或成果时,署名单位仍然为长安大学。 (保密的论文在解密后应遵守此规定) 论文作者签名 : A 千年 6 月 k曰 导师签名 : 从令年 i?。 当分子、分母无公因子,且分母无重根时,上式可分解为部分分 式的
3、和,见式 (3.4)。 V(z) = S k=0 A 1-尽 z 1 -Cj 2 (3.4) 在实际应用过程中,对于一般元音来说,取其前 3个共振峰就可以了;而对于某些 特殊元音和大部分的辅音则至少需要取 5个甚至更多个共振峰。 3丄 3辐射模型 人的声音通过声道最终由口唇辐射出去,而口唇的辐射效应可以用辐射阻抗 Z, 即 语音的声压波与气流的速度波之比来表示。我们很难从理论上推导出 Z, 但是如果假定 头部的表面积远远大于口唇张开的面积,则可以得到如下的辐射阻抗公式 : 勝 (3.5) 式 (3.5)中, i? = 2, = a为口唇张开的半径, c为声速。研宄发现,声音信号 9丌 - in
4、c 在高频段的口唇辐射效应较为明显,而低频段受到的影响则较小,因此口唇辐射模型可 以近似用一个高通滤波器来表示: R(z) = (I - rz 1) (3.6) 其中 r接近于 1。在实际的信号分析过程中,我们常常采用插入一阶高通滤波器的方法 对采集到的信号进行 “ 预加重 ” ,然后再合成时再采用 “ 去加重 ” 对原来的语音进行恢 复。 完整的语音信号产生的数学模型就是上述三种子模型的级联,其传递函数为: H(z) = U(z)V(z)R(z) (3.7) 13 第三章语音信号的采集与预处理 3.2语音信号采集和量化 3.2.1语音信号的采样 对语音信号进行采样就是采集语音模拟信号的样本。
5、通过采样可以将时间、幅度上 都连续的语音模拟信号转换成时间离散、幅度连续的离散语音模拟信号。由奈奎斯特 (Nyquist)抽样定理知,在频带宽度有限的前提下,只要满足 /2/max,就可以无失 真地从抽样信号中恢复原始信号 2 0 -1 n(i, k) = (n- i)s(n - k) 式 (4.6)被改写成: 彡 ,0) = #(/,幻 1=1 式 (4.8)中的方程组包含有 N个方程, N个未知数,对于方程组 (4.8),可以利用莱文逊一 德宾 ( Durbin-Levinson)自相关递推算法 37或者舒尔 (Schur)递推算法 38来求解,方程组的 解就是我们要求的 LPC预测系数。
6、 (3) 阶数的选择 由于 LPC系数是基于人体发音模型推导而来,根据人体发音器官的特点,其每一段 声管都对应着一个极点 。一 般来讲,极点个数在 12-16之间就足够描述语音信号的特征 了 36。但是我们知道人体发音声道的模型除声管模型外还有共振峰模型,因此为了使建 立的 LPC模型更好地符合人体语音产生模型,应尽量使 LPC模型中极点的个数与共振 峰的个数相互匹配。通常情况下,一个共振峰对应一对极点。用采样频率采集到 的语音信号一般含有 4个共振峰,对应的极点个数就是 8,因此 LPC模型的阶数 7V = 8, 对于采样频率 10好 fe的语音信号,可取斤 =1。通常情况下,还需要在上述极
7、点的基础 上再增加两个极点,以此来弥补由于其它因素引起的偏差。这样一来,上面的两个阶数 相应地变为 7V = 10和 7V = 12。经验表明, LPC模型阶数一般选择在 8 -12之间,当 7V = 12 时,就可以足够近似地逼近声道模型了。阶数 N也不应选得过大,因为当 N值很大时, 虽然在能够稍稍改善其逼近效果,但是另一方面也会大大地增加计算量,还可能给模型 带来一些不必要的细节,反而影响效果。 4丄 2线性预测倒谱系数 LPCC 在语音识别系统中,为了提高参数的稳定性,很少直接采用 LPC线性预测系数,而 是利用同态信号处理的方法,求其在倒谱域中的表示一一线性预测倒谱系数 LPCC。
8、(1) 同态处理 语音和图像等信号中的调制信号都是非线性的乘积信号 或卷积信号,同态信号处理 的思路就是将这些非线性的信号转换成线性信号来处理。同态处理按照其处理的信号分 (4.7) (4.8) 34 长安大学硕上学位论文 类,可以分为乘积同态处理与卷积同态处理两种。同态处理的一个重要理论就是,任何 一个同态系统都可以由三个同态系统的级联表示 39: .(;?) *.T2(;7) A, ()+ A2 () V, ( )+V2() 为 ( )*为 ( ) 图 4.1同态系统的组成 如图 4.1所示,一个同态系统可以被分解为三个系统:第一个系统为特征系统,它 将卷积信号转换成线性相加的信号;第二个
9、系统为线性系统,满足叠加定理;第三个系 统也是特征系统,是第一个系统的逆变换,作用是将线性处理后的信号再逆变为卷积信 号。 要将卷积信号转变为时域内的加信号,需要经历三步。 第一步是通过 Z变换将卷积信号转换成乘积信号: Zx(n) = X(z) = Xl(z)*X2(z) (4.9) 第二步是利用对数运算将乘积信号转化为加信号: lnX(z) = lnX1(z).X2(z) = lnX1(z) + lnX2(z) = X1(z)+i2(z) = X(z) (4.10) 第三步是对上一步得到的加信号进行逆的 z变换,在将其恢复到时域: ZXl(z) + X2(z) = xt(n) + x2(n
10、) = xn) (4.11) 得到的时域信号 x()在经过同态系统中线性系统的线性处理后,可以利用特征系统 乃一 1. 再将其恢复成卷积信号。 (2) 倒谱与倒谱的求解 我们称时域序列 x( 为时域序列 x(n)的 “ 复倒谱 ” ,由于在绝大多数的信号处理中, X(z)和的收敛范围均包括单位圆,因此可以用离散的傅里叶变换 (DFT)代替式 (4.9) 中的 Z变换,用其逆变换代替式 (4.11)中 2_1变换,这样一来,公式 (4.9-4.11)就可以被改 与成: Fx(n) = X(eJ(0) (A 35 第四章语言特征参数提取及其改进 X(eja)=nX(eja) (4 13) x(n)
11、 = F-lX(eJC0)l (4 14) “ 倒谱 ” 的定义与 “ 复倒谱 ” 类似,区别在于将上式中的对数运算用模的对数运算 代替。若 c 表示倒谱,则倒谱的定义为: c(n) = F lln X(ejco) (4.15) 由式 (4.15)知, “ 倒谱 ” 实际上就是序列 x()的对数幅度谱的傅里叶逆变换。倒谱系数是 一种很好的语音特征参数,它能够去除人类发音过程中的激励信息,突出声道响应的特 性,在语音识别中得到广泛应用且取得了很好的效果 4 。 下面我们就推导一下 “ 倒谱 ” 求解过程。当序列 ;c()满足最小相位时, X(z)在单位 圆内就是解析的,这时就可以利用递推关系来简
12、化计算 : x, (z)=logX(z) = X(z) dz X(z) 等式两边同乘以得: 八 zX(z) = zX(z)X(z) 对上式进行逆的 Z变换得: 00 八 nxn) = xk)xn-k) co 当 不等于 0时,则两边同除以 k x(n) =, y x(k)x(n-k), n 关 0 n 当 n0 、 k= n (4.16) (4.17) (4.18) (4.19) (4.20) A 将其中的夂 ( ) = 夂 展 开 有 : k= n 36 长安大学硕士学位论文 n l k xn) = x(n)x(0) + y x(k)x(n -k) k=0 因此得出 “ 倒谱 ” 递推公式为
13、 : xn) 0 xn) A /7. xn-k) 2-xk)- x(0) k=Q x(0) ,n0 (4.21) (4.22) 式 (4.22)就是时域序列 x()与其 “ 复倒谱 ” x()的递推关系。 (3) LPCC的求解 LPCC即线性预测倒谱系数是一种十分重要的语音特征参数,与上面讲到的 “ 复倒 谱 ” 和 “ 倒谱 ” 不同,它是直接求线性预测系数的倒谱, LPCC与 LPC之间的递推关 系如下所示: c =l gG2 (4.23) c = = an+Z,Clcan-k (N) (4.25) k=i n 上式中的 q 般不计算,因为它代表的是直流分量,不影响频谱的性态,只影响频谱
14、的 能量大小。当线性预测倒谱系数的阶数小于线性预测系数的阶数 #时,用式 (4.24)进 行计算,若时,则用式 (4.25)进行计算。 4.2梅尔倒谱系数 MFCC 由于线性预测编码 (LPC)模型是基于人的发音模型建立的,因此线性预测倒谱系数 (LPCC)是一种表征语音合成特性的参数,并不能如实的反映人耳的听觉特性,而梅尔倒 谱系数 (Mel Frequency Cepstrum Coeficien, 简称 MFCC)就是一种将语音合成特性和人耳 感知特性相结合的特征参数,近年来得到广泛地应用。 4.2.1 MFCC参数原理 人耳所能感受到的声音信号的频率范围在 20Hz-20000Hz之间
15、,但是随着近年来神 经学和心理学领域对人类听觉系统的研宄发现,人耳对不同频率信号的感知能力是不同 37 第四章语言特征参数提取及其改进 的 41。对于 1000Hz以下的语音信号,其灵敏度与信号的频率成线性关系;对于 1000Hz 以上的信号,其灵敏度与信号频率的关系就近似于一种对数关系。因此,人耳对低频的 敏感度相较于高频信号更高。为了模拟人耳的这种感知特性,人们提出了 Mel频率尺度 的概念,将对 1kHz的音调的感知程度的 1/1000定义为 1个 Mel, 其和线性频率 /&的 转换关系如公式 (4.26)所示 42: fmel =25951og10(l + ) (4.26) 式 (4
16、.26)中, /为线性频率, /,rf为转换后的梅尔频率,两者之间大致成对数关系。 4.2.2 MFCC参数提取 MFCC参数提取的流程框图如图 4.2所示。从中我们可以看出, MFCC参数也是以 加窗 图 4.2 MFCC参数提取流程原理图 帧为单位进行计算的。 FFT为快速的傅里叶变换 ( Fast Fourier Transformation), 其作用 是取得帧信号的离散功率谱。 Mel滤波是由 Mel频率滤波器组实现的, Mel频率滤波器 组是根据耳蜗的作用和特性而发明的一组滤波器 43。由于耳蜗对声音信号频率的感知能 力为非线性的,所以 Mel频率滤波器组在线性频域上是非均匀的三角
17、带通滤波器,将其 转换到 Mel频率域后,其在 Mel频率轴上就成了均匀分布的了。 24阶的 Mel滤波器在 线性频域中的输出如图 4.3所示,每个三角形的顶点所对应的频率为其中心频率 /,。可 以看到在较低的频率范围内,即当 m值较小时,相邻的 /,之间间隔很小, /和成线 性关系;随着 m的增加,相邻的 /,之间间隔也逐渐增大, /和 /,之间呈现出对数关系。 每个三角形带通滤波器的下限频率和上限率频率分别对应于两个相邻三角带通滤波器 的中心频率 /,也就是说,相邻的滤波器的过渡段相互重叠,且频率响应的和为 1。我 们还要提前计算好 Mel频率滤波器组的相关参数,以便求解 MFCC参数时使
18、用。 38 长安大学硕上学位论文 24阶 MEL滤波器 图 4.3 24阶 Mel滤波器组在线性频域上 的输出 在实际应用中,通常采用如下的步骤来计算 MFCC参数: (1) 首先对原始的语音信号进行预加重和加窗分帧等预处理,分帧时确定好每帧信 号的抽样点的点数,即每帧语音信号的长度 N。 设分帧后的帧序列为 fm+l fm-l (m; ,.) = |T(m,. ), )。 (3) 由巩 (似, )得路径的总失真。 (4) 按照上述方法从 i=M的点 (M,A 向前递推,即可获得最佳路径 n; = ), 其中 i 从 M 到 0。 50 长安大学硕士学位论文 5.2隐马尔柯夫模型 (HMM)
19、马尔柯夫模型 (Markov Model)是由安德烈 .马尔柯夫 ( AndreiMarkov, 1856 1922) 提出的一种统计模型,用途十分广泛。后来人们又在马尔科夫模型的基础上发展出多种 变型,隐马尔柯夫模型 (HMM)就是其中的一种。 HMM在语音识别中的成功应用,彻底 改变了语音识别的历史,具有及其深远的影响。 5.2.1马尔柯夫链 想要理解 HMM模型,就必须先介绍马尔柯夫链的概念 47。马尔柯夫链描述的是有 限状态机中的 N个状态在时间 T内的变化情况。用 S表示有限状态集 , S 则状态机在某一时刻 t的状态 X,只能等于有限状态集 S中的其中一个状态 &,其中 f = l
20、,2,.; T, / = 1,2,.,7V。 状态机在时间 T内的状态 X按照时间先后顺序构成了一条 状态链尤 =尤 1,尤 2,.,: ,其概率满足下式 : P(Z1,Z2,.,Zr)=P(Zf|Z1,Z2,.,Zf_1) (5.4) t=i 称满足式 (5.4)的状态链 X为马尔柯夫链。进一步,若状态链 X满足 “ 马尔柯夫假设 ” , 即状态链 X中任一时刻 t的状态 X,属于有限状态集 S的概率只与它的前一个状态 有关,而与 t-1时刻之前的任何状态都无关,则状态链 X = XPX2,.,J的产生概率满足 : P(X l ,X2,.,XT) = P(X i )flP(X t Xt_i)
21、 (5.5) t=2 此时,就将状态序列 x组成的马尔柯夫链称作 “ 齐次马尔柯夫链 ” 47。 由于不存在 t=0的时刻,因此 t=l时状态机的状态 X,由矩阵 ;=;1,;2,.,;v决定。 矩阵 ;T为初始状态概率分布矩阵。; T的分量 ;T,., /=1,2,.,W分别表 7K齐次马尔柯夫链 中初始状态 &等于有限状态集中的第 i个状态 &的概率,即: TrPiXS,), i = l,2,.,N (5.6) 除了初始状态的概率分布矩阵 ;r之外,再定义一个 N阶的方阵 A = 其中方阵 的元素的值表示状态从 & 一步转移到丨的概率,因此称方阵 A为状态转移矩阵, 51 第五章模型的训练
22、和识别算法及其改进 元素计算公式为: a,j =P(Xr+l = Sj I Zr = 5;), l j_;其初始概率分布为: f 1 i = 1 1 ?,1 (5.9) 即必须从第一个状态开始转移。由于这种从左至右的 HMM模型能够反映时序结构,因 此在语音识别中常常采用这种模型。 5.2.5 HMM的三个问题及其求解算法 在了解 HMM的定义及其拓扑结构后,要将其实际应用于语音识别,还需要解决以 下三个问题 5Q。 问题 1:输出概率的计算问题 在给定 HMM模型 A=TT,A, 5 和 观 察 序 列 的 情 况 下 , 如 何 计 算 观 察序列 0对 HMM模型 ;I的输出概率尸 (O
23、IA)。 问题 1又被称作评价问题,试想,若存 在多个模型,通过计算由每个模型观测到给定观察序列的概率,我们就可以评价出一 54 长安大学硕士学位论文 个最优的模型。 问题 2:最佳状态序列的确定问题 在给定 1111模型 /1=; ,人 5和观察序列 (9 = | 1, (92, ., (的情况下,如何确定一 个最优的状态序列 2 = 1, ,.,%,使得该状态序列广生该观测序列的概率最大。问题 2又被称作解码问题。 问题 3: HMM模型参数的调整与优化问题 在 给 定 观 察 序 列 的 情 况 下 , 如 何 设 定 与 优 化 HMM模型的三个参数 ; 1=丨冗 ,5丨,使得该 11
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音 识别 关键技术 及其 改进 算法 研究 刘方洲
限制150内