《语音识别基础》PPT课件.ppt
《《语音识别基础》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《语音识别基础》PPT课件.ppt(37页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、语音识别基础上海交通大学计算机系上海交通大学计算机系吴亚栋吴亚栋E-mail:E-mail:Tel:62932057Tel:62932057第三章 语音信号处理基础第三章 语音信号处理基础3.1 3.1 短时分析与窗函数短时分析与窗函数3.2 3.2 时域分析时域分析3.3 3.3 频域分析频域分析3.4 3.4 倒谱域分析倒谱域分析3.5 3.5 线性预测分析线性预测分析3.6 3.6 矢量量化法矢量量化法3.1 短时分析与窗函数3.1.1 3.1.1 语音信号的数字化语音信号的数字化*3.1.2 3.1.2 短时分析概要短时分析概要*3.1.3 3.1.3 几种典型窗口几种典型窗口*3.2
2、 时域分析3.2.1 3.2.1 平均能量、幅度及过零数平均能量、幅度及过零数 *3.2.2 3.2.2 自相关函数与平均振幅差函数自相关函数与平均振幅差函数 *3.2.3 3.2.3 时域分析在语音识别中的用途时域分析在语音识别中的用途3.3 频域分析3.3.1 3.3.1 短时傅里叶变换短时傅里叶变换(DFT)(DFT)*3.3.2 DFT3.3.2 DFT与快速傅里叶变换与快速傅里叶变换(FFT)(FFT)*3.3.3 3.3.3 振幅谱和功率谱振幅谱和功率谱*3.4 倒谱域分析3.4.1 3.4.1 倒谱的概念倒谱的概念*3.4.2 3.4.2 倒谱的分析流程倒谱的分析流程*3.4.3
3、 3.4.3 倒谱系数的求法倒谱系数的求法*3.4.4 3.4.4 倒谱分析倒谱分析在语音识别中的用途在语音识别中的用途*3.5 线性预测分析3.5.1 3.5.1 线性预测分析的概念线性预测分析的概念*3.5.2 3.5.2 线性预测系数的求解线性预测系数的求解*3.5.3 3.5.3 线性预测分析在语音识别中的用途线性预测分析在语音识别中的用途*3.6 矢量量化法3.6.1 3.6.1 矢量量化的原理矢量量化的原理*3.6.2 3.6.2 码本设计码本设计*-LBG -LBG算法算法(2(2分割法分割法)概要概要3.6.3 3.6.3 矢量量化在语音识别中的用途矢量量化在语音识别中的用途*
4、l :l提交时间:提交时间:第三章 回家作业3.1.1 语音信号的数字化频率频率采样周期(T)x xa a(t)(t):模拟波形:模拟波形x(n)=x(nT)x(n)=x(nT):取样值时间振幅 l采样:采样:时间方向的离散化时间方向的离散化采样频率采样频率(S)(S)采样定理采样定理l量化:量化:幅度方向的离散化幅度方向的离散化折叠失真折叠失真S S2S2S0 0(b)非准确取样时(S2W)频率频率W W原信号原信号F(F(f f)(a)准确取样(S2W)S S0 02S2Sl语音信号的短时平稳性语音信号的短时平稳性l语音信号的短时分析语音信号的短时分析l短时信号的切取短时信号的切取 分帧分
5、帧 帧长帧长 帧移帧移3.1.2 短时分析的概要w(n)x(n)xj(n)=x(j+n)w(n)jj+N-1 几种典型的窗函数l矩形窗:矩形窗:l汉明窗汉明窗(Hamming)(Hamming):l哈宁窗哈宁窗(Hanning)(Hanning):WR=1=(0nN-1)0=(Other)WHM=0.5-0.46cos(2n/(N-1)(0nN-1)0=(Other)WHN=0.5-0.5cos(2n/(N-1)(0nN-1)0=(Other)3.2.1 短时平均能量、幅度及过零数l短时平均能量的定义:短时平均能量的定义:*l短时平均幅度的定义:短时平均幅度的定义:*l短时平均过零数的定义:短
6、时平均过零数的定义:*短时平均能量Ej的定义 N-1 N-1 E=E=x(n)x(n)2 2 n=0n=0 x(n)x(n):原样本序列原样本序列x(n)x(n)在在j j时刻起,由长度为时刻起,由长度为N N 的窗口的窗口w(n)w(n)所切取出的短时语音段。所切取出的短时语音段。E Eloglog(j)=10log(j)=10log1010(1+E(1+Ej j)E Eloglog(j)(j):语音信号的对数短时平均能量(分贝)。语音信号的对数短时平均能量(分贝)。j jj jj j短时平均幅度Mj的定义 N-1 N-1 M=M=x(n)x(n)n=0n=0 x(n)x(n):原样本序列原
7、样本序列x(n)x(n)在在j j时刻起,由长度为时刻起,由长度为N N 的窗口的窗口w(n)w(n)所切取出的短时语音段。所切取出的短时语音段。j jj jj j短时平均过零数Zj的定义 N-1 N-1 Z=Z=neg(x(n)x(n+1)x(n)x(n+1)n=0n=0 x(n)x(n):原样本序列原样本序列x(n)x(n)在在j j时刻起,由长度为时刻起,由长度为N N 的窗口的窗口w(n)w(n)所切取出的短时语音段。所切取出的短时语音段。neg(x)=neg(x)=j jj jj jj j 0 (x0)1 (x0)静息、无声及有声语音的Ej和Zj的分布关系静息语音静息语音无声语音无声
8、语音有声语音有声语音0 10 20 30 40 50 60 70 800 10 20 30 40 50 60 70 80静息语音静息语音无声语音无声语音有声语音有声语音0 10 20 30 40 50 60 70 800 10 20 30 40 50 60 70 80(a)(a)短时平均能能量短时平均能能量(dB)(b)(dB)(b)短时平均过零数短时平均过零数(次次/10ms)/10ms)3.2.3 短时自相关函数与平均振幅函数l短时自相关函数短时自相关函数*(Short-Time Auto-Correlation Function)(Short-Time Auto-Correlation
9、Function)l短时平均幅度差函数短时平均幅度差函数*(A Average verage M Magnitude agnitude D Differential ifferential F Function)unction)自相关函数与AMDF函数 N-1 N-1 R(m)=R(m)=(x(n)x(n+m)/N(0mN-1)x(n)x(n+m)/N(0mN-1)n=0n=0 N-1 N-1 r(m)=r(m)=|x(n)-x(n+m)|/L(0mN-1)x(n)-x(n+m)|/L(0mN-1)n=0n=0 N-1 N-1 L=L=|x(n)|x(n)|n=0 n=0j jj jj jj
10、jj jj jj j3.3.1 短时傅里叶变换(DFT)X(k)=X(k)=x(n)exp(-j2kn/N),(0kN-1)x(n)exp(-j2kn/N),(0kN-1)j jj jN-1N-1n=0n=0j jj j x(n)=x(n)=X(k)exp(j2kn/N)/N,(0kN-1)X(k)exp(j2kn/N)/N,(0kN-1)N-1N-1n=0n=0(1)(1)DFTDFT(Discrete Fourier Transform)(Discrete Fourier Transform)(2)(2)IDFTIDFT X(k)=X(k)=R R(X(k)+X(k)+I I(X(k)(X
11、(k)j jj jj j3.3.2 DFT与快速傅里叶变换(FFT)l在使用算法时应注意:在使用算法时应注意:(1)(1)时间窗要求采用两端衰减型的窗函数时间窗要求采用两端衰减型的窗函数(2)(2)数据长度要求满足:数据长度要求满足:N=2N=2M短时帧长:200 FFT帧长:256 补零3.3.3 振幅谱和功率谱(1)(1)振幅谱振幅谱|X(k)|X(k)|X(k)|=|X(k)|=R R(X(k)+X(k)+I I(X(k)(X(k)j jj jj jj j2 22 21/21/2(2)(2)功率谱功率谱 S(k)S(k)j j S(k)=|X(k)|/N S(k)=|X(k)|/Nj j
12、j j2 23.4.1 倒谱的概念l定义:倒谱定义为信号短时振幅谱的对数定义:倒谱定义为信号短时振幅谱的对数傅里叶反变换。傅里叶反变换。l特点:具有可近似地分离并能提取出频谱特点:具有可近似地分离并能提取出频谱包络信息和细微结构信息的特点。包络信息和细微结构信息的特点。3.4.2 倒谱的分析流程DFTDFTLog|Log|IDFTIDFTXDFTDFT峰值峰值检测检测A A 倒谱窗倒谱窗(lifter)(lifter)x(n)x(n)XB BC CD DE EF F 时间窗时间窗A A:短时信号;:短时信号;B B:短时频谱;:短时频谱;C C:对数频谱;:对数频谱;D D:倒谱系数;:倒谱系
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音识别基础 语音 识别 基础 PPT 课件
限制150内