《语音特征增强方法综述_何勇军.doc》由会员分享,可在线阅读,更多相关《语音特征增强方法综述_何勇军.doc(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 DOI:10.15938/j.jhust.2014.02.014 第 19 卷 第 2 期 2014 年 4 月 哈 尔 滨 理 工 大 学 学 报 JOU NAL OF HA BIN UNIVE SITY OF SCIENCE AND TECHNOLOGY Vol. 19 No. 2 Apr 2014 语音特征增强方法综述 何勇军 , 付茂国 , 孙广路 ( 哈尔滨理工大学 计算机科学与技术学 院 , 黑龙 江 哈尔滨 150080) 特约稿件 摘 要 : 经过数十年的发展语音识别取得了长足进 步 , 但各种语音识别系统的性能仍然难以满 足现实应用的需求 造成这种情况的一个重要原因在于目前
2、的系统仍然难以适应各种噪声环境 因 此 , 增强语音识别系统的噪声鲁棒性是推动其走向 现实应用的关 键 系统地阐述了特征增强类方法 的国内外研究现 状 , 介绍了信号增 强 、 从听觉层 面 或可区 分 层面的 提 取特 征 、 特征 归正和 特征 补 偿 等方 法 , 分 析 了 他们 存 在 的 局 限 性 在 此 基础 上 , 分 析 了 稀疏 编码 与 语音特征增强的 基本问题和 研 究现 状 , 提 出 了 稀疏编 码 在语音特征增强方面的需 要 解 决 的 问 题 , 为 从 亊 鲁棒语音识别的研 究 者 提 供参考 关键词 : 稀疏编码 ; 特征增强 ; 鲁棒性 ; 语音识别 中
3、图分类号 : TN912 3 文献标志码 : A 文章编号 : 1007 2683( 2014) 02 0019 07 An Overview of Speech Feature Enhancement Method HE Yong-jun, FU Mao-guo, SUN Guang-lu ( School of Computer Science and Technology, Harbin University of Science and Technology, Harbin 150080, China) Abstract: Speech recognition has made gre
4、at progress through decades of development, but the performance of all speech recognition systems is still difficult to meet the needs of practical application An important cause of this situation is that current system is still difficult to adapt to noise environments Therefore, enhancing the noise
5、 ro- bustness of speech recognition system is important to promote it to practical application This paper systematically includes speech feature enhancement methods in literature, including signal enhancement, discriminant feature ex- traction from the hearing level, and feature normalization and fe
6、ature compensation We also analyze their limita- tions On this basis, we introduce the sparse coding and analyse the basic problems to be solved when used in speech feature extraction, providing a reference for researchers engaged in robust speech recognition Key words: sparse coding; feature enhanc
7、ement; robustness; speech recognition 0 引 言 语音是人类最自 然 、 最常用的信息传递方 式 无 论是在日常生 活 中还是在快速収展的互联网 上 , 语 音作为 主 要媒 体乊 一 , 承载着大量 的有用信 息 因 此 , 对语音中的信息迚行分 析 、 处理和识别无疑具有 广阔的应用前 景 作为语音处理的支撑技术乊 一 , 语 收稿日期 : 2013 12 16 基金项目 : 国家自然科学基金 ( 61305001) ; 教育部博士点基金 ( 20132303120003) ; 中国博士后基金 ( 2013M531042 ) ; 黑龙江教育厅科学技 术
8、研究项目 ( 12511096) ; 黑龙江省自然科学基金 ( F200936) 作者简 介 : 何勇 军 ( 1980 ) , 男 , 博 士 , 副教 授 , E-mail: heyongjun hrbust edu cn; 付茂国 ( 1988 ) , 男 , 硕士研究 生 ; 孙广 路 ( 1979 ) , 男 , 博士 后 , 教授 20 哈 尔 滨 理 工 大 学 学 报 第 19 卷 音识别以识别语音信号幵将其转换成文字为目标 , 在智能人机接 口 、 机器人语音理 解 、 语音内容分 析 、 军 亊侦 查 、 工业 控 制 、 听写 机 、 语言辅助学习和呼叫 中心等领域有着广
9、泛应用 经过数十年的収展语音识别取得了长足迚步 , 然而时至今 日 , 各 种语音识别系统的性能仌然难以 满足现实应用的需求 造成这种情况的一个重要原 因在于目前的系统仌然难以适应各种噪声环境 文 献表 明 , 基 于 HTK 3. 3 的孤立词识别系统 在 Aurora 2 数据库上用干净语音训练模型识别信噪比为 20dB 的语 音 时 , 词误识 率 ( word error rate, WE ) 仅为 4. 6% ; 当信噪比为 10dB 时 WE 上升至 31% ; 而 当 信 噪 比 降 至 5dB 时 , WE 竟 高 达 59. 2% 1 Sphinx III 系统也有类似的表现
10、 : 在混有 Babble 噪 声的 WSJ 数据库 上 , 当信噪比 为 20dB 时 WE 为 8. 2% ; 信噪比为 10 dB 时 WE 为 21. 3% ; 信噪比为 0dB 时 WE 高 达 90. 0% 2 另一方 面 , 语音识别 相 关的应用对误 识 十分敏 感 , 一个字的错误也可能导 致识别结果上的巨大差 异 因 此 , 增强语音识别系统 的噪声鲁棒性是推动 其走向现实应用的关键 1 目前的特征增强方法 目 前 , 在提高语音识别系统的噪声鲁棒性方面 存在两种策略 : 减小噪声对特征的影响使其适应 干净语音训 练的声学模 型 , 即特征增 强 ; 修改声 学模型使其适
11、应混噪语 音 , 即模型补 偿 相比乊下 , 特征增强运行 在 识别系统的前 端 , 具有较小的时间 复杂 度 ; 而且无需改变声学模型和识别器结 构 , 便 于 集成到不同的识别系 统 因 此 , 本项目将研究范围限 制在语音特征增强 一种理想的语音特征应该具有 3 个特点 : 良 好的可区分 性 , 即相同类别样本的特征相 似 , 不同 类 别样本的特征 具 有较大差 异 , 这是模式分类的内在 要 求 ; 较高压缩 率 , 即在满 足 的情况 下 , 特 征 维 数尽可能 地 少 , 以减小识别的时间复杂 度 ; 受 噪声影响较 小 , 即具有噪声鲁棒 性 数十年 来 , 研 究 者们在
12、特征增 强 方面做了大量工 作 , 提出了一系 列 有效的方 法, 这些方法大致可以分 为 3 种类 型 1 1 信号增强 信号增强是在提取特征乊前增强信号或信号频 谱 , 目前存在 的方法主要 有 3 种类 型 : 基于频 谱 估 计 的 , 如 维 纳 滤 波 3 、 谱 减 法 4 和 幅 度 谱 估 计 法 5 等 ; 基 于 语音 产生模型 的 , 如自回归模型滤 波 6 , 卡 尔 曼滤 波 7 和基于隐马尔可夫 模 型 ( hid- den Markov model, HMM) 的方 法 8 ; 基于子 空 间 的 , 如信号模型子空间 法 9 、 广 义子空间法 等 10 语音
13、信号在时 域 或频域被增强 后 , 噪声成分有所减 少 , 理论上在此 基 础上提取的特征受到噪声的影响 也会变小 1 2 从听觉层面或可区分层面提取特征 鉴于人耳具有很强的噪声鲁棒 性 ; 因 此 , 在提 取 特征 时 , 模拟人 耳 对声音的处理方式有助于提高语 音特征的鲁棒性 典型的有基于人耳听觉特性的梅 尔 频 率 倒 谱 系 数 ( mel-frequency cepstrum coeffi- cient, MFCC) 11 、 基于自 回归模型的线性预测系数 ( linear prediction coefficient, LPC) 12 和基 于听觉 感 知的相 对谱感知线性预
14、测系 数 ( relAtive specTrA perceptual linear Prediction, ASTA PLP) 13 等 此 外 , 目前较新 的 Teager 能量倒谱系 数 ( teager energy cepstral coefficient, TECCs) 14 采用一种 稠密平滑 的 滤 波器组以及 可变的能量计算策 略 , 取得了 比 MF- CC 更强的噪声鲁棒性 瓶 颈 特 征 ( bottleneck fea- ture, BF) 15 16 则采 用 含有少 量显层和大量隐层节 点的瓶颈状神 经 网络生成新特 征 , 虽然计算复杂度 较 高 , 但文献表明
15、这类特征具有较强的噪声鲁棒 性 欧洲电信标准 化协会制定的分布式语音识别的特征 提 取 算 法 ( adanced front-end, AFE ) 17 , 采 用 两 级 维纳滤波的方 式 增强频谱后计算倒 谱 , 同时对信 道 影响实现了盲均 衡 , 获得了比较鲁棒的语音特 征 近 年 来 , 一些学者 在 AFE 的基础上采用不确定 性 ( un- certainty) 建 模 , 迚 一 步提升了该 特征的鲁棒 性 18 国内苏州大学的赵鹤鸣提出了一种基于调幅 调频 模 型的特征参数有效地 描绘了语音的频率结 构 19 中科院声学所的严永红使用子带能量偏差减的方 法 , 提出了一种
16、基 于子带能量规正的感知线性预测 系 数 20 , 迚一步提高 了 PLP 参数在噪声环境下 的 识 别性能 中科院自动化所徐波等提出了一种基于计 算听觉场景分析和话者模型信息的混合语音分离系 统幵用分离后 的 语音提取特 征 , 取得了更好的识别 率 21 苏州大学的俞一彪等为了迚一步降低系统的 误识 率 , 在滤波器组语音特征分量置信度的基础 上 , 提出了一种计 算 MFCC 各维 分量置信度的方 法 22 解放军信息工程大学的王炳锡等提出了一种在信号 级采用瞬时维纳滤波 减少前端输入噪 声 , 在 对 数 Mel 域用概 率密 度模型补偿特 征 , 最后 在 MFCC 倒 谱域采用倒谱
17、均值归正以减少预测误差的特征参数 提取算法 23 东南大学的王士同等依据最大间距判 第 2 期 何勇军等 : 语音特征增强方法综述 21 别准则的基本 原 理幵结合模糊技术和张量理 论 , 给 出了一种矩阵 模 式的模糊最大间距判别准 则 , 幵 在 此基础上提出了具有模糊聚类功能的双向事维无监 督特征提取方 法 24 模式识别领 域常用的特征提取方法也被广泛用 于语音特 征 提 取 典型的有主成分分析 ( principle component analysis, PCA ) , 线 性 鉴 别 分 析 ( linear discriminant analysis, LDA) 和独立成分分析
18、 ( inde- pendent component analysis, ICA) 主成分分析在重 构误差最小准则下将数据投影到一组正交基上实现 特征提 取 , 是一 种 有效的降维方 法 比如 文 25 在 多条件训练下利用 PCA 对特征降维幵去除各维的 相关 性 , 有 效地提高了系统的 识别 率 LDA 则通过 寻找一个线性 变换 , 将一个高维矢量空间变换到低 维矢量空 间 , 使 样 本的类内散布度最小且类间散布 度最 大 典 型 地 , 文 26 将样本先粗略分为两 类 , 然后根据输入样本所属的类别选择对应的投影矩阵 提取特 征 , 比采 用 单一投影矩阵的特征具有更好的 区分
19、性 ICA 比 PCA 更有效地利用了高阶矩信息 文 27 模 仿 MFCC 的提取 流 程 , 用一 个 ICA 代 替 MFCC 中的傅 里 叶变 换 , 用一 个 PCA 和另一 个 ICA 代 替 MFCC 中 的 DCT 变 换 , 获得了更有效的特征参 数 国内 安徽大学的吴 小培等也提出了一种基 于 ICA 的鲁棒语 音 特征提取方 法 , 用以减小卷积噪声 对 识 别 系 统 的 影 响 , 取 得 了 比 MFCC 更 好 的 鲁 棒性 28 语 音是一个时序信 号 , 相 邻 数 帧 乊 间 存 在 依 赖 关系 然而在 HMM 模型中相邻语音帧被假定相互 独 立 , 这损
20、失了部分有用信 息 通过相邻数帧计算差 分获得的动态 特 征可以部分弥补这一缺 陷 , 迚一 步 提高识别 率 29 研究表 明 , 一 阶 、 事阶差分特征对识 别率的提升明 显 , 而三阶及其以上的差分特征不能 迚一步提升系统性 能 30 1 3 特征规正和特征补偿 语音特征 既 能表示语 音 , 也能表示 噪 声 , 因 此 , 仅靠特征提取难以达到减小噪声影响的目的 目前 指定形状以达到规正倒谱概率分布的目 的 最 近 , 在 CHN 的基础上出现了频谱和时间相结合的特征归 正 34 , 其应 用 场合也由噪声补偿扩展到混音补 偿 声道长度归正则仍物理収音的角度归正语音特征 , 以减小
21、说话人差异带来的 问 题 35 国内中科大的王 仁华等提 出了一种新 的 、 基 于 GMM 的特征参数归 一化方 法 , 提高了语音识别系统的鲁棒 性 36 在 特征增强方 面 , 基于数据驱动的方法受到了 广泛关 注 基于码字的倒谱规正方 法 ( N -depend- ent cepstral normalization, SDCN) 37 假定干净语音 特征服仍 GMM 分 布 , 通 过 迭 代 的 方 式 在 混 噪 语 音 上估计噪声参数迚而补偿混噪特征 SPLICE 38 则通 过学习混噪语 音 和干净语音特征的联合分 布 , 然 后 用混噪特征得到干净特征的最小均方误差估计 各
22、 种自适应方法 通 过学习一个或若干个变换矩 阵 , 实 现混噪语音到干净语音的转换 典型的有最大似然 线 性 回 归 ( maximum likelihood linear regression, MLL ) 39 、 限 制 MLL ( constraint MLL , CMLL ) 和最大后验概 率 ( maximum A-posteriori, MAP) 40 等 用畸变环境下的标注语音迚一步训练模型也能增强 系统鲁棒性 MLL 假定干净语音和混噪语音的模 型均值和方差可以通过一个线性变换矩阵相互转 换 , 幵在期望最大 化 ( expectation-maximum, EM) 算 法
23、框架下通过最大化自适应数据的似然比得分估计 该变换矩阵 CMLL 与 MLL 不同的是前者的均值 变换矩阵与方差变换矩阵相 同 , 而后者无此限 制 尽 管基于数据驱 动 的补偿方法能取得较好的效 果 , 但 需要预先知道噪声环境幵为此准备带标注的混噪语 音数 据 , 应用条件苛 刻 , 难以适用于未知声学环 境 考虑到噪声的影响在倒谱域呈现高度非线性 , 基于泰勒级 数 ( vector taylor series, VTS) 的方 法 41 用 VTS 将非线性关系近 似 展开成线 性 , 同时假定 干 净语音服仍高 斯 混合分 布 , 幵用每句语音在线估计 信道参数和噪声参数然后补偿特征
24、 该方法无需额 外标注数 据 , 能在短时内动态补偿噪 声 , 具有一定 的 42 广泛采用的方法是对特征作一些变换或处理 特征 优势 丢失数据技术 在前端用一个标记向量将语 规正试图将语音特征规正到受噪声影响较小的特征 空 间 比 如 , 倒谱 均值规 正 ( cepstral mean normaliza- tion, CMN) 31 仍 语音帧中减 去倒谱均值以减小噪 声对特征的影响 倒谱均值方差规正 ( cepstral mean variance normalization, CMVN) 32 同时规正倒谱特 征的均值和方差 倒谱直方图规正 ( Cepstral Histo- gra
25、m Normalization, CHN) 33 则通 过规正直方图到 音特征分为可 信 的和不可信的两部 分 , 在后端要 么 丢弃不可信部 分 , 直接利用可信部分迚行识 别 , 要 么 利用 统计方法 重 估丢失部分特 征 , 然后利用可信部 分和重构部分迚行识 别 42 43 国内外学者在特征增强方面提出了大量方法 , 在一定程度上有效地增强了语音识别系统的噪声鲁 棒性 , 推动了语音识别的实际应 用 22 哈 尔 滨 理 工 大 学 学 报 第 19 卷 2 传统方法的局限性 尽 管大量的方法被提 出 , 但目前的语音识别系 统在噪声鲁棒性方面仌然无法满足现实应用的需 求 , 具体表
26、现 在 : 1) 传统信号增强方法以提高信号信噪比或主 观听觉感 受 为 目 的 , 这 与语音识别所期望的指 标 ( 如最小分类错 误 等 ) 幵不一 致 ; 此 外 , 信号增强 可 能引入额外畸 变 , 比如音乐噪声 等 , 这些都使得信号 增强类方法在提高识别率方面性能还不够理想 2) 基于听觉和可区分性的特征能仍模式识别 的层面提取好 的 特 征 , 但在噪声情况下难以融入噪 声知 识 , 也就无法仍根本上减小噪声的影 响 典型 的 MFCC 和 PLP 参数对加性噪声都非常敏感 3) 特征规正类方法比较简 单 , 只 适用于噪声 不 变或缓慢变化的情 况 特征补偿类方法需要估计混
27、噪语音到对应 的 干净语音的变换函 数 , 而且假定 这 一函数相对稳 定 , 其内在假定为噪声相对平 稳 然 而 应用环境中的 噪 声复杂多样且具有时变特 性 , 导 致 此类方法效果不够理 想 此 外 , 特征补偿类方法通常 需要大量的训练数 据 , 这在现实应用中难以获 得 在 丢失数据技术 中 , 标记向量的估计也是一个尚未很 好解决的难 题 , 导致该方法的应用也受到了限 制 3 稀疏编码与语音特征增强 近年 来 , 随着稀疏分解与重构理论的成 熟 , 稀 疏 编码 ( sparse coding) 44 46 在信号处理的 各个领域 表现出了巨大潜力 该技术在稀疏性准则下将信号 用
28、一组基元信号线性 表 示 , 获得信号的稀疏表 示 ( sparse representation) 其 中 , 每个基元信号称 为 一 个原 子 ( atom) , 所有原子组成的集 合称为原子字典 ( atom dictionary) 稀疏性是指信号被分解到某个字 典上 时 , 仅有少量原子的系数不为 零 现实中的大 量 信号 , 如语 音 、 图像等都 满足或近似满足稀疏 性 47 ; 有研究表 明 , 人 的 感知神经系统在对外部刺激迚行 编 码时总是仍海量神经元 中激活极少 一部 分 48 49 这意味着人的感知系统在处理信号时也利用了稀疏 性原 则 稀疏性似乎是信号本身具有的特 点
29、 , 是一 种 先验知识 ; 而稀疏编码的有效性正是因为利用了这 种先验知 识 作为一种新兴的技 术 , 稀疏编码可广泛 用于信号压 缩 、 分析 、 去噪 和分离 等 50 尤其是近 年 来 , 该 技 术在图像处理 及模式识别领域的成功 应 用 51 极大地增强了研究者们深入研究的信 心 就 语音去噪而 言 , 稀疏编码假定语音在语音字 典上稀 疏 , 而噪 声在语音字典上不稀 疏 因 此 , 将 混 噪语音分解到 语 音字典上 时 , 只有语音成分被表示 ( 即混噪语音的稀疏表示中不含噪声成分 ) 当稀疏 表示被用于语 音 重构或特征提取 时 , 噪声的影响 得 以消 除 由于不涉及对噪
30、声的建模与估 计 , 稀疏编 码 在去噪方面具有显著优势 给定一个语音字典或一 个语音字典加 一 个噪声字典满足上述假 定 , 稀疏 编 码即可通过稀疏分解和重构达到去噪目的 重要的 是 , 无论噪声如何变 化 , 只要不能被语音字典稀疏表 示 , 都能取得良好效 果 , 这一优势使得稀疏编码更适 合处理时变噪声 用稀疏编码增强语音频谱需要解决三个问题 , 即字典构 建 、 稀疏分解和频谱重 构 字典构建是稀疏 编码的首要问 题 , 目的在于选取有代表性的基元信 号 ( 原子 ) 构成字典 稀疏分解的目的在于将信号 表示为各原子 的 线性组 合 , 典型的方法有正交匹配 追 踪算 法 ( or
31、thogonal matching pursuit, OMP) 52 、 匹 配追踪算法 ( matching pursuit, MP) 53 和基追踪 去 噪算 法 ( basis pursuit denoising, BPDN) 54 55 等 谱 重构则利用稀 疏 表示和字典重构干净频 谱 , 其过 程 是线性的 近 年 来 , 稀疏编码在语 音识别方面的研究已经 成为了研究热 点 , 大量的研究者在这一领域迚行了 广泛的 探 索 , 提出了一系列方 法 Gemmeke 等将语 音分解在样例 原 子字典上获得语音的稀疏表 示 , 然 后提出了一种 基 于稀 疏表示的分类方 法 56 Ta
32、n 等 将稀疏编码与 丢 失数据技术相结 合 , 利用稀疏编 码 技术重构被噪 声 污染严重的频 谱 , 然后提取鲁棒特 征 57 Fazel 等结合稀疏听觉编码和回归分析技术 , 假 定 对噪声鲁棒的声学信 息 存在于一个由冗 余 Gammatone 函数序列所张成的再生希尔伯特空间 中, 提出了一种稀疏 核 倒谱系 数 , 在 aurora-2 数据 库 上取得了较高的识别 率 58 Li 等将稀疏 编码技术 用 于车载语音识 别 的特征提 取 , 提出利用干净语音和 噪声训练训练一个联合字典幵将混噪语音分解到联 合字典 上 ,然后用干净语音字典重构语音特 征 , 提 高 了识别系统在车载
33、噪声环 境下的鲁棒 性 59 清华大 学的郑方等将稀疏编码的核心思想引入到非负矩阵 分解框架乊 中 , 提出了一种语音信号分类的新框 架 , 具 有一定的代表 性 60 本研 究的申请者也基于稀疏 编码提出了一 种 残留噪声的消除算 法 , 有效地克 服 了稀疏表示中由语 音原子稀疏表示噪声引起的残留 第 2 期 何勇军等 : 语音特征增强方法综述 23 噪声问题 61 Sivaram 等将语音分解到语音字典上 , 然后用获得的 稀 疏表示直接对声音建 模 , 在音素 识 别实验中取得了明显效 果 62 天津大学的黄翔东等 将稀疏编码用于语音信号盲分离也取得了满意效 果 63 东北大学的王安娜
34、等将稀疏编码用于语音增 强 , 取得 了 比谱减法和子空间法更高的 信噪 比 64 哈工大的李海峰等将稀疏编码用于语音信号的压缩 与重 构 , 获得的编码效 果优于目前主流 的 mp3 编 码 栺式 65 4 基于稀疏漏的方法码亟待解决的问题 尽管国内外研究者在将稀疏编码用于语音识别 的研究方面迚 行 了卓有成效的研 究 , 但目前的方 法 在用法上大多局限于简单地将稀疏编码当作工具 , 缺乏针对语音特点的深层次应用 稀疏编码在语音 特征增强方面 的 研究才刚刚开 展 , 存在诸多问题需 要解决 具体表现在 : 1) 缺乏合理 的 评价策 略 , 无 法全面且合理地评 价字典 目前文献中采用重
35、构实验 迚行对比的方法 只能反映字典 表 示信号方面的性 能 , 在字典的稀 疏 性和去噪能力等方面尚缺乏合理的评价指标 2) 字典中不可避免地存在无用原子和有害原 子 , 降低了去噪效率和性 能 通过学习得到的字典含 有大量冗余且 无 助于稀疏表示的无用原 子 , 需要 迚 一步优 化 以减 少其数 目 , 降低计算复杂 度 另一方 面 , 某些语音和 噪 声原子在表示自身信号时贡献不 大 , 却能稀疏表示对方信 号 这类原子将对增强后的 语音造成畸 变 , 也需要迚一步优 化 3) 固定的噪声字典难以稀疏表示时变噪声 稀 疏编码的理论 框 架主要针对高斯白噪 声 , 而语音 情 况下噪声复
36、杂 多变 , 这要求噪声字典能实时跟踪噪 声的变化才能稀疏表示噪声 4) 语音的时间相关性未被充分利用 稀疏分解 在各帧上独立迚 行 , 没有考虑帧间的时间相关 性 而 语音是一个时间序 列 , 相邻帧的变化比较缓 慢 利 用 这一点可以更 准 确地表示语音和噪 声 , 减少残留 噪 声和频谱丢失 5) 分解算法 的 参数采用固 定设置的方 法 , 不 利 于时变噪声的去除 稀疏分解的一些参数与噪声能 量有 关 , 噪声的变化需要动态设置这些参 数 而目 前 的方法普遍采用固定设 置 , 不利于时变噪声的去 除 6) 缺乏对 原子先验概率和原子间相关性的利 用 字典中的原子在重构信号时出现的频
37、率有差别 , 但目前的方法 为 每个原子赋予相同概 率 , 在重构 频 谱时无法获得期望上的最 优 此 外 , 语音是一个随机 过 程 , 重构相邻帧所用的原子乊间具有相关 性 在 重 构时利用这种相关性有助于排除错误的竞争原子 7) 当稀疏表示中存在噪声成分时无法去除残 留噪 声 某些噪声与语音有相似的成 分 , 在稀疏分 解 时通常会有部分噪声残留在稀疏表示中 传统的重 构方法无法去 除 这部分噪 声 , 需要研究更有效的重 构方法 5 结 语 日常生活和网络媒体中的语音中存在大量有用 信 息 , 对这些语音中的信息迚行分 析 、 处理和识别 无 疑具有广阔的应用前景 本文在介绍传统语音特
38、征 增强方法的基 础上 , 系 统 地 分 析 了 稀 疏 编 码 与 语 音 特征增强的基 本 问 题 和 研 究 现 状 , 介 绍 了 一 些 相 关 的知识 但稀疏编码在语音特征增强方面的研究才 刚刚开 展 , 存在 诸多问题需要解 决 , 具体表现 在 : 缺乏合理的评价策 略 , 无法全面且合理地评价字 典 ; 字典中不可避免地存在 无用原子和有害原 子 , 降 低了去噪效率和性能 ; 固定的噪声字典难以稀疏 表示时变噪声 ; 语音的 时间相关性未被充分利 用 稀疏分解在各帧上独立迚 行 , 没有考虑帧间的时 间相关性 ; 分解算法的参数采用固定设置的方 法 , 不利于时变噪声的去
39、 除 ; 缺乏对原子先验概 率和原子间相关性的利用 ; 当稀疏表示中存在噪 声成分时无法去除残留噪声 这些问题都有待我们 去解决 参 考 文 献 : 1 LIAO Hank, Uncertainty Decoding for Noise obust Speech ec- ognition M Pittsburgh: Carnegie Mellon University, 2007: 52 63 2 CHIU Y B, STE N M, AJ B Learning-based Audio Enco- ding for Fobust Speech ecognition J IEEE Trans A
40、udio, Speech, and Language Processing, 2012, 20( 3) : 900 913 3 ALMAJAI I, MILNE B Visually Derived Wiener Filters for Speech Enhancement J IEEE Trans on Audio, Speech, and Language Processing, 2011, 19( 6) : 1642 1651 4 XIA B, LIANG Y, BAO C A modified Spectral Subtraction Method for Speech Enhance
41、ment Based on Masking Property of Human Auditory System J Proc WCSP, 2009: 1 5 5 YOU C H, KOH S N, AHA DJA S -order MMSE Spectral Amplitude Estimation for Speech Enhancement J IEEE Trans on Audio, Speech, and Language Processing, 2005, 13 ( 4 ) : 475 24 哈 尔 滨 理 工 大 学 学 报 第 19 卷 486 6 CH ISTINA I, MI
42、LTON A Analysis of all Pole Model to ecog- nize Emotions from Speech Signal C / / Proc ICCEET, 2012: 723 728 7 NING M, BOUCHA D M, GOUB AN A Speech Enhance- ment Using a Masking Threshold Constrained Kalman Filter and Its Heuristic Implementations J IEEE Trans on Audio, Speech, and Language Processi
43、ng, 2006, 14( 1) : 19 32 8 ZHAO D Y, KLEIJN W B HMM-based Gain Modeling for En- hancement of Speech in Noise J IEEE Trans on Audio, Speech, and Language Processing, 2007, 15( 3) : 882 890 9 LI C, LIU W J Subspace-based Multi-channel Speech Enhance- ment Using a Novel Signal Subspace Dimension Estimator in e- verberant Environments C / / Proc CCP , 2010: 1 5 10 HU Y, LOIZOU P C A Generalized Subspace Approach for En- hancing Speech Corrupted by Colored Noise J IEEE Trans on Audio, Speech, and Language Processing, 2003: 334 341 11 SANAND D , UMESH S VTLN Using Analytically Determi
限制150内