装甲车内背景下的语音端点检测的改进_杨龙 (1).doc
《装甲车内背景下的语音端点检测的改进_杨龙 (1).doc》由会员分享,可在线阅读,更多相关《装甲车内背景下的语音端点检测的改进_杨龙 (1).doc(5页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 47 i 装甲车内背景下的语 音 算法研究 端点检测的改迚 杨 龙 , 陈建 明 ( 装甲兵工程学 院 信息工程 系 , 北 京 100072) 【 摘 要 】 以模拟装甲车内部环境噪声对带噪语音进行端点检 测 , 旨在通过设计良好的端点 检测算法来提高后续语 音增强的效果 。 从实战角度出 发 , 语音端点检测的需求为较高的准确性和实时性以及 鲁棒 性 。 结合语音信号特 性 , 采取以谱减法作为预处理的基础上通过能熵比对带噪语音进行端点检 测 , 通过实验仿真的方式证明其可行 性 。 【 关键词 】 语音端点检测 ; 能熵比 ; 谱减预处理 【 中图分类号 】 TP391 【 文献标志码
2、 】 A DOI: 10 16311 / j audioe 2015 10 11 An Improved Method of Voice Activity Detection in Armored Vehicles YANG Long, CHEN Jianming ( Department of Information Engineer, Academy of Armored Forces Engineering, Beijing 100072, China) 【 Abstract】 The VAD is made to the noise speech through simulating
3、the inside environment of armored vehicle, in order to improve the effect of subsequent speech enhancement From the practical point of view, the VAD demands the higher accu- racy and timeliness and robustness Hence, the spectral subtraction as the pretreatment is used to achieve the VAD with the ene
4、rgy to entropy ratio and proves its feasibility through the way of simulation experiment 【 Key words】 video activity detection; based on wavelet transform; based on empirical mode decomposition 1 引言 语音端点检 测 ( Video Activity Detection, VAD) 技 术是指在复杂的语音通信环境中区分出语音信号和 非语音信号并能准确标记出语音段起始点和终止点 的方 法 。 目 前 ,
5、 它已成为语音增 强 、 语音 识 别 、 合成等 相 关处理的必备的前端支 持 , 高效的语音端 点检测技 术 不但减少了后续语音信号处理的运算 量 , 还大大提 高了处理的精度和通信系统的质量 。 在装甲车 内 的通信 环境 下 , 由于背景噪声复 杂 , 主 要包括収动机的噪 声 、 装甲车行驶履带以 及气流的 噪 声和车内部件的声音 等 , 形成的带噪语音 信噪比较 低 , 不易被接收者辨 识 。 必须在语音通信中 加入语音 增 强技 术 , 为 了减少语音增强的计算量以提高效 率 , 稳健并具有较高鲁棒性的语音端点检测技术也必不 可少 。 噪声中的语音检测是一个比安静环境中的语音 检
6、测复杂的问题 。 噪声环境下的语音端点检测比安 静 条件下复 杂 。 当输入信噪比较低 时 , 更大 可能会产 端点检测算法投入了大量的研究 。 传统的端点检测方 法 , 如短时能 量 、 过零率检 测 等 , 在平稳噪声或高信噪比 条件下检测效果较 好 , 低 信噪比时极易収生漏检或虚检情况 。 因为装甲车内 部的噪声频谱复杂且时变性 强 , 并且根据实战需 要 , 语音通信的实时性要求较 高 。 因 此 , 本文采 用谱减法 作为语音端点 检 测的预处 理 ,然 后用能熵 比 ( 短时 能 量和谱熵的比值 ) 迚行端点检测 1 。 2 能熵比检测原理 语音特 性是语音处理的基 础 , 在语
7、音端点检测 中 , 常用的语音特性有语音的短时能 量 谱 、 过零 率 、 短 时自相关函数等 。 此类指标可在时域条件下迚行采 集和处 理 , 检 测原理简单且便于实时实 现 。 因 此 , 在 实时的通信系统中应用较为普遍 。 在纯 净 语音 中 , 设分帧处理后的 第 i 帧信号为 yi ( n) , 则 第 i 帧语音信 号 yi ( n) 的短时能 量 E( i) 可表 示为 p 1 E( i) = y2 ( n) , 1 i 1 ( 1) 生 漏 检 , 因 此 , 大量研究者在低信噪比条件下的语音 n = 0 48 x2 式 中 : p 为 帧 长 ; L 为分帧后的帧 数 。
8、如 图 1 所 示 , 短 时 能量最直接体现了语音的分布情 况 , 由于 语音中浊 音能量比清音能量大很 多 。 通 常 , 短时能量 用以区分 浊 音段和清音 段 。 同 时 , 也可对语音段和非 语音段迚 行 区 分 , 在常用的双门限语音端点检测中常 做分界语 音段的粗 ( 第一 ) 判决 。 和谱熵的比值可以更突出地描述出语音段存在的位 置 , 可更加有效地检测出语音的端 点 3 。 图 2 纯净语音波形及其短时谱熵分布 图 1 纯净语音波形及其短时能量分布 设加窗分帧后 的语音信号 为 xi ( m) , 帧长 为 N, 则可定义每一帧的能量为 谱熵反 映了信源在 频域幅值分布 的
9、 “ 无序 性 ”, 每个语音帧的短时谱熵定义为 Ui = N m = 1 i ( m) ( 4) N /2 根据文 献 4 对能量公式引入参数迚行调整得 Hi = pi ( k) lgpi ( 2) k = 0 LE1 = lg( 1 + Ui / a) ( 5) 式中 : pi ( k) 为每个频率分量的归一化谱概率密度 函数 yi ( k) 式中 : 可通过调节 a 的取值来缓和 Ui 剧烈变换时产 生 的影 响 , 适当地选 取 a 值 , 可有效区分噪 声和清 声 。 通过将能量和谱熵两个参数迚行结 合 , 可得能熵 比 pi ( k) = N /2 yi ( l) k = 0 (
10、3) EEi = 槡 1 + LEi / Hi ( 6) 式中 : yi ( k) 为第 k 条谱线频 率分量的能量谱 ; N 为 FFT 长度 。 根据最大离散谱熵定理即等概分布的信源的平 均 不确定性 大 , 因 此 , 由于噪声的归一化谱概率密度 函 数分布较为均 匀 , 所以噪声的谱熵要高于 纯净语音 的谱熵 2 。 文 献 1 指 出 , 为 了精准地判断出带噪语音中的 话 音段位 置 , 一般常采用双参数双门限的方 式 , 但 考 虑 到检测效 率 , 单参数双门限的方法更为普 遍 , 故 考 虑 将双参数迚行优 化 , 改为识别度高的单参 数双门限 检测方法 。 语音段的能量反映
11、如 图 1 所示为向上凸 起 , 而 语 音的谱熵在图中的反映如 图 2 所 示 , 与能量 的趋势正 好相 反 , 语 音 段 能量越大其谱熵值越 小 。 因 此 , 能 量 3 语音端点检测预处理 根据文 献 1 可知目前 常用的语音端点检测算 法的使用分 类 , 其大多测试环境为高斯白 噪 声 。 对于 一些强机械噪 声 , 即信噪比较低的环境 下 , 利用单 一 的 VAD 算法 检 测效果均不太理 想 , 频繁出 现漏检 或 误 检的情 况 。 因 此 , 文 献 5 中指 出 , 目前为了在 低 信噪比 环 境下迚行端 点检 测 , 常以语音增强设置为 VAD 的前端做预处理 。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 装甲车 背景 语音 端点 检测 改进 杨龙
限制150内