噪声谱估计算法对语音可懂度的影响_张建伟.doc
《噪声谱估计算法对语音可懂度的影响_张建伟.doc》由会员分享,可在线阅读,更多相关《噪声谱估计算法对语音可懂度的影响_张建伟.doc(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 第 34 卷第 5 期 声 学 技 术 V o l . 34, N o . 5 2015 年 10 月 Technical Acoustics Oct., 2015 噪声谱估计算法对语音可懂度的影响 张建伟,陶 亮,周 健,王华彬 (安徽大学计算智能与信号处理教育部重点 实验室,安徽合肥 230031) 摘要 :噪声谱估计是单通道语音增强算法的关键步骤,当前大部分语音增强算法旨在提高语音质量,提高语音可懂 度的算法却很少。在传统的单通道语音增强算法中,语音质量的提高往往是以牺牲语音的可懂度为代价的。对目前 主流的几种噪声谱估计算法对语音可懂度影响进行分析。在不同噪声背景、不同信噪比情况下进行
2、噪声谱估计,并 采用谱减法对含噪语音信号作去噪处理,对比分析不同噪声、不同信噪比下增强前后语音的短时客观可懂度 (Short-Time Objective Intelligibility, STOI)值,最后根据信噪比,对比分析了不同噪声环境下,语音增强前后语音能 量高于噪声能量的时频块所占比例。实验表明,相比其他噪声估计算法,最小统计 (Minima Statistics, MS)算法由于保 留了更多的以语音能量为主的时频块,使得去噪后的语音有较高的可懂度。 关键词: 噪声谱估计;谱减法;时频块;最小统计;短时客观可懂度;语音可懂度 中图分类号: TP391 文献标识码: A 文章编号: 1
3、000-3630(2015)-05-0424-07 DOI 编码: 10.16300/ki.1000-3630.2015.05.009 Effects of noise spectrum estimation algorithms on speech intelligibility ZHANG Jian-wei, TAO Liang, ZHOU Jian, WANG Hua-bin (Key Laboratory of Intelligent Computing and Signal Processing of Ministry of Education, Anhui University,
4、Hefei 230031, Anhui, China) Abstract: Noise spectrum estimation is a key step in single channel speech enhancement algorithms. Most of current speech enhancement algorithms are designed to improve speech quality, however, algorithms for increasing speech in- telligibility are few. The traditional sp
5、eech enhancement algorithms improve speech quality, while sacrificing speech intelligibility. In this paper, classical noise spectrum estimation algorithms are evaluated for their effects on speech in- telligibility. Noise spectrum is estimated in different noise environments with SNRs between 9 dB
6、and 3 dB. The spectral subtraction is thereafter used for speech denoising. The STOI(Short-Time Objective Intelligibility) value of the enhanced speech is computed. At last, according to the signal-to-noise ratio, the proportions of speech dominated time-frequency blocks under different noise enviro
7、nments are analyzed. Experimental results show that, compared with other noise estimation algorithms, the minimum statistics (MS) obtains high speech intelligibility because it retains more speech dominated time-frequency blocks after speech denoising. Key words: noise spectrum estimation; spectrum
8、subtraction; time-frequency blocks; Minima Statistics(MS); Short-Time Objective Intelligibility(STOI); speech intelligibility 0 引 言 语音增强算法在提高语音质量方面已经取得 了很大的进展 1-3,相反,提高语音可懂度的算法却 很少 。 Lim 首 次发现 , 在 55 dB 的 白 噪声背景下, 谱减法并未提高语音的可懂度 4。 Hu 和 Loizou 也 对语音可懂度作了研究,他们采用了 8 种不同的算 法,对语音 增强前和增强后的可懂度进行比较,结 收稿日期 :
9、 2014-12-15; 修回日期 : 2015-03-29 基金项目 : 国家自然科学基金 (61301219、 61003131)、安徽省自然科学 基金 (1408085MF113)资助项目。 作者简介 : 张建伟 (1989 ), 女 , 山东莘县人 , 硕士研究生 , 研究方向为 语音增强。 果发现,所有算法增强后的可懂度均小于增强前的 可懂度 5。 研 究者发现 , 在传统的语音增强算法中, 语音质量的提高往往是以牺牲语音的可懂度为代 价的 6。 研究者们提出了 很多相关的噪声谱估计算法, 而且取得了一定的效果 7-11。 Hirsch12提出了一种不 需要进行语音端点检测的噪声谱估
10、计方法,需要比 较当前窗的功率谱和前一窗的估计噪声谱,使用一 阶递归平均来更新噪声谱估计,该方法可以快速地 适应变化缓慢的噪声。 Martin13提出了一种基于最 小统计 (Minima Statistics, MS)的噪声谱估计方法, 即在一个有限窗口内跟踪平滑含噪语音谱的最小 值 , 然后对其按帧平滑 , 并乘以一个偏置补偿因子, 14 通讯作者 : 张建伟 , E-mail: 即可获得噪声谱估计。 Cohen 和 Berdugo 提出了 i i i i i i i i i opt 第 5 期 张建伟等:噪声谱估计算法对语音可懂度的影响 425 一种最小 受 控递归平 均 算法 (Min
11、ima Controlled Recursive Averaging, MCRA), 该方法根据含噪语音 的局部能量值与其待定时间窗内的最小值的比值 确定子带中是否存在语音,如果给定帧的某个子带 1.2.1 Hirsch 算法 Hirsch 提出计算所有频域子带 i 的含噪语音幅 度谱 Xi 的权重和,然后按照式 (2)对噪声估计进行 一阶递归: 中存在语音,那么该子带内的噪声谱等于上一帧的 N (k) (1)*X (k)*N (k 1) (2) 噪声谱,如果不存在,则根据含噪语音的功率谱更 新噪声谱。 Cohen 在 2003 年提出了改进的最小控 制递归平均方法 (Improved Min
12、ima Controlled Re- 其中: 0.85 表示平滑常数, Xi (k) 表示第 i 个子 带的第 k 个 频带的含噪语音幅度谱, N (k) 表示第 i 个子带的第 k 个频带的噪声估计, Xi 值在纯噪声段 cursive Averaging, IMCRA), 主要从三个方面进行了 改进,即语音活跃期的最小值跟踪、语音存在概率 估计、提出偏置补偿因子 15。 Sorensen 等人在 2005 满足瑞利分布 。 最后 , 噪声估计 N 乘以一个过估计 补偿因子 , 取值范围是 1.5 至 2.5。 当 (X N ) 为 正值时 , 表 示语音出现 , 停止递归 ; 当 (X N
13、 ) 为 年提出了 一 种基于连 接 语音时频 域 (Connected Time-Frequency Speech Presence Regions, Conn_freq)16的噪声谱估计算法,该方法可连接时 频域的语音缺失段,将缩小的背景噪声留在增强后 的语音中,利用人的听觉系统中的掩蔽机制,减少 对语音段中噪声的感知,消除语音缺失段的噪声。 有研究者在噪声谱估计算法的基础上,提出了 很多改进算法, 在语音质量和可懂度方面有了一定 程度的改善 17-20。虽然这些噪声谱估计方法得到广 泛应用,但是其对于增强后语音可懂度的影响则至 今未见相关报道。为此,本文讨论上述 5 种不同的 噪声谱估计
14、算法对语音可懂度的影响。为尽可能排 除增强过程中其他因素对可懂度的影响,增强算法 采用经典的谱减法。论文首先回顾 5 种噪声谱估计 方法,并将其应用于正常音的噪声谱估计。为了评 价这 5 种算法对语音可懂度的影响,计算经增强后 的语音可懂度,对增强前后的语音时频谱中的语音 负值时,将其置零。 该算法不需要进行语音端 点检测,而且可以快 速适应变化缓慢的噪声,语音存在段和语音缺失段 都采用公式 (2)更新噪声谱 , 可以结合谱减法对语音 作增强处理。 1.2.2 MS 算法 最小值统计的方法依赖于两点 , 即 (1) 语音信 号和噪声从统计意义上讲是独立的; (2) 含噪语音 的功率会衰减至噪声
15、的功率水平。由于最小值总是 小于平均值,因此最小值跟踪方法需要偏差补偿。 为了能更快地跟踪并更新局部最小值和频谱最小 值,作者把滑动窗口分为多个子窗口,在每个子窗 口内更新估计噪声谱,提高了精确度 21。 MS 算法一阶平滑估计噪声谱的规则可用式 (3) 表示: N (, k) (, k)N (1, k)能量为主的时频块的保留情况进行分析,以探讨不 (1 opt (, k) Y (, k) 2 (3) 同噪声谱估计方法对可懂度影响的原因。 1 噪声谱估计及算法 1.1 信号模型 设 y 表示 时 域含噪信号 , x 表示干净 语 音信号, d 表示非相关加性噪声。对含噪信号作短时傅里叶 变换
16、(Short-time Fourier Transform, STFT), Y(k, l)、 X(k, l)、 D(k, l)分别是 y、 x、 d 的变换系数,我们得 到时频域信号 其中 : N (, k) 表示第 个搜索窗的第 k 个频 带 的估 计噪声功率谱, Y (, k) 表示第 个搜索窗的第 k 个 频带的含噪语音谱,即含噪语音的频域表达式, opt (, k) 是时频独立的平滑参数,基于最小误差准 则得到。搜索窗长 D 取 150,子窗数 U 为 10,子 窗长 V 为 15,实验采用来自文献 21的算法,其他 有关参数,默认为文献 21给定的数据。 本算法无论是在语音存在段还是
17、语音缺失段, 噪声功率谱估计均跟踪平滑含噪语音谱的最小值, 不采用阈值区分语音活动和语音端点,可以结合任 Y (k, l)X (k, l)D(k, l) 式 (1)中: k 表示频带号; l 表示时帧号。 1.2 噪声谱估计算法 (1) 意需要噪声谱估计的语音增强算法。 1.2.3 MCRA 算法 MCRA 算法使用一个平滑参数对功率谱的过 单通道语音增强算法都需要从含噪语音中估 计噪声谱和先验信噪比,后者也建立在噪声谱估计 基础上。 去值取平均,其中平滑参数是通过子带中语音存在 的概率来调整的。首先对输入的每一帧信号进行频 域平滑: 1 K K Y 426 声 学 技 术 2015 年 S
18、f (k, l) w iw b(i) Y (k i, l) 2 (4) 度; pmin (, k) 表示平滑功率谱最小值; 和 都 是常数; PY (, k) 表示含噪语音功率谱; Rmin () 表 其中 : b(i) 表示加权系数 , Y (k i, l) 表示含噪语音在 时频域作短时傅里叶变换的幅度值,窗函数的长度 是 2w1。 其次,采用一阶递归进行时域平滑: 示补偿因子,语音 缺失段进行更新,语音存在段固 定不变,至于补偿因子如何更新,这里不再陈述。 搜索窗长 D 取 7,子窗数 U 为 5,子窗长 V 为 8, 其他有关参数,默认为文献 16给定的数据。 S(k, l) s S(k
19、, l 1)(1s )S f (k, l) (5) 该方法在连接时频域的语音缺失段,将缩小的 其中: s 0.8 表示平滑参数, S(k, l 1) 表示前一帧 含噪语音的功率谱。 同时跟踪含噪语音功率谱的局部最小值,估计 语音存在概率 , 最后根据式 (6)、 (7)中规则更新噪声 谱: 背景噪声留在增强后的语音中,利用人的听觉系统 中的掩蔽机制,减少对语音段中噪声的感知,消除 语音缺失段的噪声。 1.2.6 不同算法噪声谱对比 图 1(a)和图 1(b)分别显示了 MS、 MCRA、 H (k, l):N (k, l 1) N (k, l)(1) Y (k, l) 2(6) 0 d d H
20、 (k, l):N (k, l 1) N (k, l) (7) IMCRA、 Hirsch 四种算 法 在白噪声背景下 , 在信噪 比分别为 9 dB 和 5 dB 情 况下的噪声谱估计 , 选取 其中 : d 表示平滑参数 ; 基于语音存在概率 ; H0表 示假设语 音 缺失段 ; H1表示假设语 音 存在段; N (k, l) 表示第 l 个 搜 索窗的的第 k 个频带。 1.2.4 .4 IMCRA 算法 该算法是对 MCRA 算法的改进,噪声谱的更 新规则不变。该算法包含两次迭代:平滑和最小值 跟踪。第一次迭代是在每个频域子带内进行粗略的 语音活动检测,第二次迭代是对语音缺失段的功率
21、谱进行平滑,相对强语音信号部分并不进行平滑, 使得语音活跃段的最小值跟踪具有鲁棒性。 搜索窗长 D 取 120,子窗数 U 为 8,子窗长 V 为 15, 其 他 有关参数 , 默认为文献 15给定的数据。 与 MS 算法不同的是,该算法考虑到连续窗口 的相邻频域 子带之间语音存在的强相关性,分别在 时域和频域对含噪语音功率谱进行平滑处理。 1.2.5 连接语音时频域 (Conn_freq)算法 Conn_freq 算法基于短时平滑功率谱和最小值 跟踪,定义了两个语音存在检测规则,表示为 第 20 帧作为观测。图 2 显示了 Conn_freq 算法在 白 噪声背 景 下 , 在信噪比为 9
22、dB 和 5 dB 情况下的 噪声谱估计。从图 2 中可以看出, Conn_freq 算法 估计的噪声谱更接近真实噪声谱变化。为了更好地 观察对比这 5 种算法的真实噪声谱和估计噪声谱, 我们将 Conn_freq 算法的噪声谱估计图单独列出。 D(, k) 1 0 p(,k)pmin (,k) p(,k)pmin p(, k)pmin (,k)+1 k0 K 1 (,k)+1 k 0 pmin pmin (, k) (, k) (9) 最终的语音存在检测估计为 D(, k) D(, k)D(, k) 。 噪声功率谱估计为 P (, k) Rmin () pmin (, k), if D(,k
23、)=1 N P (, k), if D(,k)=0 (10) 图 1 不同算法在白噪声背景下的谱估计 Fig.1 Spectrum estimations of different algorithms in the white noise 其中: 表示帧号; k 表示频带; K 表示频谱的长 environment of different SNRs 第 5 期 张建伟等:噪声谱估计算法对语音可懂度的影响 427 图 2 Conn_freq 算法在白噪声背景下的谱估计 人群嘈杂噪声等 。 干净语音数据和噪声数据均为 16 kHz 采样率,混合产生信噪比在 93 dB 范围内的 带 噪语音 。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 噪声 估计 算法 语音 可懂度 影响 张建伟
限制150内