改进MFCC参数在非特定人语音识别中的研究.docx
《改进MFCC参数在非特定人语音识别中的研究.docx》由会员分享,可在线阅读,更多相关《改进MFCC参数在非特定人语音识别中的研究.docx(5页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 第29卷第 3期 科技通报 Vol.29 No.3 2013 年 3 月 BULLETIN OF SCIENCE AND TECHNOLOGY Mar. 2013 改进 MFCC参数在非特定人语音识别中的研究 田莎莎 S唐菀 s佘炜 2 (1.中南民族大学计算机科学学院,武汉 430074;2.中南民族大学数学与统计学院,武汉 430074) 摘要 :随着信息时代的高速发展,人们越来越关注计算机的便携使用方式,以语音输人代替手动输人 成为计算机未来发展的一个必然趋势。本文在 MFCC特征参数的基础上,提出了一种改进 MFCC特征 参数 -BMFCC特征参数,以提高原 MFCC特征参数在语音识
2、别时的识别率和运算速度。 BMFCC特征 参数在进行参数的提取时,分为特征分量加权、特征分量求差分、主成分分析三个步骤。仿真实验结果 表明,本文提出的 BMFCC特征参数在识别率和有运算速度上均优于 MFCC特征参数,且更具鲁棒性。 关键词 :MFCC参数 ;BMFCC参数 ;语音识别;非特定人 中图分类号 :TP391.42 文献标识码 :A 文章编号: 1001-7119(2013)03-0139-04 Research of Improved MFCC Parameters in Signer-independent Speech Recognition Tian ShashaTang
3、Wan1,She Wei2 (l.College of Computer Science, South-Central University for Nationalities, Wuhan 430074, China 2.College of mathematics and statistics, South-Central University for Nationalities,Wuhan 430074, China) Abstract: With the rapid development of the information age, people pay more and more
4、 attention to the portable use of computer, taking voice input instead of manual input will become an inexorable trend of computer development. The paper proposed an improved MFCC feature parameters-BMFCC characteristic parameters on the basis of MFCC feature parameters to improve the recognition ra
5、te and operation speed of original MFCC characteristic parameters in speech recognition. In the extraction of BMFCC characteristic parameters, it was divided into three steps of feature component weight, characteristic component difference algorithm and principal component analysis. The simulation r
6、esults show that the proposed BMFCC characteristic parameter is superior and more robust to the MFCC characteristic parameters in the recognition rate and operation speed. Key words: MFCC parameters; BMFCC parameters; speech recognition; speaker-independent 0 引言 随着计算机越来越向便携化方向发展,随着 计算环境的日趋复杂化,人们越来越迫
7、切要求摆 脱 键盘的束缚而代之以语音输入这样便于使用 的、自然的、人性化的输人方式 1。作为交叉学科 的一个,语音识别技术具有较深远的科学研究价 值吒语音合成和语音识别技术现已经成为现代 科学技术发展的重要标志之一,也是现代计算机 技术领域发展和研究的重要方向之一 3。 语音识别的研究工作大约开始于上世纪 50 年代。1952年 Davis等人在贝尔实验室首次成功 研制了能识别 10个不同英语数字的实验装置 14。 四年后 Olson和Belar等人采用 8个带通滤波器 组提取频谱参数,并将其作为语音的重要特征 , 成功地研制了一台简易的语音打字机 到了 20 世纪 60年代中期,如快速傅里叶
8、变换、数字滤波 器等方法和技术成为语音信号数字处理的重要 收稿日期 :2012-12-07 基金项目:国家自然科学基金资助项目 (61103248);中南民族大学自然科学基金资助项目 ( YZQ10004)。 作者简介 :田莎莎 (1980-),女,汉族,河南省焦作市人,讲师,硕士研究生,研究方向 :嵌人式, FPGA。 140 科 技 通 报 第 29卷 理论和技术基础 。至此语音识别形成的一系列 的数字信号处理的方法和技术。 20世纪 70年代 中期,线性预测技术被用来处理语音信号,在此 之后隐马尔可夫的模型法 (HMM)也获得初步成 功,该技术后来在语音信号处理的多个方面获得 巨大成功
9、在 20世纪 80年代,由于隐马尔可夫 模型、矢量量化和人工神经网络等技术被相继应 用于处理语音信号,并且经过不断的改进和完 善,其中,隐马尔可夫模型作为语音信号的一种 统计模型,在处理语音信号的各个领域中获得了 广泛的应用 81。虽然有部分语音识别产品面世,其 语音识别技术也已经取得了一些成就,但是,目 前的大多数语音识 别系统远没有达到实用化要 求 9,任然局限于实验室内,究其根本原因是识别 精度和系统复杂度任然存在较大问题 1 。 本文基于存在的问题和现有的 MFCC特征 参数提出了一种改进 MFCC参数,并将其应用于 非特定人语音识别中,以提高非特定人语音识别 的识别率和运算速度。 1
10、 MFCC系数 1.1 MFCC 概述 MFCC着眼于人类的听觉机理,依据人类听 觉实验的结果来分析语音的频率谱图,以次来期 望能获得更好的噪声鲁棒性。 MFCC分析的听觉 机理主要有两个 :第一个是人的主观感知频率领 域并不是线性划定的,根据 Volkman和 Stevens 的工作,有如下公式: FTOF11251 g(l+/7700) (1) 公式中的 Fw是感知频率,单位为美 (Mel), / 是实际频率,单位 SHZ。将语音信号的频谱转换 到感知的频域中,使之在处理模拟听觉的过程中 达到更好的效果。 1.2 MFCC特征参数的提取 MFCC特征参数的提取原理框图如图 1所 示: 图
11、1 MFCC特征提取框图 Fig.l MFCC feature extraction block diagram MFCC特征参数的提取过程 : (1)预处理 :预处理的步骤包括分帧加窗和预 加重。 预加重 :预加重可以在高频的共振峰凸现,经 过预加重后,声音的特性变得比较尖锐和清脆, 但是相比而言音量变小了。 分帧处理 :先将 #个采样点集合成一个观测 单位,称为一帧 ( Frame), iV的值通常是 512或 256,在采样频率为 8 kHz时,采样所占的时间大 约为 32 64 mS。为了避免相邻的两帧之间变化 过大,所以采样时会让两个相邻帧之间存在一段 较小的重叠区域,此重叠区域中包
12、含有 M个采样 点,通常情况下 M的值大约是 yv值的一半或者 1/3。 哈明窗 :只 要将一帧的语音乘以哈明窗,就可 增加帧右端和左端的连续性。哈明窗的函数表达 式如下所示: wn) =0.54+0.46cos (2) /V 1 快速傅立叶变换 :由于信号的特性在时域 上的变化较难被看出,所以在此频域上通常情况 下将它转变成能量分布来观察,不同的能量分布 代表着不同的语音特性。所以当一帧的语音乘以 哈明窗后,其信息必须要再经过 FFT的变换,以 此来得到频谱上能量分布的情况。 (3) 三角带通滤波器 :将一组的 16个三角带 通滤波器乘以所得的能量谱,在 Mel频率上这 16 个三角带通滤波
13、器的分布是非常平均。 Mel频率 和一般频率之间的关系如式 (2 )所示, Mel频率代 表着一般人的人耳对于声音频率的感受度,由此 也可以观察出人耳对于频率 /的感受是呈对数形 式变化的,在低频部分人耳得到的感受是比较敏 锐的 :然而在高频部分,人耳的感受就会变得越 来越迟钝。 (4) 将对数谱作 DCT(离散余弦变换 )变换 , 求取语音信号得倒谱系数,得到 MFCC特征参 数。 2 改进 MFCC参数 MFCC参数相比其它特征参数有很好的识别 性能和抗噪性能,但实验表明 MFCC参数各分量 对识别率的贡献是不同的。 MFCC参数中对识别 g变换 取对数能置 Mel滤波器组 |变换 预处理
14、 第 3期 田莎莎等 .改进 MFCC参数在非特定人语音识别中的研究 141 率贡献小的分量不仅不会提高识别率反到会降 低语音的识别率,因此,本文根据 MFCC参数某 些部分存在的不足情况,提出了一种改进的 MFCC参数 Better-MFCC,其参数的提取分为 特征分量加权、特征分量求差分和主成分分析三 个步骤。 2.1特征分量加权 通过观察实验中特征参数的各个分量对识 别率的产生的影响发现,不同分量对语音的表征 能力是不相同的。而且各维分量的均值方差差异 相当明显,如果仅仅将各维分量简单地组合起 来,这明显是一种比较粗糙的做法,在组合之前 应当将各维分量乘以与其相应的加权系数使之 最大程度
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 改进 MFCC 参数 特定 人语 识别 中的 研究
限制150内