2022年语音识别与语义识别 .pdf
《2022年语音识别与语义识别 .pdf》由会员分享,可在线阅读,更多相关《2022年语音识别与语义识别 .pdf(5页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、声音实际上是一种波语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。语音识别本质上是一种模式识别的过程,未知语音的模式与已知语音的参考模式逐一进行比较,最佳匹配的参考模式被作为识别结果。目前大多数语音识别技术是基于统计模式的,从语音产生机理来看,语音识别可以分为语音层和语言层 两部分。当今语音识别技术的主流算法 ,主要有基于动态时间规整(DTW)算法、基于非参数模型的矢量量化 (VQ)方法、基于参数模型的隐马尔可夫模型(HMM) 的方法、基于人工神经网络(ANN)和支持向量机等语音识别方法。语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节
2、概率的计算和音节到字概率的计算。一个连续语音识别系统 大致可分为四个部分: 特征提取,声学模型训练,语言模型训练和解码器。(1)预处理模块:对输入的原始语音信号进行处理,滤除掉其中的不重要的信息以及背景噪声,并进行语音信号的端点检测(找出语音信号的始末)、语音分帧 (近似认为在 10-30ms 内是语音信号是短时平稳的,将语音信号分割为一段一段进行分析)以及预加重(提升高频部分)等处理。(2)特征提取:名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 5 页 - - - -
3、 - - - - - 去除语音信号中对于语音识别无用的冗余信息,保留能够反映语音本质特征的信息, 并用一定的形式表示出来。也就是提取出反映语音信号特征的关键特征参数形成特征矢量序列,以便用于后续处理。目前的较常用的提取特征的方法还是比较多的,不过这些提取方法都是由频谱衍生出来的。Mel 频率倒谱系数( MFCC) 参数因其良好的抗噪性和鲁棒性而应用广泛。在sphinx 中也是用 MFCC特征的。MFCC的计算首先用 FFT将时域信号转化成频域,之后对其对数能量谱用依照 Mel 刻度分布的三角滤波器组进行卷积,最后对各个滤波器的输出构成的向量进行离散余弦变换DCT ,取前 N 个系数。在 sph
4、inx 中,用帧 frames 去分割语音波形,每帧大概10ms,然后每帧提取可以代表该帧语音的39 个数字,这 39 个数字也就是该帧语音的 MFCC特征,用特征向量来表示。语音识别基础语音信号的采样和量化语音信号是一个时间和幅度都连续变化的一维模拟信号而语音识别的过程是一个对语音信号进行数字处理的过程, 在对语音信号处理之前, 必须要对其进行数字化 , 这个过程就是模/ 数 (A/D) 转化 模/ 数转化过程要经过采样和量化两个过程 , 从而得到时间和幅度上的离散数字信号 根据奈奎斯特采样定律, 采样频率应为原始信号频率的两倍以上,才能使采样过程中不会丢失信息, 而且能从采样信号中准确的重
5、构原始信号的波形 正常人的发音范围是从40Hz到340OHz左右 , 因此在实验中, 本文对语音信号的采样频率均为skHz 2 语音信号的预加重语音信号从嘴唇辐射后, 高频端大约在800Hz 以上有 6dB/倍频的衰减 因此 , 在对语音信号进行分析之前, 一般要对语音信号加以提升( 预加重 ) 预加重的目的是滤除低频干扰, 尤其是名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 5 页 - - - - - - - - - 50Hz 或者 60Hz 的工频干扰 , 提升对语
6、音识别有用的高频部分, 使信号的频谱变得平坦, 以便于进行频谱分析或声道参数分析 .3 语音信号的加窗处理为了能对语音信号进行处理, 我们可以假定在 IOms一 30ms之间语音信号是平稳的, 语音频谱特性和语音特征参数恒定 因此需将语音信号划分为一个一个的短时段, 每一个短时段称为一帧, 为了从语音信号中切去出样本信号, 就要用时间窗函数乘以原始语音信号, 这种操作就称为加窗 。目前应用最为广泛的是汉明窗4 语音信号的端点检测其目的是从语音信号中检测出语音信号段和噪音段, 准确的端点检测不仅可以减少计算量,而且可以提高系统的识别率 常用的端点检测是基于双门限比较法, 的端点检测 , 就是根据
7、语音信号的特征参数( 能量和过零率 ) 进行清音 ! 噪音判别, 从而完成端点检测的 经过对语音信号的预处理之后就要进行特征参数的提取, 对特征参数的要求是: 1! 能有效代表语音特征, 具有良好的区分性; 2! 特征参数之间有良好的独立性; 3! 特征参数易于计算, 最好能保证语音识别的实时实现 特征提取(包括分帧)、音素建模、字典、隐式马尔科夫模型语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。特征提取就是从语音信号中提取出语音的特征序列提取的语音特征应该能完全、准确地表达语音信号 , 特征提取的目的是提取语音信号中能代表语音特征的信息, 减少语音识别时所要处理的数据
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年语音识别与语义识别 2022 语音 识别 语义
限制150内