多媒体技术话音编码讲稿.ppt
《多媒体技术话音编码讲稿.ppt》由会员分享,可在线阅读,更多相关《多媒体技术话音编码讲稿.ppt(32页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、多媒体技术话音编码第一页,讲稿共三十二页哦主要内容话音的形成原理话音编译码器原理脉冲编码调制(PCM)增量调制与自适应增量调制自适应差分脉冲编码调制(ADPCM)子带编码其他编码2第二页,讲稿共三十二页哦话音的形成原理 肺中的空气受到挤压形成气流,气流通过声门(声带)沿着声道(由咽、喉、口腔等组成)释放出去,就形成了话音。气流、声门可以等效为一个激励源,声道可以等效为一个时变滤波器(共振峰)。话音信号具有很强的相关性(长期相关、短期相关)。3第三页,讲稿共三十二页哦话音的分类浊音(voiced sounds):声道打开,声带在先打开后关闭,气流经过使声带要发生张驰振动,变为准周期振动气流。浊音
2、的激励源被等效为准周期的脉冲信号。清音(unvoiced sounds):声带不振动,而在某处保持收缩,气流在声道里收缩后高速通过产生湍流,再经过主声道(咽、口腔)的调整最终形成清音。清音的激励源被等效为一种白噪声信号。爆破音(plosive sounds):声道关闭之后产生压缩空气然后突然打开声道所发出的声音。4第四页,讲稿共三十二页哦话音产生的数字模型周期脉冲序列发周期脉冲序列发生器生器伪随机噪声产伪随机噪声产生器生器周期周期时变数字滤波时变数字滤波器器音量控制音量控制声道参数声道参数语音语音输出输出浊浊/清选择清选择5第五页,讲稿共三十二页哦话音技术的研究热点话音压缩编码(Speech
3、Coding)话音识别(Speech Recognition)文本话音转换(Text To Speech)6第六页,讲稿共三十二页哦话音编译码器A/D话音编码信道编码信道信道译码话音译码D/A7第七页,讲稿共三十二页哦衡量话音编码器的参数数据输出速率延迟时间话音质量价格(实现代价)8第八页,讲稿共三十二页哦语音质量等级划分广播质量:带宽为7000Hz的高质量话音长途电话质量:带宽为3400Hz,信噪比为30db,有失真通信质量:完全可以听懂,但和长途电话质量相比有明显的失真。合成质量:8090的可懂度,听起来象机器讲话,失去了讲话者的特征9第九页,讲稿共三十二页哦话音编译码器的分类波形编译码器
4、(waveform coder):不利用生成话音的信号的任何知识,将话音视为一种普通的声音,直接对波形信号进行采样和量化。例如PCM、DPCM、ADPCM等。音源编译码器(Source coder):也叫参数编译码器、声码器(vocoder)。它从话音波形信号中提取话音生成模型的参数,使用这些参数通过话音生成模型重构出话音。混合编译码器(Hybrid coder):综合使用上述两种技术。使用的激励信号波形尽可能接近于原始话音信号的波形。例如CELP。10第十页,讲稿共三十二页哦三种话音编译码器的对比11第十一页,讲稿共三十二页哦语音信号的冗余度幅度非均匀分布样本之间的相关性周期之间的相关性基音
5、之间的相关性静止系数(话音间隙)长期相关性(long term correlation)12第十二页,讲稿共三十二页哦脉冲编码调制(PCM)Pulse Code Modulation13第十三页,讲稿共三十二页哦PCM的量化方式均匀量化与非均匀量化14第十四页,讲稿共三十二页哦非均匀量化对小信号采用小的量化间隔,对大信号采用大的量化间隔,这样可以用较少的位数编码。对大信号来说,虽然绝对量化误差较大,但是因为:(1)大信号出现的机会不多,(2)信噪比(相对误差)与小信号是一致的,所以对总的话音质量影响不大。非均匀量化也是一种压缩。15第十五页,讲稿共三十二页哦律压扩与A律压扩m 律(m-Law)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多媒体技术 话音 编码 讲稿
限制150内