第5讲语音编码PPT讲稿.ppt
《第5讲语音编码PPT讲稿.ppt》由会员分享,可在线阅读,更多相关《第5讲语音编码PPT讲稿.ppt(30页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第5讲语音编码第1页,共30页,编辑于2022年,星期一回声的产生在实时通信中,回声是不可避免的,A端发送的声音在B端放出后,会随着B的声音再传送到A端,形成回声。当A-B间延时很小,则A的回声与A语音近似重叠,人耳无法分辨。在PSTN网中,对于普通的市话呼叫,就属于这种情况。如果A-B延时较大,则回声和语音就能被人耳所分辨,形成干扰。卫星电话和IP电话就属于这种情况ABEcho of AVoutVin第2页,共30页,编辑于2022年,星期一回声的分类分为声回声(Acoustic Echo)和线回声(Line Echo)声回声:Vout播放出来,经空气传播,通过直射、反射等各种方式,形成Vi
2、n。声回声形成复杂,回声路径多样化,回声延时较大。线回声:在公用电话网中,干线传输采用4线方式(收、发各两线),而到交换局和电话终端之间,则采用2线方式(收发语音合并)。在2-4线转换过程中,由于阻抗匹配的问题,总会有些语音直接回传到发端,形成回声。这种回声路径比较固定(就是2-4线转换器),回声延时也比较小。第3页,共30页,编辑于2022年,星期一线回声抵消技术对于Line Echo,由于回声路径固定,回声延时较小,一般采用自适应滤波技术,用一个滤波器来模拟回声路径,并将滤波器输出与实际的采样语音相减,从而抵消掉回声。2-42-4Echo CancellerFilter-128阶滤波器,可
3、抵消16ms的回声。一般采用LMS算法估计滤波器系数。第4页,共30页,编辑于2022年,星期一声回声抵消技术与Line Echo相比,Acoustic Echo的回声路径更加复杂,而且路径的时变性更大,因此LMS算法已无法及时跟踪。而且由于回声延时很大,如果继续采用线性滤波器,则运算量将大幅增加。首先要选择更好的自适应滤波算法,有更快的收敛速度。其次要采用一些特殊的滤波器结构,以减小运算量。还可以采用多点语音输入输出方式,利用他们的空间相对位置进行计算。第5页,共30页,编辑于2022年,星期一在多媒体通信中的应用和公用电话网相比,基于Internet的语音通信有巨大的延时。编解码延时(10
4、-30ms)网络延时(几十至几百ms)处理延时(取决于处理器,一般几ms)因此收发两端延时往往能达到上百ms,必须采用回声抵消技术。在端对端通信中,一般采用线回声抵消,在会议通信中,一般采用声回声抵消。第6页,共30页,编辑于2022年,星期一语音降噪在一些恶劣的通信环境下,往往通话中含有极大的噪声(如坦克之间的通信),对通信造成很大的影响。噪声和语音在特性上有很大的不同。可以利用这些特征,将噪声和语音分离,再单独对语音作编码。语音的例子,噪音的例子。语音编辑处理软件CoolEdit2000第7页,共30页,编辑于2022年,星期一噪音和语音的特征过零率:噪音的过零率高,而语音的过零率低。基因
5、周期:噪声没有周期性,而语音有比较明显的周期特征。短时能量:噪声的短时能量稳定,语音的短时能量变化较大。第8页,共30页,编辑于2022年,星期一增益控制在企业的会议通信中,两个Group之间的会议是很典型的应用。此时一个Group中的每个成员,距离通信终端的距离都不同。自动增益控制(AGC)通过检测输入信号的能量,并进行调整,使得发送到对端的语音信号能量基本相同,让对端有一个较好的听觉效果。第9页,共30页,编辑于2022年,星期一增益控制(二)增益控制的基本技术是让语音的短时能量逼近其长时能量。长时能量的更新较慢,比较稳定。短时能量变化虽然快,但对于每个音节来说,相差不大。因此由于距离调整
6、所引起的短时能量变化,如果向长时能量逼近,则可以保持语音能量的平稳性。对于更复杂的增益控制算法,应考虑对噪声放大所产生的问题。第10页,共30页,编辑于2022年,星期一语音压缩声音的分类语音编码的性能评价指标和国际标准语音的特点和模型几种基本的语音编码技术CELP编码模型的分析第11页,共30页,编辑于2022年,星期一声音的分类声音的分类语音(Telephone Speech),2003400Hz,8KHz采样,主要应用于数字电话波形编码波形编码 参数编码参数编码 混合编码混合编码宽带语音(Wideband Speech),507000HZ 16KHz采样,主要应用于会议电视,相当于调幅广
7、播质量 音频(Audio),10-20000Hz,主要应用在娱乐与欣赏对于重建信号的音质有很高的要求,目前采用比特率较高的波形编码技术进行压缩。第12页,共30页,编辑于2022年,星期一语音编码性能指标语音编码性能指标 1.编码速率(编码速率(KBPS、KB/S)信号带宽:2003400Hz、507000Hz、1020000Hz采样频率:8K、16K、32K、44.1/48K(Hz)压缩码流速率(kb/s)2.编解码延时编解码延时公用电话网公用电话网510ms,移动蜂窝网不超过,移动蜂窝网不超过100ms 3.算法复杂度和可扩展性算法复杂度和可扩展性 用MIPS衡量,现在的DSP运算能力达到
8、几百上千MIPS。G729和G729A,可扩展性的例子。4.抗误码,抗丢包的能力抗误码,抗丢包的能力5.鲁棒性鲁棒性对不同音源,不同环境下有同样的质量。系统级联后多次编码解码对不同音源,不同环境下有同样的质量。系统级联后多次编码解码后语音的质量。后语音的质量。第13页,共30页,编辑于2022年,星期一语音编码性能评价语音编码性能评价 1.编码速率(编码速率(KBPS、KB/S)信号带宽:2003400Hz、507000Hz、1020000Hz采样频率:8K、16K、32K、44.1/48K(Hz)压缩码流速率(kb/s)2.重建语音质量重建语音质量客观评价:信噪比主观评价:MOS分(1-5分
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音 编码 PPT 讲稿
限制150内