多媒体技术基础(第3版)第3讲话音编码.ppt
《多媒体技术基础(第3版)第3讲话音编码.ppt》由会员分享,可在线阅读,更多相关《多媒体技术基础(第3版)第3讲话音编码.ppt(53页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、多媒体技术基础多媒体技术基础(第第3 3版版)第3讲话音编码张奇张奇复旦大学复旦大学计算机科学技术学院计算机科学技术学院2010年年3月月n随着数字电话和数据通信容量日益增长随着数字电话和数据通信容量日益增长的迫切要求,而又不希望明显降低传送的迫切要求,而又不希望明显降低传送话音信号的质量。话音信号的质量。除了提高通信带宽之外,对话音信号进行压缩是提高通信容量的重要措施。n本章将重点介绍话音编码的基本思想本章将重点介绍话音编码的基本思想2023年3月1日第3章 数字声音编码2 of 462023年3月1日第3章 数字声音编码3 of 46第3讲目录3.1话音类型话音类型3.1.1话音波形的特性
2、3.1.2话音类型3.2话音编译码器话音编译码器3.2.1波形编译码器3.2.2音源编译码器3.2.3混合编译码器3.4脉冲编码调制脉冲编码调制(PCM)3.4.1PCM的概念3.4.2均匀量化3.4.3非均匀量化3.5PCM在通信中的应用在通信中的应用3.5.1频分多路复用3.5.2时分多路复用3.5.3数字通信线路的数据传输率3.6增量调制与自适应增量调制增量调制与自适应增量调制3.6.1增量调制(DM)3.6.2自适应增量调制(ADM)3.7自适应差分脉冲编码调制自适应差分脉冲编码调制3.7.1自适应脉冲编码调制(APCM)的概念3.7.2差分脉冲编码调制(DPCM)的概念3.7.3自适
3、应差分脉冲编码调制(ADPCM)3.7.4G.726ADPCM编译码器3.8G.722SB-ADPCM编译码器编译码器3.8.1子带编码(SBC)3.8.2子带-自适应差分脉冲编码调制(SB-ADPCM)3.9线性预测编码线性预测编码(LPC)的概念的概念3.10GSM声音简介声音简介3.11话音编码标准摘要话音编码标准摘要3.11.1编码算法的性能3.11.2话音编码标准参考文献和站点参考文献和站点3.1话音类型话音类型话音波形的特性话音波形的特性n话音的产生:肺部中的受压空气沿着声道通过声门发话音的产生:肺部中的受压空气沿着声道通过声门发出。出。n短期相关短期相关(short-termco
4、rrelation):普通人的声道从声:普通人的声道从声门到嘴的平均长度约为门到嘴的平均长度约为17厘米,反映在声音信号中就厘米,反映在声音信号中就相当于在相当于在1ms数量级内的数据具有相关性数量级内的数据具有相关性(声速约为声速约为340m/s)。n声道也被认为是一个滤波器,有许多共振峰,其频率声道也被认为是一个滤波器,有许多共振峰,其频率受随时间变化的声道形状所控制,例如舌的移动就会受随时间变化的声道形状所控制,例如舌的移动就会改变声道的形状。许多话音编码器用一个短期滤波器改变声道的形状。许多话音编码器用一个短期滤波器(shorttermfilter)来模拟声道。但由于声道形状的变化来模
5、拟声道。但由于声道形状的变化比较慢,模拟滤波器的传递函数的修改不需要那么频比较慢,模拟滤波器的传递函数的修改不需要那么频繁,典型值在繁,典型值在20ms左右。左右。2023年3月1日第3讲 话音编码 4 of 463.1话音类型话音类型话音类型话音类型浊音,清音和爆破音。根据压缩空气通过声门对声道滤波器的激励方式区分。n按发音方法为:按发音方法为:爆破音:/p/b/t/d/k/g/鼻音:/m/n/摩擦音:/f/v/d/t/s/z/f/v/r/h/w/j/破擦音:/tF/dV/ts/dz/tr/dr/舌侧音:/l/n按声带震动与否为:按声带震动与否为:清音:/p/t/k/f/W/h/s/F/tF
6、/浊音:/b/d/g/m/n/N/v/T/z/V/dV/r/w/j/l/2023年3月1日第3讲 话音编码 5 of 463.1话音类型话音类型1.浊音浊音(voicedsounds)浊浊 音音 是是 一一 种种 称称 为为 准准 周周 期期 脉脉 冲冲(quasi-periodicpulses)激激励励所所发发出出的的音音,这这种种准准周周期期脉脉冲冲是是在在声声门门打打开开然然后后关关闭闭时时中中断断肺肺部部到到声声道道的的气气流流所所产生的脉冲。产生的脉冲。声声门门打打开开和和关关闭闭的的速速率率呈呈现现为为音音节节(pitch)的的大大小小(音音节节是是听听觉觉能能感感受受到到的的最最
7、自自然然的的语语音音单单位位,一一个个汉汉字字就就是是一一个个音音节节),它它的的速速率率可可通通过过改改变变声声道道的的形形状状和和空空气气的的压压力力来来调调整整。浊浊音音表表现现出出在在音音节节上上有有高高度度的的周周期期性性,其其值值在在220ms之之间间,这这个个周周期期性性称称为为长长期期周周期期性性(long-termperiodicity)。2023年3月1日第3讲 话音编码 6 of 463.1话音类型话音类型2023年3月1日第3讲 话音编码 7 of 46图图3-01浊音段的浊音段的波形举例,音节波形举例,音节周期大约周期大约8ms图图3-02浊音段的功浊音段的功率谱密度
8、率谱密度(powerspectraldensity,PSD)3.1话音类型话音类型n清音是由不稳定气流激励所产生的,这种气流清音是由不稳定气流激励所产生的,这种气流是在声门处在打开状态下强制空气在声道里高是在声门处在打开状态下强制空气在声道里高速收缩产生的。速收缩产生的。2023年3月1日第3讲 话音编码 8 of 46图图3-03清音段的波形举例清音段的波形举例图图3-04清音段的功率谱密度举例清音段的功率谱密度举例3.1话音类型话音类型n爆破音爆破音(plosivesounds)爆爆破破音音是是在在声声道道关关闭闭之之后后产产生生压压缩缩空空气气然然后后突突然然打打开开声声道所发出的音。道
9、所发出的音。n某某些些音音不不能能归归属属到到上上述述三三种种音音中中的的任任何何一一种种,例例如如在在声声门门振振动动和和声声道道收收缩缩同同时时出出现现的的情情况况下下产产生生的的摩摩擦擦音音,这种音称为混合音。这种音称为混合音。n声声道道的的形形状状和和激激励励方方式式的的变变化化相相对对比比较较慢慢,话话音音在在短短时时间间周周期期(1030ms)里里可可以以被被认认为为是是准准定定态态(quasi-stationary)的短时平稳随机过程。的短时平稳随机过程。n话话音音信信号号具具有有高高度度周周期期性性,这这是是由由于于声声门门的的准准周周期期性性的的振振动动和和声声道道的的谐谐振
10、振引引起起的的。话话音音编编码码器器就就是是企企图图揭揭示示这这种种周周期期性性,减减少少数数据据率率又又尽尽可可能能不不牺牺牲牲声声音音的的质质量。量。2023年3月1日第3讲 话音编码 9 of 463.2话音编译码器话音编译码器n三种话音编译码器三种话音编译码器波形编译码器:话音质量高,数据率高波形编译码器:话音质量高,数据率高音源编译码器:数据率很低,合成话音音质有待提高音源编译码器:数据率很低,合成话音音质有待提高混混合合编编译译码码器器:使使用用音音源源编编译译码码技技术术和和波波形形编编译译码码技技术术,数数据据率率和和音音质质介于之间介于之间2023年3月1日第3讲 话音编码
11、10 of 46图图3-05普通编普通编译码器的音质译码器的音质与数据率与数据率3.2话音编译码器话音编译码器n波形编译码器波形编译码器n波波形形编编译译码码的的想想法法:不不利利用用生生成成话话音音信信号号的的任任何何知知识识而而试试图图产产生生一一种种重重构构信信号号,波波形形与与原原始始话话音音波波形形尽尽可可能一致。能一致。n这这种种编编译译码码器器的的复复杂杂程程度度比比较较低低,数数据据速速率率在在16kb/s以以上上,质质量量相相当当高高。低低于于这这个个数数据据速速率率时时,音音质质急急剧剧下下降。降。n脉脉冲冲编编码码调调制制(pulsecodemodulation,PCM)
12、:最最简简单的波形编码,仅仅是对输入信号进行采样和量化。单的波形编码,仅仅是对输入信号进行采样和量化。n典典型型的的窄窄带带话话音音带带宽宽限限制制在在4kHz,采采样样频频率率是是8kHz。如如果果要要获获得得高高一一点点的的音音质质,样样本本精精度度要要用用12位位,它它的的数数据据率率就就等等于于96kb/s,这这个个数数据据率率可可以以使使用用非非线线性性量量化化来降低来降低2023年3月1日第3讲 话音编码 11 of 463.2话音编译码器话音编译码器n音源编译码器音源编译码器音音源源编编译译码码的的思思想想:从从话话音音波波形形信信号号中中提提取取生生成成话话音音的的参数,使用这
13、些参数通过话音生成模型重构出话音。参数,使用这些参数通过话音生成模型重构出话音。n声码器声码器(vocoder):针对话音的音源编译码器。:针对话音的音源编译码器。n在在话话音音生生成成模模型型中中,声声道道被被等等效效成成一一个个随随时时间间变变化化的的滤滤波波器器,叫叫做做时时变变滤滤波波器器(time-varyingfilter),它它由由白白噪噪声声(无无声声话话音音段段)激激励励,或或者者由由脉脉冲冲串串(有有声声话话音音段段)激激励励。需需要要传传送送给给解解码码器器的的信信息息就就是是滤滤波波器器的的规规格格、发发声声或或者者不不发发声声的的标标志志和和有有声声话话音音的的音音节
14、节周周期期,并并且且每每隔隔1020ms更更新新一一次次。声声码码器器的的模模型型参参数数既既可可使使用用时时域域的的方方法法也也可可以以使使用用频频域域的的方方法法确确定定,这这项项任任务务由由编编码器完成。码器完成。2023年3月1日第3讲 话音编码 12 of 463.2话音编译码器话音编译码器n这种声码器的数据率在这种声码器的数据率在2.4kb/s左右,产左右,产生的语音虽然可以听懂,但其质量远远生的语音虽然可以听懂,但其质量远远低于自然话音。增加数据率对提高合成低于自然话音。增加数据率对提高合成话音的质量无济于事,这是因为受到话话音的质量无济于事,这是因为受到话音生成模型的限制。尽管
15、它的音质比较音生成模型的限制。尽管它的音质比较低,但它的保密性能好,因此这种编译低,但它的保密性能好,因此这种编译码器一直用在军事上。码器一直用在军事上。2023年3月1日第3讲 话音编码 13 of 463.2话音编译码器话音编译码器n混合编译码混合编译码n混混合合编编译译码码的的思思想想:企企图图填填补补波波形形编编译译码和音源编译码之间的间隔。码和音源编译码之间的间隔。n波波形形编编译译码码器器虽虽然然可可提提供供高高质质量量的的话话音音,但但数数据据率率低低于于16kb/s的的情情况况下下,在在技技术术上上还没有解决音质的问题;还没有解决音质的问题;n声声码码器器的的数数据据率率虽虽然
16、然可可降降到到2.4kb/s甚甚至至更更低低,但但它它的的音音质质根根本本不不能能与与自自然然话话音音相提并论。相提并论。2023年3月1日第3讲 话音编码 14 of 462023年3月1日第3章 数字声音编码15 of 463.4脉冲编码调制脉冲编码调制(PCM)n脉冲编码调制脉冲编码调制(PCM)的概念的概念PCM是pulsecodemodulation的缩写概念上最简单、理论上最完善、最早研制成功、使用最为广泛、数据量最大的编码系统图3-3 PCM编码原理框图2023年3月1日第3章 数字声音编码16 of 463.4脉冲编码调制脉冲编码调制(续续1)n在图在图3-3中中输入是模拟信号
17、,输出是PCM样本。防失真滤波器:低通滤波器,用来滤除声音频带以外的信号波形编码器:可理解为采样器量化器:可理解为“量化阶大小(step-size)”生成器或者称为“量化间隔”生成器nPCM实际上是模拟信号数字化实际上是模拟信号数字化模拟声音数字化的两个步骤:第一步是采样,就是每隔一段时间间隔读一次声音的幅度第二步是量化,就是把采样得到的声音信号幅度转换成数字值2023年3月1日第3章 数字声音编码17 of 463.4脉冲编码调制脉冲编码调制(续续2)n量化的方法量化的方法主要有均匀量化和非均匀量化均匀量化n采用相等的量化间隔/等分尺度量采样得到的信号幅度,也称为线性量化。量化后的样本值Y和
18、原始值X的差E=Y-X称为量化误差或量化噪声图3-4 均匀量化2023年3月1日第3章 数字声音编码18 of 463.4脉冲编码调制脉冲编码调制(续续3)n非均匀量化非均匀量化大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔可在满足精度要求的情况下用较少的位数来表示声音数据还原时,采用相同的规则采样输入信号幅度和量化输出数据之间定义了两种对应关系n律压扩算法nA律压扩算法注:压扩(companding)图3-5 非均匀量化3.4脉冲编码调制脉冲编码调制n律压扩律压扩n律律(-Law)压压扩扩(G.711)主主要要用用在在北北美美和和日日本本等等地地区区的的数字电话通信中,按下式确定
19、量化输入和输出的关系:数字电话通信中,按下式确定量化输入和输出的关系:nx为为输输入入信信号号幅幅度度,规规格格化化成成;sgn(x)为为x的的极极性;性;nu为为确确定定压压缩缩量量的的参参数数,它它反反映映最最大大量量化化间间隔隔和和最最小小量化间隔之比,取量化间隔之比,取100u500。n由由于于u律律压压扩扩的的输输入入和和输输出出关关系系是是对对数数关关系系,所所以以这这种种编编码码又又称称为为对对数数PCM。具具体体计计算算时时,用用u255,把把对数曲线变成对数曲线变成8条折线以简化计算过程。条折线以简化计算过程。2023年3月1日第3讲 话音编码 19 of 463.4脉冲编码
20、调制脉冲编码调制nA律压扩律压扩nA律律(A-Law)压压扩扩(G.711)主主要要用用在在欧欧洲洲和和中中国国大大陆陆等等地地区区的的数数字字电电话话通通信信中中,按按下下式式确确定定量量化化输输入入和和输输出出的的关系:关系:n0|x|1/An1/A|x|1nx为输入信号幅度,规格化成为输入信号幅度,规格化成-1x1;sgn(x)为为x的极性。的极性。nA为为确确定定压压缩缩量量的的参参数数,它它反反映映最最大大量量化化间间隔隔和和最最小小量量化间隔之比。化间隔之比。2023年3月1日第3讲 话音编码 20 of 463.5PCM在通信中的应用在通信中的应用nPCM编码早期主要用于话音通信
21、中的多编码早期主要用于话音通信中的多路复用。一般来说,在电信网中传输媒路复用。一般来说,在电信网中传输媒体线路费用约占总成本的体线路费用约占总成本的65%,设备费,设备费用约占成本的用约占成本的35%,因此提高线路利用,因此提高线路利用率是一个重要课题率是一个重要课题2023年3月1日第3讲 话音编码 21 of 463.5PCM在通信中的应用在通信中的应用n频分多路复用频分多路复用(frequency-divisionmultiplexing,FDM)把传输信道的频带分成几个窄带,每个窄带传送一路信号。【例】一个信道的频带为1400Hz,把这个信道分成4个子信道(subchannels):8
22、20990Hz,12301400Hz,16401810Hz和20502220Hz,相邻子信道间相距240Hz,用于确保子信道之间不相互干扰。每对用户仅占用其中的一个子信道。这是模拟载波通信的主要手段。2023年3月1日第3讲 话音编码 22 of 462023年3月1日第3章 数字声音编码23 of 463.5PCM在通信中的应用在通信中的应用n时分多路复用时分多路复用PCM编码早期主要用于话音通信中的多路复用时分多路复用是在同一条通信线路上使用不同时段“同时”传送多个独立信号的通信方法时分多路复用的核心思想是将时间分成等间隔的时段,为每对用户指定一个时间间隔,每个间隔传输信号的一部分例如,话
23、音信号的采样频率f8000Hz/s,它的采样周期125s,这个时间称为1帧(frame)。在这个时间里可容纳的话路数有两种规格n24路制n30路制2023年3月1日第3章 数字声音编码24 of 463.5PCM在通信中的应用在通信中的应用(续续1)n24路制的重要参数如下:路制的重要参数如下:每秒钟传送8000帧,每帧125s12帧组成1复帧(用于同步)。每帧由24个时间片(信道)和1位同步位组成每个信道每次传送8位代码,1帧有2481193位(位)数据传输率R80001931544kb/s每一个话路的数据传输率80008=64kb/s图3-6 24路PCM的帧结构 2023年3月1日第3章
24、 数字声音编码25 of 463.5PCM在通信中的应用在通信中的应用(续续2)n30路制的重要参数如下:路制的重要参数如下:每秒钟传送8000帧,每帧125s16帧组成1复帧(用于同步)每帧由32个时间片(信道)组成每个信道每次传送8位代码数据传输率:R80003282048kb/s每一个话路的数据传输率80008=64kb/sn线路利用率线路利用率使用时分多路复用技术时,由于当信道无数据传输时仍给那个信道分配时间槽,因此线路利用率较低为解决这个问题,开发了统计时分多路复用技术(statisticaltimedivisionmultiplexing,STDM)。STDM是按照每个传输信道的传
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多媒体技术 基础 话音 编码
限制150内