第二章音频处理.ppt
《第二章音频处理.ppt》由会员分享,可在线阅读,更多相关《第二章音频处理.ppt(88页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第二章音频处理第二章音频处理人耳能识别的声音频率范围大约在人耳能识别的声音频率范围大约在2020k 2020k HzHz,通常称为音频(,通常称为音频(audioaudio)信号。)信号。人的发音器官发出的声音范围大约在人的发音器官发出的声音范围大约在803400Hz803400Hz,但人说话的信号频率通常为,但人说话的信号频率通常为3003000Hz3003000Hz,称为语音(,称为语音(speechspeech)信号。)信号。低于低于20Hz20Hz的信号称为次声波(的信号称为次声波(subsonicsubsonic),),高于高于20k Hz20k Hz称为超声波(称为超声波(ultr
2、asonicultrasonic)。)。次声波和超声波人耳都无法听到。次声波和超声波人耳都无法听到。声音的频率范围 计算机音频处理涉及的内容包括:计算机音频处理涉及的内容包括:1)1)音频传播媒体特征音频传播媒体特征,也即声波的物理特性。也即声波的物理特性。2)2)音频的记录和产生方式,包括模音频的记录和产生方式,包括模/数、数数、数/模转换;数据压缩和声音合成。模转换;数据压缩和声音合成。3)3)音频数据的编辑处理。音频数据的编辑处理。对音频信号的处理方法大致可分为三类:对音频信号的处理方法大致可分为三类:波形编译码器,音源编译码器,混合编译波形编译码器,音源编译码器,混合编译码器。码器。第
3、二章音频处理第二章音频处理一一.声音的特征声音的特征 振幅周期基线基线是测量模拟信号的基准点。声波的振基线是测量模拟信号的基准点。声波的振幅表示声音信号的强弱程度。声波的频率幅表示声音信号的强弱程度。声波的频率反映出声音的音调,声音细尖表示频率高,反映出声音的音调,声音细尖表示频率高,声音粗低表示频率低。声音粗低表示频率低。正弦波有两个重要参数:频率正弦波有两个重要参数:频率0 0、幅度、幅度A An n 。声音的三个要素是音调、音量和音色。声音的三个要素是音调、音量和音色。声音有以下一些特点:声音有以下一些特点:1.1.音调:音调:声音的高低声音的高低。音调正是由频率。音调正是由频率所决定的
4、。所决定的。频率越高音调越高频率越高音调越高(频率单位(频率单位HzHz)2.2.音量:音量:人主观上感觉声音的大小人主观上感觉声音的大小,以,以分贝(分贝(dBdB)为单位。)为单位。3.3.音色:音色是声音的特色,根据不同的音色:音色是声音的特色,根据不同的音色,即使在同一音调和同一声量的情况音色,即使在同一音调和同一声量的情况下,也能区分出是不同乐器或人声发出的。下,也能区分出是不同乐器或人声发出的。二、音频数字化二、音频数字化 模拟信号:时间上连续,幅值上也连续的模拟信号:时间上连续,幅值上也连续的信号。信号。数字信号:时间上和幅值上都用离散的数数字信号:时间上和幅值上都用离散的数字表
5、示的信号。字表示的信号。A/DA/D变换:把连续变化的模拟信号转换成数变换:把连续变化的模拟信号转换成数字信号。字信号。A/DA/D变换一般要由两步完成:采样和量化。变换一般要由两步完成:采样和量化。(1)(1)采样采样 采样是将时间上、幅值上都连续的模拟信采样是将时间上、幅值上都连续的模拟信号,在采样脉冲的作用,转换成时间上离号,在采样脉冲的作用,转换成时间上离散、但幅值上仍连续的离散模拟信号。散、但幅值上仍连续的离散模拟信号。每秒钟的采样样本数叫做采样频率。每秒钟的采样样本数叫做采样频率。奈奎斯特理论:只有当采样频率高于声音奈奎斯特理论:只有当采样频率高于声音信号最高频率的两倍时,才能把离
6、散模拟信号最高频率的两倍时,才能把离散模拟信号表示的声音信号唯一地还原成原来的信号表示的声音信号唯一地还原成原来的声音。声音。目前在多媒体系统中捕获声音的标准采样目前在多媒体系统中捕获声音的标准采样频率定为频率定为44.1kHz44.1kHz、22.05kHz22.05kHz和和11.025kHz11.025kHz三种。三种。(2)(2)量化量化 所谓量化就是把采集到的数值送到量化器所谓量化就是把采集到的数值送到量化器(A/DA/D转换器)编码成数字,每个数字代表转换器)编码成数字,每个数字代表一次采样所获得的声音信号的瞬间值。一次采样所获得的声音信号的瞬间值。目前常用量化数据位来表示量化级,
7、例如目前常用量化数据位来表示量化级,例如数据位为数据位为8 8位,则表示位,则表示2 28 8个量化级,最高量个量化级,最高量化级有化级有2 21616个(个(=65536=65536个)等级。个)等级。量化噪声:量化过程存在量化误差,反映量化噪声:量化过程存在量化误差,反映到接收端,这种误差作为噪声再生。到接收端,这种误差作为噪声再生。(c)采样信号的量化(a)模拟音频信号(b)音频信号的采样数字化音频的过程数字化音频的过程:采样和量化采样和量化采样时的声道数有单声道和双声道两种。采样时的声道数有单声道和双声道两种。AVAV文件的数据量的计算公式:数据量文件的数据量的计算公式:数据量 =采采
8、样频率(样频率(HzHz)采样精度(位)采样精度(位)声道声道数数 8 8(dBdB)计算:计算:用用44.1kHz44.1kHz采样频率采样,每个样本使用采样频率采样,每个样本使用1616位采样精度存储,则录制一分钟的立体声位采样精度存储,则录制一分钟的立体声节目,音频节目,音频WAVWAV文件的存储量?文件的存储量?使用使用22.05kHz22.05kHz的采样频率和的采样频率和8 8位采样精度,位采样精度,录制一分钟调幅音频的录制一分钟调幅音频的WAVWAV文件存储量?文件存储量?三三.数字音频技术指标数字音频技术指标 1 1采样频率:如果对某一模拟信号进行采采样频率:如果对某一模拟信号
9、进行采样,则采样后可还原的最高信号频率只有样,则采样后可还原的最高信号频率只有采样频率的一半,或者说只要采样频率高采样频率的一半,或者说只要采样频率高于输入信号最高频率的两倍,就能从采样于输入信号最高频率的两倍,就能从采样信号系列重构原始信号。信号系列重构原始信号。2 2量化位数:量化位是对模拟音频信号的量化位数:量化位是对模拟音频信号的幅度轴进行数字化,它决定了模拟信号数幅度轴进行数字化,它决定了模拟信号数字化以后的动态范围。字化以后的动态范围。3 3声道数:有单声道、双声道、多声道之声道数:有单声道、双声道、多声道之分。分。三、常见声音文件的格式三、常见声音文件的格式 常见的声音文件为:常
10、见的声音文件为:WAVWAV文件、文件、VOCVOC文件、文件、AUAU文件和文件和MIDMID文件。文件。(1)WAV(1)WAV声音文件格式:声音文件格式:WAVWAV文件是从模拟文件是从模拟声波采样后得到的一种波形文件,使用于声波采样后得到的一种波形文件,使用于WindowsWindows操作系统,其格式是由文件首部与操作系统,其格式是由文件首部与文件数据块组成。文件数据块组成。(2)VOC(2)VOC声音文件格式:声音文件格式:VOCVOC文件是用于文件是用于DOSDOS操作系统下的一种波形文件。操作系统下的一种波形文件。(3)AU(3)AU声音文件格式:用于声音文件格式:用于UNIX
11、UNIX操作系统操作系统下的一种波形文件。下的一种波形文件。(4)MID(4)MID文件格式:文件格式:MIDMID文件是一种记录数文件是一种记录数字化音乐的字化音乐的MIDIMIDI文件。文件。四四.音频信号的指标音频信号的指标 1.1.频带宽度:音频信号的频带越宽,所频带宽度:音频信号的频带越宽,所包含的音频信号分量越丰富,音质越好。包含的音频信号分量越丰富,音质越好。2 2动态范围动态范围:动态范围越大,信号强度的动态范围越大,信号强度的相对变化范围越大,音响效果越好相对变化范围越大,音响效果越好 。3 3信噪比:信噪比信噪比:信噪比SNRSNR(Signal to Noise Sign
12、al to Noise RatioRatio)是有用信号与噪声之比的简称。)是有用信号与噪声之比的简称。4 4主观度量法:人的感觉机理对声音的度主观度量法:人的感觉机理对声音的度量最有决定意义。量最有决定意义。声音的质量分为了五个等级,由低到高分别是:声音的质量分为了五个等级,由低到高分别是:电话电话(telephone)(telephone)、调幅广播、调幅广播(AM)(AM)、调频广播、调频广播(FM)(FM)、光盘、光盘(CD)(CD)、数字录音带、数字录音带(DAT)(DAT)第二章音频处理一音频压缩编码技术一音频压缩编码技术 主要有以下几种主要类型:主要有以下几种主要类型:1 1熵编
13、码熵编码 :如如HuffmanHuffman编码、算术编码编码、算术编码以及行程编码等。以及行程编码等。2 2波形编码波形编码 :波形编码的特点是在高码率的条波形编码的特点是在高码率的条件下获得高质量的音频信号,适用于高保真度语音件下获得高质量的音频信号,适用于高保真度语音和音乐信号的压缩技术。和音乐信号的压缩技术。(脉冲编码调制(PCM),实际为直接对声音信号作AD转换。只要采样频率足够高,量化位数足够多,就能使解码后恢复的声音信号有很高的质量。差分脉冲编码调制(DPCM),即只传输声音预测值和样本值的差值以此降低音频数据的编码率。自适应差分编码调制(ADPCM),是DPCM方法的进一步改进
14、,通过调整量化步长,对不同频段设置不同的量化字长,使数据得到进一步的压缩。)3.3.参数编码参数编码 :参数编码的方法是将音频信:参数编码的方法是将音频信号以某种模型表示,再抽出合适的模型参号以某种模型表示,再抽出合适的模型参数和参考激励信号进行编码;声音重放时,数和参考激励信号进行编码;声音重放时,再根据这些参数重建即可。此类方法构成再根据这些参数重建即可。此类方法构成声码器的有线性预测声码器的有线性预测(LPC)(LPC)声码器、通道声声码器、通道声码器、共振峰声码器等。码器、共振峰声码器等。4 4混合编码混合编码 :音频中采用的混合编码包:音频中采用的混合编码包括多脉冲线性预测括多脉冲线
15、性预测MP-LPCMP-LPC,矢量和激励线,矢量和激励线性预测性预测VSELPVSELP,码本激励线性预测,码本激励线性预测CELPCELP,短,短延时码本激励线性预测编码延时码本激励线性预测编码LD-CELPLD-CELP,以,以及规则码激励长时预测及规则码激励长时预测RPERPELTPLTP等。等。5 5感知编码:不是利用波形本身的相感知编码:不是利用波形本身的相关性和模拟人的发音器官的特征,而是关性和模拟人的发音器官的特征,而是利用人的听觉系统的特征来达到压缩声利用人的听觉系统的特征来达到压缩声音数据的目的。音数据的目的。书上将这五种编译码器分为了三类:书上将这五种编译码器分为了三类:
16、1)1)波形编译码器波形编译码器2)2)音源编译码器音源编译码器3)3)混合编译码器混合编译码器音频数字压缩编码算法及其特性音频数字压缩编码算法及其特性(见见wordword文档文档)二二.音频编码技术标准音频编码技术标准 (一一)电话质量的音频压缩编码技术标准电话质量的音频压缩编码技术标准 19721972年年CCITTCCITT(现称为(现称为ITU-TITU-T)制定了)制定了PCMPCM标标准准G.711G.711,速率为,速率为64kbit/s64kbit/s,采用非线性量,采用非线性量化化律或律或A A律,其质量相当于律,其质量相当于12bit12bit线性量线性量化。化。1984
17、1984年年CCITTCCITT公布了自适应差分脉冲编码调公布了自适应差分脉冲编码调制制ADPCMADPCM标准标准G.721G.721,速率为,速率为32kbit/s32kbit/s。19921992年年CCITTCCITT制定了短时延码本激励线性预制定了短时延码本激励线性预测编码测编码LD-CELPLD-CELP的标准的标准G.728G.728,速率,速率16kbit/s16kbit/s,其质量与,其质量与32kbit/s32kbit/s的的G.721G.721标准标准基本相当。基本相当。其它语音相关标准:其它语音相关标准:G.723:G.723:一种一种ITU-T ITU-T 推荐标准推
18、荐标准 用于传输速率在用于传输速率在5.36.4 kbps5.36.4 kbps之间多媒体通信传输的双速率语音之间多媒体通信传输的双速率语音编码器。编码器。H.222H.222:ITU-T ITU-T 推荐标准,规定了运动图片及相推荐标准,规定了运动图片及相关音频信息的通用编码。关音频信息的通用编码。H.242H.242:ITU-TITU-T的的H.320 H.320 协议族中视频互操作推荐协议族中视频互操作推荐标准部分。它规定了建立一个音频会话和在通信标准部分。它规定了建立一个音频会话和在通信终止后结束该会话的协议。终止后结束该会话的协议。H.324H.324:一个:一个ITU-T ITU-
19、T 标准。它在模拟电话线标准。它在模拟电话线(POTSPOTS)上提供了点对点的数据、视频和音频会)上提供了点对点的数据、视频和音频会议。议。T.120T.120:ITU-TITU-T的的“多媒体数据传输协议多媒体数据传输协议”,一种,一种数据共享数据共享/数据会议规范,使用户能通过任何数据会议规范,使用户能通过任何H.32x H.32x 可视会议共享文件。可视会议共享文件。(二二)调幅广播质量的音频压缩编码技术标准调幅广播质量的音频压缩编码技术标准 CCITTCCITT在在19881988年制定了年制定了 G.722G.722标准。标准。G.722G.722标准是采用标准是采用16kHz16
20、kHz采样,采样,14blt14blt量化,信号量化,信号数据速率为数据速率为224kbit224kbits s,采用子带编码方,采用子带编码方法法 。利用利用G.722G.722标准可以在窄带综合服务数据网标准可以在窄带综合服务数据网N-ISDNN-ISDN中的一个中的一个B B信道上传送调幅广播质量信道上传送调幅广播质量的音频信号。的音频信号。(三三)高保真度立体声音频压缩编码技术标准高保真度立体声音频压缩编码技术标准 高保真立体声音频信号频率范围是高保真立体声音频信号频率范围是50Hz20kHz50Hz20kHz,采用,采用44441kHz1kHz采样频率,采样频率,16bit16bit
21、量化进行数字化转换,其数据速率每量化进行数字化转换,其数据速率每声道达声道达705kbit705kbits s。MPEGMPEG小组负责比较和评估几种低码速率数小组负责比较和评估几种低码速率数字声音编码技术,以产生一套国际标准,字声音编码技术,以产生一套国际标准,用于活动图象、相关声音信息及其结合,用于活动图象、相关声音信息及其结合,和用数字存储媒体(和用数字存储媒体(DSMDSM)存储与重现。)存储与重现。MPEGMPEG声音:声音:MPEGMPEG声音使用感知声音编码声音使用感知声音编码听觉系统的感知特性:听觉系统的感知特性:响度:听阈、痛阈响度:听阈、痛阈音高:音高:掩蔽效应:(频域掩蔽
22、、时域掩蔽)掩蔽效应:(频域掩蔽、时域掩蔽)MPEGMPEG音频与感知特性音频与感知特性MPEGMPEG音频数据压缩主要依靠使用音频数据压缩主要依靠使用“心理学心理学模型模型”(概念)(概念)MPEGMPEG音频采纳两种感知编码:感知子带编音频采纳两种感知编码:感知子带编码和码和AC-3AC-3编码编码MPEG-1MPEG-1于于19921992年年1111月完成,成为国际上公月完成,成为国际上公认的高保真立体声音频压缩标准,音频压认的高保真立体声音频压缩标准,音频压缩技术的数据速率为每声道缩技术的数据速率为每声道32448kbit32448kbits s,适合于,适合于CDCDDADA光盘应
23、用。光盘应用。MPEG-2MPEG-2由两部分组成,由两部分组成,MPEG-2MPEG-2音频和音频和MPEG-MPEG-2 AAC 2 AAC。MPEG-4 AudioMPEG-4 Audio标准可集成从话音到高质量标准可集成从话音到高质量的多通道声音,从自然声音到合成声音。的多通道声音,从自然声音到合成声音。MPEG-7 AudioMPEG-7 Audio标准(标准(ISO/IEC 15938-3ISO/IEC 15938-3)提)提供了音频描述工具。供了音频描述工具。第二章音频处理第二章音频处理一一MPEG-1MPEG-1音频标准音频标准 MPEG-1MPEG-1音频编码标准包括三部分,
24、分别对音频编码标准包括三部分,分别对应第应第1 1,2 2和和3 3层(层(Layer 1,2,3Layer 1,2,3)。)。层层1 1编码器的输出数据率为编码器的输出数据率为384 kbps384 kbps,主要,主要用于小型数字合式磁带用于小型数字合式磁带DCCDCC。层层2 2编码器的输出数据率为编码器的输出数据率为256 kbps256 kbps192 192 kbpskbps,其应用包括数字广播声音,其应用包括数字广播声音DBADBA、数字、数字音乐、音乐、CD-ICD-I和和VCDVCD等。等。层层3 3编码器的输出数据率为编码器的输出数据率为64 kbps64 kbps,主要,
25、主要应用于应用于ISDNISDN上的声音传输。上的声音传输。二、子带编码二、子带编码MPEG-1 AudioMPEG-1 Audio的编码对象是的编码对象是202020000Hz20000Hz的的带宽声音,采用了感知子带编码。带宽声音,采用了感知子带编码。具体思想:首先将时域中声音数据变换到具体思想:首先将时域中声音数据变换到频域,对频域内的子带分量分别进行量化频域,对频域内的子带分量分别进行量化和编码,根据心理学模型确定样本的精度,和编码,根据心理学模型确定样本的精度,从而达到压缩数据量的目的。从而达到压缩数据量的目的。理论依据是听觉系统的掩蔽特性,并且主理论依据是听觉系统的掩蔽特性,并且主
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第二 音频 处理
限制150内