书签分享收藏举报版权申诉 / 88

立即下载

当前位置：首页 > 应用文书 > 工作报告 > 第二章音频处理.ppt

第二章音频处理.ppt

上传人：得****1

文档编号：75407590

上传时间：2023-03-03

格式：PPT

页数：88

大小：532KB

( 4.5 )

《第二章音频处理.ppt》由会员分享，可在线阅读，更多相关《第二章音频处理.ppt（88页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、第二章音频处理第二章音频处理人耳能识别的声音频率范围大约在人耳能识别的声音频率范围大约在2020k 2020k HzHz，通常称为音频（，通常称为音频（audioaudio）信号。）信号。人的发音器官发出的声音范围大约在人的发音器官发出的声音范围大约在803400Hz803400Hz，但人说话的信号频率通常为，但人说话的信号频率通常为3003000Hz3003000Hz，称为语音（，称为语音（speechspeech）信号。）信号。低于低于20Hz20Hz的信号称为次声波（的信号称为次声波（subsonicsubsonic），），高于高于20k Hz20k Hz称为超声波（称为超声波（ultr

2、asonicultrasonic）。）。次声波和超声波人耳都无法听到。次声波和超声波人耳都无法听到。声音的频率范围计算机音频处理涉及的内容包括：计算机音频处理涉及的内容包括：1)1)音频传播媒体特征音频传播媒体特征,也即声波的物理特性。也即声波的物理特性。2)2)音频的记录和产生方式，包括模音频的记录和产生方式，包括模/数、数数、数/模转换；数据压缩和声音合成。模转换；数据压缩和声音合成。3)3)音频数据的编辑处理。音频数据的编辑处理。对音频信号的处理方法大致可分为三类：对音频信号的处理方法大致可分为三类：波形编译码器，音源编译码器，混合编译波形编译码器，音源编译码器，混合编译码器。码器。第

3、二章音频处理第二章音频处理一一.声音的特征声音的特征振幅周期基线基线是测量模拟信号的基准点。声波的振基线是测量模拟信号的基准点。声波的振幅表示声音信号的强弱程度。声波的频率幅表示声音信号的强弱程度。声波的频率反映出声音的音调，声音细尖表示频率高，反映出声音的音调，声音细尖表示频率高，声音粗低表示频率低。声音粗低表示频率低。正弦波有两个重要参数：频率正弦波有两个重要参数：频率0 0、幅度、幅度A An n 。声音的三个要素是音调、音量和音色。声音的三个要素是音调、音量和音色。声音有以下一些特点：声音有以下一些特点：1.1.音调：音调：声音的高低声音的高低。音调正是由频率。音调正是由频率所决定的

4、。所决定的。频率越高音调越高频率越高音调越高（频率单位（频率单位HzHz）2.2.音量：音量：人主观上感觉声音的大小人主观上感觉声音的大小，以，以分贝（分贝（dBdB）为单位。）为单位。3.3.音色：音色是声音的特色，根据不同的音色：音色是声音的特色，根据不同的音色，即使在同一音调和同一声量的情况音色，即使在同一音调和同一声量的情况下，也能区分出是不同乐器或人声发出的。下，也能区分出是不同乐器或人声发出的。二、音频数字化二、音频数字化模拟信号：时间上连续，幅值上也连续的模拟信号：时间上连续，幅值上也连续的信号。信号。数字信号：时间上和幅值上都用离散的数数字信号：时间上和幅值上都用离散的数字表

5、示的信号。字表示的信号。A/DA/D变换：把连续变化的模拟信号转换成数变换：把连续变化的模拟信号转换成数字信号。字信号。A/DA/D变换一般要由两步完成：采样和量化。变换一般要由两步完成：采样和量化。(1)(1)采样采样采样是将时间上、幅值上都连续的模拟信采样是将时间上、幅值上都连续的模拟信号，在采样脉冲的作用，转换成时间上离号，在采样脉冲的作用，转换成时间上离散、但幅值上仍连续的离散模拟信号。散、但幅值上仍连续的离散模拟信号。每秒钟的采样样本数叫做采样频率。每秒钟的采样样本数叫做采样频率。奈奎斯特理论：只有当采样频率高于声音奈奎斯特理论：只有当采样频率高于声音信号最高频率的两倍时，才能把离

6、散模拟信号最高频率的两倍时，才能把离散模拟信号表示的声音信号唯一地还原成原来的信号表示的声音信号唯一地还原成原来的声音。声音。目前在多媒体系统中捕获声音的标准采样目前在多媒体系统中捕获声音的标准采样频率定为频率定为44.1kHz44.1kHz、22.05kHz22.05kHz和和11.025kHz11.025kHz三种。三种。(2)(2)量化量化所谓量化就是把采集到的数值送到量化器所谓量化就是把采集到的数值送到量化器（A/DA/D转换器）编码成数字，每个数字代表转换器）编码成数字，每个数字代表一次采样所获得的声音信号的瞬间值。一次采样所获得的声音信号的瞬间值。目前常用量化数据位来表示量化级，

7、例如目前常用量化数据位来表示量化级，例如数据位为数据位为8 8位，则表示位，则表示2 28 8个量化级，最高量个量化级，最高量化级有化级有2 21616个（个（=65536=65536个）等级。个）等级。量化噪声：量化过程存在量化误差，反映量化噪声：量化过程存在量化误差，反映到接收端，这种误差作为噪声再生。到接收端，这种误差作为噪声再生。(c)采样信号的量化(a)模拟音频信号(b)音频信号的采样数字化音频的过程数字化音频的过程:采样和量化采样和量化采样时的声道数有单声道和双声道两种。采样时的声道数有单声道和双声道两种。AVAV文件的数据量的计算公式：数据量文件的数据量的计算公式：数据量 =采采

8、样频率（样频率（HzHz）采样精度（位）采样精度（位）声道声道数数 8 8（dBdB）计算：计算：用用44.1kHz44.1kHz采样频率采样，每个样本使用采样频率采样，每个样本使用1616位采样精度存储，则录制一分钟的立体声位采样精度存储，则录制一分钟的立体声节目，音频节目，音频WAVWAV文件的存储量？文件的存储量？使用使用22.05kHz22.05kHz的采样频率和的采样频率和8 8位采样精度，位采样精度，录制一分钟调幅音频的录制一分钟调幅音频的WAVWAV文件存储量？文件存储量？三三.数字音频技术指标数字音频技术指标 1 1采样频率：如果对某一模拟信号进行采采样频率：如果对某一模拟信号

9、进行采样，则采样后可还原的最高信号频率只有样，则采样后可还原的最高信号频率只有采样频率的一半，或者说只要采样频率高采样频率的一半，或者说只要采样频率高于输入信号最高频率的两倍，就能从采样于输入信号最高频率的两倍，就能从采样信号系列重构原始信号。信号系列重构原始信号。2 2量化位数：量化位是对模拟音频信号的量化位数：量化位是对模拟音频信号的幅度轴进行数字化，它决定了模拟信号数幅度轴进行数字化，它决定了模拟信号数字化以后的动态范围。字化以后的动态范围。3 3声道数：有单声道、双声道、多声道之声道数：有单声道、双声道、多声道之分。分。三、常见声音文件的格式三、常见声音文件的格式常见的声音文件为：常

10、见的声音文件为：WAVWAV文件、文件、VOCVOC文件、文件、AUAU文件和文件和MIDMID文件。文件。(1)WAV(1)WAV声音文件格式：声音文件格式：WAVWAV文件是从模拟文件是从模拟声波采样后得到的一种波形文件，使用于声波采样后得到的一种波形文件，使用于WindowsWindows操作系统，其格式是由文件首部与操作系统，其格式是由文件首部与文件数据块组成。文件数据块组成。(2)VOC(2)VOC声音文件格式：声音文件格式：VOCVOC文件是用于文件是用于DOSDOS操作系统下的一种波形文件。操作系统下的一种波形文件。(3)AU(3)AU声音文件格式：用于声音文件格式：用于UNIX

11、UNIX操作系统操作系统下的一种波形文件。下的一种波形文件。(4)MID(4)MID文件格式：文件格式：MIDMID文件是一种记录数文件是一种记录数字化音乐的字化音乐的MIDIMIDI文件。文件。四四.音频信号的指标音频信号的指标 1.1.频带宽度：音频信号的频带越宽，所频带宽度：音频信号的频带越宽，所包含的音频信号分量越丰富，音质越好。包含的音频信号分量越丰富，音质越好。2 2动态范围动态范围:动态范围越大，信号强度的动态范围越大，信号强度的相对变化范围越大，音响效果越好相对变化范围越大，音响效果越好。3 3信噪比：信噪比信噪比：信噪比SNRSNR（Signal to Noise Sign

12、al to Noise RatioRatio）是有用信号与噪声之比的简称。）是有用信号与噪声之比的简称。4 4主观度量法：人的感觉机理对声音的度主观度量法：人的感觉机理对声音的度量最有决定意义。量最有决定意义。声音的质量分为了五个等级，由低到高分别是：声音的质量分为了五个等级，由低到高分别是：电话电话(telephone)(telephone)、调幅广播、调幅广播(AM)(AM)、调频广播、调频广播(FM)(FM)、光盘、光盘(CD)(CD)、数字录音带、数字录音带(DAT)(DAT)第二章音频处理一音频压缩编码技术一音频压缩编码技术主要有以下几种主要类型：主要有以下几种主要类型：1 1熵编

13、码熵编码 :如如HuffmanHuffman编码、算术编码编码、算术编码以及行程编码等。以及行程编码等。2 2波形编码波形编码 :波形编码的特点是在高码率的条波形编码的特点是在高码率的条件下获得高质量的音频信号，适用于高保真度语音件下获得高质量的音频信号，适用于高保真度语音和音乐信号的压缩技术。和音乐信号的压缩技术。(脉冲编码调制(PCM)，实际为直接对声音信号作AD转换。只要采样频率足够高，量化位数足够多，就能使解码后恢复的声音信号有很高的质量。差分脉冲编码调制(DPCM)，即只传输声音预测值和样本值的差值以此降低音频数据的编码率。自适应差分编码调制(ADPCM)，是DPCM方法的进一步改进

14、，通过调整量化步长，对不同频段设置不同的量化字长，使数据得到进一步的压缩。)3.3.参数编码参数编码：参数编码的方法是将音频信：参数编码的方法是将音频信号以某种模型表示，再抽出合适的模型参号以某种模型表示，再抽出合适的模型参数和参考激励信号进行编码；声音重放时，数和参考激励信号进行编码；声音重放时，再根据这些参数重建即可。此类方法构成再根据这些参数重建即可。此类方法构成声码器的有线性预测声码器的有线性预测(LPC)(LPC)声码器、通道声声码器、通道声码器、共振峰声码器等。码器、共振峰声码器等。4 4混合编码混合编码：音频中采用的混合编码包：音频中采用的混合编码包括多脉冲线性预测括多脉冲线

15、性预测MP-LPCMP-LPC，矢量和激励线，矢量和激励线性预测性预测VSELPVSELP，码本激励线性预测，码本激励线性预测CELPCELP，短，短延时码本激励线性预测编码延时码本激励线性预测编码LD-CELPLD-CELP，以，以及规则码激励长时预测及规则码激励长时预测RPERPELTPLTP等。等。5 5感知编码：不是利用波形本身的相感知编码：不是利用波形本身的相关性和模拟人的发音器官的特征，而是关性和模拟人的发音器官的特征，而是利用人的听觉系统的特征来达到压缩声利用人的听觉系统的特征来达到压缩声音数据的目的。音数据的目的。书上将这五种编译码器分为了三类：书上将这五种编译码器分为了三类：

16、1)1)波形编译码器波形编译码器2)2)音源编译码器音源编译码器3)3)混合编译码器混合编译码器音频数字压缩编码算法及其特性音频数字压缩编码算法及其特性(见见wordword文档文档)二二.音频编码技术标准音频编码技术标准 (一一)电话质量的音频压缩编码技术标准电话质量的音频压缩编码技术标准 19721972年年CCITTCCITT（现称为（现称为ITU-TITU-T）制定了）制定了PCMPCM标标准准G.711G.711，速率为，速率为64kbit/s64kbit/s，采用非线性量，采用非线性量化化律或律或A A律，其质量相当于律，其质量相当于12bit12bit线性量线性量化。化。1984

17、1984年年CCITTCCITT公布了自适应差分脉冲编码调公布了自适应差分脉冲编码调制制ADPCMADPCM标准标准G.721G.721，速率为，速率为32kbit/s32kbit/s。19921992年年CCITTCCITT制定了短时延码本激励线性预制定了短时延码本激励线性预测编码测编码LD-CELPLD-CELP的标准的标准G.728G.728，速率，速率16kbit/s16kbit/s，其质量与，其质量与32kbit/s32kbit/s的的G.721G.721标准标准基本相当。基本相当。其它语音相关标准：其它语音相关标准：G.723:G.723:一种一种ITU-T ITU-T 推荐标准推

18、荐标准用于传输速率在用于传输速率在5.36.4 kbps5.36.4 kbps之间多媒体通信传输的双速率语音之间多媒体通信传输的双速率语音编码器。编码器。H.222H.222：ITU-T ITU-T 推荐标准，规定了运动图片及相推荐标准，规定了运动图片及相关音频信息的通用编码。关音频信息的通用编码。H.242H.242：ITU-TITU-T的的H.320 H.320 协议族中视频互操作推荐协议族中视频互操作推荐标准部分。它规定了建立一个音频会话和在通信标准部分。它规定了建立一个音频会话和在通信终止后结束该会话的协议。终止后结束该会话的协议。H.324H.324：一个：一个ITU-T ITU-

19、T 标准。它在模拟电话线标准。它在模拟电话线（POTSPOTS）上提供了点对点的数据、视频和音频会）上提供了点对点的数据、视频和音频会议。议。T.120T.120：ITU-TITU-T的的“多媒体数据传输协议多媒体数据传输协议”，一种，一种数据共享数据共享/数据会议规范，使用户能通过任何数据会议规范，使用户能通过任何H.32x H.32x 可视会议共享文件。可视会议共享文件。(二二)调幅广播质量的音频压缩编码技术标准调幅广播质量的音频压缩编码技术标准 CCITTCCITT在在19881988年制定了年制定了 G.722G.722标准。标准。G.722G.722标准是采用标准是采用16kHz16

20、kHz采样，采样，14blt14blt量化，信号量化，信号数据速率为数据速率为224kbit224kbits s，采用子带编码方，采用子带编码方法法。利用利用G.722G.722标准可以在窄带综合服务数据网标准可以在窄带综合服务数据网N-ISDNN-ISDN中的一个中的一个B B信道上传送调幅广播质量信道上传送调幅广播质量的音频信号。的音频信号。(三三)高保真度立体声音频压缩编码技术标准高保真度立体声音频压缩编码技术标准高保真立体声音频信号频率范围是高保真立体声音频信号频率范围是50Hz20kHz50Hz20kHz，采用，采用44441kHz1kHz采样频率，采样频率，16bit16bit

21、量化进行数字化转换，其数据速率每量化进行数字化转换，其数据速率每声道达声道达705kbit705kbits s。MPEGMPEG小组负责比较和评估几种低码速率数小组负责比较和评估几种低码速率数字声音编码技术，以产生一套国际标准，字声音编码技术，以产生一套国际标准，用于活动图象、相关声音信息及其结合，用于活动图象、相关声音信息及其结合，和用数字存储媒体（和用数字存储媒体（DSMDSM）存储与重现。）存储与重现。MPEGMPEG声音：声音：MPEGMPEG声音使用感知声音编码声音使用感知声音编码听觉系统的感知特性：听觉系统的感知特性：响度：听阈、痛阈响度：听阈、痛阈音高：音高：掩蔽效应：（频域掩蔽

22、、时域掩蔽）掩蔽效应：（频域掩蔽、时域掩蔽）MPEGMPEG音频与感知特性音频与感知特性MPEGMPEG音频数据压缩主要依靠使用音频数据压缩主要依靠使用“心理学心理学模型模型”（概念）（概念）MPEGMPEG音频采纳两种感知编码：感知子带编音频采纳两种感知编码：感知子带编码和码和AC-3AC-3编码编码MPEG-1MPEG-1于于19921992年年1111月完成，成为国际上公月完成，成为国际上公认的高保真立体声音频压缩标准，音频压认的高保真立体声音频压缩标准，音频压缩技术的数据速率为每声道缩技术的数据速率为每声道32448kbit32448kbits s，适合于，适合于CDCDDADA光盘应

23、用。光盘应用。MPEG-2MPEG-2由两部分组成，由两部分组成，MPEG-2MPEG-2音频和音频和MPEG-MPEG-2 AAC 2 AAC。MPEG-4 AudioMPEG-4 Audio标准可集成从话音到高质量标准可集成从话音到高质量的多通道声音，从自然声音到合成声音。的多通道声音，从自然声音到合成声音。MPEG-7 AudioMPEG-7 Audio标准（标准（ISO/IEC 15938-3ISO/IEC 15938-3）提）提供了音频描述工具。供了音频描述工具。第二章音频处理第二章音频处理一一MPEG-1MPEG-1音频标准音频标准 MPEG-1MPEG-1音频编码标准包括三部分，

24、分别对音频编码标准包括三部分，分别对应第应第1 1，2 2和和3 3层（层（Layer 1,2,3Layer 1,2,3）。）。层层1 1编码器的输出数据率为编码器的输出数据率为384 kbps384 kbps，主要，主要用于小型数字合式磁带用于小型数字合式磁带DCCDCC。层层2 2编码器的输出数据率为编码器的输出数据率为256 kbps256 kbps192 192 kbpskbps，其应用包括数字广播声音，其应用包括数字广播声音DBADBA、数字、数字音乐、音乐、CD-ICD-I和和VCDVCD等。等。层层3 3编码器的输出数据率为编码器的输出数据率为64 kbps64 kbps，主要，

25、主要应用于应用于ISDNISDN上的声音传输。上的声音传输。二、子带编码二、子带编码MPEG-1 AudioMPEG-1 Audio的编码对象是的编码对象是202020000Hz20000Hz的的带宽声音，采用了感知子带编码。带宽声音，采用了感知子带编码。具体思想：首先将时域中声音数据变换到具体思想：首先将时域中声音数据变换到频域，对频域内的子带分量分别进行量化频域，对频域内的子带分量分别进行量化和编码，根据心理学模型确定样本的精度，和编码，根据心理学模型确定样本的精度，从而达到压缩数据量的目的。从而达到压缩数据量的目的。理论依据是听觉系统的掩蔽特性，并且主理论依据是听觉系统的掩蔽特性，并且主

26、要利用频域掩蔽特性。要利用频域掩蔽特性。三声音编码系统基本结构 MPEG/AUDIO编解码器基本框架四滤波器组四滤波器组用于高质量声音信号编码的最常见的滤波用于高质量声音信号编码的最常见的滤波器组简要概述：器组简要概述：QMF-Tree QMF-Tree 滤波器组滤波器组多相滤波器组多相滤波器组加正弦锥型窗的加正弦锥型窗的DFTDFT、DCT DCT 修正离散余弦变换修正离散余弦变换MDCT MDCT 混合结构混合结构多相滤波器组把输入信号变换到多相滤波器组把输入信号变换到3232个频域个频域子带中去。子带的划分方法有两种，一种子带中去。子带的划分方法有两种，一种是线性划分，另一种是非

27、线性划分。对音是线性划分，另一种是非线性划分。对音频带的划分采用非线性划分频带的划分采用非线性划分五通用编码概念五通用编码概念在所有三层中声音信号都要从时域变换到在所有三层中声音信号都要从时域变换到频域。此变换由多相滤波器组完成。对于频域。此变换由多相滤波器组完成。对于第第1 1层和第层和第2 2层，滤波器组生成代表输入声层，滤波器组生成代表输入声音码流的音码流的3232个子带变换值，然后由心理声个子带变换值，然后由心理声学模型推算出自适应比特分配信息，来控学模型推算出自适应比特分配信息，来控制它们的量化和编码。制它们的量化和编码。第第1 1层是层是 MUSICAMMUSICAM编码方案的简

28、化版本，特编码方案的简化版本，特别适合那些不要求很低码率的应用。第别适合那些不要求很低码率的应用。第1 1层层的子带是频带相等的子带，心理学模型仅的子带是频带相等的子带，心理学模型仅使用频域掩蔽特性。使用频域掩蔽特性。第第2 2层在比例因子、去除冗余和不相关方面层在比例因子、去除冗余和不相关方面采用了进一步的压缩算法，并使用了更精采用了进一步的压缩算法，并使用了更精确的量化。在声音广播、电视、录音、通确的量化。在声音广播、电视、录音、通信和多媒体等民用和音频专业领域都有许信和多媒体等民用和音频专业领域都有许多应用。第多应用。第2 2层的心理学模型使用频域掩蔽层的心理学模型使用频域掩蔽特性和时域

29、掩蔽特性，并且在低中高频段特性和时域掩蔽特性，并且在低中高频段对位分配作了一些限制，对位分配、比例对位分配作了一些限制，对位分配、比例因子和量化样本值的编码也更紧凑。因子和量化样本值的编码也更紧凑。在第在第3 3层中，采用了非均匀量化、自适应分层中，采用了非均匀量化、自适应分段、量化值熵编码，以提高编码效率。这段、量化值熵编码，以提高编码效率。这一层广泛适用于通信领域，尤其是窄带的一层广泛适用于通信领域，尤其是窄带的ISDNISDN和要求很低码率的专业领域。和要求很低码率的专业领域。第第3 3层的层的心理学模型使用频域掩蔽特性和时域掩蔽心理学模型使用频域掩蔽特性和时域掩蔽特性，还考虑了立体声数

30、据的冗余，并且特性，还考虑了立体声数据的冗余，并且使用了霍夫曼编码器。使用了霍夫曼编码器。第二章音频处理第二章音频处理MPEG-2MPEG-2标准委员会定义了两种声音数据标准委员会定义了两种声音数据压缩格式。压缩格式。一种称为一种称为MPEG-2AudioMPEG-2Audio，又称为，又称为MPEG-2 MPEG-2 BCBC（Backward CompatibleBackward Compatible，后向兼容）。，后向兼容）。另一种称为另一种称为MPEG-2 AACMPEG-2 AAC（先进的音频编（先进的音频编码），通常称为非后向兼容标准。码），通常称为非后向兼容标准。一一.MPEG-

31、2.MPEG-2音频特点音频特点和和MPEG-1MPEG-1音频相比，音频相比，MPEG-2MPEG-2音频主要增加了三音频主要增加了三个方面的内容：个方面的内容：(1)(1)增加了声道数，支持增加了声道数，支持5.15.1声道和声道和7.17.1声道的声道的环绕声。环绕声。5.15.1声道立体环绕声声道立体环绕声 7.17.1声道立体环绕声声道立体环绕声(2)(2)扩展了编码器的输出速率范围。扩展了编码器的输出速率范围。(3)(3)增加了低取样和低码率。增加了低取样和低码率。MPEG-2MPEG-2多声道声音编码标准和现有的多声道声音编码标准和现有的MPEG-MPEG-1 1音频标准保持后

32、向兼容。在对原有的音频标准保持后向兼容。在对原有的MPEG-1MPEG-1两声道增加独立的环绕声道时，两声道增加独立的环绕声道时，MPEG-2MPEG-2尽量保持和尽量保持和MPEG-1MPEG-1音频语法的兼容音频语法的兼容性，性，MPEG-2MPEG-2中的主声道（左、右）仍然保中的主声道（左、右）仍然保持后向兼容，而环绕声道采用新的编码方持后向兼容，而环绕声道采用新的编码方法和语法。法和语法。二二.MPEG-2 AAC.MPEG-2 AAC 特性：特性：(1)MPEG-2 AAC(1)MPEG-2 AAC主要使用听觉系统的掩蔽主要使用听觉系统的掩蔽特性来减少声音的数据量，并且通过把量特性

33、来减少声音的数据量，并且通过把量化噪声分散到各个子带中，用全局信号把化噪声分散到各个子带中，用全局信号把噪声掩蔽掉。噪声掩蔽掉。(2)AAC(2)AAC支持的采用频率可从支持的采用频率可从8 kHz8 kHz到到96 96 kHzkHz，AACAAC编码器的音源可以是单声道的、编码器的音源可以是单声道的、立体声的和多声道的声音。立体声的和多声道的声音。（3 3）AACAAC标准可支持标准可支持4848个主声道、个主声道、1616个低个低频音效加强通道、频音效加强通道、1616个配音声道和个配音声道和1616个数个数据流。据流。（4 4）MPEG-2 AACMPEG-2 AAC在压缩比为在压缩比

34、为11:111:1，5 5声道声道的总数据率为的总数据率为320 kbps320 kbps的情况下，很难区的情况下，很难区分还原后的声音与原始声音之间的差别。分还原后的声音与原始声音之间的差别。与与MPEGMPEG的层的层2 2相比，相比，MPEG-2 AACMPEG-2 AAC的压缩率可的压缩率可提高提高1 1倍，而且质量更高，与倍，而且质量更高，与MPEGMPEG的层的层3 3相相比，在质量相同的条件下数据率是它的比，在质量相同的条件下数据率是它的7070。MPEG-2 AACMPEG-2 AAC编码和解码的基本结构编码和解码的基本结构开发开发MPEG-2 AACMPEG-2 AAC标准

35、采用的方法是模块化标准采用的方法是模块化的方法：把整个的方法：把整个AACAAC系统分解成一系列模系统分解成一系列模块，用标准化的块，用标准化的AACAAC工具对模块进行定义，工具对模块进行定义，因此在文献中往往把因此在文献中往往把“模块模块(modular)(modular)”与与“工具工具(tool)(tool)”等同对待。等同对待。编编码码器器框框图图 MPEG-2 AACMPEG-2 AAC的三种配置（的三种配置（ProfilesProfiles）(a)(a)基本配制基本配制(Main Profile)(Main Profile)(b)(b)低复杂性配制低复杂性配制(Low Compl

36、exity(Low Complexity Profile)Profile)(c)(c)可变采样率配制可变采样率配制 (Scalable Sampling(Scalable Sampling Rate Profile)Rate Profile)三三AC-3AC-3编码编码 AC-3AC-3（Audio Code Number 3Audio Code Number 3）是）是DolbyDolby公公司的数字声音数据压缩算法，司的数字声音数据压缩算法，MPEG-2MPEG-2音频音频支持它。支持它。AC-3AC-3的主要特点是利用人的听觉系统特性的主要特点是利用人的听觉系统特性来压缩声音数据，并支持

37、来压缩声音数据，并支持5 5个声道，声音个声道，声音样本的精度为样本的精度为2020比特，每个声道的采样率比特，每个声道的采样率可以是可以是32 kHz,44.1 kHz32 kHz,44.1 kHz或者或者48 kHz48 kHz。在立体声模式中，在立体声模式中，ACAC3 3编码器可以采用编码器可以采用重复阵列方法。这种方法可以在采用阵列重复阵列方法。这种方法可以在采用阵列环绕技术时，降低量化错误产生的噪声。环绕技术时，降低量化错误产生的噪声。第二章音频处理第二章音频处理MPEG-4MPEG-4音频标准分为自然音频编码和合成音频编音频标准分为自然音频编码和合成音频编码两大类。码两大类。自然

38、音频编码方面提供三种编码方案，参数编码，自然音频编码方面提供三种编码方案，参数编码，码本激励线性预测（码本激励线性预测（CELPCELP）编码，时间）编码，时间/频率频率（T/FT/F）编码）编码合成音频编码方面提供了两种编码方案，结构音合成音频编码方面提供了两种编码方案，结构音频（频（SASA）和文语转换（）和文语转换（TTSTTS）每个编码方案都按照两部分来组织标准的内容：每个编码方案都按照两部分来组织标准的内容：标准部分描述解码的语法和解码过程标准部分描述解码的语法和解码过程 MPEG-4MPEG-4（ISO/IEC 14496ISO/IEC 14496）已建立了两个版本。）已建立了两

39、个版本。l版本版本1 1支持由下述成分组成的音频对象的高效表支持由下述成分组成的音频对象的高效表示：示：语音信号语音信号合成语音合成语音普通音频信号普通音频信号合成音频合成音频绑定的复杂度合成音频绑定的复杂度合成音频 lMPEG-4 MPEG-4 音频版本音频版本2 2是对版本是对版本1 1的扩展，在保持版的扩展，在保持版本本1 1全部功能的同时，向全部功能的同时，向MPEG-4MPEG-4标准中加入了新标准中加入了新的工具和功能。的工具和功能。一一.自然声音合成自然声音合成 MPEG-4MPEG-4自然音频编码的设计与自然音频编码的设计与MPEG-4MPEG-4的理的理论非常一致。它增加了新

40、的功能，并成为论非常一致。它增加了新的功能，并成为从线性存储或从线性存储或MPEG-1MPEG-1和和MPEG-2MPEG-2的流结构转的流结构转化为对象和展现的典范。化为对象和展现的典范。数据率介于数据率介于2 kbps2 kbps和和64 kbps64 kbps之间的音频称之间的音频称为自然声音为自然声音(natural audio)(natural audio)。MPEG-4 MPEG-4 定义了三种类型的声音编码器分别定义了三种类型的声音编码器分别用于不同的声音，它的一般编码方案包括：用于不同的声音，它的一般编码方案包括：参数编码器、参数编码器、CELP(CELP(码本激励线性预测码本

41、激励线性预测)编编码器、码器、TF(TF(时间时间-频率频率)编码器编码器二二.合成声音合成声音 MPEG-4MPEG-4的译码器支持乐谱驱动合成（也称的译码器支持乐谱驱动合成（也称为为MIDIMIDI乐音、合成乐音）和文语转换乐音、合成乐音）和文语转换（TTS)TTS)合成（也称为语音合成）。合成（也称为语音合成）。乐谱驱动合成是在乐谱文件或者描述文件乐谱驱动合成是在乐谱文件或者描述文件控制下生成声音，乐谱文件是按时间顺序控制下生成声音，乐谱文件是按时间顺序组织的一系列调用乐器的命令，合成乐音组织的一系列调用乐器的命令，合成乐音传输的是乐谱而不是声音波形本身或者声传输的是乐谱而不是声音波形本

42、身或者声音参数，因此它的数据率可以相当低。音参数，因此它的数据率可以相当低。文文-语转换系统编码器的输出数据率可以在语转换系统编码器的输出数据率可以在200 bps1.2 kbps200 bps1.2 kbps范围里。范围里。（一）乐谱驱动合成（一）乐谱驱动合成 (MIDI(MIDI合成声音合成声音)乐谱驱动合成的解码是通过一种特殊的合成乐谱驱动合成的解码是通过一种特殊的合成语言驱动的，这种语言称为结构化音频乐队语言驱动的，这种语言称为结构化音频乐队语言（语言（SAOL SAOL）。（如播放音符、加大音量、）。（如播放音符、加大音量、生成音响效果等）生成音响效果等）SAOLSAOL被用于定义一

43、个有被用于定义一个有“乐器乐器”组成的组成的“乐乐队队”（或称为合成器），这些乐器不是固定（或称为合成器），这些乐器不是固定在终端设备中，而是从位流里下载下来，用在终端设备中，而是从位流里下载下来，用于产生和处理控制数据。于产生和处理控制数据。MPEG-4MPEG-4并不标准化合成的具体方法，而是标并不标准化合成的具体方法，而是标准化描述合成方法的方式。任何现存的或将准化描述合成方法的方式。任何现存的或将来开发的声音合成方法都可用来开发的声音合成方法都可用SAOLSAOL描述，包描述，包括波形表，频率调制，添加，物理造型，粒括波形表，频率调制，添加，物理造型，粒状合成，以及这些方法的非参数的混

44、合等。状合成，以及这些方法的非参数的混合等。(二二)文文-语转换语转换文文-语转换是将文本形式的信息转换成自然语转换是将文本形式的信息转换成自然语音的一种技术，其最终目标是使计算机语音的一种技术，其最终目标是使计算机输出清晰而又自然的声音输出清晰而又自然的声音。TTSTTS系统最根本的问题便在于它的自然度，系统最根本的问题便在于它的自然度，自然度是衡量一个自然度是衡量一个TTSTTS系统好坏的最重要指系统好坏的最重要指标。标。MPEG-4 MPEG-4 的的TTS TTS 编码器比特率范围是编码器比特率范围是200 200 bpsbps到到1.2 K bps 1.2 K bps，使输入一个

45、文本或带韵，使输入一个文本或带韵律参数（基音周期轮廓，音素持续时间等）律参数（基音周期轮廓，音素持续时间等）的文本就能产生可理解的合成声音。的文本就能产生可理解的合成声音。三三.音频轮廓音频轮廓 MPEG-4MPEG-4定义了定义了8 8种音频轮廓（基本配制）。种音频轮廓（基本配制）。语音轮廓（语音轮廓（Speech ProfileSpeech Profile）合成轮廓（合成轮廓（Synthesis ProfileSynthesis Profile）可扩展轮廓（可扩展轮廓（Scalable ProfileScalable Profile）主轮廓（主轮廓（Main ProfileMain Pro

46、file）高质量音频轮廓（高质量音频轮廓（High Quality Audio High Quality Audio ProfileProfile）低延迟音频轮廓（低延迟音频轮廓（Low Delay Audio ProfileLow Delay Audio Profile）自然音频轮廓（自然音频轮廓（Natural Audio ProfileNatural Audio Profile）移动音频网络互联轮廓（移动音频网络互联轮廓（Mobile Audio Mobile Audio Internetworking ProfileInternetworking Profile）第二章音频处理第二章音

47、频处理一一.电子音乐合成电子音乐合成产生乐音的方法有模拟合成和数字合成两产生乐音的方法有模拟合成和数字合成两大类：大类：模拟合成法模拟合成法:减法合成减法合成(滤波器滤波器)加法合成加法合成数字合成法数字合成法:FM:FM频率合成、频率合成、WavetableWavetable波表波表合成、合成、LALA线形合成、线形合成、AIAI先进集成式合成、先进集成式合成、AVAV先进向量合成、先进向量合成、VASTVAST可变结构合成技术可变结构合成技术计算机中采用数字音乐合成技术，主要采计算机中采用数字音乐合成技术，主要采用两种方法：用两种方法：调频调制合成法调频调制合成法波表合成法（也称为乐

48、音样本合成法）波表合成法（也称为乐音样本合成法）(一一)频率调制合成频率调制合成频率调制合成频率调制合成(简称为简称为FMFM合成器合成器)是通过硬件产生是通过硬件产生正弦信号，再经处理合成音乐。合成的方式是将正弦信号，再经处理合成音乐。合成的方式是将波形组合在一起，理论上可以有无限多组波形。波形组合在一起，理论上可以有无限多组波形。FMFM合成器由合成器由5 5个基本模块组成个基本模块组成:数字载波器数字载波器调制调制器器声音包络发生器声音包络发生器数字运算器和模数转换器。数字运算器和模数转换器。频率调制合成的合成思想：频率调制合成的合成思想：1313个声音参数和算法共个声音参数和算

49、法共1414个控制参数以字个控制参数以字节的形式存储在存储器中。播放某种乐音节的形式存储在存储器中。播放某种乐音时，计算机就发送一个信号，这个信号被时，计算机就发送一个信号，这个信号被转换成存储器的地址，从该地址中取出用转换成存储器的地址，从该地址中取出用于产生乐音的数据。于产生乐音的数据。(二二)波形表合成波形表合成合成思想：将每种真实乐器发出的声音抽合成思想：将每种真实乐器发出的声音抽样，加以适当的处理后存储成声音样本样，加以适当的处理后存储成声音样本（音色文件），记录在合成器的内存当中，（音色文件），记录在合成器的内存当中，需要时，调用相应样本来合成该乐器的乐需要时，调用相应样本来合成

50、该乐器的乐音。音。产生的声音质量比产生的声音质量比FMFM合成方法产生的声音合成方法产生的声音质量要高。质量要高。二二.电子乐器数字接口电子乐器数字接口定义：电子乐器数字接口是用于在电子乐器定义：电子乐器数字接口是用于在电子乐器之间以及电子乐器和计算机之间交换音乐信之间以及电子乐器和计算机之间交换音乐信息的一种标准协议，是音乐与计算机结合的息的一种标准协议，是音乐与计算机结合的产物。产物。(一一)MIDI)MIDI的形成的形成MIDIMIDI是乐器和计算机使用的一种标准语言，是乐器和计算机使用的一种标准语言，是一套指令是一套指令(即命令即命令)的约定，它指示乐器的约定，它指示乐器(即即MIDI

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

30 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 第二音频处理

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：第二章音频处理.ppt
链接地址：https://www.taowenge.com/p-75407590.html