中国高新技术产品出口目录(XXXX)Tit.pptx
-
资源ID:87437246
资源大小:1.78MB
全文页数:97页
- 资源格式: PPTX
下载积分:50金币
快捷下载
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
中国高新技术产品出口目录(XXXX)Tit.pptx
第第2 2章章 音频处理技术(二)音频处理技术(二)西安交通大学西安交通大学计算机教学实验中心计算机教学实验中心20072007多媒体技术及应用基础多媒体技术及应用基础1下一页上一页问题的提出问题的提出n数字音频信息如何处理?数字音频信息如何处理?n用什么工具可以处理?用什么工具可以处理?n有哪些处理?有哪些处理?n我能处理吗?我能处理吗?n2下一页上一页二、数字音频二、数字音频n数字音频原理回顾数字音频原理回顾n3下一页上一页声音的数字化声音的数字化 n声音的数字化声音的数字化 n数字化就是将连续信号变成离散信号。数字化就是将连续信号变成离散信号。n对音频信号,首先在时间上离散,取对音频信号,首先在时间上离散,取有限个时间点,称为有限个时间点,称为采样采样。n然后在幅度上离散,取有限个幅度值,然后在幅度上离散,取有限个幅度值,称为称为量化量化。n再将得到的数据表示成计算机容易识再将得到的数据表示成计算机容易识别的格式,称为别的格式,称为编码编码。4下一页上一页声音的声音的A/D与与D/A转换转换n模拟信号很容易受到电子干扰,因此用数字信息代模拟信号很容易受到电子干扰,因此用数字信息代替声音信号成为音频信息处理的一种方法。替声音信号成为音频信息处理的一种方法。nA/D转换和转换和D/A转换技术便应运而生。转换技术便应运而生。A表示表示Analog”(类比、模拟),(类比、模拟),D代表代表“Digital”(数字),(数字),A/D转换就是把模拟电信号转换成由转换就是把模拟电信号转换成由“0”和和“1”组成数字信号的过程。组成数字信号的过程。n这样做的好处是显而易见的,声音存储质量得到了这样做的好处是显而易见的,声音存储质量得到了加强,数字化的声音信息使计算机能够进行识别、加强,数字化的声音信息使计算机能够进行识别、处理和压缩,这也就是为什么如今磁带逐渐被淘汰,处理和压缩,这也就是为什么如今磁带逐渐被淘汰,CD唱片却趋于流行的原因。唱片却趋于流行的原因。nA/D转换的一个关键步骤是声音的采样和量化,得转换的一个关键步骤是声音的采样和量化,得到数字音频信号,它在时间上是不连续的离散信号。到数字音频信号,它在时间上是不连续的离散信号。5下一页上一页PCM编码编码n1939年法国工程师年法国工程师Alec Reeves发明了将连续的模发明了将连续的模拟信号变换成时间和幅度都离散的二进制码代表的拟信号变换成时间和幅度都离散的二进制码代表的脉冲编码调制信号(脉冲编码调制信号(Pulse Code Modulation-PCM),并申请了专利。),并申请了专利。nP P首先开始应用于电话系统,但一直到首先开始应用于电话系统,但一直到年美国年美国Bell实验室才为制成了国际上第一实验室才为制成了国际上第一套商用电话系统(系统),这标志了通套商用电话系统(系统),这标志了通信开始步入数字化。信开始步入数字化。nPCM 编码是对连续语音信号进行空间采样、幅度值编码是对连续语音信号进行空间采样、幅度值量化及用适当码字将其编码的总称。量化及用适当码字将其编码的总称。6下一页上一页PCM编码主要优点编码主要优点 n抗干扰能力强;失真小;传输特性稳抗干扰能力强;失真小;传输特性稳定,尤其是远距离信号再生中继时噪定,尤其是远距离信号再生中继时噪声不累积,而且可以采用压缩编码、声不累积,而且可以采用压缩编码、纠错编码和保密编码等来提高系统的纠错编码和保密编码等来提高系统的有效性、可靠性和保密性。有效性、可靠性和保密性。7下一页上一页 A/D 和和D/A转换示意图转换示意图 8位可编程A/D转换芯片示意图8下一页上一页模拟声音信号的采样和量化过程示意模拟声音信号的采样和量化过程示意 模拟声音信号的波形采样得到的离散时间信号再量化得到的数字信号9下一页上一页数字音频的技术指标数字音频的技术指标 n采样频率采样频率n采样精度采样精度n声道数声道数n音频数据传输率音频数据传输率n编码算法与音频数据编码算法与音频数据压缩比压缩比10下一页上一页采样频率采样频率n采样频率是指一秒钟采样的次数。采样频采样频率是指一秒钟采样的次数。采样频率越高,单位时间内采集的样本数越多,率越高,单位时间内采集的样本数越多,得到波形越接近于原始波形,音质就越好。得到波形越接近于原始波形,音质就越好。n根据根据奈奎斯特奈奎斯特(Harry Nyquist)采样理论采样理论:如果采样频率高于输入信号最高频率的如果采样频率高于输入信号最高频率的两倍,重放时就能从采样信号序列无失两倍,重放时就能从采样信号序列无失真地重构原始信号真地重构原始信号。11下一页上一页采样的采样的3个常用频率个常用频率n分别为:分别为:n11.025kHzAM(调幅调幅)广播广播n22.05kHz FM(调频调频)广播广播n44.1kHz CD高保真音质声音高保真音质声音n现在声卡的采样频率一般为现在声卡的采样频率一般为48kHz甚至甚至96kHz。12下一页上一页采样精度采样精度 n采样精度用每个声音样本的位数表示,也叫样本精采样精度用每个声音样本的位数表示,也叫样本精度或量化位数,反映度量声音波形幅度的精度。度或量化位数,反映度量声音波形幅度的精度。n例如,每个声音样本用例如,每个声音样本用16位表示,则量化样本位表示,则量化样本值在值在065535之间,它的精度是输入信号的之间,它的精度是输入信号的1/65536。n采样精度采样精度决定了模拟信号数字化以后的动态范围。决定了模拟信号数字化以后的动态范围。n采样精度影响到声音的质量采样精度影响到声音的质量n位数越多,声音的质量越高,而需要的存储空位数越多,声音的质量越高,而需要的存储空间也越多;位数越少,声音的质量越低,需要间也越多;位数越少,声音的质量越低,需要的存储空间越少。的存储空间越少。13下一页上一页声道数声道数 n单声道单声道(mono)信号一次产生一组声波数据。信号一次产生一组声波数据。n双声道或立体声双声道或立体声(stereo)一次产生两组声波数据。一次产生两组声波数据。n双双声声道道在在硬硬件件中中占占两两条条线线路路,一一条条是是左左声声道道,一一条是右声道。条是右声道。n立立体体声声不不仅仅音音质质、音音色色好好,而而且且能能产产生生逼逼真真的的空空间间感感。但但立立体体声声数数字字化化后后所所占占空空间间比比单单声声道道多多一一倍。倍。14下一页上一页其他因素其他因素n除除采采样样频频率率、采采样样精精度度、声声道道数数影影响响声声音音质质量量外外,声声音音录录制制时时环环境境噪噪声声、声声卡卡内内部部噪噪声声以以及及采采样样数数据据丢丢失失等等都都会会造造成成声音质量的下降。声音质量的下降。n实实际际收收听听时时,音音响响(功功率率放放大大器器、扬扬声声器器等等)的的质质量量对对音音质质的的表表现现也也起起很很大大作作用。用。15下一页上一页音频数据传输率音频数据传输率 n音频信号数字化后,产生大量数据音频信号数字化后,产生大量数据。n产生数据的速度或播放声音时需要传输数据产生数据的速度或播放声音时需要传输数据的速度影响声音的播放质量。数据传输率用的速度影响声音的播放质量。数据传输率用每秒钟传输的数据位数表示,记为每秒钟传输的数据位数表示,记为bps(bit per second)。)。n未经压缩的数字音频数据传输率为:未经压缩的数字音频数据传输率为:数据传输率数据传输率(bits)=采样频率采样频率(Hz)量化位数量化位数(bit)声道数声道数 16下一页上一页声音质量和数字化指标声音质量和数字化指标 质量质量采样频率采样频率(kHz)样本精度样本精度(bit)单道声单道声/立体声立体声数据率数据率(kB/s)(未压缩未压缩)频率范围频率范围电话电话*88单道声单道声82003 400 HzAM11.0258单道声单道声11.0507 000HzFM22.05016立体声立体声88.22015 000HzCD44.116立体声立体声176.42020 000 HzDAT4816立体声立体声192.02020 000 Hz17下一页上一页 编码编码算法与音频数据压缩比算法与音频数据压缩比 n未压缩的音频数据量非常大,因此在编码的时未压缩的音频数据量非常大,因此在编码的时候常采用压缩的方式。候常采用压缩的方式。n实际上,编码的作用一是记录数字数据,二是实际上,编码的作用一是记录数字数据,二是采用一定的算法来压缩数据以减少存储空间和采用一定的算法来压缩数据以减少存储空间和提高传输效率。提高传输效率。n压缩编码的基本指标之一就是压缩比,一般为压缩编码的基本指标之一就是压缩比,一般为数据压缩前后的数据量之比:数据压缩前后的数据量之比:18下一页上一页数据压缩说明数据压缩说明n采用不同的数字化指标实际上也是进行了采用不同的数字化指标实际上也是进行了不同比例的数据压缩。不同比例的数据压缩。n如果如果PCMPCM编码采用编码采用4bit4bit量化对量化对CDCD音质信号音质信号压缩,其压缩比为压缩,其压缩比为4:14:1。n压缩算法包括有损压缩和无损压缩;压缩算法包括有损压缩和无损压缩;n有损压缩解压后数据不能完全复原,要有损压缩解压后数据不能完全复原,要丢失一部分信息。丢失一部分信息。n无损压缩不丢失任何信息,能较好地复无损压缩不丢失任何信息,能较好地复原原始信号。原原始信号。19下一页上一页数字音频文件格式数字音频文件格式 n数字声音文件格式是数字音数字声音文件格式是数字音频在磁盘文件中的存放形式,频在磁盘文件中的存放形式,相同的数据可以有不同的文相同的数据可以有不同的文件格式,而不同的数据也可件格式,而不同的数据也可以有相同的文件格式以有相同的文件格式。nWAVE WAVE 格式格式nMP3 MP3 格式格式nRA RA 格式格式20下一页上一页WAVEWAVE文件格式文件格式nWAVEWAVE文件是一种通用的音频数据文件,文文件是一种通用的音频数据文件,文件扩展名为件扩展名为“WAV”WAV”,WindowsWindows系统和一系统和一般的音频卡都支持这种格式文件的生成、般的音频卡都支持这种格式文件的生成、编辑和播放。编辑和播放。nCDCD激光唱盘中包含的就是激光唱盘中包含的就是WAVEWAVE格式的波形格式的波形数据。一般说来,声音质量与其数据。一般说来,声音质量与其WAVEWAVE格式格式的文件大小成正比。的文件大小成正比。nWAVEWAVE文件的文件的特点特点是易于生成和编辑,但在是易于生成和编辑,但在保证一定音质的前提下压缩比不够,不适保证一定音质的前提下压缩比不够,不适合在网络上播放。合在网络上播放。21下一页上一页 MP3文件文件nMP3MP3文件是采用文件是采用MP3MP3算法压缩生成的数字音频算法压缩生成的数字音频数据文件,以数据文件,以“.MP3”“.MP3”为文件后缀。为文件后缀。nMP3MP3利用利用MPEGMPEG制定的制定的MPEG-1 Audio layer 3MPEG-1 Audio layer 3的的压缩标准,将音频信息用压缩标准,将音频信息用10:110:1甚至甚至12:112:1压缩压缩率变成容量较小的数据文件。率变成容量较小的数据文件。n虽然虽然MP3MP3是一种利用了人类心理声学特性的有是一种利用了人类心理声学特性的有损压缩,人耳基本不能分辨出失真,音质几损压缩,人耳基本不能分辨出失真,音质几乎达到了乎达到了CDCD音质标准。按照这种算法,音质标准。按照这种算法,1010张张CD-DACD-DA的内容可以压缩到的内容可以压缩到l l张张CD-ROMCD-ROM中,而且中,而且视听效果相当好。视听效果相当好。22下一页上一页 RA文件文件 nReal AudioReal Audio是是Real networksReal networks推出的一种推出的一种音乐压缩格式,它的压缩比可达到音乐压缩格式,它的压缩比可达到96:196:1,因此在网上比较流行。,因此在网上比较流行。n经过压缩的音乐文件可以在通过速率为经过压缩的音乐文件可以在通过速率为14.4kb/s14.4kb/s的的MODEMMODEM上网的计算机中流畅回上网的计算机中流畅回放。其最大特点是可以采用流媒体的方放。其最大特点是可以采用流媒体的方式实现网上实时播放,即边下载边播放。式实现网上实时播放,即边下载边播放。23下一页上一页五、多媒体数据的编码技术五、多媒体数据的编码技术 n自然现象:自然现象:我们了解的东西,描述它用的信息量我们了解的东西,描述它用的信息量少,不了解的东西,描述它用的信息量大。少,不了解的东西,描述它用的信息量大。n在信息论中,可以说:信息是用不确定的度量来在信息论中,可以说:信息是用不确定的度量来定义的;一个消息的可能性越小,其信息含量越定义的;一个消息的可能性越小,其信息含量越大;消息的可能性越大,则信息含量越小。大;消息的可能性越大,则信息含量越小。24下一页上一页(1)(1)信息和熵信息和熵n香农(香农(C.E.ShannonC.E.Shannon)信息论应用概率来描述不)信息论应用概率来描述不确定性。事件出现的概率小,不确定性越多,信确定性。事件出现的概率小,不确定性越多,信息量就大,反之则少。息量就大,反之则少。n在数学上,所传输的消息是其出现概率的单调下在数学上,所传输的消息是其出现概率的单调下降函数。所谓信息是指从降函数。所谓信息是指从N N个相等可能事件中选出个相等可能事件中选出一个事件,所需要的信息度量或含量,也就是在一个事件,所需要的信息度量或含量,也就是在辨识辨识N N个事件中某个特定事件过程中所需提问个事件中某个特定事件过程中所需提问“是是”或或“否否”的最少次数。的最少次数。n如从如从6464个数中选定某一个数,提问:个数中选定某一个数,提问:“是否大于是否大于32?”32?”,则不论回答是与否,都消去了半数的可能,则不论回答是与否,都消去了半数的可能事件,如此下去,只要问事件,如此下去,只要问6 6次这类问题,就可以从次这类问题,就可以从6464个数中选定一个数。因此,可以用二进制的个数中选定一个数。因此,可以用二进制的6 6个个位来记录这一过程,就可以得到这条信息。位来记录这一过程,就可以得到这条信息。25下一页上一页信息源信息源x的熵的熵 26下一页上一页例例2-10 27下一页上一页例例2-112-11 28下一页上一页香侬理论的要点香侬理论的要点n信源中含有信源中含有自然冗余度自然冗余度,这些冗余度既来自于信,这些冗余度既来自于信源本身的相关性,又来自于信源概率分布的不均源本身的相关性,又来自于信源概率分布的不均匀性,只要找到去除相关性或改变概率分布不均匀性,只要找到去除相关性或改变概率分布不均匀性的手段和方法,也就找到了信息熵编码的方匀性的手段和方法,也就找到了信息熵编码的方法。法。n但信源所含有的平均信息量(熵)是进行无失真但信源所含有的平均信息量(熵)是进行无失真编码的理论的极限,只要不低于此极限,就能找编码的理论的极限,只要不低于此极限,就能找到某种适宜的编码方法,去逼近信息熵,实现数到某种适宜的编码方法,去逼近信息熵,实现数据压缩。据压缩。29下一页上一页(2)(2)信息冗余信息冗余 n多媒体数据中大的数据量并不完全等于它们所多媒体数据中大的数据量并不完全等于它们所携带的信息量。在信息论中,称为携带的信息量。在信息论中,称为冗余冗余。n冗余是指信息存在的各种性质的多余度。减少冗余是指信息存在的各种性质的多余度。减少数据冗余可以节省存储空间,有效利用网络带数据冗余可以节省存储空间,有效利用网络带宽。宽。30下一页上一页数据冗余的类型数据冗余的类型空间冗余空间冗余 物理特性具有相关性。物理特性具有相关性。时间冗余时间冗余 相邻帧图像之间有较大的相关性。相邻帧图像之间有较大的相关性。信息熵冗余信息熵冗余 自然编码的比特分配不能达到最佳。自然编码的比特分配不能达到最佳。视觉冗余视觉冗余 人眼不能察觉图像中的所有变化。人眼不能察觉图像中的所有变化。知识冗余知识冗余 数据的理解与先验知识有很大的关系。数据的理解与先验知识有很大的关系。例如,当接收到一个成语的前三个字例如,当接收到一个成语的前三个字“大惊小大惊小”时,就知道下一个字肯定是时,就知道下一个字肯定是“怪怪”。听觉冗余听觉冗余 人耳不能察觉所有频率的变化。人耳不能察觉所有频率的变化。31下一页上一页数据压缩的基本原理数据压缩的基本原理n数据压缩的对象是数据。数据是信息数据压缩的对象是数据。数据是信息的载体,用来记录和传送信息。真正的载体,用来记录和传送信息。真正有用的不是数据本身,而是数据所携有用的不是数据本身,而是数据所携带的信息。大的数据量并不代表含有带的信息。大的数据量并不代表含有大的信息量大的信息量 。n而对于去掉冗余的数据对信息没有本而对于去掉冗余的数据对信息没有本质的影响称为压缩。质的影响称为压缩。32下一页上一页(3)压缩算法的分类压缩算法的分类 n从信息量有无损失划分:从信息量有无损失划分:可逆编码可逆编码和和不可逆不可逆编码编码。n可逆编码也叫无失真编码、冗余度压缩、熵编可逆编码也叫无失真编码、冗余度压缩、熵编码等。其原理是减少数据中的冗余度,而不损码等。其原理是减少数据中的冗余度,而不损失任何信息。解压时可以完全恢复出原来的数失任何信息。解压时可以完全恢复出原来的数据,亦称无损压缩。典型的无损压缩有据,亦称无损压缩。典型的无损压缩有Huffman编码、算术编码和行程编码等。编码、算术编码和行程编码等。n可逆编码由于不会产生失真,因此在多媒体技可逆编码由于不会产生失真,因此在多媒体技术中常用于文本、数据的压缩,它能保证完全术中常用于文本、数据的压缩,它能保证完全地恢复原始数据。但这种方法的压缩比较低,地恢复原始数据。但这种方法的压缩比较低,一般在一般在2:15:1之间。之间。33下一页上一页不可逆编码不可逆编码n不可逆编码是有失真压缩,信息论中叫熵压缩。不可逆编码是有失真压缩,信息论中叫熵压缩。由于压缩了熵,会减少信息而不能再恢复。因由于压缩了熵,会减少信息而不能再恢复。因此这种压缩又称有损压缩。在语音和图像中,此这种压缩又称有损压缩。在语音和图像中,由于存在视觉冗余和听觉冗余,减少这种信息由于存在视觉冗余和听觉冗余,减少这种信息并不影响人们的听觉效果和视觉效果,所以经并不影响人们的听觉效果和视觉效果,所以经常采用这种方法,常采用这种方法,n有损压缩常用于数字化存储的模拟数据,并且有损压缩常用于数字化存储的模拟数据,并且主要应用于图像、声音、动态视频等数据的压主要应用于图像、声音、动态视频等数据的压缩。如果用混合编码的缩。如果用混合编码的JPEG标准,对自然景标准,对自然景物的彩色图像,压缩比可达到几十倍甚至上百物的彩色图像,压缩比可达到几十倍甚至上百倍。倍。34下一页上一页压缩算法分类压缩算法分类n根据压缩原理划分有预测编码、根据压缩原理划分有预测编码、变换编码、矢量编码、子带编变换编码、矢量编码、子带编码、熵编码等。码、熵编码等。35下一页上一页1)预测编码)预测编码 对于语音,就是通过预测去除语音信号时间对于语音,就是通过预测去除语音信号时间上的相关性。而对于图像,帧内预测去除了上的相关性。而对于图像,帧内预测去除了空间上的冗余,帧间预测则可以去除时间上空间上的冗余,帧间预测则可以去除时间上冗余。冗余。目前大多数语音、图像编码中都采用了预测目前大多数语音、图像编码中都采用了预测技术。技术。例如语音中的例如语音中的LPC(linear Predictive Coding,线性预测,线性预测)、CELP(码激励线性预码激励线性预测测)、图像中的、图像中的ADPCM(自适应差分脉冲编自适应差分脉冲编码调制码调制)等。等。36下一页上一页2 2)变换编码)变换编码n变换编码首先把要压缩的数据变换到某个变换编码首先把要压缩的数据变换到某个变换域中,然后再进行编码。变换域中,然后再进行编码。n变换域中表现为能量集中在某些区域,就变换域中表现为能量集中在某些区域,就可以利用这一特点在不同区域间有效地分可以利用这一特点在不同区域间有效地分配量化比特数,或者去掉这些能量很小的配量化比特数,或者去掉这些能量很小的区域,从而达到数据压缩的目的。区域,从而达到数据压缩的目的。n例如声音中的频谱分析实际上是对语音波例如声音中的频谱分析实际上是对语音波形进行了快速傅里叶变换(形进行了快速傅里叶变换(FFT),将时域),将时域信号变到了频域中,可以清楚地看到能量信号变到了频域中,可以清楚地看到能量集中在哪些频率范围内。集中在哪些频率范围内。37下一页上一页3 3)矢量量化)矢量量化n矢量量化是利用相邻数据间的相关性,矢量量化是利用相邻数据间的相关性,将数据序列分组进行量化的一种压缩将数据序列分组进行量化的一种压缩方法。和预测编码一样,矢量量化本方法。和预测编码一样,矢量量化本质也是利用数据序列的统计相关性进质也是利用数据序列的统计相关性进行压缩的。行压缩的。38下一页上一页4 4)子带编码)子带编码n子带编码首先让原始数据分别通过若子带编码首先让原始数据分别通过若干个具有不同通频带的滤波器,将信干个具有不同通频带的滤波器,将信号分成多个子带信号输出,然后分别号分成多个子带信号输出,然后分别对各个滤波器的输出进行编码。当滤对各个滤波器的输出进行编码。当滤波器选取得合适时,它们的输出将各波器选取得合适时,它们的输出将各自具有不同的分布特性,对各频段进自具有不同的分布特性,对各频段进行不同的量化处理,可以有效地进行行不同的量化处理,可以有效地进行数据压缩。数据压缩。39下一页上一页5 5)熵编码)熵编码n根据信息墒的原理,用短码表示出现概率根据信息墒的原理,用短码表示出现概率大的数据,用长码表示出现概率小的数据。大的数据,用长码表示出现概率小的数据。这是一种无损数据压缩技术,在语音和图这是一种无损数据压缩技术,在语音和图像编码中常常和其它有损压缩编码方法结像编码中常常和其它有损压缩编码方法结合使用。合使用。40下一页上一页2.基本压缩编码方法基本压缩编码方法 n哈夫曼哈夫曼(Huffman)编码在编码在1952年为文年为文本文件而建立。霍夫曼编码的码长是本文件而建立。霍夫曼编码的码长是变化的,对于出现频率高的信息,编变化的,对于出现频率高的信息,编码的长度较短;而对于出现频率低的码的长度较短;而对于出现频率低的信息,编码长度较长。这样,处理全信息,编码长度较长。这样,处理全部信息的总码长一定小于实际信息的部信息的总码长一定小于实际信息的符号长度。符号长度。41下一页上一页例例2-122-12n设信号源为设信号源为X=、a、e、I、m、t、c、h、r。n对应的概率为对应的概率为p=O.22、0.22、0.14、O.07、0.07、0.07、0.07、0.07、0.07,试给出该信源的霍夫曼编码方案。试给出该信源的霍夫曼编码方案。n若传送一个串字符串若传送一个串字符串“I am a teacher”“I am a teacher”,共,共1414个个字符。若用字符。若用ASCIIASCII传送,每个字符传送,每个字符8 8位,共需位,共需112112位。位。该字符串中有该字符串中有9 9个不同的符号,至少需要个不同的符号,至少需要4 4位二进制位二进制才能表示,这样传送该字符串也要才能表示,这样传送该字符串也要5656位。若用刚计位。若用刚计算的算的HuffmanHuffman编码,只需要编码,只需要4242位。位。42下一页上一页霍夫曼编码过程霍夫曼编码过程 43下一页上一页(2)行程编码原理行程编码原理 n由字符由字符(或信号采样值或信号采样值)构成的数据流中相构成的数据流中相同的字符同的字符(或字符串或字符串)会连续重复出现,重会连续重复出现,重复出现的字符长度称为游程长度复出现的字符长度称为游程长度RLRL(Run Run LengthLength)。如果给出了形成串的字符,串)。如果给出了形成串的字符,串的长度及串的位置,就能复出原来的数据的长度及串的位置,就能复出原来的数据流。行程编码流。行程编码RLC(Run Length Coding)RLC(Run Length Coding)就就是用二进制码字给出上述信息的一类方法。是用二进制码字给出上述信息的一类方法。行程编码又称行程编码又称“运行长度编码运行长度编码”或或“游程游程编码编码”44下一页上一页例例2-132-13n设有数据流设有数据流“AAABBBBCCCCCDAAAAAA”“AAABBBBCCCCCDAAAAAA”,试计算,试计算该数据的行程编码。该数据的行程编码。n解解:A A重复重复3 3次,次,B B重复重复4 4次,次,C C重复重复5 5次,次,D D不重复,不重复,A A重复重复6 6次,次,RLCRLC数据流为:数据流为:“SA3SA3SB4SB4SC5SC5DSA6”DSA6”,其中其中S S为指示符。总共占用为指示符。总共占用1313个字节,而源数据个字节,而源数据占用占用1919个字节。个字节。n有时行程编码不用指示符,重复与否相同对待,有时行程编码不用指示符,重复与否相同对待,则相应的则相应的RLCRLC为为“A3B4C5D1A6”“A3B4C5D1A6”占用占用1010个字节。个字节。45下一页上一页3.3.数字音频压缩标准数字音频压缩标准 1.1.电话质量的语音压缩标准电话质量的语音压缩标准。标标准准编编号号要要 点点G.711G.711采用采用PCMPCM编码编码,采,采样频样频率率8kHz8kHz,采,采样样精度精度8bit8bit,数据率,数据率64kb/s64kb/s,非,非线线性量化性量化G.721G.721基于基于ADPCMADPCM编码编码,采,采样频样频率率8kHz8kHz,数,数值值差分用差分用4 4位量化,数据率位量化,数据率32kb/s32kb/sG.723G.723ADPCMADPCM编码编码,数据率,数据率24k/s24k/sG.728G.728LD-CELPLD-CELP编码编码技技术术,数据率,数据率16k/s16k/s,音,音质质与与G.721G.721相当相当n电视会议的语音编码、为提高线路利用率的多媒体多路电视会议的语音编码、为提高线路利用率的多媒体多路复用装置、数字录音电活的数字记录部件以及高质量的复用装置、数字录音电活的数字记录部件以及高质量的语音合成器语音合成器;数字移动通信、无绳电话。数字移动通信、无绳电话。nITU 国际电信联盟国际电信联盟 International Telecommunication Union46下一页上一页(2)(2)调幅广播质量的音频压缩标准调幅广播质量的音频压缩标准n调幅广播质量音频信号的频率范围是调幅广播质量音频信号的频率范围是50Hz50Hz7kHz7kHz,又称又称“7kHz“7kHz音频信号音频信号”,当使用,当使用16kHz16kHz的采样频率的采样频率和和14bit14bit的量化位数时,信号速率为的量化位数时,信号速率为224kb224kbs s。n19881988年年ITUITU制定了制定了G.722G.722标准,它可把信号速率压缩标准,它可把信号速率压缩成成64kb64kbs s。nG.722G.722标准基于子带标准基于子带ADPCMADPCM技术技术(SBADPCM)(SBADPCM),将现,将现有的带宽分成两个独立的子带信道,使输入信号进有的带宽分成两个独立的子带信道,使输入信号进入滤波器组分成高子带信号和低子带信号,然后分入滤波器组分成高子带信号和低子带信号,然后分别进行别进行ADPCMADPCM编码,最后进入混合器形成输出码流。编码,最后进入混合器形成输出码流。n这种压缩方法能够在每秒这种压缩方法能够在每秒8kB8kB的存储量下给出相当的存储量下给出相当好的音乐信号,也很适合于需要存储大量高质量音好的音乐信号,也很适合于需要存储大量高质量音频信号的多媒体系统使用。频信号的多媒体系统使用。47下一页上一页(3)(3)高保真立体声音频压缩标准高保真立体声音频压缩标准 n高保真立体声音频信号的频率范围高保真立体声音频信号的频率范围50Hz50Hz20kHz20kHz,在,在44.1 44.1 kHzkHz采样频率下用采样频率下用16bit16bit量化,信号速率为每声道量化,信号速率为每声道1410kb1410kbs s。n目前国际上比较成熟的高保真立体声音频压缩标准为目前国际上比较成熟的高保真立体声音频压缩标准为MPEGMPEG音频。音频。nMPEG AudioMPEG Audio是一个子带编码系统,声音数据压缩算法的根是一个子带编码系统,声音数据压缩算法的根据是心理声学模型。据是心理声学模型。n心理声学模型中一个最基本的概念是听觉系统中存在一个心理声学模型中一个最基本的概念是听觉系统中存在一个听觉阈值电平,低于这个电平的声音信号就听不到。听觉阈值电平,低于这个电平的声音信号就听不到。n听觉阈值的大小随声音频率的改变而改变,各个人的听觉听觉阈值的大小随声音频率的改变而改变,各个人的听觉阈值也不同。大多数人的听觉系统对阈值也不同。大多数人的听觉系统对2kHz2kHz5kHz5kHz之间的声之间的声音最敏感。一个人是否能听到声音取决于声音的频率,以音最敏感。一个人是否能听到声音取决于声音的频率,以及声音的幅度是否高于这种频率下的听觉阈值。及声音的幅度是否高于这种频率下的听觉阈值。48下一页上一页MPEGMPEGnMPEGMPEG声音声音(ISO/IEC 11172-3)(ISO/IEC 11172-3)压缩算法是世压缩算法是世界上第一个高保真声音数据压缩国际标准,界上第一个高保真声音数据压缩国际标准,并且得到了极其广泛的应用。并且得到了极其广泛的应用。MPEGMPEG声音标声音标准是准是MPEGMPEG标准的一部分,但它也完全可以标准的一部分,但它也完全可以独立应用。独立应用。MPEGMPEG声音标准提供三个独立的声音标准提供三个独立的压缩层次:层压缩层次:层1(Layer 1)1(Layer 1)、层、层2(Layer 2)2(Layer 2)和层和层3(Layer 3)3(Layer 3),用户对层次的选择可在,用户对层次的选择可在复杂性和声音质量之间进行权衡。复杂性和声音质量之间进行权衡。49下一页上一页四、数字音频处理四、数字音频处理 本节介绍数字音频的应用技术,包括本节介绍数字音频的应用技术,包括声音的采集、编辑以及音效处理。声音的采集、编辑以及音效处理。编辑工具:编辑工具:nWindowsWindows下的录音机下的录音机nSound ForgeSound ForgenGoldWaveGoldWave50下一页上一页 1 1、基本操作、基本操作 n通过下例学习文件的打开、声道的转换、数通过下例学习文件的打开、声道的转换、数字化指标的转换、提高音量和文件格式转换字化指标的转换、提高音量和文件格式转换 n例例2.4 example_0220.wav2.4 example_0220.wav文件是一个双声道立体声文件是一个双声道立体声语音文件,采样频率语音文件,采样频率44.1kHz44.1kHz,采样精度,采样精度3232位,请对位,请对其做以下处理:其做以下处理:将双声道声音转换成单声道声音;将双声道声音转换成单声道声音;采样频率转换为采样频率转换为8kHz8kHz,样本精度转换成,样本精度转换成1616位;位;将其音量提高将其音量提高20%;20%;将文件格式转换为将文件格式转换为mp3mp3格式,话音质量。格式,话音质量。51下一页上一页操作步骤操作步骤 打开文件打开文件。使用。使用“FileOpen”命令打开声音文件命令打开声音文件example_0220.wav 声道转换声道转换。执行。执行“ProcessChannel Converter”命令命令 修改技术指标修改技术指标。执行。执行“processResample”命令命令,输入新的输入新的采样频率采样频率“8,000”;设置位深。设置位深。执行执行“ProcessBit-depth Converter”命令,命令,在打开的对话框中设置在打开的对话框中设置“Bit depth”为为“16”位。位。提高音量提高音量。执行。执行“ProcessVolume”菜单命令菜单命令 保存文件为保存文件为mp3文件文件。执行。执行“FileSave As”命令,保存类命令,保存类型选择型选择“MP3 Audio(*.mp3)”,单击,单击“Template”右边的右边的“Custom”按钮,打开按钮,打开“Custom Setting”(自定义设置),(自定义设置),选择选择“Bit Rate”为为“8kbps 8,000Hz”,单击,单击“OK”,并保,并保存文件。存文件。52下一页上一页 2、声音的录制与格式转换、声音的录制与格式转换 n在使用计算机进行录音时,话筒的插头应插入声在使用计算机进行录音时,话筒的插头应插入声卡的卡的MIC(话筒话筒)输入插座内。输入插座内。n声卡有两个输入插座,一个用于话筒,一个用于声卡有两个输入插座,一个用于话筒,一个用于线路输入。线路输入。n用于话筒的插座灵敏度高,一般为用于话筒的插座灵敏度高,一般为O.53mv,适于输入微弱的信号;适于输入微弱的信号;n用于线路输入的插座灵敏度低,主要与音响设备用于线路输入的插座灵敏度低,主要与音响设备的线路输出端连接,适于输入强度较大的信号,的线路输出端连接,适于输入强度较大的信号,一般为一般为5001000mv。n上述两个插座不要混淆。如果把话筒插在线路输上述两个插座不要混淆。如果把话筒插在线路输入插座内,将录不到声音入插座内,将录不到声音。53下一页上一页(1)质量选择质量选择n录制声音时应根据不同的要求选择不同的质量参录制声音时应根据不同的要求选择不同的质量参数,包括采样频率、样本位数、声道数、编码格数,包括采样频率、样本位数、声道数、编码格式等。式等。n录音时,应注意调整输入信号的强度,使其不超录音时,应注意调整输入信号的强度,使其不超过录音设备的动态范围,否则将产生削顶失真,过录音设备的动态范围,否则将产生削顶失真,音感阻塞,严重时无法辨别声音的内容。音感阻塞,严重时无法辨别声音的内容。n信号强度过低,也不能获得满意的声音,原因是信号强度过低,也不能获得满意的声音,原因是信号与噪声的比值小,噪声相对比较明显,影响信号与噪声的比值小,噪声相对比较明显,影响了音质。了音质。n正式录音前,最好先试录一次,以调整音响效果。正式录音前,最好先试录一次,以调整音响效果。54下一页上一页(2)声音格式的转换声音格式的转换 n一般的声音处理软件兼容多种格式的声音文件,一般的声音处理软件兼容多种格式的声音文件,使得声音格式的转换非常简单,只要在保存文使得声音格式的转换非常简单,只要在保存文件时使用件时使用“另存为另存为”,然后选择不同的文件格,然后选择不同的文件格式、质量级别、压缩算法或不同的性能指标。式、质量级别、压缩算法或不同的性能指标。n例例2.5 以以22.1kHz的采样频率、的采样频率、16位位深度位位深度录制以下唐诗。去除录制过程中过长的停顿、录制以下唐诗。去除录制过程中过长的停顿、喀喀声,调整音量,分别将其保存为喀喀声,调整音量,分别将其保存为WAV文文件、件、FM音质的音质的MP3文件和文件和rm文件。文件。55下一页上一页3、朗读并录音、朗读并录音为人进出的门紧锁着为人进出的门紧锁着 为狗爬出的洞敞开着为狗爬出的洞敞开着 一个声音高叫着一个声音高叫着“爬出来吧,给你自由爬出来吧,给你自由”我,渴望自由我,渴望自由 但我深深地知道:但我深深地知道:人的身躯怎能从狗洞里爬出人的身躯怎能从狗洞里爬出 我希望有一天我希望有一天 地下的烈火将我和这口活棺材一起烧掉地下的烈火将我和这口活棺材一起烧掉 我,愿在烈火中永生!我,愿在烈火中永生!56下一页上一页录音操作步骤录音操作步骤n环境准备环境准备n启动启动So