第3章 音频信息处理02299(精品).ppt
《第3章 音频信息处理02299(精品).ppt》由会员分享,可在线阅读,更多相关《第3章 音频信息处理02299(精品).ppt(80页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 第第3章章 音频信息处理音频信息处理学习目标学习目标l了解声音信号的特点、存储格式及质量的度量方法l理解音频信号压缩方法及音频编码标准l掌握常用的音频处理软件对声音信号进行处理l了解语音识别技术及其应用3.1 音频信息处理基础音频信息处理基础 音音频频信息信息在多媒体中的应应用用极为广泛:视频图像配以娓娓动听的音乐和语音;静态或动态图像配以解说和背景音乐;立体声音乐可增加空间感;游戏中的音响效果等。音频处理技术主要包括音频处理技术主要包括电声转换、音频信号的存储、重放技术、加工处理技术以及数字化音频信号的编码、压缩、传输、存取、纠错等。3.1.1 3.1.1 音频信号的特点音频信号的特点 1
2、.1.音频信号的分类音频信号的分类音频信号可分为两类:语音信号和非语音信号音频信号可分为两类:语音信号和非语音信号。语音语音是语言的物质载体,是社会交际工具的符号,它包含了丰富的语言内涵,是人类进行信息交流所特有的形式。非语音信号非语音信号主要包括音乐和自然界存在的其他声音形式。非语音信号的特点是不具有复杂的语义和语法信息,信息量低、识别简单。规则音频规则音频是一种连续变化的模拟信号,可用一条连续的曲线来表示,称为声波声波。因声波是在时间和幅度上都连续变化的量,我们称之为模拟量模拟量。用声音录制软件记录的英文单词用声音录制软件记录的英文单词“Hello”Hello”的语音实际波形的语音实际波形
3、2.2.模拟音频信号的两个重要参数模拟音频信号的两个重要参数 模拟音频信号有两个重要参数:频率和幅度频率和幅度。声音的频率体现音调的高低,声波幅度的大小体现声音的强弱。一个声源每秒钟可产生成百上千个波,我们把每秒钟波峰所发生的数目称之为信号的频率频率,单位用赫兹(Hz)或千赫兹(kHz)表示。信号的幅度信号的幅度是从信号的基线到当前波峰的距离。幅度决定了信号音量的强弱程度。幅度越大,声音越强。对音频信号,声音的强度用分贝声音的强度用分贝(dB)dB)表示表示,分贝的幅度就是音量。幅度限周期基线3.3.声音的声音的A/DA/D与与D/AD/A转换转换A/DA/D转换转换就是把模拟信号转换成数字信
4、号的过程,模拟电信号变为了由“0”和“1”组成的Bit信号。这样做的好处是显而易见的,声音存储质量得到了加强,数字化的声音信息使计算机能够进行识别、处理和压缩。A/D转换的一个关键步骤是声音的采样和量化采样和量化,得到数字音频信号,它在时间上是不连续的离散信号。借助于A/D或D/A转换器,模拟信号和数字信号可以互相转换。4.4.声音的三要素声音的三要素 1 1)音音调调:代表了声音的高低。音调与频率有关,频率越高,音调越高,反之亦然。读者也许有这样的经验,当提高磁带录音机的转速时,其旋转加快,声音信号的频率提高,其喇叭放出来声音的音调提高了。同样,在使用音频处理软件对声音的频率进行调整时,也可
5、明显感到音调随之而产生的变化。各种不同的声源具有自己特定的音调,如果改变了某种声源的音调,则声音会发生质的转变,使人们无法辨别声源本来的面目。2 2)音音色色:即特色的声音。声音分纯纯音音和复复音音两种类型。所谓纯音,是指振幅和周期均为常数的声音;复音则是具有不同频率和不同振幅的混合声音。大自然中的声音绝大部分是复音。在复音中,最低频率的声音是“基基音音”,它是声音的基调。其他频率的声音称为“谐音”,也叫泛泛音音。基音和谐音是构成声音音色的重要因素。各种声源都具有自己独特的音色,例如各种乐器的声音、每个人的声音、各种生物的声音等,人们就是依据音色来辨别声源种类的。3 3)音强)音强:声音的强度
6、,也被称为声音的响度,常说的“音量”也是指音强。音强与声波的振幅成正比,振幅越大,强度越大。唱盘、CD激光盘以及其他形式声音载体中的声音强度是一定的,通过播放设备的音量控制,可改变聆听时的响度。声音的频谱有线性频谱和连续频谱之分。线线性性频频谱谱是具有周期性的单一频率声波;连连续续频频谱谱是具有非周期性的带有一定频带所有频率分量的声波。纯粹的单一频率的声波只能在专门的设备中创造出来,声音效果单调而乏味。自然界中的声音几乎全部属于非周期性声波,该声波具有广泛的频率分量,听起来声音饱满、音色多样且具有生气。5.5.声音的频谱声音的频谱3.1.2 3.1.2 模拟音频的数字化过程模拟音频的数字化过程
7、 数字化的声音易于用计算机软件处理,现在几乎所有的专业化声音录制、编辑器都是数字方式。对模拟音频数字化过程涉及到音音频频的采的采样样、量化和、量化和编码编码。采样和量化的过程可由采样和量化的过程可由A/DA/D转换器转换器实现实现。A/D转换器以固定的频率去采样,即每个周期测量和量化信号一次。经采样和量化后声音信号经编码后就成为数字音频信号,可以将其以文件形式保存在计算机的存储介质中,这样的文件一般称为数字声波文件。信息论的奠基者香农(Shannon)指出:在一定条件下,用在一定条件下,用离散的序列可以完全代表一个连续函数离散的序列可以完全代表一个连续函数,这是采样定理的基本内容。为实现A/D
8、转换,需要把模拟音频信号波形进行分割把模拟音频信号波形进行分割,这种这种方法称为采样方法称为采样(Sampling)。采样的过程是每隔一个时间间隔在采样的过程是每隔一个时间间隔在模拟声音的波形上取一个幅度值模拟声音的波形上取一个幅度值,把时间上的连续信号变成时间上的离散信号。该时间间隔称为采样周期,其倒数为采样频率。采样频率采样频率是指计算机每秒钟采集多少个声音样本。1.1.采样采样 采样频率与声音频率之间有一定的关系,根据奈奎斯特(Nyquist)理论,只有采样频率高于声音信号最高频率的两只有采样频率高于声音信号最高频率的两倍时,才能把数字信号表示的声音还原成为原来的声音倍时,才能把数字信号
9、表示的声音还原成为原来的声音。采样只解决了音频波形信号在时间坐标时间坐标(即横轴即横轴)上把一个波形切成若干个等分的数字化问题,但是还需要用某种数字化的方法来反映某一瞬间声波幅度的电压值大小。该值的大小影响音量的高低。我们把对声波波形幅度的数字化表示称之为对声波波形幅度的数字化表示称之为“量化量化”。量化的过程量化的过程是先将采样后的信号按整个声波的幅度划分成有限个区段的集合,把落入某个区段内的样值归为一类,并赋于相同的量化值。如何分割采样信号的幅度呢?我们还是采取二进制的方式,以位以位(bit)或或16位位(bit)的方式来划分纵轴的方式来划分纵轴。也就是说在一个以8位为记录模式的音效中,其
10、纵轴将会被划分为个量化等级,用以记录其幅度大小。2.量化量化 以下图所示的原始模拟波形为例进行采样和量化。假设采样频率为1000次/秒,即每1/1000秒A/D转换器采样一次,其幅度被划分成0到9共10个量化等级,并将其采样的幅度值取最接近09之间的一个数来表示,如下图所示。图中每个正方形表示一次采样。D/A转换器转换器从上图得到的数值中重构原来信号时,得到下图中蓝色(直线段)线段所示的波形。从图中可以看出,蓝色线与原波形(红色线)相比,其波形的细节部分丢失了很多。这意味着重构后的信号波形有较大的失真。失真失真在采样过程中是不可避免的,如何减少失真呢如何减少失真呢?可以直观地看出,我们可以把上
11、图中的波形划分成更为细小的区间,即采用更高的采样频率。同时,增加量化精度采用更高的采样频率。同时,增加量化精度,以得到更高的量化等级,即可减少失真的程度。在下图(左)中,采样率和量化等级均提高了一倍,分别为2000次/秒和20个量化等级。在下图(右)中,采样率和量化等级再提高了一倍,分别达到4000次/秒和40个量化等级。从图中可以看出,当用D/A转换器重构原来信号时(图中的轮廓线),信号的失真明显减少,信号质量得到了提高。3.3.编码编码 模拟信号量经过采样和量化以后,形成一系列的离散信号脉冲数字信号。这种脉冲数字信号可以一定的方式进行编码,形成计算机内部运行的数据。所谓编码,就是按照一定的
12、编码,就是按照一定的格式把经过采样和量化得到的离散数据记录下来,并在有用的格式把经过采样和量化得到的离散数据记录下来,并在有用的数据中加入一些用于纠错、同步和控制的数据数据中加入一些用于纠错、同步和控制的数据。在数据回放时,可以根据所记录的纠错数据判别读出的声音数据是否有错,如在一定范围内有错,可加以纠正。编码的形式比较多,常用的编码方式是PCM脉冲调制。脉冲编码调制(脉冲编码调制(PCM)是把模拟信号变换为数字信号的一种调是把模拟信号变换为数字信号的一种调制方式,即把连续输入的模拟信号变换为在时域和振幅上都离制方式,即把连续输入的模拟信号变换为在时域和振幅上都离散的量,然后将其转化为代码形式
13、传输或存储散的量,然后将其转化为代码形式传输或存储。3.1.3 3.1.3 数字音频的文件格式数字音频的文件格式 在多媒体技术中,存储音频信息的文件格式主要有:WAV文件、VOC文件和MP3文件等。1.WAVWAV文件文件WAV文件又称波形文件,来源于对声音模拟波形的采样,并以不同的量化位数把这些采样点的值轮换成二进制数,然后存入磁盘,这就产生了波形文件。WAV文件用于保存Windows平台的音频信息资源,被Windows平台及其应用程序所广泛支持。WAV声音文件是使用RIFF(Resource Interchange File Format资源交换文件)的格式描述的,它由文件头和波形音频文件
14、数据块组成。文件头包括标志符、语音特征值、声道特征以及PCM格式类型标志等。WAV数据块是由数据子块标记、数据子块长度和波形音频数据3个数据子块组成。Wave格式支持多种压缩算法,支持多种音频位数、采样频率和声道,是PC机上最为流行的声音文件格式,但其文件尺寸较大,多用于存储简短的声音片断。未压缩的声音文件的存储量未压缩的声音文件的存储量可用下式计算:可用下式计算:存储量(存储量(KBKB)=(采样频率采样频率KHZKHZ采样位数采样位数bitbit声道数声道数时间秒)时间秒)/8/8 2.2.VOCVOC文件文件 VOC文件是Creative公司所使用的标准音频文件格式,多用于保存 Crea
15、tive Sound Blaster(创新声霸)系列声卡所采集的声音数据,被Windows平台和DOS平台所支持。与WAV格式类似,VOC文件由文件头块和音频数据块组成。文件头包含一个标识、版本号和一个指向数据块起始地址的指针,这个指针帮助数据块定位以便顺利找到第一个数据块。数据块分成各种类型的子块,如声音数据、静音、标记、ASCII码文件、重复、重复的结束及终止标记等。3.MPEG音频文件.MP1/.MP2/.MP3这里的音频文件格式指的是MPEG标准中的音频部分,即MPEG音频层(MPEG Audio Layer)。MPEG音频文件的压缩是一种有损压缩,根据压缩质量和编码复杂程度的不同可分
16、为三层(MPEG Audio Layer 1/2/3),分别对应MP1、MP2和MP3这三种声音文件;MPEG音频编码具有很高的压缩率,MP1和MP2的压缩率分别为41和6181,而MP3的压缩率则高达101121,也就是说一分钟CD音质的音乐,未经压缩需要10MB存储空间,而经过MP3压缩编码后只有1MB左右,同时其音质基本保持不失真。4.RealAudio文件文件.RA/.RM/.RAMRealAudio文件是RealNetworks公司开发的一种新型流式音频(Streaming Audio)文件格式;它包含在RealNetworks所制定的音频、视频压缩规范RealMedia中,主要用于
17、在低速率的广域网上实时传输音频信息;网络连接速率不同,客户端所获得的声音质量也不尽相同:对于28.8kb/s的连接,可以达到广播级的声音质量;如果拥有ISDN或更快的线路连接,则可获得CD音质的声音。5.AIFF文件文件.AIF/.AIFF AIFF是音频交换文件格式(Audio Interchange File Format)的英文缩写,是苹果计算机公司开发的一种声音文件格式;被Macintosh平台及其应用程序所支持,其他专业音频软件包也同样支持这种格式。3.1.4 3.1.4 声音质量的评价声音质量的评价 目前有三种方法可以衡量声音的质量。一是用声音信号的带宽来衡量声音的质量,等级由高到
18、低依次是DAT,CD,FM,AM和数字电话。此外,声音质量的度量还有两种基本的方法:一种是客观质量度量,另一种是主观质量度量。评价语音质量时,有时同时采取两种方法评估,有时以主观质量度量为主。1 1以声音的带宽衡量声音的质量以声音的带宽衡量声音的质量2 2、声音客观质量的度量、声音客观质量的度量声音客观质量的度量主要用信噪比(s signal to n niose r ratio,SNR)来度量。它指音源产生最大不失真声音信号强度与同时发出噪音强度之间的比率,通常以S/N表示。一般用分贝(dB)为单位,信噪比越高表示音频质量越好。信噪比(SNR)用下式计算:SNR 10 log(Vsignal
19、)2/(Vnoise)220 log(Vsignal/Vnoise)其中,Vsignal表示信号电压,Vnoise表示噪声电压;SNR的单位为分贝(db)。3 3、声音主观质量的度量、声音主观质量的度量 与用SNR客观质量度量相比较,应该可以说人的感觉(如听觉、视觉等)更具有决定意义,感觉上的、主观上的测试应该成为评价声音质量和图像质量不可缺少的部分。而有的学者则认为,在语音和图像信号编码中使用主观质量度量比使用客观质量度量更加恰当,更有意义。可是一般来说,可靠的主观度量值也是比较难获得的,所获得的值也是一个相对值。对声音主观质量度量比较通用的标准是5分制:优(Excellent)、良(Goo
20、d)、中(Fair)、差(Poor)、劣(Bad)。3.2音频信号压缩技术音频信号压缩技术音频信号压缩编码的主要依据是人耳的听觉特性,主要有两点:1.人的听觉系统中存在一个听觉阈值电平,低于这个电平的声音信号人耳听不到.2.人的听觉存在屏蔽效应。当几个强弱不同的声音同时存在时,强声使弱声难以听到,并且两者之间的关系与其相对频率的大小有关.声音编码算法就是通过这些特性来去掉更多的冗余数据,来达到压缩数据的目的。3.2.1 脉冲编码调制脉冲编码调制1编码的原理编码的原理它的原理框图下图所示3.2.1 脉冲编码调制脉冲编码调制1编码的原理编码的原理它的原理框图下图所示模拟信号数字化一般有三个步骤:第
21、一步是采样,就是每隔一段时间间隔读一次声音的幅度;第二步是量化,就是把采样得到的声音信号幅度转换成数字值。但那时并没有涉及如何进行量化。量化有好几种方法,但可归纳成两类:一类称为均匀量化,另一类称为非均匀量化。采用的量化方法不同,量化后的数据量也就不同。因此,可以说量化也是一种压缩数据的方法;第三步是编码,就是按一定格式记录采样和量化后的数据。2均匀量化均匀量化采用相同的“等分尺”来度量采样得到的幅度,也称为线性量化,如图3-4所示。量化后的样本值Y和原始值X的差E=Y-X称为量化误差或量化噪声。3非均匀量化非均匀量化对输入信号进行量化时,大的输入信号采用大的量化间隔,小的输入信号采用小的量化
22、间隔,如图3-5所示。一个CDDA采用脉冲编码调制PCM编码的实例首先用一组脉冲采样时钟信号与输入的模拟音频信号相乘,相乘的结果即输入信号在时间轴上的数字化。然后对采样以后的信号幅值进行量化。最简单的量化方法是均衡量化,这个量化的过程由量化器来完成。对经量化器A/D变换后的信号再进行编码,即把量化的信号电平转换成二进制码组,就得到了离散的二进制输出数据序列x(n),n表示量化的时间序列,x(n)的值就是n时刻量化后的幅值,以二进制的形式表示和记录。3.2.2 3.2.2 增量调制增量调制 它是一种预测编码技术,是PCM编码的一种变形。DM是对实际的采样信号与预测的采样信号之差的极性进行编码,将
23、极性变成“0”和“1”这两种可能的取值之一。如果实际的采样信号与预测的采样信号之差的极性为“正”,则用“1”表示;相反则用“0”表示,或者相反。图3-7 DM波形示意图从上图中可以看到,在开始阶段增量调制器的输出不能保持跟踪输入信号的快速变化,这种现象称为增量调制器的“斜率过载”(slope overload)。在输入信号缓慢变化部分,即输入信号与预测信号的差值接近零的区域,增量调制器的输出出现随机交变的“0”和“1”。这种现象称为增量调制器的粒状噪声(granularnoise),这种噪声是不可能消除的。在输入信号变化快的区域,斜率过载是关心的焦点,而在输入信号变化慢的区域,关心的焦点是粒状
24、噪声。3.2.3 自适应脉冲编码调制自适应脉冲编码调制是根据输入信号幅度大小来改变量化阶大小的一种波形编码技术。这种自适应可以是瞬时自适应,即量化阶的大小每隔几个样本就改变,也可以是非瞬时自适应,即量化阶的大小在较长时间才发生变化。改变量化阶大小的方法有两种:一种称为前向自适应,后向自适应。前者是根据未量化的样本值的均方根值来估算输入信号的电平,以此来确定量化阶的大小,并对其电平进行编码作为边信息(side information)传送到接收端。后者是从量化器刚输出的过去样本中来提取量化阶信息。(a)前向自适应(b)后向自适应后向自适应3.2.4 差分脉冲编码调制差分脉冲编码调制是利用样本与样
25、本之间存在的信息冗余度来进行编码的一种数据压缩技术。差分脉冲编码调制的思想是,根据过去的样本去估算(estimate)下一个样本信号的幅度大小,这个值称为预测值,然后对实际信号值与预测值之差进行量化编码,从而就减少了表示每个样本信号的位数。它与脉冲编码调制(PCM)不同的是,PCM是直接对采样信号进行量化编码,而DPCM是对实际信号值与预测值之差进行量化编码,存储或者传送的是差值而不是幅度绝对值。差分脉冲编码调制的概念示于图差分脉冲编码调制的概念示于图3-93-9。图中的。图中的差分信号差分信号d(k)d(k)是离散输入信号是离散输入信号s(k)s(k)和预测器输和预测器输出的估算值出的估算值
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第3章 音频信息处理02299精品 音频 信息处理 02299 精品
限制150内