第2章音频处理技术精选文档.ppt
《第2章音频处理技术精选文档.ppt》由会员分享,可在线阅读,更多相关《第2章音频处理技术精选文档.ppt(48页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第2章音频处理技术本讲稿第一页,共四十八页2.1 音频基础知识音频基础知识2.1.1 声音概述声音概述 人类从外部世界获取的信息中,约人类从外部世界获取的信息中,约10%10%是通过听觉获得的。是通过听觉获得的。声音是通过传播媒体传播的一种连续的波,叫声音是通过传播媒体传播的一种连续的波,叫声波声波。空气空气是最常是最常见的声音传播媒体,不存在任何媒体的见的声音传播媒体,不存在任何媒体的真空真空是不能传播声音的。是不能传播声音的。在自然界中,一切能够发出声音的物体都叫做在自然界中,一切能够发出声音的物体都叫做声源声源。声源产生的声波是一种模拟信号,可以用波形来表示。声音声源产生的声波是一种模拟
2、信号,可以用波形来表示。声音的的模拟波形曲线模拟波形曲线有三个要素:有三个要素:基线、周期基线、周期和和振幅振幅。其中,基线是波。其中,基线是波形曲线中最高点和最低点之间的平均线;振幅表示了声音的大小,形曲线中最高点和最低点之间的平均线;振幅表示了声音的大小,振幅越大,声音音量越大;周期是波形中两个相邻波峰之间的距离,振幅越大,声音音量越大;周期是波形中两个相邻波峰之间的距离,即完成一次振动过程所需要的时间,体现于振动进行的速度,而平即完成一次振动过程所需要的时间,体现于振动进行的速度,而平均每秒钟出现的周期个数为频率,均每秒钟出现的周期个数为频率,频率频率以以赫兹赫兹(Hz)为单位。为单位。
3、本讲稿第二页,共四十八页2.1.1 声音概述声音概述在实际生活中,声音是混杂的,是由许多不同频率在实际生活中,声音是混杂的,是由许多不同频率的波合成的复合波。声音的频率范围称为声音的带的波合成的复合波。声音的频率范围称为声音的带宽,人耳只能感觉到频率为宽,人耳只能感觉到频率为20Hz20kHz的声音,的声音,低于低于20Hz 或者高于或者高于20kHz的声音都不能为人耳所听到。的声音都不能为人耳所听到。可听声包括:可听声包括:(1)话音)话音(语音语音):频率范围为频率范围为300Hz3400Hz。(2)音乐)音乐(是规范的符号化声音是规范的符号化声音):其带宽可达到其带宽可达到20Hz20k
4、Hz。(3)其他声音)其他声音:其带宽范围也是其带宽范围也是20Hz20kHz。本讲稿第三页,共四十八页2.1.2 音频参数与声音特性音频参数与声音特性决定声音特性的主要参数有决定声音特性的主要参数有振幅振幅、周期周期和和频率频率,下面分别介绍这三个重要指标。下面分别介绍这三个重要指标。(1)振幅(振幅(Amplitude)。波的高低幅度,表示。波的高低幅度,表示声音的强弱,常用声音的强弱,常用A表示。表示。(2)周期(周期(Period)。两个相邻的波之间的时间。两个相邻的波之间的时间长度,常用长度,常用T表示,以秒表示,以秒(s)为单位。为单位。(3)频率(频率(Frequency)。每秒
5、钟振动的次数,。每秒钟振动的次数,常用常用f 表示,以赫兹表示,以赫兹(Hz)为单位,为单位,1赫兹赫兹=1/秒。频率秒。频率与周期具有互为倒数的关系与周期具有互为倒数的关系 本讲稿第四页,共四十八页声音的三个重要指标:振幅、周期、频率0At振幅振幅振幅:波的高低幅度,表示声音的强弱。周期频率=1频率频率:每秒钟振动的次数,以赫兹(Hz)为单位。周期周期周期:两个相邻的波之间的时间长度,以秒(s)为单位。本讲稿第五页,共四十八页2.1.2 音频参数与声音特性音频参数与声音特性 如如果果用用数数学学公公式式描描述述声声波波,声声波波的的幅幅值值是是一一个个随随时时间间t 变变化化的的函函数数A(
6、t),根根据据傅傅立立叶叶变变换换原原理理,任任何何函函数数都都可可以以展展开开为为不不同同频频率率的的正正弦弦或或余余弦弦周周期期函函数数的和,因此的和,因此A(t)可以表示为如下形式的展开公式:可以表示为如下形式的展开公式:在声音信号展开公式中,频率为在声音信号展开公式中,频率为0的分量叫做的分量叫做基波基波,0称为称为基频基频;频率为;频率为n0的分量叫做的分量叫做n次谐波次谐波,谐波在音,谐波在音乐学科中叫做乐学科中叫做泛音泛音。A1是是基波的振幅基波的振幅,而,而An是是n次次谐谐波分量的振幅波分量的振幅。本讲稿第六页,共四十八页从听觉听觉角度看,声音具有音调、音色和响度(音强)三个
7、要素。(1)音调音调:在物理学中,把声音的高低叫作音调。注音调音调与声音的频率频率有关,声源振动的频率越高,声音的音调就越高;声源振动的频率越低,声音的音调就越低。通常把音调高的声音叫高音高音,音调低的声音叫低音低音。音调高音调低播放播放播放播放播放播放2.1.2 音频参数与声音特性音频参数与声音特性本讲稿第七页,共四十八页(2)音色音色:表示人耳对声音质量的感觉,又称音品,与泛音泛音数有关。注 一定频率的纯音纯音不存在音色问题,音色是泛音泛音主观属性的反映。声音的音色主要由其泛音的多寡、各泛音的特性所决定。各种乐器奏同样的曲子,即使响度和音调相同,听起来还是不一样,就是由于它们的音色不同。2
8、.1.2 音频参数与声音特性音频参数与声音特性本讲稿第八页,共四十八页(3)响度响度(音强音强):即声音的响亮程度,也就是我们通常说的声音的强弱或大、小,重、轻。注 响度响度与振幅振幅有关,取决于声波信号的强弱程度。由于人的听觉响应与声音信号强度不是成线性关系,因此一般用声音信号幅度取对数后再乘20所得值来描述响度,以分贝分贝(dB)为单位,此时称为音量音量。播放播放2.1.2 音频参数与声音特性音频参数与声音特性本讲稿第九页,共四十八页2.1.2 音频参数与声音特性音频参数与声音特性 通常,按人们听觉的频率范围可将声音分为通常,按人们听觉的频率范围可将声音分为次声波、次声波、超声波超声波和和
9、音频音频三类。三类。(1)次声波次声波:频率低于:频率低于20Hz的信号,也称的信号,也称亚音频亚音频。(2)超声波超声波:频率高于:频率高于20kHz的信号,也称的信号,也称超音频超音频。(3)音频音频:频率范围是:频率范围是20Hz20kHz的声音信号,即在的声音信号,即在次声波和超声波之间的声波是音频,是人耳能听到的声次声波和超声波之间的声波是音频,是人耳能听到的声音信号,即属于多媒体音频信息范畴。音信号,即属于多媒体音频信息范畴。本讲稿第十页,共四十八页2.1.2 音频参数与声音特性音频参数与声音特性声音信号所占用的频率范围叫做声音信号所占用的频率范围叫做频带宽度频带宽度,简称,简称带
10、宽带宽。声音的质量与它所占用的频带宽度有关,频带越宽,信号声音的质量与它所占用的频带宽度有关,频带越宽,信号强度的相对变化范围就越大,音响效果也就越好。强度的相对变化范围就越大,音响效果也就越好。按照带宽可将按照带宽可将声音质量分为典型的四级声音质量分为典型的四级,四级音频的带宽,四级音频的带宽如图如图2-1所示。所示。本讲稿第十一页,共四十八页图图2-1 典型声波的频率范围典型声波的频率范围 2.1.2 音频参数与声音特性音频参数与声音特性本讲稿第十二页,共四十八页2.2 声音的数字化声音的数字化2.2.1 声音采样声音采样2.2.2 音频信号的量化音频信号的量化2.2.3 音频信号的编码音
11、频信号的编码2.2.4 音质与数据量音质与数据量本讲稿第十三页,共四十八页音频信息处理结构框图 图2-2 音频信息处理框图 模拟音频信号 采样 量化 编码 数字音频信号 本讲稿第十四页,共四十八页2.2.1 2.2.1 声音采样声音采样图2.5 模拟信号的采样 所谓采样就是在某些特定的时刻对模拟信号进所谓采样就是在某些特定的时刻对模拟信号进行取值,如上图所示。采样的过程是每隔一个时间行取值,如上图所示。采样的过程是每隔一个时间间隔在模拟声音的波形上取一个幅值,把时间上的间隔在模拟声音的波形上取一个幅值,把时间上的连续信号连续信号变成时间上的变成时间上的离散信号离散信号。本讲稿第十五页,共四十八
12、页2.2.1 2.2.1 声音采样声音采样 1.采样周期与采样频率采样周期与采样频率 采样时间间隔称为采样周期采样时间间隔称为采样周期t,其倒数为采样频率其倒数为采样频率fs=1/t。一般来讲,采样频率越高,则在单位时间内计算机一般来讲,采样频率越高,则在单位时间内计算机得到的声音样本数据就越多,对声音波形的表示也越精确,得到的声音样本数据就越多,对声音波形的表示也越精确,声音失真越小,但用于存储音频的数据量越大。声音失真越小,但用于存储音频的数据量越大。根据根据奈奎斯特定理(即采样定理)奈奎斯特定理(即采样定理),只有采样频率高于,只有采样频率高于声音信号声音信号最高频率的两倍最高频率的两倍
13、时,才能把数字信号表示的声时,才能把数字信号表示的声音还原为原来的声音。音还原为原来的声音。本讲稿第十六页,共四十八页2.2.1 2.2.1 声音采样声音采样2.样本大小与样本精度样本大小与样本精度 样本大小样本大小是每个声音样本在计算机中存储时占的二进制位数,单位用bps(bit per sample)来表示。人们也常把存储一个样本信号所需的二进制位数叫做样本精度样本精度,也叫样本位数样本位数、位深位深。可见,样本大小样本大小与样本精度样本精度是同一个概念。本讲稿第十七页,共四十八页2.2.1 2.2.1 声音采样声音采样2.样本大小与样本精度样本大小与样本精度 若量化一个样本信号用n位二进
14、制信息表示,其相应量化级数为2n,则量化信号精确度可达1/2n。即1个单位大小的信号,最多引起1/2n数量级的量化误差,与这个量化误差数量级相当的信号强度叫做量化噪声强度。因此,量化位数越多,声音的质量越高,但需要的存储空间也越多。所以,存储一个样本信号所需的二进制位数越多,样本精度越高。本讲稿第十八页,共四十八页2.2.1 2.2.1 声音采样声音采样样本样本精度精度的另一种表示方法是信号噪声比信号噪声比,简称为信噪比(Signal-to-Noise Ratio,SNR),并用下式计算:SNR10 log(Vsignal)2/(Vnoise)220 log(Vsignal/Vnoise)(d
15、b)其中,Vsignal表示信号电压,Vnoise表示噪声电压;SNR的单位为分贝(db)例如:假设Vnoise1,样样本本精精度度为1位表示Vsignal21,它的信噪比SNR6分贝。(注:log(2)=log10(2)=0.301.)又如:假设Vnoise1,样本样本精度精度为16位表示Vsignal216,则它的信噪比SNR20 log(216)96分贝。本讲稿第十九页,共四十八页2.2.1 2.2.1 声音采样声音采样3.声道数声道数声道数是指声音通道的个数,即一次采样的声音波形的个数。单声道一次采样一个声音波形;双声道则被人们称为“立体声”,一次采样两个声音波形。除单声道和立体声外,
16、目前经常使用的声道数还有4声道、4.1声道和5.1声道。双声道比单声道多一倍的数据量,多声道的数据量则更大。本讲稿第二十页,共四十八页2.2.2 2.2.2 音频信号的量化音频信号的量化 采样得到的数据是一些离散时间点的样本值,由于检测器的灵敏度和计算机存储一个数所用的二进制位数有限,又由于传输过程中噪声的干扰,所以没有必要存储和传输一个个样本值的准确大小,只需要将这些离散值用若干二进制位的数来表示即可。这一过程叫做量化。量化精度是指表示每个采样点数据所用的二进制数据位数,例如,256个量化等级的量化精度就是8位。用均匀间隔量化的方法,称为均匀量化或线性量化。如果小信号量化级间宽度小一些,而大
17、信号量化级间宽度大些的话,这样的量化方法法就是“非线性量化法”。本讲稿第二十一页,共四十八页2.2.3 2.2.3 音频信号的编码音频信号的编码 将模拟音频信号的量化值用一组二进制数字代码来表示的过程,叫做音频信号编码。在实际过程中,量化和编码是同时进行的。量化和编码时一般要确定两个因素:每一个量化值的编码位数(即决定用多少位二进制码来表示一个量化值),它决定了量化的精度。每一组代码与量化值对应的规则(如,常用自然二进制码,即编码值就是量化值所对应的二进制数)。当编码位数为k 时,对应的量化值数目为2k。本讲稿第二十二页,共四十八页2.2.4 音质与数据量音质与数据量 声音的数据率可用下列公式
18、计算:声音数据率(B/s)=采样频率(Hz)量化位数(bit)声道数/8.声音数据量=声音数据率时长.例如,对于采样频率为8kHz、量化位数为8 bit的电话音质(单声道),其声音的数据率为:声音数据率=(81000)8 1/8 字节/秒=8000 B/s 8(KB/s)上述计算中,最后一步采用了工业近似:1KB1000B(工业上常常是这样计算的),而1Byte=8 bit。本讲稿第二十三页,共四十八页2.2.4 音质与数据量音质与数据量 利用数据率公式,我们还可估算一定时长(秒)某种音质的音频数据量,公式是:声音数据量=(采样频率 量化位数 声道数声音持续时间)/8;声音数据量=声音数据率声
19、音持续时间;在公式中,采样频率的单位用Hz(赫兹),量化位数(即样本精度)单位用bit(比特),时间的单位用s(秒);声音数据率的单位是B/s(字节/秒),声音数据量的单位是B(Byte,字节)。本讲稿第二十四页,共四十八页采样频率量化位数声道数声音持续时间假设它的采样频率为44.1kHz,量化位数为16bit,CD格式的音乐通常都是立体声(两个声道),那么CD格式的声音20秒钟的数据量为以CD格式为例:(44.1kHz*16bit*2*20s)/8 3.528MB(22.05kHz*16bit*2*20s)/8 1.764MB(22.05kHz*4bit*2*20s)/8 0.441MB若改
20、变它的采样频率为22.05kHz,则若再改变它的量化位数为4bit,则停止2.2.4 2.2.4 音质与数据量音质与数据量 数字化声音的数据量=8本讲稿第二十五页,共四十八页2.2.4 音质与数据量音质与数据量 声音质量 的5个等级,由低到高分别是:电话、调幅广播、调频广播、激光唱盘、数字录音带。声音质量采样频率(kHz)量化位数(bit)声道数(1或2)压缩前数据率(KB/s)频率范围(Hz)电话88单道声182003 400 AM11.0258单道声111.02015 000FM22.05016立体声288.2507 000CD44.116立体声2176.42020 000DAT4816立
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 音频 处理 技术 精选 文档
限制150内