《音频技术》PPT课件.ppt
《《音频技术》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《音频技术》PPT课件.ppt(95页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、h1第 5 章 音频技术 音频也是多媒体应用的重要组成部分。音频也是多媒体应用的重要组成部分。 现实世界的声音来源是相当复杂的,声音不仅与时间和现实世界的声音来源是相当复杂的,声音不仅与时间和空间有关,还与强度、方向等很多因素有关。在计算机中空间有关,还与强度、方向等很多因素有关。在计算机中创建音频时,所能模拟的声音还必须要符合人类的听觉特创建音频时,所能模拟的声音还必须要符合人类的听觉特征和听力范围。征和听力范围。 数字音频主要分为声波、语音和音乐三类。数字音频主要分为声波、语音和音乐三类。 h2要模拟出符合现实世界的数字声音,我们首先得了解要模拟出符合现实世界的数字声音,我们首先得了解声音
2、的基本特性声音的基本特性: :包括声音的物理特性和人们在听觉方面的心理特性包括声音的物理特性和人们在听觉方面的心理特性. .以以便创建出一定格式的数字声音编码,满足人们对模拟声音在便创建出一定格式的数字声音编码,满足人们对模拟声音在采集、处理、质量等各方面的需求。采集、处理、质量等各方面的需求。 5.1 声音声音h35.1.1 5.1.1 声音的物理特征声音的物理特征 声音是声音是纵波纵波。决定声波的物理特性有振幅、频率和相位。决定声波的物理特性有振幅、频率和相位。 一个声源每秒钟可产生成百上千个波,我们把每秒钟波峰所发生的数目称之一个声源每秒钟可产生成百上千个波,我们把每秒钟波峰所发生的数目
3、称之为信号的频率,单位用赫兹为信号的频率,单位用赫兹(Hz)(Hz)或千赫兹或千赫兹(kHz)(kHz)表示。信号的幅度是从信号的基线表示。信号的幅度是从信号的基线到当前波峰的距离。幅度决定了信号音量的强弱程度。幅度越大,声音越强。对到当前波峰的距离。幅度决定了信号音量的强弱程度。幅度越大,声音越强。对音频信号,声音的强度用分贝音频信号,声音的强度用分贝(dB)(dB)表示,分贝的幅度就是音量。表示,分贝的幅度就是音量。 h41.1.声音的强度声音的强度 在在1kHz1kHz频率的正弦波中,能被人耳察觉的最弱声压大约是频率的正弦波中,能被人耳察觉的最弱声压大约是2.83102.8310- -4
4、 4dyndyn(达因)(达因)/cm/cm2 2,这个最弱音已经作为国际标准的参照声。,这个最弱音已经作为国际标准的参照声。 描述声音强度的量值是采用分贝表示描述声音强度的量值是采用分贝表示: :分贝分贝是指两个相同的物理量(例是指两个相同的物理量(例A1A1和和A0A0)之比,取以)之比,取以1010为底的对数并乘为底的对数并乘以以1010(或(或2020)。)。N = 10lg(A1/A0) N = 10lg(A1/A0) 分贝符号为分贝符号为“dB”dB”。N N是被量度量的是被量度量的“级级”。,这也被称。,这也被称为声压级。为声压级。A1A1是被量度量。是被量度量。A0A0是基准量
5、是基准量如果如果2.8310-4dyn/cm2被看作被看作0dB那么在特别安静的环境中,单独检测:动物的呼吸声大那么在特别安静的环境中,单独检测:动物的呼吸声大约约20 dB,人们正常的谈话声约,人们正常的谈话声约60dB,汽车的喇叭声约,汽车的喇叭声约100dB,飞机起飞的声音约,飞机起飞的声音约120 dB120dB以上的强度可使人产生痛苦的感觉。以上的强度可使人产生痛苦的感觉。 h5一般人的听力范围是一般人的听力范围是 20Hz20Hz20kHz20kHz。这个频率区域称为可闻。这个频率区域称为可闻声段,大致可分为低频、中频和高频声段,大致可分为低频、中频和高频低频的频率约在低频的频率约
6、在250250500 Hz500 Hz(如鼓声)(如鼓声)中频的频率约在中频的频率约在100010002000 Hz2000 Hz,高频的频率约在高频的频率约在300030004000 Hz4000 Hz(如哨子声)。(如哨子声)。2.2.频率频率是指物体每秒钟振动的次数。是指物体每秒钟振动的次数。我们听到的声音都是物体振动后会产生声波我们听到的声音都是物体振动后会产生声波不同的振动频率将会产生不同的声波。不同的振动频率将会产生不同的声波。 低于低于20Hz20Hz和高于和高于20kHz20kHz的频率段分别称为次声和超声。的频率段分别称为次声和超声。h6瞬时T3.3.相位相位是波形的变化方向
7、,如果是多个波形组合,起始是波形的变化方向,如果是多个波形组合,起始相位可以相同或不同。相位可以相同或不同。在某一个瞬时在某一个瞬时T T,不同波形的相位都可以是不同的。,不同波形的相位都可以是不同的。右图所示的,就是一段多波形混合而成的声音实际播放时所显示的波右图所示的,就是一段多波形混合而成的声音实际播放时所显示的波形。形。 规则音频规则音频是一种连续变化的模拟信号,可用一条连续的曲线来表示,称为声波声波。因声波是在时间和幅度上都连续变化的量,我们称之为模拟量模拟量。h75.1.2 5.1.2 声音的听觉心理特性声音的听觉心理特性 对于复杂的人耳听觉系统特性的研究,目前仅限于在心理声学和对
8、于复杂的人耳听觉系统特性的研究,目前仅限于在心理声学和语言声学内。语言声学内。听觉心理的主观感受主要有:听觉心理的主观感受主要有:响度、音高、音色、音量、密度、谐和、噪声、掩蔽效应、高频定位。响度、音度、音色:响度、音度、音色:可以在主观上用来描述任何复杂的声音而对于多种音源场合:而对于多种音源场合:人的耳掩蔽效应等特性尤为重要。h8 1 1)音调:代表了声音的高低。音调与频率有关,频率越高,音调越高,)音调:代表了声音的高低。音调与频率有关,频率越高,音调越高,反之亦然。反之亦然。 当提高磁带录音机的转速时,其旋转加快,声音信号的频率提高,其喇叭放出来声音的音调提高了。同样,在使用音频处理软
9、件对声音的频率进行调整时,也可明显感到音调随之而产生的变化。各种不同的声源具有自己特定的音调,如果改变了某种声源的音调,则声音会发生质的转变,使人们无法辨别声源本来的面目。 2 2)音色:即特色的声音。)音色:即特色的声音。声音分纯音纯音和复音复音两种类型。所谓纯音,是指振幅和周期均为常数的声音;复音则是具有不同频率和不同振幅的混合声音。大自然中的声音绝大部分是复音。在复音中,最低频率的声音是“基音基音”,它是声音的基调。其他频率的声音称为“谐音”,也叫泛音泛音。基音和谐音是构成声音音色的重要因素。各种声源都具有自己独特的音色,例如各种乐器的声音、每个人的声音、各种生物的声音等,人们就是依据音
10、色来辨别声源种类的。 3 3)音强:声音的强度,也被称为声音的响度,常说的)音强:声音的强度,也被称为声音的响度,常说的“音量音量”也是指音强。也是指音强。音强与声波的振幅成正比,振幅越大,强度越大。唱盘、CD激光盘以及其他形式声音载体中的声音强度是一定的,通过播放设备的音量控制,可改变聆听时的响度。 h9等响曲线等响曲线 响度响度表示人们所感觉到的声音能量的强弱,主要取决于声波振幅的大表示人们所感觉到的声音能量的强弱,主要取决于声波振幅的大小,物理上声压级的值一般不等于响度级的值。小,物理上声压级的值一般不等于响度级的值。声音的感知响度声音的感知响度1 sone1 sone相当于相当于404
11、0分贝的音调在分贝的音调在1kHz1kHz下的响度。下的响度。响度与人耳的可闻程度有关,当超出人耳的可听频率范围时,声音的响响度与人耳的可闻程度有关,当超出人耳的可听频率范围时,声音的响度再大,人耳也无法察觉。但在人耳的可听频域范围内,当声音弱或强度再大,人耳也无法察觉。但在人耳的可听频域范围内,当声音弱或强到一定程度,人耳都无法听到。到一定程度,人耳都无法听到。实验表明,声音的可闻阈和痛感阈是随着频率而变化的。如图所示,闻阈和痛实验表明,声音的可闻阈和痛感阈是随着频率而变化的。如图所示,闻阈和痛阈随频率变化的等响度曲线之间的区域就是人耳的听觉范围。阈随频率变化的等响度曲线之间的区域就是人耳的
12、听觉范围。声压级 可闻阈的分贝值频率Hz就是说,小于就是说,小于0dB0dB闻阈和大于闻阈和大于140dB140dB痛阈时为不可听声。痛阈时为不可听声。这些等响度曲线表明了听觉在有些频率下较为灵敏。这些等响度曲线表明了听觉在有些频率下较为灵敏。 h10所谓所谓“等响等响”就是对于就是对于1kHz1kHz以外的可听声,在同一级等响度曲线上有无数个等效以外的可听声,在同一级等响度曲线上有无数个等效的声压的声压频率值,频率值,例如,例如,200Hz200Hz的的30dB30dB的声音和的声音和1kHz1kHz的的10dB10dB的声音在人耳听起来具有的声音在人耳听起来具有相同的响度。相同的响度。 高
13、频段的响度变化与声压级增量基本一致,低频段声压级的微小变化会导高频段的响度变化与声压级增量基本一致,低频段声压级的微小变化会导致响度的较大变化。致响度的较大变化。 在较低的声压级上,等响上曲线各频率声音的声压级相差很大,在较低的声压级上,等响上曲线各频率声音的声压级相差很大,较高的声压级上,等响曲线较为平坦,说明各频率的声压级基本相同。较高的声压级上,等响曲线较为平坦,说明各频率的声压级基本相同。 这说明:在响度级较小时,高、低频声音灵敏度降低较明显,而低频这说明:在响度级较小时,高、低频声音灵敏度降低较明显,而低频段比高频段灵敏度降低更加剧烈,一般应特别重视加强低频音量。段比高频段灵敏度降低
14、更加剧烈,一般应特别重视加强低频音量。h11听觉的听觉的掩蔽效应掩蔽效应是一个较为复杂的心理和生理现象,包括人耳的是一个较为复杂的心理和生理现象,包括人耳的频域频域掩蔽掩蔽效应和效应和时域掩蔽时域掩蔽效应。而且人耳对声音源方向的辨别能力,也与效应。而且人耳对声音源方向的辨别能力,也与频率的高低有关。频率的高低有关。由于对于由于对于2KHZ2KHZ以上的高频声音信号,人耳很难判断其方向性,因而在以上的高频声音信号,人耳很难判断其方向性,因而在数字处理时,就可以不必重复存贮立体声广播的高频部分。数字处理时,就可以不必重复存贮立体声广播的高频部分。 屏蔽屏蔽是指是指一个弱声音被另一个强声音所遮盖一个
15、弱声音被另一个强声音所遮盖。当强、弱声音同时存在时,就将发生声音屏蔽现象。例如,说话声会被火车声当强、弱声音同时存在时,就将发生声音屏蔽现象。例如,说话声会被火车声所遮盖。当两个声音在时间和频率上很接近的时候,屏蔽效应就会较很强。当所遮盖。当两个声音在时间和频率上很接近的时候,屏蔽效应就会较很强。当强声音的频率与弱声音相同或更高时,屏蔽效应最有效。强声音的频率与弱声音相同或更高时,屏蔽效应最有效。 屏蔽屏蔽如果同时存在的是两个纯音如果同时存在的是两个纯音实验表明存在两种有效的屏蔽,一种是中等强度的纯音最有效的屏蔽出现在其频率附实验表明存在两种有效的屏蔽,一种是中等强度的纯音最有效的屏蔽出现在其
16、频率附近,另一种是低频的纯音可以有效地掩蔽高频的纯音。近,另一种是低频的纯音可以有效地掩蔽高频的纯音。 如果同时存在的是噪音和纯音如果同时存在的是噪音和纯音情况较复杂。因为屏蔽纯音的噪音实际上是由多种纯音组成的,具有无限宽的频谱。情况较复杂。因为屏蔽纯音的噪音实际上是由多种纯音组成的,具有无限宽的频谱。 h12临界频带临界频带 当某个纯音被当某个纯音被以它为中心频率且具有一定带宽的连续噪声以它为中心频率且具有一定带宽的连续噪声所屏蔽所屏蔽时,如果该纯音刚好能被听到时的时,如果该纯音刚好能被听到时的功率等于这一频带内噪声的功功率等于这一频带内噪声的功率率,那么这个带宽就称为临界频带宽度。,那么这
17、个带宽就称为临界频带宽度。但在有声音屏蔽的情况下,一个临界频带之内的声音感知程度与但在有声音屏蔽的情况下,一个临界频带之内的声音感知程度与表中跨越多个临界频带的声音感知程度是不相同的。表中跨越多个临界频带的声音感知程度是不相同的。 可以说明人类的听觉对声音的感知特性。可以说明人类的听觉对声音的感知特性。表表5-15-1列出的是在列出的是在20Hz20Hz16kHz16kHz范围内,通常可分出的范围内,通常可分出的2424个子临界个子临界频带。频带。人耳对同一个临界频段内频率的听觉和感知是较接近的。人耳对同一个临界频段内频率的听觉和感知是较接近的。h135.1.3 5.1.3 声音的数字原理声音
18、的数字原理 模拟声音的信号是个连续量,由许多具有不同振幅和频率的正弦波组成。模拟声音的信号是个连续量,由许多具有不同振幅和频率的正弦波组成。实际声音信号的计算机获取过程就是声音的数字化的处理过程。实际声音信号的计算机获取过程就是声音的数字化的处理过程。声音的模声音的模/ /数转换(数转换(ADCADC),首先需对声波采样,用数字方式记录声音。图中,首先需对声波采样,用数字方式记录声音。图中横轴表示时间,纵轴表示振幅,按时间对声波分割从而提取波形的样本。实横轴表示时间,纵轴表示振幅,按时间对声波分割从而提取波形的样本。实现这个过程的装置就被称为模现这个过程的装置就被称为模/ /数转换器。数转换器
19、。 声音的数声音的数/ /模转换(模转换(DACDAC)即由数字声音变成模拟的波形。即由数字声音变成模拟的波形。音频系统是将声波波形转换成的连续的二进制数据来还原声音的。音频系统是将声波波形转换成的连续的二进制数据来还原声音的。实现这个过程的装置被称为数实现这个过程的装置被称为数/ /模转换器。模转换器。 h143.1.2 3.1.2 模拟音频的数字化过程模拟音频的数字化过程 数字化的声音易于用计算机软件处理,现在几乎所有的专业化声音录制、编辑器都是数字方式。对模拟音频数字化过程涉及到音音频的采样、量化和编码。频的采样、量化和编码。 采样和量化的过程可由采样和量化的过程可由A/DA/D转换器转
20、换器实现实现。A/D转换器以固定的频率去采样,即每个周期测量和量化信号一次。经采样和量化后声音信号经编码后就成为数字音频信号,可以将其以文件形式保存在计算机的存储介质中,这样的文件一般称为数字声波文件。 模拟信号的数字化过程 100101100011101 h15 信息论的奠基者香农(Shannon)指出:在一定条件下,用离散的在一定条件下,用离散的序列可以完全代表一个连续函数序列可以完全代表一个连续函数,这是采样定理的基本内容。 为实现A/D转换,需要把模拟音频信号波形进行分割把模拟音频信号波形进行分割,这种方法这种方法称为采样称为采样(Sampling)。采样的过程是每隔一个时间间隔在模拟
21、声音的采样的过程是每隔一个时间间隔在模拟声音的波形上取一个幅度值波形上取一个幅度值,把时间上的连续信号变成时间上的离散信号。该时间间隔称为采样周期,其倒数为采样频率。采样频率采样频率是指计算机每秒钟采集多少个声音样本。 1. 1. 采样采样 采样频率与声音频率之间有一定的关系,根据奈奎斯特(Nyquist)理论,只有采样频率高于声音信号最高频率的两倍时,只有采样频率高于声音信号最高频率的两倍时,才能把数字信号表示的声音还原成为原来的声音才能把数字信号表示的声音还原成为原来的声音。 2f2ff fs sh16 采样只解决了音频波形信号在时间坐标时间坐标(即横轴即横轴)上把一个波形切成若干个等分的
22、数字化问题,但是还需要用某种数字化的方法来反映某一瞬间声波幅度的电压值大小。该值的大小影响音量的高低。我们把对声波波形幅度的数字化表示称之为对声波波形幅度的数字化表示称之为“量化量化”。 量化的过程量化的过程是先将采样后的信号按整个声波的幅度划分成有限个区段的集合,把落入某个区段内的样值归为一类,并赋于相同的量化值。如何分割采样信号的幅度呢? 我们还是采取二进制的方式,以位以位(bit)或或16位位(bit)的方式来划分纵轴的方式来划分纵轴。也就是说在一个以8位为记录模式的音效中,其纵轴将会被划分为个量化等级,用以记录其幅度大小。2. 量化量化h17 以下图所示的原始模拟波形为例进行采样和量化
23、。假设采样频率为1000次/秒,即每1/1000秒A/D转换器采样一次,其幅度被划分成0到9共10个量化等级,并将其采样的幅度值取最接近0 9之间的一个数来表示,如下图所示。图中每个正方形表示一次采样。h18 D/A转换器转换器从上图得到的数值中重构原来信号时,得到下图中蓝色(直线段)线段所示的波形。从图中可以看出,蓝色线与原波形(红色线)相比,其波形的细节部分丢失了很多。这意味着重构后的信号波形有较大的失真。 h19 失真失真在采样过程中是不可避免的,如何减少失真呢如何减少失真呢?可以直观地看出,我们可以把上图中的波形划分成更为细小的区间,即采用更高采用更高的采样频率。同时,增加量化精度的采
24、样频率。同时,增加量化精度,以得到更高的量化等级,即可减少失真的程度。在下图(左)中,采样率和量化等级均提高了一倍,分别为2000次/秒和20个量化等级。在下图(右)中,采样率和量化等级再提高了一倍,分别达到4000次/秒和40个量化等级。从图中可以看出,当用D/A转换器重构原来信号时(图中的轮廓线),信号的失真明显减少,信号质量得到了提高。h20模拟信号量经过采样和量化以后,形成一系列的离散信号脉冲数字信号。这种脉冲数字信号可以一定的方式进行编码,形成计算机内部运行的数据。所谓编码,就是按照一定的格式编码,就是按照一定的格式把经过采样和量化得到的离散数据记录下来,并在有用的数据把经过采样和量
25、化得到的离散数据记录下来,并在有用的数据中加入一些用于纠错、同步和控制的数据中加入一些用于纠错、同步和控制的数据。在数据回放时,可以根据所记录的纠错数据判别读出的声音数据是否有错,如在一定范围内有错,可加以纠正。 编码的形式比较多,常用的编码方式是PCM脉冲调制。脉冲编码调制(脉冲编码调制(PCM)是把模拟信号变换为数字信号的一种调)是把模拟信号变换为数字信号的一种调制方式,即把连续输入的模拟信号变换为在时域和振幅上都离制方式,即把连续输入的模拟信号变换为在时域和振幅上都离散的量,然后将其转化为代码形式传输或存储散的量,然后将其转化为代码形式传输或存储。3. 编码编码h215.1.4 5.1.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 音频技术 音频 技术 PPT 课件
限制150内