第5章 音频技术.ppt
《第5章 音频技术.ppt》由会员分享,可在线阅读,更多相关《第5章 音频技术.ppt(155页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第5章音频技术 有声信息在实际应用中起着相当关键的作用,所以音频也是多媒体应用的重要组成部分。现实世界的声音来源是相当复杂的,声音不仅与时间和空间有关,还与强度、方向等很多因素有关。在计算机中创建音频时,所能模拟的声音还必须要符合人类的听觉特征和听力范围。目前的数字音频主要分为声波、语音和音乐三类。本章首先讨论音频特征,分析了语音、声音和人的听觉心理特性,然后介绍声音的数字化原理、声音的采样、数字化声音与噪声比、声音的过滤、3维模拟声音的基本理论以及合成音乐MIDI的基本知识,然后介绍了常用的音频文件格式,并推荐了几款音频创作软件,以便读者通过实践应用能进一步了解数字音频。5.1声音要模拟出符
2、合现实世界的数字声音,我们首先得了解声音的基本特性,包括声音的物理特性和人们在听觉方面的心理特性,以便创建出一定格式的数字声音编码,满足人们对模拟声音在采集、处理、质量等各方面的需求。本节就以上问题进行讨论。5.1.1 声音的物理特征 声音是纵波,基本形式是正弦波形,如图5-1所示。决定声波的物理特性有振幅、频率和相位。振幅是声压的大小,即声音的强度,指正弦波形的高度,声压值的单位为帕(Pa)。在图中表示为两个波谷(峰)之间的距离称为一个周期,频率是单位时间内声音的变化周期,单位是赫兹Hz。相位是声音变化的方向。图5-1 声波的基本形式图5-1 声波的基本形式 声音的强度 在1kHz频率的正弦
3、波中,能被人耳察觉的最弱声压大约是2.8310-4dyn(达因)/cm2,这个最弱音已经作为国际标准的参照声。物理上,描述声音强度的量值是采用分贝来表示的。所谓分贝是指两个相同的物理量(例A1和A0)之比,取以10为底的对数并乘以10(或20)。N=10lg(A1/A0)分贝符号为“dB”,它是无量纲的。式中A0是基准量(或参考量),A1是被量度量。数值N就称为被量度量的“级”。它代表被量度量比基准量高出多少“级”,这也被称为声压级。如果2.8310-4dyn/cm2被看作0dB,那么在特别安静的环境中,单独检测的动物的呼吸声大约20 dB,人们正常的谈话声约60dB,大声喊叫约85 dB,汽
4、车的喇叭声约100dB,飞机起飞的声音约120 dB。120dB以上的强度可使人产生痛苦的感觉。声波的频率 频率是指物体每秒钟振动的次数。我们实际听到的声音都是物体振动后会产生声波,不同的振动频率将会产生不同的声波。一般人的听力范围是 20Hz20kHz。这个频率区域称为可闻声段,可闻声段大致可分为低频、中频和高频,低频的频率约在250500 Hz(如锣鼓声),中频的频率约在10002000 Hz,高频的频率约在30004000 Hz(如哨子声)。而低于20Hz和高于20kHz的频率段分别称为次声和超声。相位 相位是波形的变化方向,如果是多个波形组合,起始相位可以相同或不同。如图5-2的左图所
5、示,在某一个瞬时T,不同波形的相位都可以是不同的。而如图5-2右图所示的,就是一段多波形混合而成的声音实际播放时所显示的波形。图5-2 波形的相位和波形瞬时T复杂的声波就是有多个不同振幅、不同频率和不同相位的正弦波形组成的。例如,双声道、多声道、立体声等都是复杂的声波。5.1.2 声音的听觉心理特性 对于复杂的人耳听觉系统特性的研究,目前仅限于在心理声学和语言声学内。听觉心理的主观感受主要有响度、音高、音色、音量、密度、谐和、噪声、掩蔽效应、高频定位等特性。其中响度、音度、音色可以在主观上用来描述具有振幅、频率和相位三个物理的任何复杂的声音,而对于多种音源场合的人的耳掩蔽效应等特性尤为重要。等
6、响曲线 响度表示人们所感觉到的声音能量的强弱,主要取决于声波振幅的大小,但是物理上声压级的值一般不等于响度级的值。声音的感知响度可以用“sone”作为基本单位,1sone相当于40分贝的音调在1kHz下的响度。响度与人耳的可闻程度有关,当超出人耳的可听频率范围时,声音的响度再大,人耳也无法察觉。但在人耳的可听频域范围内,当声音弱或强到一定程度,人耳都无法听到。实验表明,声音的可闻阈和痛感阈是随着频率而变化的。如图5-3所示,闻阈和痛阈随频率变化的等响度曲线(即弗莱彻门逊曲线)之间的区域就是人耳的听觉范围。图5-3中显示了多条等响度曲线,其中最低的一条等响度曲线是可闻阈级,最高一条等响度曲线是痛
7、阈级。就是说,小于0dB闻阈和大于140dB痛阈时为不可听声。这些等响度曲线表明了听觉在有些频率下较为灵敏。所谓“等响”,就是对于1kHz以外的可听声,在同一级等响度曲线上有无数个等效的声压频率值,例如,200Hz的30dB的声音和1kHz的10dB的声音在人耳听起来具有相同的响度。图5-3 等响曲线(实验值)声压级 可闻阈的分贝值频率Hz可以看出,在较低的声压级上,等响上曲线各频率声音的声压级相差很大,较高的声压级上,等响曲线较为平坦,说明各频率的声压级基本相同。同时还可以看出,高频段的响度变化与声压级增量基本一致,而低频段声压级的微小变化会导致响度的较大变化。这说明了,在响度级较小时,高、
8、低频声音灵敏度降低较明显,而低频段比高频段灵敏度降低更加剧烈,一般应特别重视加强低频音量。要指出的是,上面的讨论并没有考虑人耳对不同频率的声音闻阈和痛阈的差别以及灵敏度方面的差别。屏蔽 听觉的掩蔽效应是一个较为复杂的心理和生理现象,包括人耳的频域掩蔽效应和时域掩蔽效应。而且人耳对声音源方向的辨别能力,也与频率的高低有关。由于对于2KHZ以上的高频声音信号,人耳很难判断其方向性,因而在数字处理时,就可以不必重复存贮立体声广播的高频部分。屏蔽是指一个弱声音被另一个强声音所遮盖。当强、弱声音同时存在时,就将发生声音屏蔽现象。例如,说话声会被一列路过的火车声所遮盖。当两个声音在时间和频率上很接近的时候
9、,屏蔽效应就会较很强。当强声音的频率与弱声音相同或更高时,屏蔽效应最有效。如果同时存在的是两个纯音,实验表明存在两种有效的屏蔽,一种是中等强度的纯音最有效的屏蔽出现在其频率附近,另一种是低频的纯音可以有效地掩蔽高频的纯音。如果同时存在的是噪音和纯音,则情况较复杂。因为屏蔽纯音的噪音实际上是由多种纯音组成的,具有无限宽的频谱。表5-1离散的临界频带临界频带频率(Hz)临界频带频率(Hz)低 高 宽度低 高 宽度0 0 100 100 13 2000 2320 3201 100 200 100 14 2320 2700 3802 200 300 100 15 2700 3150 4503 300
10、400 100 16 3150 3700 5504 400 510 110 17 3700 4400 7005510 630 120 18 4400 5300 9006 630 770 140 19 5300 6400 11007 770 920 150 20 6400 7700 13008 920 1080 160 21 7700 9500 18009 1080 1270 190 22 9500 12000 250010 1270 1480 210 23 12000 15500 350011 1480 1720 240 2415500 22050 655012 1720 2000 280 临
11、界频带 当某个纯音被以它为中心频率且具有一定带宽的连续噪声所屏蔽时,如果该纯音刚好能被听到时的功率等于这一频带内噪声的功率,那么这个带宽就称为临界频带宽度。临界频带的单位是Bark。当频率小于500Hz时,1Bark约等于freq100(其中freq表示频率),当频率大于500Hz时,1Bark约等于9+41og(freq1000)。但在有声音屏蔽的情况下,一个临界频带之内的声音感知程度与表中跨越多个临界频带的声音感知程度是不相同的。临界频带可以说明人类的听觉对声音的感知特性。表5-1列出的是在20Hz16kHz范围内,通常可分出的24个子临界频带。人耳对同一个临界频段内频率的听觉和感知是较接
12、近的。5.1.3 声音的数字原理 模拟声音的信号是个连续量,可能由许多具有不同振幅和频率的正弦波组成。必须将模拟声音数字化后才能在计算机中进行处理。实际声音信号的计算机获取过程就是声音的数字化的处理过程。经过数字化之后的声音文件就能够像文字和图形信息一样进行存储、检索、编辑或其它处理。声音的数/模转换和模/数转换 声音的模/数转换(ADC),就是将模拟的声音信号转化成计算机能识别的数字信号。首先需对声波采样,用数字方式记录声音。图5-4表示声波数字化的示意图,其中横轴表示时间,纵轴表示振幅,按时间对声波分割从而提取波形的样本。实现这个过程的装置就被称为模/数转换器。声音的数/模转换(DAC),
13、即由数字声音变成模拟的波形。音频系统是将声波波形转换成的连续的二进制数据来还原声音的,实现这个过程的装置被称为数/模转换器。如果提高采样频率,单位时间内将会得到更多的样本值(振幅值),这对于原声音的模拟将会更精确。以采样的数字样本值去还原模拟声音的技术称为脉冲编码调制技术(PCM),即将采样所得的样本值以同样的采样频率转换为电压值去驱动扬声器时,就可以重放原来的声音。在计算机中,最常用的声音转换装置就是声卡,常常通过声卡的话筒接口输入模拟音频信号,经声卡的ADC转变为数字信号存储在计算机内,播放时再通过声卡对数字声音的DAC转变从音箱中输出。量化 采样 编辑模拟声音数字声音图5-4 声波的数字
14、化声音的数字化过程 图5-4右图表示了模拟声音数字化的三个步骤:采样、量化和编码。采样(Sampling)采样就是每隔一个时间间隔在模拟声音的波形上取一个幅度值,将时间上的连续信号变成时间上的离散信号。采样时间间隔就是采样周期,单位时间内采样次数就是采样频率。图 5-5声音的采样声音在数字化后的波形图量化(Quantigation)量化就是将模拟信号的采样值用数字方法读出。读出方法一般采用二进制方法,以适应数字电路的需要。量化过程就是将采样后的信号按整个声波的幅值划分为若干个区段,把落入某区段的样值归为一类,并赋予相同的量化值。如图5-5将波形的幅值高度用8bit记录,就可以将高度分成256个
15、区间,采样后的波形将会丢失采样之间的一些细节波形。例如,一个采样点处于215区间,该采样点的编码就是11010111。只要记录采样点的区间分得越多,细节波形丢失得越少。表5-2采样值的量化值采样时间 幅度值 量化后二进制数1 160 101000002 215 110101113 232 111010004 208 110100005 152 100110006 64 010000007 20 000101008 96 011000009 116 0111010010 60 00111100编码 编码是按一定的格式将离散的数字信号记录下来,并在数据的前、后加上同步、纠错等控制信号。音频编码有许
16、多标准,分别用于不同的应用环境。最常用的压缩标准有脉冲编码调制(PCM)和自适应脉冲编码调制(ADPCM)。又如,国际电信联盟远程通信标准化组ITU-T制定的国际压缩标准H.261,用于ISDN环境下的电视会议、可视电话等;H.263,适用于极低的传输码率;H.263+和新的H.26L,不仅提高了压缩效率,还提高了容错能力,数据率可低到28128kbps,主要用于无线通讯、互联网视频会议、远程监控等。5.1.4 数字声音质量的主要因素 影响数字化声音质量的因素主要有三个,即采样频率,采样精度和通道个数。声音的采样精度 采样精度,即采样位数或采样分辨率,指表示声波采样点幅度值的二进制数的位数。换
17、句话说,采样位数可表示采样点的等级数,若用8bit二进制描述采样点的幅值,则可以将幅值等量分割为256个区,若用16bit二进制分割,则分为65536个区。可见,采样位数越多,可分出的幅度级别越多,则分辨率越高,失真度越小,录制和回放的声音就越真实。但是位数越多,声音质量越高,所占的空间就越大。常用的采样精度分别是8位、16位和32位。国际标准的语音采用8位二进制位编码。根据抽样理论可知,一个数字信源的信噪比大约等于采样精度乘以6分贝。因此,8位的数字系统其信噪比只有48分贝,而16位的数字系统的信噪比可达96分贝,信噪比低会出现背景噪声以及失真。因此采样位数越多,保真度越好。声音的采样速率
18、采样速率,即采样频率,指每秒钟采样的次数,单位为Hz(赫兹)。奈奎斯特采样定理指出:采样频率高于信号最高频率的两倍,就可以从采样中完全恢复原始信号的波形。对于以11kHz的频率的采样系统,只能恢复的最高音频是5.5kHz。如果要把20Hz20KHz范围的模拟音频信号变换为不连续的二进制数字信号,那么脉冲采样频率至少应为40KHz,其周期为Tp=1/fp=1/40KHz=25s。目前,流行的采样频率主要为22.05KHz、44.1KHz、48KHz,采样速率越高,采样周期越短,单位时间内得到的数据越多,对声音的表示越精确,音质越真实。所以采样频率决定音质清晰、悦耳、噪音的程度,但是高采样率的数据
19、将占有很大的空间。声音的通道个数 声音的采样数据还与声道数有关。单声道只有一个数据流,立体声的数据流至少在两个以上。由于立体声声音具有多声道、多方向的特征,因此,声音的播放在时间和空间性能方面都能显示更好的效果,但相应数据量将成倍增加。5.1.5 采样数据量 从上面的分析中可知,要从模拟声音中获得高质量的数字音频,必须提高采样的分辨率和频率,以采集更多的信号样本。而能够进一步进行处理的首要问题,那就是大量采样数据文件的存储。采样数据的存储容量计算公式如下:存储容量(字节)=采样频率采样精度/8声道数时间 表5-3列出了1分钟的双声道声音,采用不同采样频率和精度所需的存储容量。例如,采用44.1
20、kHz采样频率和16位采样精度时,数字化后需要的存贮容量为:44.116/8260=10.584B 表5-2几种数字化声音的信息采样频率kHz采样精度bit存储容量MB数据速率kb/s常用编码方式质量44.1 16 10.336 88.2 PCM激光唱片级质量22.05 16 5.168 44.1 ADPCM调频广播级质量常用于伴音8 2.584 22.05 ADPCM11.025 16 2.584 22.05 ADPCM调频广播级质量常用于伴音或解说8 1.292 11.025 ADPCM为了减少数据量,采样且量化后的数据常要进行压缩。数字音频的编码必须具有压缩声音信息的能力,最常用的压缩方
21、法为自适应脉冲编码调制(ADPCM)法。ADPCM压缩编码方案的特点是信噪比高,数据压缩倍率可达25倍而不会明显失真。例如,Yamaha公司的ADPCM算法可以达到31压缩比。有关ADPCM压缩技术请参见第七章的内容。5.2语音语音是声音的一种,但是这种声音与人类的语言学有关,又与发声器官的发声范围有关,因此,对于语音的本质分析相当重要。在语言数字处理中,是以语音的基本特性为基础,主要针对的语音的成分进行相应的处理,包括语音采样、识别、模拟、合成等技术。5.2.1 语音的基本特性 什么是语音?语音就是人们说话的声音。而在数字处理中,语音是音素、音位到句子音段、轻重音到语调等语音手段的统称。语音
22、以语言系统有声单位的形式出现,具有语言学区别功能。我们知道,人的声带就是一个发出声音的声源,声源振动将引起空气振动而产生声波。由于声波是具有振幅、方向、频率等多种物理属性的,因此,语音声包含了声源和传播过程的自然信息。虽然声波的振幅、波长和频率是因人而异的,但是也存在一定的自然规律。一般男性的发音周期在10ms左右,发音频率就在100Hz左右。女性的发音周期较男性短,一般为6ms左右,发音频率在166Hz左右。成年人的发音频率大约在60400Hz范围内。人类很难发出频率极高或极低的语音,所以,从语音中我们可以分辨说话人、声带变化以及环境干扰声的各项性质。语音不仅仅是有声,它还包含了语音系统按一
23、定方式确认的声音类别,也包含了语音系统赋予的一定功能。也就是说,语音的内容是按一定方式组织的,例如有词、句、调、语气等,其含义又是建立在一定的文化基础上的。因此,是否能理解语音的实际内涵,这与接收者对语音的认知能力有关。5.2.2 语音处理的任务和目标 计算机对语音进行处理的任务主要包括对语音的采样、识别、模拟和合成。数字语音也是通过对模拟语音采样、A/D转换、并按一定的方式进行编码而形成的,其记录方式同一般声音一样,可以用波形文件保存。数字语音是多媒体技术中不可缺少的一个组成部分,语音处理的最终目标应该满足计算机发展的需要。而未来的智能化计算机应具有能看,能听,能说,具有分析、判断、推理和思
24、考的能力,那么语音就是人与机器之间进行交流最自然的方式。所以,语音技术已成为智能计算机领域的研究热点,其中的语音识别和语音合成技术是实现人机语音通信的两项关键技术。但目前技术的成熟度与应用的广泛性与需求性还存在较大的差距。5.2.3 语音识别 语音自动识别的最终目标是要将连贯的语音变换成文字符号系列。而在自然的音语中,每个音素的声学特性与作为语句元素时完全不同,再加上由于自然发音时,各语音单位是连贯的,具有协同调音效应,同时还具有语调、重音和抑扬顿挫等韵律方面的影响,这使得实现语音到文字符号的识别非常困难。目前,语音的自动识别基本上采用孤立词的模式匹配识别和有限词汇的连续识别。孤立词的模式是一
25、种认人的识别方式,就是因人而异进行语音识别。实验结果表示,一般识别率都在95%以上。孤立词的模式识别系统的原理如图5-6所示,在语音识别前,需要说话人将待识别的词汇逐个读入,计算机经过逐个词汇分析,提取出如频谱包络、共振峰、LPC系数等特征,组成词汇组标准样板。语音识别时,针对说话人说出的每一个词,计算机还需进行分析和提取特征,并逐一与样板库中的样板做比较,选择一些近似样本,最后以一组最佳匹配作为所说的词而输出。选择匹配样板与样板库的样板比较语音样板库语音特征提取语音词读入识别前建立库识别结果输出图5-6孤立词的模式识别原理示意实际上,人们更需要计算机能不因人而变,且能识别由大量词汇组成的连续
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第5章 音频技术 音频 技术
限制150内