第3章多媒体音频技术PPT讲稿.ppt
《第3章多媒体音频技术PPT讲稿.ppt》由会员分享,可在线阅读,更多相关《第3章多媒体音频技术PPT讲稿.ppt(78页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第3章多媒体音频技术第1页,共78页,编辑于2022年,星期一3.1 音频基础3.1.1 3.1.1 声音的基本概念声音的基本概念p声音在物理学上称之为声波,是通过一声音在物理学上称之为声波,是通过一定介质(如空气、水等)传播的连续的定介质(如空气、水等)传播的连续的振动的波。振动的波。p声波引起某处媒质压强的变化量称为该声波引起某处媒质压强的变化量称为该处的声压。处的声压。p声音的强弱声音的强弱体现在声波的振幅上体现在声波的振幅上p音调的高低音调的高低体现在声波的周期和频率上。体现在声波的周期和频率上。第2页,共78页,编辑于2022年,星期一2声音的频率p声源每秒振动的次数称为该声源的声源
2、每秒振动的次数称为该声源的“频频率率”。p用音频来表示声音信号的频率,单位为用音频来表示声音信号的频率,单位为赫兹(赫兹(HzHz)。)。u频率对于声音来说是个非常重要的概念,不频率对于声音来说是个非常重要的概念,不同的声音有不同的频率范围,人耳只能听到同的声音有不同的频率范围,人耳只能听到频率范围在频率范围在20Hz20Hz20kHz20kHz之间的声音,低于之间的声音,低于20Hz20Hz的次声和高于的次声和高于20kHz20kHz的超声都听不到。的超声都听不到。次声波次声波可听声波可听声波超声波超声波20Hz20Hz20kHz20kHzf(Hz)f(Hz)第3页,共78页,编辑于2022
3、年,星期一声音质量的标准p人耳对不同频率的敏感程度有很大差别人耳对不同频率的敏感程度有很大差别u对中频段(对中频段(2 kHz2 kHz4 kHz4 kHz)最为敏感,幅度)最为敏感,幅度很低的信号都能被人耳听到;很低的信号都能被人耳听到;u对低频区和高频区较不敏感,能被人耳听到对低频区和高频区较不敏感,能被人耳听到的信号幅度比中频段要高得多。的信号幅度比中频段要高得多。10 20 50 200 3.4k 7k 15k 20k10 20 50 200 3.4k 7k 15k 20kCD-DAFM广播AM广播广播电话电话f(Hz)第4页,共78页,编辑于2022年,星期一多媒体数据压缩的国际标准
4、 p音频压缩标准音频压缩标准 p音频信号是多媒体信息的重要组成部分。目前,音频信号是多媒体信息的重要组成部分。目前,业界公认的声音质量标准分为业界公认的声音质量标准分为4 4级,即数字激光唱级,即数字激光唱盘盘CD-DACD-DA质量,其信号带宽为质量,其信号带宽为10Hz10Hz20kHz20kHz;调频广;调频广播播FMFM质量,其信号带宽为质量,其信号带宽为20Hz20Hzl5kHzl5kHz;调幅广播;调幅广播AMAM质量,其信号带宽为质量,其信号带宽为50Hz50Hz7kHz7kHz;电话的话音质量,;电话的话音质量,其信号带宽为其信号带宽为200Hz200Hz3.4kHz3.4kH
5、z。可见,数字激光唱盘。可见,数字激光唱盘的声音质量最高,电话的话音质量最低。的声音质量最高,电话的话音质量最低。p数字音频压缩技术标准分为电话语音压缩、调幅数字音频压缩技术标准分为电话语音压缩、调幅广播语音压缩、高保真立体声音频压缩三种。广播语音压缩、高保真立体声音频压缩三种。第5页,共78页,编辑于2022年,星期一3声音的传播方向 p当辐射出来的声波波长比声源的尺寸大当辐射出来的声波波长比声源的尺寸大时,声波比较均匀地向时,声波比较均匀地向各方向各方向传播;传播;p当辐射出来的声波波长小于声源的尺寸当辐射出来的声波波长小于声源的尺寸时,声波集中地向时,声波集中地向正前方一个尖锐的圆正前方
6、一个尖锐的圆锥体范围锥体范围内传播。内传播。第6页,共78页,编辑于2022年,星期一4声音的三要素 p声音效果的三要素:音调、音强、音色。声音效果的三要素:音调、音强、音色。p音调:指声音的高低。音调的高低,主音调:指声音的高低。音调的高低,主要取决于声波频率的高低。频率越高,要取决于声波频率的高低。频率越高,音调越高,反之亦然。音调越高,反之亦然。p在使用音频处理软件对声音的频率进行在使用音频处理软件对声音的频率进行调整时,其音调也会随之产生变化。例调整时,其音调也会随之产生变化。例如,男子发音,其频率约在如,男子发音,其频率约在9090140Hz140Hz之之间,其音调较低;女子发音的频
7、率约在间,其音调较低;女子发音的频率约在270270550Hz550Hz之间,其音调较高。之间,其音调较高。第7页,共78页,编辑于2022年,星期一p音强:是指声音的强度,又称声音的响音强:是指声音的强度,又称声音的响度,由声波振动的振幅决定。它是人耳度,由声波振动的振幅决定。它是人耳感受到的声音强弱,是人对声音大小的感受到的声音强弱,是人对声音大小的一个主观感觉量。一个主观感觉量。p音色:即声音的品质,它由泛音的多少、音色:即声音的品质,它由泛音的多少、泛音的频率和振幅决定。例如,不同的泛音的频率和振幅决定。例如,不同的乐器在基本振动频率相同的情况下,仍乐器在基本振动频率相同的情况下,仍然
8、可以区分各自的特色,就是因为它的然可以区分各自的特色,就是因为它的音色不同。音色不同。第8页,共78页,编辑于2022年,星期一5音质 p“音质音质”是声音的质量,音质的好坏与是声音的质量,音质的好坏与音色的频率范围有关。音色的频率范围有关。p影响音质的因素影响音质的因素对于数字音频信号,音质的好坏与数据采对于数字音频信号,音质的好坏与数据采样频率和数据位数有关。样频率和数据位数有关。音质与声音还原设备有关。音质与声音还原设备有关。音质与信号噪声比有关。音质与信号噪声比有关。第9页,共78页,编辑于2022年,星期一音频数字音频(Audio)可分为波形声音语音和音乐。第10页,共78页,编辑于
9、2022年,星期一 2.2 多媒体音频 音频是多媒体技术的重要特征之一,是携带信息的重要媒体。在计算机多媒体技术中,音频的种类主要有波形音频、MIDI音频和CD唱盘音频。2.2.1 波形音频 2.2.2 MIDI音频 2.2.3 CD-DA唱盘 2.2.4 声卡 返回第11页,共78页,编辑于2022年,星期一从模拟到数字声源声波传声器模拟电信号数字声音声音输入到计算机的过程第12页,共78页,编辑于2022年,星期一 2.2.1 波形音频 1声音的基本特征 2数字音频 第13页,共78页,编辑于2022年,星期一 1声音的基本特征 声音是由空气中分子的振动而产生的。自然界的声音是一个随时间而
10、变化的连续信号,可近似地看成是一种周期性的函数。通常用模拟的连续波形描述声波的形状,单一频率的声波可用一条正弦波表示,如下图所示。振幅周期基线第14页,共78页,编辑于2022年,星期一p声波是随时间连续变化的物理量,它有声波是随时间连续变化的物理量,它有3 3个重要指标:个重要指标:振幅振幅波的高低幅度,表示声音的波的高低幅度,表示声音的强弱;强弱;周期周期两个相邻波之间的时间长度;两个相邻波之间的时间长度;频率频率每秒振动的次数,以每秒振动的次数,以HzHz为单位。为单位。第15页,共78页,编辑于2022年,星期一基线是测量模拟信号的基准点。声波的振幅表示声音信号的强弱程度。声波的频率反
11、映出声音的音调,声音细尖表示频率高,声音粗低表示频率低。振幅和频率不变的声音信号,称为单音。单音一般只能由专用电子设备产生。在日常生活中,我们听到的自然界的声音一般都属于复音,第16页,共78页,编辑于2022年,星期一 2数字音频 声波是随时间而连续变化的物理量,通过能量转换装置,可用随声波变化而改变的电压或电流信号来模拟。以模拟电压的幅度来表示声音的强弱。为使计算机能处理音频,必须对声音信号数字化。(1).采样和量化 (2).影响数字音频质量的技术参数(3).数字音频文件的存储量 (4).数字音频信号的编码 第17页,共78页,编辑于2022年,星期一3.1.2 声音的数字化 奈奎斯特(N
12、yquist)理论u采样频率与声音频率之间有一定的关系,只只有采样频率高于声音信号最高频率的两倍有采样频率高于声音信号最高频率的两倍时,才能把数字信号表示的声音还原成为时,才能把数字信号表示的声音还原成为原来的声音原来的声音。采样采样量化量化声音的模拟信号声音的模拟信号声音的数字信号声音的数字信号编码编码第18页,共78页,编辑于2022年,星期一(1).采样和量化 (c)采样信号的量化(a)模拟音频信号(b)音频信号的采样数字化音频的过程如下图所示。第19页,共78页,编辑于2022年,星期一模拟声音在时间上是连续的,或称连续时间函数x(t)。用计算机处理这些信号时,必须先对连续信号采样,即
13、按一定的时间间隔(T)在模拟声波上截取一个振幅值(通常为反映某一瞬间声波幅度的电压值),得到离散信号x(nT)(n为整数)。T称采样周期,1/T称为采样频率。为了把采样得到的离散序列信号x(nT)存入计算机,必须将采样值量化成有限个幅度值的集合x(nT),采样值用二进制数字表示的过程称为量化编码。第20页,共78页,编辑于2022年,星期一(2).影响数字音频质量的技术参数对模拟音频信号进行采样量化编码后,得到数字音频。数字音频的质量取决于采样频率、量化位数和声道数三个因素。1).采样频率采样频率是指一秒钟时间内采样的次数。在计算机多媒体音频处理中,采样频率通常采用三种:11.025KHz(语
14、音效果)、22.05KHz(音乐效果)、44.1KHz(高保真效果)。常见的CD唱盘的采样频率即为44.1KHz。第21页,共78页,编辑于2022年,星期一2).量化位数量化位数也称“量化精度”,是描述每个采样点样值的二进制位数。就是通常所说的声卡的位数。例如,8位量化位数表示每个采样值可以用28即256个不同的量化值之一来表示,而16位量化位数表示每个采样值可以用216即65536个不同的量化值之一来表示。常用的量化位数为8位、12位、16位、32位。量化是将经过采样得到的离散数据转换成二进制数的过程。第22页,共78页,编辑于2022年,星期一 以下图所示的原始模拟波形为例进行采样和量化
15、。假设采样频率为1000次/秒,即每1/1000秒A/D转换器采样一次,其幅度被划分成0到9共10个量化等级,并将其采样的幅度值取最接近0 9之间的一个数来表示,如下图所示。图中每个正方形表示一次采样。第23页,共78页,编辑于2022年,星期一 D/AD/A转换器转换器从上图得到的数值中重构原来信号时,得到下图中蓝色(直线段)线段所示的波形。从图中可以看出,蓝色线与原波形(红色线)相比,其波形的细节部分丢失了很多。这意味着重构后的信号波形有较大的失真。第24页,共78页,编辑于2022年,星期一 失真在采样过程中是不可避免的,如何减少失真呢?可以直观地看出,我们可以把上图中的波形划分成更为细
16、小的区间,即采用更高的采样频率。同时,增加量化精度采用更高的采样频率。同时,增加量化精度,以得到更高的量化等级,即可减少失真的程度。在下图(左)中,采样率和量化等级均提高了一倍,分别为2000次/秒和20个量化等级。在下图(右)中,采样率和量化等级再提高了一倍,分别达到4000次/秒和40个量化等级。从图中可以看出,当用D/A转换器重构原来信号时(图中的轮廓线),信号的失真明显减少,信号质量得到了提高。第25页,共78页,编辑于2022年,星期一Sampling Resolution8 bitSamplingFrequency11 KHz+127+64+320-32-64-1280100101
17、0Comparison:第26页,共78页,编辑于2022年,星期一Sampling Resolution16 bitSamplingFrequency22 KHz+32767+512+1280-128-512-327680010101100011000Comparison:第27页,共78页,编辑于2022年,星期一3).声道数声音通道的个数称为声道数,是指一次采样所记录产生的声音波形个数。记录声音时,如果每次生成一个声波数据,称为单声道;每次生成两个声波数据,称为双声道(立体声)。随着声道数的增加,所占用的存储容量也成倍增加。第28页,共78页,编辑于2022年,星期一(3).数字音频文件
18、的存储量 以字节为单位,模拟波形声音被数字化后音频文件的存储量(假定未经压缩)为:存储量=采样频率量化位数/8声道数时间 例如,用44.1KHz的采样频率进行采样,量化位数选用16位,则录制1秒的立体声节目,其波形文件所需的存储量为:4410016821=176400(字节)第29页,共78页,编辑于2022年,星期一质量等级质量等级采样频率采样频率/KHz/KHz量化精度量化精度/b/b声道数声道数/个个数码率数码率/kbps/kbps记录内容记录内容电话电话8 88 8单声道单声道6464简单的声简单的声音音AMAM(可接(可接受的音乐)受的音乐)11.02511.0258 8单声道单声道
19、88.288.2长音乐片长音乐片段、高质段、高质量语音量语音FMFM(收音(收音音质)音质)22.0522.051616双声道双声道705.6705.6短的高质短的高质量音乐片量音乐片段段CDCD(CDCD音音质)质)44.144.11616双声道双声道1411.21411.2高保真音高保真音乐和声音乐和声音DAT(DAT(广播广播质量质量)48481616双声道双声道15361536记录数字记录数字媒体的广媒体的广播使用播使用 第30页,共78页,编辑于2022年,星期一(4).数字音频信号的编码 一般情况下,声音的制作是使用麦克风或录音机来产生,再由声卡上的WAVE合成器的(模/数转换器)
20、对模拟音频采样后,量化编码为一定字长的二进制序列,并在计算机内传输和存储。在数字音频回放时,再由数字到模拟的转化器(数/模转换器)解码可将二进制编码恢复成原始的声音信号,通过音响设备输出。如下图所示。模拟音频信号输入采样/量化编码传输/存储解码播放第31页,共78页,编辑于2022年,星期一3.1.3 声音文件的格式 p数字音频数据是以文件的形式保存在计数字音频数据是以文件的形式保存在计算机中的。算机中的。p数字音频的文件格式主要有数字音频的文件格式主要有CDCD、WAVEWAVE、MP3MP3、WMAWMA、MIDIMIDI等。等。目录第32页,共78页,编辑于2022年,星期一1.4.1
21、声音文件的基本格式1.WAV 文件3.VOC 文件2.MIDI 4.MOD 文件第33页,共78页,编辑于2022年,星期一WAV 文件Windows 所用的标准数字音频称为波形文件,文件的扩展名是“.WAV”,它记录了对实际声音进行采样的数据。它可以重现各种声音,但产生的文件很大。采用的软件压缩方法主要有ACM和PCM 等。人的讲话声使用8位量化级11.025 KHz采样率就能较好的还原。CD音质需要16位量化级、44.1 KHz的采样率。第34页,共78页,编辑于2022年,星期一MIDIMIDI文件的扩展名为“.MID”,它与波形文件不同,记录的不是声音本身,而是将每个音符记录为一个数字
22、,因此比较节省空间,可以满足长时间音乐的需要。MIDI 的主要限制是缺乏重现真实自然的能力。采用波表法进行音乐合成的声音卡可以使MIDI 音乐的质量大大提高。第35页,共78页,编辑于2022年,星期一VOC 文件:VOC 文件也是一种数字声音文件,主要用于DOS 程序。与波形文件相似,可以方便地互相转换。MOD 文件:MOD 文件是移植过来的MODULE 音乐。它主要由一些业余音乐爱好者通过网络和BBS 支持。第36页,共78页,编辑于2022年,星期一听觉系统的感知特性p掩掩蔽效应蔽效应u一种频率的声音一种频率的声音阻碍阻碍听觉系统感受另一种频听觉系统感受另一种频率的声音的现象率的声音的现
23、象前者称为前者称为掩掩蔽声音蔽声音(masking tone)(masking tone)后者称为被后者称为被掩掩蔽声音蔽声音(masked tone)(masked tone)掩掩蔽可分成频域蔽可分成频域掩掩蔽和时域蔽和时域掩掩蔽蔽u频域频域掩掩蔽蔽一个强一个强纯纯音音掩掩蔽在其附近同时发声的弱蔽在其附近同时发声的弱纯纯音的特性,也音的特性,也称同时称同时掩掩蔽蔽(simultaneous masking).(simultaneous masking).第37页,共78页,编辑于2022年,星期一听觉系统的感知特性图 频域掩蔽第38页,共78页,编辑于2022年,星期一听觉系统的感知特性图
24、不同纯音的掩蔽效应曲线图中的一组曲线表示为图中的一组曲线表示为250 Hz250 Hz,1 kHz1 kHz和和4 kHz4 kHz纯纯音的音的掩掩蔽效应,蔽效应,它们的声强均为它们的声强均为60 dB60 dBl250 Hz250 Hz,1 kHz1 kHz和和4 kHz4 kHz附近,对其他附近,对其他纯纯音的音的掩掩蔽效果最明显蔽效果最明显l低频低频纯纯音可有效地音可有效地掩掩蔽高频蔽高频纯纯音,相反则不明显音,相反则不明显 第39页,共78页,编辑于2022年,星期一听觉系统的感知特性u时域时域掩掩蔽蔽在时间上相邻的声音之间的在时间上相邻的声音之间的掩掩蔽现象蔽现象 一个强一个强掩掩蔽
25、音出现前、同时存在时或消失后的蔽音出现前、同时存在时或消失后的掩掩蔽效果蔽效果.l同时同时掩掩蔽蔽(simultaneous masking)(simultaneous masking):信号和:信号和掩掩蔽音同时产蔽音同时产生的现象生的现象l滞滞后后掩掩蔽蔽(post-masking)(post-masking):信号出现在:信号出现在掩掩蔽音消失后出现蔽音消失后出现的现象,可以持续的现象,可以持续5050200 ms 200 ms l超前超前掩掩蔽蔽(pre-masking)(pre-masking):信号出现在:信号出现在掩掩蔽音出现之前产生的蔽音出现之前产生的现象。现象。虽虽然对超前然
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多媒体 音频 技术 PPT 讲稿
限制150内