书签分享收藏举报版权申诉 / 78

立即下载

当前位置：首页 > pptx模板 > 商业计划书 > 第2章-音频信息的获取和处理优秀PPT.ppt

第2章-音频信息的获取和处理优秀PPT.ppt

上传人：1398****507

文档编号：81215280

上传时间：2023-03-24

格式：PPT

页数：78

大小：1.33MB

( 4.5 )

《第2章-音频信息的获取和处理优秀PPT.ppt》由会员分享，可在线阅读，更多相关《第2章-音频信息的获取和处理优秀PPT.ppt（78页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、2.1声音与听觉（1）o声音：声音：通过空气传播的一种连续的波，又称声波。由空气振动引起耳膜的振动，由人耳所感知。o声音的度量：声音的度量：频率与幅度（声波压力的大小）n频率用音高表示，幅度用声强表示n与看得见的水波类似2.1声音与听觉（2）o声音被分为无规则的噪音和有规则的音频信号；有规则音频信号是一种连续变更、周期性的模拟信号，可用一条连续的曲线来表示，称为声波。o声音分类o语音：人的说话声虽是一种特殊的媒体，但也是一种波形，所以和波形声音的文件格式相同。o音乐：规范的符号化了的声音，乐谱可转变为符号媒体形式。o音效：指人类熟悉的其他声音，如动物发声、机器产生的声音、自然界的风雨雷电等。2

2、.1声音与听觉（3）o带宽与听觉带宽与听觉音频是指人类听觉所感知范围内的频率，也称声频。n次声波(subsonic)：频率低于20Hz的信号。n超声波(ultrasonic)：频率高于20KHz的信号。n音频(Audio):频率范围是20Hz20KHz的声音信号。是人耳能听到的声音信号，次声波和超声波之间的音。n音频为可听声波，即属于多媒体音频信息范畴。2.1声音与听觉（4）10 20 50 200 3.4k 7k 15k 20kCD-DAFM广播广播AM广播广播电话电话f(Hz)频带频带频带频带2.1声音与听觉（5）o模拟声音信号：可分解成一系列正弦波的线性叠加。模拟声音信号：可分解成一系

3、列正弦波的线性叠加。o最低频的音波称为基音，频率为基频最低频的音波称为基音，频率为基频o其余的为泛音（或称谐音），频率是基频的整数倍其余的为泛音（或称谐音），频率是基频的整数倍o声音三要素：音高、音色、音强声音三要素：音高、音色、音强o音调：由基频确定，基频取对数后与人的音调感觉成线音调：由基频确定，基频取对数后与人的音调感觉成线形关系，基频的频率高则音调高，频率低则音调低。音形关系，基频的频率高则音调高，频率低则音调低。音调高时声音尖锐，俗称高音；音调低时声音沉闷，俗称调高时声音尖锐，俗称高音；音调低时声音沉闷，俗称低音。低音。o音色：与波形相关，取决于声波的频谱，即由混入基音音色：与波形相

4、关，取决于声波的频谱，即由混入基音中的泛音确定，一个声波上的谐波越丰富，音色越好。中的泛音确定，一个声波上的谐波越丰富，音色越好。o音强：即声音的洪亮程度，与声音信号的幅度成正比。音强：即声音的洪亮程度，与声音信号的幅度成正比。用声音信号的幅度取对数后再乘用声音信号的幅度取对数后再乘20所得值来描述声强，所得值来描述声强，以分贝（以分贝（dB）为单位，此时称为音量，振幅高时音强）为单位，此时称为音量，振幅高时音强强，振幅低时音强弱。强，振幅低时音强弱。2.1声音与听觉（6）o听觉特性听觉特性o1、等响曲线、等响曲线o o o 响度与频率和强度有关，同一响度的声响度与频率和强度有关，同一响度的声

5、音可以在频率上和强度上有很大的差别。音可以在频率上和强度上有很大的差别。o 先设一个音为标准音，赐予固定的频率、先设一个音为标准音，赐予固定的频率、强度和持续时间，例如强度和持续时间，例如1000Hz、40分贝、分贝、持续持续0.5秒；再给一个音也持续秒；再给一个音也持续0.5秒，但频秒，但频率不同，通过调整使其响度听起来一样，得到率不同，通过调整使其响度听起来一样，得到的这样一组曲线称之为等响曲线。的这样一组曲线称之为等响曲线。o意义：多媒体系统的声音再现意义：多媒体系统的声音再现频率强度2.12.1声音与听觉声音与听觉声音与听觉声音与听觉（7 7）n2 2、掩蔽、掩蔽n 声音的响度同时也受

6、到其他同时出声音的响度同时也受到其他同时出现的声音的影响，各种声音可能相互掩现的声音的影响，各种声音可能相互掩蔽。如：开会场景。蔽。如：开会场景。n 各种声音可以相互掩蔽，也就是说一各种声音可以相互掩蔽，也就是说一种声音的出现可能使得另一种声音难于种声音的出现可能使得另一种声音难于听清。例如，原来是多种频率的声音的听清。例如，原来是多种频率的声音的复合，但听众以为是另一种声音。复合，但听众以为是另一种声音。n 声音的掩蔽效果可以欺瞒人的听觉，声音的掩蔽效果可以欺瞒人的听觉，可用于声音的压缩。可用于声音的压缩。2.12.1声音与听觉声音与听觉声音与听觉声音与听觉（8 8）n3 3、相位、相位声

7、音的加强与抵消（同相和反相）声音的加强与抵消（同相和反相）从声音的波形来看，声音的起点和方向也从声音的波形来看，声音的起点和方向也要反映声音的特性，这就是声音的相位。要反映声音的特性，这就是声音的相位。当两个声音相同相位完全相反时，它们将当两个声音相同相位完全相反时，它们将相互抵消；当两个声音相同而且相位也相同时，相互抵消；当两个声音相同而且相位也相同时，声音就会得到加强。声音就会得到加强。声音的波形相位对于多声道系统的设计特声音的波形相位对于多声道系统的设计特别重要，应用于回声的消退、会议系统的声音别重要，应用于回声的消退、会议系统的声音设计等。设计等。2.12.1声音与听觉声音与听觉声音与

8、听觉声音与听觉（9 9）声音的心理模拟声音的心理模拟通过人工真实的方法，可以对视觉空间的景物进行再通过人工真实的方法，可以对视觉空间的景物进行再造或虚构，同样也可以对听觉空间的声音进行心理的模拟，造或虚构，同样也可以对听觉空间的声音进行心理的模拟，这就是所谓的可听化（这就是所谓的可听化（audiolization）。用声音可以表达出）。用声音可以表达出一些声音的效果。一些声音的效果。2.12.1声音与听觉（声音与听觉（声音与听觉（声音与听觉（1010）2.2声音信号数字化（1）1.从模拟信号到数字信号从模拟信号到数字信号模拟信号：在时间与幅度上都连续，记为模拟信号：在时间与幅度上都连续，记为

9、x(t).离散信号：按确定的时间间隔离散信号：按确定的时间间隔T采样，得到的采样，得到的x(nT).T为抽样周期，为抽样周期，1/T抽样频率抽样频率此过程成为声音信号的采样此过程成为声音信号的采样数字信号：把抽样序列数字信号：把抽样序列x(nT)量化成一个有限个量化成一个有限个幅度的集合幅度的集合X(nT)，此过程为模拟信号的量化，此过程为模拟信号的量化过程。将量化后的离散信号的进行二进制编码，过程。将量化后的离散信号的进行二进制编码，即以二进制编码来表示离散值的幅度，这种二即以二进制编码来表示离散值的幅度，这种二进制编码信号叫做数字信号，进制编码信号叫做数字信号，2.2声音信号数字化（2）图

10、图模拟信号、离散信号及数字信号模拟信号、离散信号及数字信号1、用连续变更的曲线表示模拟信号；、用连续变更的曲线表示模拟信号；2、用圆点表示以相等时间间隔取值而得到的离散信号；、用圆点表示以相等时间间隔取值而得到的离散信号；3、纵坐标上标的是幅度的二进制编码值。、纵坐标上标的是幅度的二进制编码值。2.2声音信号数字化（3）2.2声音信号数字化（4）2.声音数字化：声音数字化：nSampling,Quantization,Codingn采样频率与量化精度2.2声音信号数字化（5）n数字声音波形质量的主要技术参数数字声音波形质量的主要技术参数n采样频率采样频率n等于波形被等分的份数，份数越多，质量

11、越好等于波形被等分的份数，份数越多，质量越好n11.025KHZ、22.05KHZ、44.1KHZn采样精度采样精度n每次采样信息量每次采样信息量n8位、位、16位位n声道数声道数n声音产生的波形数，如多种语言音频混存时，声音产生的波形数，如多种语言音频混存时，须要多声道须要多声道n单声道、立体声道、单声道、立体声道、5.1声道声道数据量计算：(采样频率采样精度通道数时间)/8 字节2.2声音信号数字化（6）3.采样频率采样频率奈奎斯特理论奈奎斯特理论(Nyquist)定理（定理（1928年提出原理，仙侬年提出原理，仙侬形成定理并应用，形成定理并应用，1933年卡切尼科夫用公式表述）：年卡切

12、尼科夫用公式表述）：采样频率采样频率2f这里这里f为被采样信号的最高频率。为被采样信号的最高频率。依据该定理，只要采样频率高于信号中最高频率依据该定理，只要采样频率高于信号中最高频率的两倍，就可以从采样中完全复原原始信号的波形。因的两倍，就可以从采样中完全复原原始信号的波形。因为人耳所能听到的频率范围为为人耳所能听到的频率范围为20Hz到到20KHz，所以，所以实际的采样过程中，为了达到好的效果，就接受实际的采样过程中，为了达到好的效果，就接受44.1KHz作为高质量声音的采样频率。假如达不到这作为高质量声音的采样频率。假如达不到这么高的频率，声音复原的效果就会差一些，例如电话声么高的频率，声

13、音复原的效果就会差一些，例如电话声音的质量等。一般来说，声音复原和采样频率、信道带音的质量等。一般来说，声音复原和采样频率、信道带宽都有关。宽都有关。2.2声音信号数字化（7）p采采样样频频率率与与声声音音的的质质量量关关系系最最为为紧紧密密。采采样样频频率率越越高高，声声音音质质量量越越接接近近原原始始声声音音，所所需需的的存存储储量量便便越越多多。标标准准的采样频率有三个：的采样频率有三个：44.1KHz，22.05kHz，和，和11.025kHz。2.2声音信号数字化（8）4.量化精度量化精度存放一个采样点所需的比特数。一般的采样位数为存放一个采样点所需的比特数。一般的采样位数为8位或位

14、或16位，即把声音采集为位，即把声音采集为256等份或等份或65536等分。等分。量化：量化：取样值（取样值（-,+）有限个数（量化值近有限个数（量化值近似）似）若量化值有若量化值有J个，若用二进制表示，须要个，若用二进制表示，须要R=log(J)位位量化误差：用有限的离散值表示无限多的连续值，量化误差：用有限的离散值表示无限多的连续值，必定存在误差必定存在误差.该误差又称为量化噪声（与一般该误差又称为量化噪声（与一般的噪声不同）。的噪声不同）。2.2声音信号数字化（9）采样精度可用信噪比表示:R为编码位数2.2声音信号数字化（10）5.音频数据率音频数据率未经压缩的数字音频数据率（未经压缩的

15、数字音频数据率（bit/s）采样频率（采样频率（Hz）量化位数量化位数（bit）声道数声道数音频数据量（音频数据量（Byte）数据率（）数据率（bit/s）持持续时间（续时间（s）/82.2声音信号数字化（11）例：例：采样率11.025KHz、量化位8位、单声道，采集1分则：音频数据率11.025（KHz）8(bit)88.2(Kbit/s)音频数据量11.025（KHz）8(bit)60（s）/8 0.66(MByte)2.2声音信号数字化（12）6.声道数声道数声道数指的是一次同时产生的声波组数。声道数指的是一次同时产生的声波组数。（1）单声道）单声道缺乏位置感缺乏位置感（2）立体声

16、）立体声声音在录制过程中被安排到两个独立的声道，声音在录制过程中被安排到两个独立的声道，但所占空间比单声道多一倍。但所占空间比单声道多一倍。这种技术在音乐欣赏中尤为有用这种技术在音乐欣赏中尤为有用照旧是很多产品遵循的技术标准照旧是很多产品遵循的技术标准2.2声音信号数字化（13）n（3）四声道环绕n规定了4个发音点：前左、前右，后左、后右，同时建议增加一个低音音箱，以加强对低频信号的回放处理（4.1声道音箱系统广泛流行的缘由)。2.2声音信号数字化（14）o（4）5.1声道o运用于各类传统影院和家庭影院中，一些知名的声音录制压缩格式，都以5.1声音系统为技术蓝本的。增加了“.1”声道，一个中置

17、单元,负责传送低于80Hz的声音信号。o接受左(L)、中(C)、右(R)、左后(LS)、右后(RS)五个方向输出声音，使人产生犹如身临音乐厅的感觉。五个声道相互独立，中心声道大部份时间负责重放人物对白的部份；前置左/右声道则用来弥补在屏幕中心以外或不能从屏幕看到的动作及其它声音；后置环绕音效则是负责外围及整个背景音乐，让人感觉置身于整个场景的正中心，万马奔腾的震撼、喷射机从头顶咆哮而过的效果，就是拜它所赐；而马达达声、轰炸机的声音或是大鼓等震人心弦的重低音，则是由重低音喇叭一手包办2.2声音信号数字化（15）o7.音频信号的获得和处理音频信号的获得和处理o从人与计算机交互的角度看，音频信号的处

18、理包括下述从人与计算机交互的角度看，音频信号的处理包括下述3点：点：o人与计算机通信，也就是计算机接收音频信号。包括音人与计算机通信，也就是计算机接收音频信号。包括音频获得、语音的识别和理解。频获得、语音的识别和理解。o计算机与人通信，也就是计算机输出音频。包括音乐合计算机与人通信，也就是计算机输出音频。包括音乐合成、语音合成、声音的定位以及音频视频的同步。成、语音合成、声音的定位以及音频视频的同步。o人人-计算机计算机-人通信。人通过网络与异地的人进行语音通人通信。人通过网络与异地的人进行语音通信，相关的音频处理有语音采集、音频的编码和解码、信，相关的音频处理有语音采集、音频的编码和解码、音

19、频的存储、音频的传输、基于内容的检索等。音频的存储、音频的传输、基于内容的检索等。2.2声音信号数字化（16）n音频信号的获得音频信号的获得图图音频信号获得框图音频信号获得框图压缩压缩2.2声音信号数字化（17）o音频信号的处理音频信号的处理o 不不管管多多媒媒体体信信息息是是音音频频信信号号还还是是视视频频信信号号，其其数数据据量量都都是是特特别别巨巨大大的的。假假如如像像上上图图的的那那样样，经经A/D转转换换的的数数字字化化音音频频信信号号干干脆脆进进入入计计算算机机进进行行存存储储(记记录录)或或进进行行传传送送，是是不不行行取取的的。应应当当先先对对音音频频信信号号进进行行压压缩缩

20、，然然后后进进行行存存储储和和传传输输。数数据压缩可以由专用芯片来完成也可以由软件来实现。据压缩可以由专用芯片来完成也可以由软件来实现。o音频信号的回放音频信号的回放o 经经压压缩缩的的音音频频信信号号以以确确定定的的格格式式记记录录在在有有关关的的媒媒体体上上，例例如如，磁磁带带、磁磁盘盘及及光光盘盘等等，或或者者以以确确定定的的格格式式传传送送到到接接收端。收端。o 在在音音频频信信号号接接收收端端或或由由媒媒体体回回放放音音频频信信号号时时，首首先先由由专专用用的的硬硬件件或或软软件件对对压压缩缩数数据据进进行行解解压压缩缩，复复原原音音频频数数字字信信号，然后，经由下图所示的电路框图对

21、音频信号进行放音。号，然后，经由下图所示的电路框图对音频信号进行放音。2.2声音信号数字化（18）图图音频信号的回放框图音频信号的回放框图解压缩解压缩2.3声音质量的度量（1）1.声音信号的带宽:复合信号的频率范围称为频带宽度。2.客观质量度量 SNR=有用信号的平均功率/噪声的平均功率3.主观质量度量:人的感觉MOS:mean opinion score.在语音评价过程中，主观的质量评价比较客观的质量评价更为恰当。2.3声音质量的度量（2）2.3声音质量的度量（3）o通常把声音的质量分为5个等级，由低到高分别是：电话、调幅广播（AM）、调频广播(FM)、光盘(CD)、数字录音带(digit

22、al audio tape,DAT),它们运用的采样频率、样本精度、通道数和数据率如下表：2.4声音信号的编码（4）依据编码器的实现机理，依据编码器的实现机理，分成三大类分成三大类波形编码波形编码参数编码参数编码混合编码混合编码p语音编码分类语音编码分类2.4声音信号的编码（5）o波形编码（或非参数编码）波形编码（或非参数编码）语音编码系语音编码系统早期用的是波形编码方法。统早期用的是波形编码方法。o 目的：力图使重建的语音波形保持目的：力图使重建的语音波形保持原语音信号的波形形态。这种编码器是把语原语音信号的波形形态。这种编码器是把语音信号当成一般的波形信号来处理，而并未音信号当成一般的波形

23、信号来处理，而并未考虑语音信号的冗佘度。考虑语音信号的冗佘度。o 特点：优点是具有较强的适应实力，特点：优点是具有较强的适应实力，有较好的合成语音质量，然而编码速率高有较好的合成语音质量，然而编码速率高（64Kbits），编码效率极低。），编码效率极低。o脉冲编码调制（脉冲编码调制（PCM）、自适应增量调制）、自适应增量调制（ADM）、自适应差分编码（）、自适应差分编码（ADPCM）、）、自适应编码（自适应编码（APC）等都是属于波形编码）等都是属于波形编码（非参数编码）。（非参数编码）。o参数编码参数编码o 提取语音的一些特征信息进行编码，在收端提取语音的一些特征信息进行编码，在收端利用这些

24、特征参数合成语音。利用这些特征参数合成语音。o 20世纪世纪30年头末脉冲编码调制（年头末脉冲编码调制（PCM，Pulse Code Modulation）原理和声码器）原理和声码器（Vocoder）概念被提出后，语音数字编码便始终）概念被提出后，语音数字编码便始终沿着这两个方向发展。沿着这两个方向发展。2.42.4声音信号的编码声音信号的编码声音信号的编码声音信号的编码（6 6）2.4 声音信号的编码声音信号的编码（7）pp声码器又称参数编码（或模型编码），它主要是对提取的语音信号声码器又称参数编码（或模型编码），它主要是对提取的语音信号声码器又称参数编码（或模型编码），它主要是对提取的语音

25、信号声码器又称参数编码（或模型编码），它主要是对提取的语音信号特征参数进行编码。特征参数进行编码。特征参数进行编码。特征参数进行编码。pp 目的主要是使重建的语音信号具有尽可能高的可懂度，而不是目的主要是使重建的语音信号具有尽可能高的可懂度，而不是目的主要是使重建的语音信号具有尽可能高的可懂度，而不是目的主要是使重建的语音信号具有尽可能高的可懂度，而不是要求重建波形保持原语音波形的形态。因此，可能出现的状况是即要求重建波形保持原语音波形的形态。因此，可能出现的状况是即要求重建波形保持原语音波形的形态。因此，可能出现的状况是即要求重建波形保持原语音波形的形态。因此，可能出现的状况是即使重建语音的

26、可懂度高，但其时域波形与原语音的时域波形有较大使重建语音的可懂度高，但其时域波形与原语音的时域波形有较大使重建语音的可懂度高，但其时域波形与原语音的时域波形有较大使重建语音的可懂度高，但其时域波形与原语音的时域波形有较大的差别。的差别。的差别。的差别。pp 优点是可达到极低的编码速率而语音照旧可懂，编码速率可达优点是可达到极低的编码速率而语音照旧可懂，编码速率可达优点是可达到极低的编码速率而语音照旧可懂，编码速率可达优点是可达到极低的编码速率而语音照旧可懂，编码速率可达到到到到8Kbit8Kbits s、4 48Kbit8Kbits s甚至更低。甚至更低。甚至更低。甚至更低。pp 缺点是重建语

27、音自然度低，韵律感差，合成语音质量差。声码缺点是重建语音自然度低，韵律感差，合成语音质量差。声码缺点是重建语音自然度低，韵律感差，合成语音质量差。声码缺点是重建语音自然度低，韵律感差，合成语音质量差。声码器的典型代表是通道声码器、共峰声码器及线性预料声码器等。器的典型代表是通道声码器、共峰声码器及线性预料声码器等。器的典型代表是通道声码器、共峰声码器及线性预料声码器等。器的典型代表是通道声码器、共峰声码器及线性预料声码器等。pp 20世纪世纪80年头至今，不仅声码器和波形编码器得年头至今，不仅声码器和波形编码器得到了很大发展，并且还有一种全新的革命性编码方法到了很大发展，并且还有一种全新的革命

28、性编码方法被普遍推广，这类编码器叫混合编码器。被普遍推广，这类编码器叫混合编码器。这种编码器在传送器中对给定编码结构的全部可这种编码器在传送器中对给定编码结构的全部可能性进行综合，找出输人语音的最好编码形式，并从能性进行综合，找出输人语音的最好编码形式，并从这些可能性中发觉输入语音的最优主观匹配，然后用这些可能性中发觉输入语音的最优主观匹配，然后用数码表示这种主观匹配并发送到接收器。数码表示这种主观匹配并发送到接收器。利用线性预料、利用线性预料、VQ、ABS、感觉加权、后滤、感觉加权、后滤波等技术得到的多脉冲激励线性预料（波等技术得到的多脉冲激励线性预料（MPELP，Multi Pulse E

29、nspirit LinePrognosticate），），规则脉冲激励线性预料（规则脉冲激励线性预料（RPELP，Rule Pulse Enspirit Line Prognosticate），码本激励线性），码本激励线性预料（预料（CELP，Code Enspirit Line Prognosticate）编码速率达到编码速率达到816Kbits甚甚至更底，其话音质量高、编码速率低，但算法困难。至更底，其话音质量高、编码速率低，但算法困难。2.42.4声音信号的编码声音信号的编码声音信号的编码声音信号的编码（8 8）2.5电子乐器数字接口MIDI（1）p声音的符号化声音的符号化波形声音可以

30、把音乐、语音都进行数据波形声音可以把音乐、语音都进行数据化并且表示出来，但是并没有把它看成音乐化并且表示出来，但是并没有把它看成音乐和语音。和语音。对于声音的符号化（也可以称为抽象化）对于声音的符号化（也可以称为抽象化）表示包括两种类型：一种是音乐，一种是语表示包括两种类型：一种是音乐，一种是语音。音。2.5电子乐器数字接口MIDI（2）1）音乐的符号化）音乐的符号化MIDI MIDI(Music Instrument Digital Interface)是指是指乐器数字接口的国际标准。乐器数字接口的国际标准。MIDI的关键是作为媒体能够记录这些音乐的符号，的关键是作为媒体能够记录这些音乐的符

31、号，相应的设备能够产生和说明这些符号。它给出了一种得相应的设备能够产生和说明这些符号。它给出了一种得到音乐声音的方法。到音乐声音的方法。MIDI规定了数字乐器接口的国际标准，它定义了规定了数字乐器接口的国际标准，它定义了不同厂家的乐器连接到计算机的电缆和硬件的规范，它不同厂家的乐器连接到计算机的电缆和硬件的规范，它定义了从一个设备向另一个设备传送数据的通信接口。定义了从一个设备向另一个设备传送数据的通信接口。任何电子乐器，只要有处理任何电子乐器，只要有处理MIDI消息的微处理消息的微处理器和合适的硬件接口，就构成了一个器和合适的硬件接口，就构成了一个MIDI设备。当一设备。当一组组MIDI消息

32、通过音乐合成芯片处理时，合成器能说明消息通过音乐合成芯片处理时，合成器能说明这些符号并且产生音乐。这些符号并且产生音乐。2.5电子乐器数字接口MIDI（3）pMIDI术语术语pMIDI消息：指乐谱的数字描述，事实上是消息：指乐谱的数字描述，事实上是一段对音乐的符号描述。一段对音乐的符号描述。pMIDI设备：任何电子乐器，只要有处理设备：任何电子乐器，只要有处理MIDI消息的微处理器和合适的硬件接口，消息的微处理器和合适的硬件接口，就构成了一个就构成了一个MIDI设备。当一组设备。当一组MIDI消消息通过音乐合成芯片处理时，合成器能说明息通过音乐合成芯片处理时，合成器能说明这些符号并且产生音乐。

33、这些符号并且产生音乐。p复音：是指一个合成器每次可支持的最多音复音：是指一个合成器每次可支持的最多音符个数。符个数。p音色：音色就是音质，指与某特定的乐器相音色：音色就是音质，指与某特定的乐器相关联的特有的声音。关联的特有的声音。2.5电子乐器数字接口MIDI（4）oMIDI文件文件：记录：记录MIDI信息的标准文件格式。信息的标准文件格式。MIDI文件中包含音符、定时和多达文件中包含音符、定时和多达16个通道的乐器定义。个通道的乐器定义。文件中含有每个音符的信息，包括键、通道号、持续时文件中含有每个音符的信息，包括键、通道号、持续时间、音量和力度等。间、音量和力度等。MIDI文件中包含了一连

34、串的文件中包含了一连串的MIDI信息，信息，MIDI信息由若干个字节组成。下表为信息由若干个字节组成。下表为MIDI信息标准。信息标准。2.5电子乐器数字接口MIDI（5）通常第一个字节为状态字节，其高位为通常第一个字节为状态字节，其高位为1，数据字，数据字节高位为节高位为0。例如信息：。例如信息：9nkkvv，9表示音乐起始，表示音乐起始，n表示通道号（表示通道号（015），），kk表示键编号（表示键编号（0127），），vv表示速度（表示速度（0127）。）。2.5电子乐器数字接口MIDI（6）oMIDI的通道概念单个物理MIDI通道分为16个逻辑通道，每个逻辑通道可指定一种乐器。MID

35、I键盘可设置在这16个通道中的任何一个，MIDI合成器可以被设置在指定的通道上接受。通道的编码为015，0通道为基本通道。2.5电子乐器数字接口MIDI（7）oMIDI的物理接口标准各个MIDI设备通过专用的串行电缆(MIDI线)连接，并以 31.25 kbps（每字节10位）的速度传送着数字音乐信息。Thru Out InoMPC的声卡上包含一个内部合成器和标准的的声卡上包含一个内部合成器和标准的三类三类MIDI接口：接口：n从从MIDI设备接收信息的设备接收信息的MIDI输入，输入，n向向MIDI设备发送信息的设备发送信息的MIDI输出，输出，n从从MIDI设备输入并转到其他设备输入并转

36、到其他MIDI设备的设备的MIDIthru。2.52.5电子乐器数字接口电子乐器数字接口电子乐器数字接口电子乐器数字接口MIDI MIDI（8 8）2.5电子乐器数字接口MIDI（9）oo最常用的最常用的最常用的最常用的MIDIMIDIMIDIMIDI设备连接方法，是用一根设备连接方法，是用一根设备连接方法，是用一根设备连接方法，是用一根MIDIMIDIMIDIMIDI电缆将演奏电缆将演奏电缆将演奏电缆将演奏限制器的限制器的限制器的限制器的MIDI OUTMIDI OUTMIDI OUTMIDI OUT端口与计算机端口与计算机端口与计算机端口与计算机(内有音序器内有音序器内有音序器内有音序器)

37、的的的的MIDI MIDI MIDI MIDI ININININ端口相连接，同时用另一根端口相连接，同时用另一根端口相连接，同时用另一根端口相连接，同时用另一根MIDIMIDIMIDIMIDI电缆将计算机的电缆将计算机的电缆将计算机的电缆将计算机的MIDI MIDI MIDI MIDI OUTOUTOUTOUT端口与音源端口与音源端口与音源端口与音源MIDI INMIDI INMIDI INMIDI IN端口相连接，这样由演奏限制器端口相连接，这样由演奏限制器端口相连接，这样由演奏限制器端口相连接，这样由演奏限制器发出的演奏信息便可被计算机接收和存储，经过处理后发出的演奏信息便可被计算机接收和

38、存储，经过处理后发出的演奏信息便可被计算机接收和存储，经过处理后发出的演奏信息便可被计算机接收和存储，经过处理后送到音源去演奏。送到音源去演奏。送到音源去演奏。送到音源去演奏。pMIDI声音与波形数字音频的比较声音与波形数字音频的比较文件内容不同：弹奏指令声音波形本身文件内容不同：弹奏指令声音波形本身存储容量不同：半小时存储容量不同：半小时16位立体声音，位立体声音，MIDI数据为数据为200KB，无，无压缩的波形音频为压缩的波形音频为300MB，相差，相差1500倍之多。倍之多。可处理声音不同：波形音频可处理各类声音，包括语音、自然声音、可处理声音不同：波形音频可处理各类声音，包括语音、自然

39、声音、音乐等，而音乐等，而MIDI只适合于电子合成乐只适合于电子合成乐可编辑性不同：在音序器的帮助下，可敏捷编辑可编辑性不同：在音序器的帮助下，可敏捷编辑MIDI，自由变更，自由变更音调、音色等，而波形较困难。音调、音色等，而波形较困难。运用方式不同：运用方式不同：MIDI可用于长时间的音乐、伴乐、背景音效等。可用于长时间的音乐、伴乐、背景音效等。波形音频常用于语音表现，文语转换等（波形音频常用于语音表现，文语转换等（TTS）。）。2.52.5电子乐器数字接口电子乐器数字接口电子乐器数字接口电子乐器数字接口MIDI MIDI（1010）pMIDI音乐合成音乐合成运用电子元器件（计算机）生成音乐

40、的技运用电子元器件（计算机）生成音乐的技术称为电子音乐合成。术称为电子音乐合成。MIDI文件文件音序器音序器合成器合成器扬声器扬声器2.52.5电子乐器数字接口电子乐器数字接口电子乐器数字接口电子乐器数字接口MIDI MIDI（1111）2.5电子乐器数字接口MIDI（12）oMIDI文件：记录存储文件：记录存储MIDI信息的标准文件格式信息的标准文件格式oMIDI信息：一段音乐的描述，乐谱的数字信息：一段音乐的描述，乐谱的数字描述，弹奏指令描述，弹奏指令o（音符的信息包括按键、通道号、持续时间、音量和力（音符的信息包括按键、通道号、持续时间、音量和力度等）度等）o音序器（音序器（Sequen

41、cer）:用于记录、编辑、播放用于记录、编辑、播放o MIDI文件，输入并输出文件，输入并输出MIDI信息，分为软件信息，分为软件音序器与硬件音序器。音序器与硬件音序器。o合成器：接收数字音频，生成模拟信号波形合成器：接收数字音频，生成模拟信号波形oFM调频合成波表合成（调频合成波表合成（Wave Table）o 音乐合成器有很多不同的类型和芯片集。音乐合成器有很多不同的类型和芯片集。2.5电子乐器数字接口MIDI（13）MIDI的特点：的特点：与与波波形形声声音音相相比比，MIDI不不是是声声音音数数据据而而是是指指令令，所所以以数数据据量量要要少少得得多多。30分分钟钟的的音音乐乐，用用M

42、IDI文文件件记记录录只只需需200KB，用用16位位CD品品质质的的未未压压缩缩WAV文文件件记记录录需需317MB MIDI可可以以与与其其他他波波形形声声音音协协作作运运用用，形形成成伴伴乐乐的的效效果果。而两个波形声音一般是不能同时运用的而两个波形声音一般是不能同时运用的对对MIDI的的编编辑辑也也很很敏敏捷捷，用用户户可可以以自自由由地地变变更更音音调调、音音色色等属性，直到自己想要的效果等属性，直到自己想要的效果 MIDI在在音音质质上上还还不不能能与与真真正正的的乐乐器器完完全全相相像像。无无法法模模拟拟自然界中其它非乐曲类声音自然界中其它非乐曲类声音2.5电子乐器数字接口MID

43、I（14）2）语音的符号化）语音的符号化语音与文字是对应的。波形声音可以语音与文字是对应的。波形声音可以记录表示语音，它是不是语音取决于听者对记录表示语音，它是不是语音取决于听者对声音的理解。对语音的符号化事实上就是对声音的理解。对语音的符号化事实上就是对语音的识别，将语音转变为字符，反之也可语音的识别，将语音转变为字符，反之也可以将文字合成语音。以将文字合成语音。语音指构成人类语音信号的各种声音。在语音指构成人类语音信号的各种声音。在采集和存储上可以与波形声音一样，但由于采集和存储上可以与波形声音一样，但由于语音是由一连串的音素组成。语音是由一连串的音素组成。“一句话一句话”中包中包含很多

44、音节以及上下文过渡过程的连接体等含很多音节以及上下文过渡过程的连接体等特殊的信息，并且语音本身与语言有关，所特殊的信息，并且语音本身与语言有关，所以要把它作为一个独立的媒体来看待。以要把它作为一个独立的媒体来看待。2.6音频媒体的三维化处理（1）1三维虚拟声空间三维虚拟声空间虚拟听觉空间就是在虚拟环境中加虚拟听觉空间就是在虚拟环境中加入与视觉并行的三维虚拟声音，使收听入与视觉并行的三维虚拟声音，使收听者在模拟环境中收听到的声信号靠近在者在模拟环境中收听到的声信号靠近在真实环境声场中收听到的声信号。真实环境声场中收听到的声信号。三维虚拟声空间（三维虚拟声空间（Three Dimensional

45、 Virtual Acoustic，3DVA），是指用确定的声音设备人为），是指用确定的声音设备人为地产生出来的具有空间位的、声音空间。地产生出来的具有空间位的、声音空间。2.6音频媒体的三维化处理（2）三三维维听听觉觉的的运运用用明明显显地地依依靠靠于于用用户户对对听听觉觉空空间间中中各各种种信信息息源源的的定定位位实实力力。一一般般说说来来，三三维维虚虚拟拟声声空间要达到以下的一些目标：空间要达到以下的一些目标：在可听的范围内重现频率辨别度和动态范围；在可听的范围内重现频率辨别度和动态范围；在三维空间中精确地呈现声音的位置信息；在三维空间中精确地呈现声音的位置信息；能表达多个静止和移动的声

46、源；能表达多个静止和移动的声源；能和头部的动作具有确定的关联；能和头部的动作具有确定的关联；能够支持确定程度的交互。能够支持确定程度的交互。2.6音频媒体的三维化处理（3）23DVA的基本理论的基本理论人类感知声源位置的最基本的理论是双工理论，人类感知声源位置的最基本的理论是双工理论，该理论基于两种因素：该理论基于两种因素：两耳间声音的到达时间差两耳间声音的到达时间差ITD（Interaural Time Differences）两耳间声音的强度差两耳间声音的强度差IID（Interaural Intensity Differences）时间差是由于距离的缘由造成的，当声音从正面时间差是由于

47、距离的缘由造成的，当声音从正面传来时，距离相等，所以没有时间差；但若偏右传来时，距离相等，所以没有时间差；但若偏右3o，则，则到达右耳的时间就要比左耳约早到达右耳的时间就要比左耳约早30ms，而正是这，而正是这30ms，使我们辨别出了声源的位置。，使我们辨别出了声源的位置。强度差是由于信号衰减造成的，信号的衰减是因为强度差是由于信号衰减造成的，信号的衰减是因为距离产生的，在很多状况下是因为人的头部遮挡，使声距离产生的，在很多状况下是因为人的头部遮挡，使声音衰减，产生了强度的差别，使靠近声源一侧的耳朵听音衰减，产生了强度的差别，使靠近声源一侧的耳朵听到的声音强度要大于另一耳。到的声音强度要大于另

48、一耳。双工理论双工理论(Duplex Theory)-人类感知声源位置的最基本的理论人类感知声源位置的最基本的理论两耳间的时间差(ITD,Interaural Time Differences)：nITD（3*头部的半径*100/声音速度）*Sin(方位角)f 4kHz 方位角是人头部相对声源的角度。Example:方位角45，高频，头部半径9cm，声音速度343m/s。则：ITD0.037107s（模拟）把给右耳送声音之后隔37.1ms再给左耳送声音。ITD2.62.6音频媒体的三维化处理音频媒体的三维化处理音频媒体的三维化处理音频媒体的三维化处理（4 4）双工理论双工理论两耳间的强度差

49、(Interaural Intensity Differences)IID1.0(f/1000)0.8*Sin(方位角)其中f是频率。志向条件：无反射、无折射、单频率志向条件：无反射、无折射、单频率实际状况：困难、双工理论无法区分前后、垂直平面实际状况：困难、双工理论无法区分前后、垂直平面ITD信号的衰减造成3DVA理论较形象地说明：人耳对声音定位的特性，通过大理论较形象地说明：人耳对声音定位的特性，通过大脑的综合作用后，对有差别的声音信号进行了相对于空间位脑的综合作用后，对有差别的声音信号进行了相对于空间位置的定位。置的定位。2.62.6音频媒体的三维化处理音频媒体的三维化处理音频媒体的三维

50、化处理音频媒体的三维化处理（5 5）3.HRTF（Head-Related Transfer Function）方法方法生理学与心理学的探讨表明：人耳对声源方位的判定起确定作用的是耳廓声音信号的两个重要信息：空间真实感与环境真实感美国NASAAmes探讨中心音响试验室：在人的头部和耳廓的作用下，声波的时域与频域，对两耳都不同实现空间真实感的实现空间真实感的关键是：关键是：建立耳廓模型，建立耳廓模型，“双耳相关函数法双耳相关函数法”，利用，利用HRTF算法来实算法来实现三维虚拟声音现三维虚拟声音HRTF：与头部有关的转移函数。：与头部有关的转移函数。HRTF是一种声音定位的处理技术，由是一种声

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

15 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 音频信息获取处理优秀 PPT

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：第2章-音频信息的获取和处理优秀PPT.ppt
链接地址：https://www.taowenge.com/p-81215280.html