音频信息的获取和处理课件.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《音频信息的获取和处理课件.ppt》由会员分享,可在线阅读,更多相关《音频信息的获取和处理课件.ppt(79页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、音频信息的获取和处理第1页,此课件共79页哦2.1声音与听觉(1)o声音:声音:通过空气传播的一种连续的波,又称声波。由空气振动引起耳膜的振动,由人耳所感知。o声音的度量:声音的度量:频率与幅度(声波压力的大小)n频率用音高表示,幅度用声强表示n与看得见的水波类似第2页,此课件共79页哦2.1声音与听觉(2)o声音被分为无规则的噪音和有规则的音频信号;有规则音频信号是一种连续变化、周期性的模拟信号,可用一条连续的曲线来表示,称为声波。o声音分类声音分类n语音:人的说话声虽是一种特殊的媒体,但也是一种波形,所以和波形声音的文件格式相同。n音乐:规范的符号化了的声音,乐谱可转变为符号媒体形式。n音
2、效:指人类熟悉的其他声音,如动物发声、机器产生的声音、自然界的风雨雷电等。第3页,此课件共79页哦2.1声音与听觉(3)o带宽与听觉带宽与听觉 音频是指人类听觉所感知范围内的频率,也称声频。n次声波(subsonic):频率低于20Hz的信号。n超声波(ultrasonic):频率高于20KHz的信号。n音频(Audio):频率范围是20Hz20KHz的声音信号。是人耳能听到的声音信号,次声波和超声波之间的音。n音频为可听声波,即属于多媒体音频信息范畴。第4页,此课件共79页哦2.1声音与听觉(4)10 20 50 200 3.4k 7k 15k 20kCD-DAFM广播广播AM广播广播电话电
3、话f(Hz)频带频带第5页,此课件共79页哦2.1声音与听觉(5)o模拟声音信号:模拟声音信号:可分解成一系列正弦波的线性叠加。n最低频的音波称为基音,频率为基频n其余的为泛音(或称谐音),频率是基频的整数倍o声音三要素:音高、音色、音强声音三要素:音高、音色、音强n音调:由基频决定,基频取对数后与人的音调感觉成线形关系,基频的频率高则音调高,频率低则音调低。音调高时声音尖锐,俗称高音;音调低时声音沉闷,俗称低音。n音色:与波形相关,取决于声波的频谱,即由混入基音中的泛音决定,一个声波上的谐波越丰富,音色越好。n音强:即声音的响亮程度,与声音信号的幅度成正比。用声音信号的幅度取对数后再乘20所
4、得值来描述声强,以分贝(dB)为单位,此时称为音量,振幅高时音强强,振幅低时音强弱。第6页,此课件共79页哦2.1声音与听觉(6)第7页,此课件共79页哦o听觉特性听觉特性n1 1、等响曲线、等响曲线 响度与频率和强度有关,同一响度的声音可以在频率上和强度上有响度与频率和强度有关,同一响度的声音可以在频率上和强度上有很大的差别。很大的差别。先设一个音为标准音,给予固定的频率、强度和持续时间,例如先设一个音为标准音,给予固定的频率、强度和持续时间,例如1000Hz、40分贝、持续分贝、持续0.5秒;再给一个音也持续秒;再给一个音也持续0.5秒,但频率不同,通过调整秒,但频率不同,通过调整使其响度
5、听起来一样,得到的这样一组曲线称之为等响曲线。使其响度听起来一样,得到的这样一组曲线称之为等响曲线。意义:多媒体系统的声音再现意义:多媒体系统的声音再现频率强度2.12.1声音与听觉声音与听觉声音与听觉声音与听觉(7 7)第8页,此课件共79页哦n2 2、掩蔽、掩蔽 声音的响度同时也受到其他同时出现的声音的影响,声音的响度同时也受到其他同时出现的声音的影响,各种声音可能相互掩蔽。如:开会场景。各种声音可能相互掩蔽。如:开会场景。各种声音可以互相掩蔽,也就是说一种声音的出现可能使得各种声音可以互相掩蔽,也就是说一种声音的出现可能使得另一种声音难于听清。例如,本来是多种频率的声音的复合,另一种声音
6、难于听清。例如,本来是多种频率的声音的复合,但听众以为是另一种声音。但听众以为是另一种声音。声音的掩蔽效果可以欺骗人的听觉,可用于声音的压缩。声音的掩蔽效果可以欺骗人的听觉,可用于声音的压缩。2.12.1声音与听觉声音与听觉声音与听觉声音与听觉(8 8)第9页,此课件共79页哦n3 3、相位、相位 声音的加强与抵消(同相和反相)从声音的波形来看,声音的起点和方向也要反映声音从声音的波形来看,声音的起点和方向也要反映声音的特性,这就是声音的相位。的特性,这就是声音的相位。当两个声音相同相位完全相反时,它们将相互抵消;当两个声音相同相位完全相反时,它们将相互抵消;当两个声音相同而且相位也相同时,声
7、音就会得到加强。当两个声音相同而且相位也相同时,声音就会得到加强。声音的波形相位对于多声道系统的设计非常重要,应用于回声的消除、会议系统的声音设计等。2.12.1声音与听觉声音与听觉声音与听觉声音与听觉(9 9)第10页,此课件共79页哦声音的心理模拟声音的心理模拟 通过人工真实的方法,可以对视觉空间的景物进行再造或虚构,通过人工真实的方法,可以对视觉空间的景物进行再造或虚构,同样也可以对听觉空间的声音进行心理的模拟,这就是所谓的可听化同样也可以对听觉空间的声音进行心理的模拟,这就是所谓的可听化(audiolization)。用声音可以表达出一些声音的效果。)。用声音可以表达出一些声音的效果。
8、2.12.1声音与听觉(声音与听觉(声音与听觉(声音与听觉(1010)第11页,此课件共79页哦2.2声音信号数字化(1)1.从模拟信号到数字信号从模拟信号到数字信号n模拟信号:在时间与幅度上都连续,记为x(t).n离散信号:按一定的时间间隔T采样,得到的x(nT).oT为抽样周期,1/T抽样频率o此过程成为声音信号的采样n数字信号:把抽样序列x(nT)量化成一个有限个幅度的集合X(nT),此过程为模拟信号的量化过程。将量化后的离散信号的进行二进制编码,即以二进制编码来表示离散值的幅度,这种二进制编码信号叫做数字信号,第12页,此课件共79页哦2.2声音信号数字化(2)图图 模拟信号、离散信号
9、及数字信号模拟信号、离散信号及数字信号1、用连续变化的曲线表示模拟信号;、用连续变化的曲线表示模拟信号;2、用圆点表示以相等时间间隔取值而得到的离散信号;、用圆点表示以相等时间间隔取值而得到的离散信号;3、纵坐标上标的是幅度的二进制编码值。、纵坐标上标的是幅度的二进制编码值。第13页,此课件共79页哦2.2声音信号数字化(3)第14页,此课件共79页哦2.2声音信号数字化(4)2.声音数字化:声音数字化:nSampling,Quantization,Codingn采样频率与量化精度第15页,此课件共79页哦2.2声音信号数字化(5)n数字声音波形质量的主要技术参数数字声音波形质量的主要技术参数
10、o采样频率采样频率n等于波形被等分的份数,份数越多,质量越好等于波形被等分的份数,份数越多,质量越好11.025KHZ、22.05KHZ、44.1KHZo采样精度采样精度n每次采样信息量每次采样信息量8位、位、16位位o声道数声道数n声音产生的波形数,声音产生的波形数,如多种语言音频混存时,需要多声道如多种语言音频混存时,需要多声道n单声道、立体声道、单声道、立体声道、5.1声道声道数据量计算:(采样频率采样精度通道数 时间)/8 字节第16页,此课件共79页哦2.2声音信号数字化(6)3.采样频率采样频率n n奈奎斯特理论奈奎斯特理论奈奎斯特理论奈奎斯特理论(Nyquist)定理(1928年
11、提出原理,仙侬形成定理并应用,1933年卡切尼科夫用公式表述):采样频率2f这里f为被采样信号的最高频率。根根据据该该定定理理,只只要要采采样样频频率率高高于于信信号号中中最最高高频频率率的的两两倍倍,就就可可以以从从采采样样中中完完全全恢恢复复原原始始信信号号的的波波形形。因因为为人人耳耳所所能能听听到到的的频频率率范范围围为为20Hz到到20KHz,所所以以实实际际的的采采样样过过程程中中,为为了了达达到到好好的的效效果果,就就采采用用44.1KHz作作为为高高质质量量声声音音的的采采样样频频率率。如如果果达达不不到到这这么么高高的的频频率率,声声音音恢恢复复的的效效果果就就会会差差一一些
12、些,例例如如电电话话声声音音的的质质量量等等。一般来说,声音恢复和采样频率、信道带宽都有关。一般来说,声音恢复和采样频率、信道带宽都有关。第17页,此课件共79页哦2.2声音信号数字化(7)p采采样样频频率率与与声声音音的的质质量量关关系系最最为为紧紧密密。采采样样频频率率越越高高,声声音音质质量量越越接接近近原原始始声声音音,所所需需的的存存储储量量便便越越多多。标标准准的的采采样样频频率有三个:率有三个:44.1KHz,22.05kHz,和,和11.025kHz。第18页,此课件共79页哦2.2声音信号数字化(8)4.量化精度量化精度n存放一个采样点所需的比特数。一般的采样位数为存放一个采
13、样点所需的比特数。一般的采样位数为8位或位或16位,即把位,即把声音采集为声音采集为256等份或等份或65536等分。等分。n量化:量化:取样值(取样值(-,+)有限个数(量化值近似)有限个数(量化值近似)n若量化值有若量化值有J个,若用二进制表示,需要个,若用二进制表示,需要R=log(J)位位n量化误差:用有限的离散值表示无限多的连续值,必量化误差:用有限的离散值表示无限多的连续值,必然存在误差然存在误差.该误差又称为量化噪声(与一般的噪声该误差又称为量化噪声(与一般的噪声不同)。不同)。第19页,此课件共79页哦2.2声音信号数字化(9)采样精度可用信噪比表示:R为编码位数第20页,此课
14、件共79页哦2.2声音信号数字化(10)5.音频数据率音频数据率未经压缩的数字音频数据率(未经压缩的数字音频数据率(bit/s)采样频率(采样频率(Hz)量化位数量化位数(bit)声道数声道数音频数据量(音频数据量(Byte)数据率()数据率(bit/s)持持续时间(续时间(s)/8第21页,此课件共79页哦2.2声音信号数字化(11)例:例:采样率11.025KHz、量化位8位、单声道,采集1分则:音频数据率11.025(KHz)8(bit)88.2(Kbit/s)音频数据量11.025(KHz)8(bit)60(s)/8 0.66(MByte)第22页,此课件共79页哦2.2声音信号数字化
15、(12)6.声道数声道数 声道数指的是一次同时产生的声波组数。n(1)单声道 缺乏位置感n(2)立体声o声音在录制过程中被分配到两个独立的声道,但所占空间比单声道多一倍。o这种技术在音乐欣赏中尤为有用o依然是许多产品遵循的技术标准第23页,此课件共79页哦2.2声音信号数字化(13)n(3)四声道环绕规定了4个发音点:前左、前右,后左、后右,同时建议增加一个低音音箱,以加强对低频信号的回放处理(4.1声道音箱系统广泛流行的原因)。第24页,此课件共79页哦2.2声音信号数字化(14)o(4)5.1声道n运用于各类传统影院和家庭影院中,一些知名的声音录制压缩格式,都以5.1声音系统为技术蓝本的。
16、增加了“.1”声道,一个中置单元,负责传送低于80Hz的声音信号。n采用左(L)、中(C)、右(R)、左后(LS)、右后(RS)五个方向输出声音,使人产生犹如身临音乐厅的感觉。五个声道相互独立,中央声道大部份时间负责重放人物对白的部份;前置左/右声道则用来弥补在屏幕中央以外或不能从屏幕看到的动作及其它声音;后置环绕音效则是负责外围及整个背景音乐,让人感觉置身于整个场景的正中央,万马奔腾的震撼、喷射机从头顶呼啸而过的效果,就是拜它所赐;而马达达声、轰炸机的声音或是大鼓等震人心弦的重低音,则是由重低音喇叭一手包办第25页,此课件共79页哦第26页,此课件共79页哦2.2声音信号数字化(15)o7.
17、音频信号的获取和处理音频信号的获取和处理n从人与计算机从人与计算机交互的角度交互的角度看,音频信号的处理包括下述看,音频信号的处理包括下述3点:点:n人与计算机人与计算机通信,也就是计算机接收音频信号。包括音频获取、通信,也就是计算机接收音频信号。包括音频获取、语音的识别和理解。语音的识别和理解。n计算机与人通信计算机与人通信,也就是计算机输出音频。包括音乐合成、语音合,也就是计算机输出音频。包括音乐合成、语音合成、声音的定位以及音频视频的同步。成、声音的定位以及音频视频的同步。n人人-计算机计算机-人通信人通信。人通过网络与异地的人进行语音通信,相。人通过网络与异地的人进行语音通信,相关的音
18、频处理有语音采集、音频的编码和解码、音频的存储、关的音频处理有语音采集、音频的编码和解码、音频的存储、音频的传输、基于内容的检索等。音频的传输、基于内容的检索等。第27页,此课件共79页哦2.2声音信号数字化(16)n音频信号的获取音频信号的获取图图 音频信号获取框图音频信号获取框图压缩压缩第28页,此课件共79页哦2.2声音信号数字化(17)o音频信号的处理音频信号的处理 不不管管多多媒媒体体信信息息是是音音频频信信号号还还是是视视频频信信号号,其其数数据据量量都都是是十十分分巨巨大大的的。如如果果像像上上图图的的那那样样,经经A/D转转换换的的数数字字化化音音频频信信号号直直接接进进入入计
19、计算算机机进进行行存存储储(记记录录)或或进进行行传传送送,是是不不可可取取的的。应应该该先先对对音音频频信信号号进进行行压压缩缩,然然后后进进行行存存储储和和传传输输。数数据据压压缩缩可可以以由由专专用用芯芯片片来来完完成成也也可可以以由由软软件件来来实现。实现。o音频信号的回放音频信号的回放 经经压压缩缩的的音音频频信信号号以以一一定定的的格格式式记记录录在在有有关关的的媒媒体体上上,例例如如,磁磁带带、磁盘及光盘等,或者以一定的格式传送到接收端。磁盘及光盘等,或者以一定的格式传送到接收端。在在音音频频信信号号接接收收端端或或由由媒媒体体回回放放音音频频信信号号时时,首首先先由由专专用用的
20、的硬硬件件或或软软件件对对压压缩缩数数据据进进行行解解压压缩缩,恢恢复复音音频频数数字字信信号号,然然后后,经经由由下下图图所所示的电路框图对音频信号进行放音。示的电路框图对音频信号进行放音。第29页,此课件共79页哦2.2声音信号数字化(18)图图 音频信号的回放框图音频信号的回放框图解压缩解压缩第30页,此课件共79页哦2.3声音质量的度量(1)1.声音信号的带宽:复合信号的频率范围称为频带宽度。2.客观质量度量 SNR=有用信号的平均功率/噪声的平均功率3.主观质量度量:人的感觉MOS:mean opinion score.在语音评价过程中,主观的质量评价比较客观的质量评价更为恰当。第3
21、1页,此课件共79页哦2.3声音质量的度量(2)第32页,此课件共79页哦2.3声音质量的度量(3)o通常把声音的质量分为5个等级,由低到高分别是:电话、调幅广电话、调幅广播(播(AM)、调频广播)、调频广播(FM)、光盘、光盘(CD)、数字录音带、数字录音带(digital audio tape,DAT),它们使用的采样频率、样本精度、通道数和数据率如下表:第33页,此课件共79页哦2.4声音信号的编码(4)根据编码器的实现机理,根据编码器的实现机理,分成三大类分成三大类波形编码波形编码参数编码参数编码混合编码混合编码p语音编码分类语音编码分类第34页,此课件共79页哦2.4声音信号的编码(
22、5)o波形编码(或非参数编码)波形编码(或非参数编码)语音编码系统早期用的语音编码系统早期用的是波形编码方法。是波形编码方法。目的:目的:力图使重建的语音波形保持原语音信号的力图使重建的语音波形保持原语音信号的波形形状波形形状。这种编。这种编码器是把语音信号当成一般的波形信号来处理,而并未考虑语音信号的冗码器是把语音信号当成一般的波形信号来处理,而并未考虑语音信号的冗佘度。佘度。特点:特点:优点是具有较强的适应能力,有较好的合成语音质量,优点是具有较强的适应能力,有较好的合成语音质量,然而编码速率高(然而编码速率高(64Kbits),编码效率极低。),编码效率极低。o脉冲编码调制(脉冲编码调制
23、(PCM)、自适应增量调制()、自适应增量调制(ADM)、自适应差分编)、自适应差分编码(码(ADPCM)、自适应编码()、自适应编码(APC)等都是属于波形编码(非参数编码)等都是属于波形编码(非参数编码)。第35页,此课件共79页哦o参数编码参数编码 提取语音的一些特征信息进行编码,在收端利用这些提取语音的一些特征信息进行编码,在收端利用这些特征参数合成语音。特征参数合成语音。20世纪世纪30年代末年代末脉冲编码调制(脉冲编码调制(PCM,Pulse Code Modulation)原理和声码器)原理和声码器(Vocoder)概念被)概念被提出后,语音数字编码便一直沿着这两个方向发展。提出
24、后,语音数字编码便一直沿着这两个方向发展。2.42.4声音信号的编码声音信号的编码声音信号的编码声音信号的编码(6 6)第36页,此课件共79页哦2.4 声音信号的编码声音信号的编码(7)p p声码器又称参数编码声码器又称参数编码声码器又称参数编码声码器又称参数编码(或模型编码),它主要是对提取的语音信号特征参(或模型编码),它主要是对提取的语音信号特征参(或模型编码),它主要是对提取的语音信号特征参(或模型编码),它主要是对提取的语音信号特征参数进行编码。数进行编码。数进行编码。数进行编码。目的目的目的目的主要是使重建的语音信号具有尽可能高的主要是使重建的语音信号具有尽可能高的主要是使重建的
25、语音信号具有尽可能高的主要是使重建的语音信号具有尽可能高的可懂度可懂度可懂度可懂度,而不是要求重建波形,而不是要求重建波形,而不是要求重建波形,而不是要求重建波形保持原语音波形的形状。因此,可能出现的情况是即使重建语音的可懂保持原语音波形的形状。因此,可能出现的情况是即使重建语音的可懂保持原语音波形的形状。因此,可能出现的情况是即使重建语音的可懂保持原语音波形的形状。因此,可能出现的情况是即使重建语音的可懂度高,但其时域波形与原语音的时域波形有较大的差别。度高,但其时域波形与原语音的时域波形有较大的差别。度高,但其时域波形与原语音的时域波形有较大的差别。度高,但其时域波形与原语音的时域波形有较
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 音频 信息 获取 处理 课件
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内