多媒体技术基础与实验教程讲稿.ppt
《多媒体技术基础与实验教程讲稿.ppt》由会员分享,可在线阅读,更多相关《多媒体技术基础与实验教程讲稿.ppt(43页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第一页,讲稿共四十三页哦3.1 3.1 数字音频基本原理数字音频基本原理 3.1.1 人类听觉特性人类听觉特性 3.1.2 数字音频数字音频 3.1.3 声音声音 3.1.4 语音语音3.2 常用音频编码算法和标准常用音频编码算法和标准 3.2.1 音频信号编码基础音频信号编码基础 3.2.2 常用音频编码标准常用音频编码标准 3.2.3 国际音频标准化组织简介国际音频标准化组织简介3.3 音频文件格式音频文件格式 3.3.1 波形格式波形格式 3.3.2 MIDI格式格式 3.3.3 MP3压缩格式压缩格式 3.3.4 流式音频格式流式音频格式3.4 音频处理工具音频处理工具Audition
2、 3.4.1 功能概述功能概述 3.4.2 编辑环境编辑环境 3.4.3 基本操作基本操作第二页,讲稿共四十三页哦u 听阈与听域听阈与听域l 声压声压是声音在空气中传播而改变了空气原来的恒定静压力,导致了原有静压力的微小增加是声音在空气中传播而改变了空气原来的恒定静压力,导致了原有静压力的微小增加。l 声压级声压级为某一点的声压与参考声压的比值取常用对数后再乘以为某一点的声压与参考声压的比值取常用对数后再乘以20的值,单位是分贝,即的值,单位是分贝,即dB,是反,是反映声音大小、强弱的最基本参量映声音大小、强弱的最基本参量。l 听阈(听阈(Auditory Threshold)就是指人能听到的
3、最低声压级(就是指人能听到的最低声压级(Sound Power Level,SPL)。纯音的听阈与频率有关:)。纯音的听阈与频率有关:1kHz纯音的听阈约为纯音的听阈约为4dB,10kHz时听阈约为时听阈约为15dB,到,到40kHz时达到时达到50dB左右。左右。l 听域(听域(Audible Area)是指人能感知的声音的范围,正常人耳能够感知的频率范围大致是是指人能感知的声音的范围,正常人耳能够感知的频率范围大致是20Hz20kHz;正常人能感知声音的声压级范围是;正常人能感知声音的声压级范围是0128dB,这里基准声压级(,这里基准声压级(0 dB SPL)的)的定义是定义是10-16
4、W/cm2。l 声强声强是指单位时间(是指单位时间(1秒钟)内声音通过垂直于声音传播方向单位面积(秒钟)内声音通过垂直于声音传播方向单位面积(cm2)的声能量。)的声能量。第三页,讲稿共四十三页哦听域频率曲线 在“听阈-频率”曲线和“痛阈-频率”曲线之间的区域就是人耳的听觉范围。第四页,讲稿共四十三页哦u 音调音调 音调(音调(Pitch)是指人耳对不同频率声音的一种主观感受。人们定义一个是指人耳对不同频率声音的一种主观感受。人们定义一个高于听阈高于听阈40dB、频率为、频率为1kHz的纯音的音调为的纯音的音调为1000Mel,这里,这里Mel是音调的度量单是音调的度量单位。位。u 响度和响度
5、级响度和响度级 响度(响度(Loudness)是人耳感受声音强弱的主观感觉程度,这种感觉与音强、频率和波形是人耳感受声音强弱的主观感觉程度,这种感觉与音强、频率和波形都有关系,其度量单位为都有关系,其度量单位为Sone,定义一个高于听阈,定义一个高于听阈40dB、频率为、频率为1kHz的纯音的响度为的纯音的响度为1Sone。响度级(响度级(Loudness Level)是指某响度与基准响度相比的等级,其度量单位为是指某响度与基准响度相比的等级,其度量单位为Phon,定义,定义1kHz纯音的声强级为纯音的声强级为1Phon。0.030.063 10LN 40lg33.33NL响度和响度级响度和响
6、度级L之间满足以下转换关系:之间满足以下转换关系:第五页,讲稿共四十三页哦第六页,讲稿共四十三页哦u 绝对听觉门限绝对听觉门限 绝对听觉门限(绝对听觉门限(Absolute Threshold of Hearing,ATH)指一个人在没有噪声的环境下,能指一个人在没有噪声的环境下,能够产生听觉,感知到一个纯音信号(某各频率点)的最小能量幅度。通常绝对听觉门限用声压级表够产生听觉,感知到一个纯音信号(某各频率点)的最小能量幅度。通常绝对听觉门限用声压级表示(示(dB),静音为),静音为0dB,痛阈为,痛阈为140dB。绝对听觉门限曲线 横坐标是频率,表示人所能听到的横坐标是频率,表示人所能听到的
7、声音的频率范围声音的频率范围 纵坐标是声压级,表示所有低于门限纵坐标是声压级,表示所有低于门限的声音信号人类一般听不到的声音信号人类一般听不到 第七页,讲稿共四十三页哦u 临界频带临界频带 临界频带(临界频带(Critical BandCritical Band)是指一个纯音可以被以它为中心频是指一个纯音可以被以它为中心频率,并且具有一定频带宽度的连续噪声所掩蔽,在这一频带内噪声功率率,并且具有一定频带宽度的连续噪声所掩蔽,在这一频带内噪声功率等于该纯音的功率。这使该纯音处于刚能被听到的临界状态,即称这一等于该纯音的功率。这使该纯音处于刚能被听到的临界状态,即称这一带宽为临界频带宽度。临界频带
8、的单位叫带宽为临界频带宽度。临界频带的单位叫Bark(Bark(巴克巴克)。频率 500Hz的情况下,)1000/log(491fBark第八页,讲稿共四十三页哦临临 界界频频 带带频频 率率 (Hz)(Hz)临临 界界频频 带带频频 率率 (Hz)(Hz)低端高端宽度低端高端宽度001001001320002320320110020010014232027003802200300100152700315045033004001001631503700550440051011017370044007005510630120184400530090066307701401953006400110
9、077709201502064007700130089201080160217700950018009108012701902295001200025001012701480210231200015500350011148017202402415500220506550121720200028025个临界频带 第九页,讲稿共四十三页哦u 同时掩蔽同时掩蔽 同时掩蔽(同时掩蔽(Simultaneous MaskingSimultaneous Masking)又称频域掩蔽,分为噪声又称频域掩蔽,分为噪声掩蔽音调(掩蔽音调(NMTNMT)、音调掩蔽噪声()、音调掩蔽噪声(TMNTMN)和噪声掩蔽噪声
10、()和噪声掩蔽噪声(NMNNMN)。)。掩蔽效应是指当两个响度不等的声音作用于人耳时,响度较高的掩蔽效应是指当两个响度不等的声音作用于人耳时,响度较高的频率成分的存在会影响到对响度较低的频率成分的感知。频率成分的存在会影响到对响度较低的频率成分的感知。当两个或更多的音频信号到达人内耳时,掩蔽声与被掩蔽当两个或更多的音频信号到达人内耳时,掩蔽声与被掩蔽声同时作用发生掩蔽效应,就称同时掩蔽。即在一个临界频带声同时作用发生掩蔽效应,就称同时掩蔽。即在一个临界频带内,一个大的信号可以掩蔽掉若干小的信号,无论这个信号是内,一个大的信号可以掩蔽掉若干小的信号,无论这个信号是音调还是噪音。音调还是噪音。第十
11、页,讲稿共四十三页哦声强为60dB、频率为1000Hz纯音的掩蔽效应 声强为60dB、频率不同的纯音的掩蔽效应 第十一页,讲稿共四十三页哦u 异时掩蔽异时掩蔽 异时掩蔽(异时掩蔽(Nonsimultaneous MaskingNonsimultaneous Masking)又称时域掩蔽,是指掩蔽效应发生在掩又称时域掩蔽,是指掩蔽效应发生在掩蔽声与被掩蔽声不同时出现的情况下。此时出现的一个强音频信号可以掩蔽到蔽声与被掩蔽声不同时出现的情况下。此时出现的一个强音频信号可以掩蔽到之前若干时间和之后若干时间的音频信号的感知,即导前掩蔽或滞后掩蔽。而之前若干时间和之后若干时间的音频信号的感知,即导前掩蔽
12、或滞后掩蔽。而对之前音频信号的掩蔽效应衰减的很快,大概只能掩蔽到几毫秒,而对之后音对之前音频信号的掩蔽效应衰减的很快,大概只能掩蔽到几毫秒,而对之后音频信号的掩蔽可以持续到最长频信号的掩蔽可以持续到最长200ms200ms的时间。的时间。时域掩蔽 第十二页,讲稿共四十三页哦u 感知熵感知熵 感知熵(感知熵(Perceptual EntropyPerceptual Entropy)是指利用心理声学的掩蔽现象和信号能量是指利用心理声学的掩蔽现象和信号能量化原理来测量音频信号中感知相关的信息。一般以位(化原理来测量音频信号中感知相关的信息。一般以位(bitbit)作为单位,实际上表)作为单位,实际上
13、表示了音频信号压缩的理论极限。示了音频信号压缩的理论极限。感知熵的计算原理是:感知熵的计算原理是:1 1)对原始信号加)对原始信号加20482048点汉明窗,然后进行点汉明窗,然后进行20482048点的快速傅立叶变换,将时域音频点的快速傅立叶变换,将时域音频信号转换成频域信号。信号转换成频域信号。2 2)通过临界频带分析得到掩蔽阈值,然后对信号进行噪音类和纯音类判决)通过临界频带分析得到掩蔽阈值,然后对信号进行噪音类和纯音类判决,最后将绝对听阈考虑进来。,最后将绝对听阈考虑进来。第十三页,讲稿共四十三页哦声音的采样与量化 第十四页,讲稿共四十三页哦u 采样采样 l 采样(采样(Samplin
14、gSampling)是把模拟信号在时间域上以固定的时间间隔对波形的值进行是把模拟信号在时间域上以固定的时间间隔对波形的值进行抽取,再用若干位二进制数表示。抽取,再用若干位二进制数表示。l 两个取样点之间的间隔称为两个取样点之间的间隔称为采样周期采样周期,它的倒数称为采样频率。,它的倒数称为采样频率。l 根据采样定理,当采样频率大于信号最高频率的两倍时,在采样过程中就不会丢根据采样定理,当采样频率大于信号最高频率的两倍时,在采样过程中就不会丢失信息,并且可以用采样后的信号重构原始信号,就能不失真地还原出原始的声失信息,并且可以用采样后的信号重构原始信号,就能不失真地还原出原始的声音信号。若超过此
15、取样频率,就会包含冗余的信息;若低于此频率,则将产生不音信号。若超过此取样频率,就会包含冗余的信息;若低于此频率,则将产生不同程度的失真。同程度的失真。l 对于音频,最常用的采样频率有三种:对于音频,最常用的采样频率有三种:44.1KHz44.1KHz、22.05 KHz22.05 KHz、11.025 KHz11.025 KHz,其,其中中44.1KHz44.1KHz采样频率是最常用的频率。采样频率是最常用的频率。l 声道数声道数是声音通道的个数,指一次采样的声音波形个数。单声道一次采样一个声音波是声音通道的个数,指一次采样的声音波形个数。单声道一次采样一个声音波形,双声道一次采样两个声音波
16、形,又称为形,双声道一次采样两个声音波形,又称为“立体声立体声”。第十五页,讲稿共四十三页哦u 量化量化 l 量化(量化(QuantityQuantity)的目的是将采样后的信号波形的幅度值(样本)进行离散化处)的目的是将采样后的信号波形的幅度值(样本)进行离散化处理,样本从模拟量转化成了数字量。量化位数越多,所得到的量化值越接近原始波理,样本从模拟量转化成了数字量。量化位数越多,所得到的量化值越接近原始波形的采样值。形的采样值。l 一个量化器就是将整个信号的幅度值分成若干个有限的区间,并且把落入同一个一个量化器就是将整个信号的幅度值分成若干个有限的区间,并且把落入同一个区间的样本点都用同一个
17、幅度值来表示,这个幅度值称为量化值。区间的样本点都用同一个幅度值来表示,这个幅度值称为量化值。l 量化方式有三种:零记忆量化、分组量化和序列量化。量化方式有三种:零记忆量化、分组量化和序列量化。零记忆量化是每次量化一个模拟采样值,并对所有采样点都使用相同的量零记忆量化是每次量化一个模拟采样值,并对所有采样点都使用相同的量化器特性;化器特性;分组量化是从可能输出组的离散集合中选出一组输出值,代表一组输入的分组量化是从可能输出组的离散集合中选出一组输出值,代表一组输入的模拟采样值;模拟采样值;序列量化是在分组或非分组的基础上,用一些邻近采样点的信息对采样序列进行序列量化是在分组或非分组的基础上,用
18、一些邻近采样点的信息对采样序列进行量化。量化。第十六页,讲稿共四十三页哦第十七页,讲稿共四十三页哦说话的意向及概念语言语音知觉语义情感压 缩、存储读 取、解压语音合成语音编/解码语音识别计算机处理语音过程 第十八页,讲稿共四十三页哦第十九页,讲稿共四十三页哦方法算法名称数据率标准应用质量波形编码PCM均匀量化 公共网ISDN配音4.04.5(A)(A)64kbpsG.711APCM自适应量化 DPCM差值量化ADPCM自适应差值量化32kbpsG.721SBADPCM子带自适应差值量化64kbpsG.7225.3kbps6.3kbpsG.723参数编码LPC线性预测编码2.4kbps 保密话声
19、2.53.5混合编码CELPC码激励LPC4.6kbps 移动通信3.74.0VSELP矢量和激励LPC8kbps 语音通信RPE-LTP长时预测规则码激励13.2kbps ISDNLD-CELP低延时码激励LPC16kbpsG.728G.729 MPEG多自带感知编码128kbps CD5.0 AC-3感知编码 音响5.0第二十页,讲稿共四十三页哦u 数据压缩条件数据压缩条件 信号之所以能被压缩和编码,其原因主要是:信号之所以能被压缩和编码,其原因主要是:数据冗余度数据冗余度:音频信号通常存在很多用处不大的空间,空间越多,数据的冗余度也:音频信号通常存在很多用处不大的空间,空间越多,数据的冗
20、余度也越大。通过数据的压缩,将这些不用的空间去掉。越大。通过数据的压缩,将这些不用的空间去掉。人类不敏感因素人类不敏感因素:一般而言,人类对某些频率的音频信号不敏感,有无这些频率的音频,:一般而言,人类对某些频率的音频信号不敏感,有无这些频率的音频,在听觉上影响不大,在数据压缩时,就可去掉这些不敏感的成分,以便减少数据量。在听觉上影响不大,在数据压缩时,就可去掉这些不敏感的成分,以便减少数据量。信息传输与存储信息传输与存储:信息承载在数据上进行传输和存储,在传输和存储前后需要对数据进:信息承载在数据上进行传输和存储,在传输和存储前后需要对数据进行压缩处理,其原理如下图所示。行压缩处理,其原理如
21、下图所示。有损压缩 无损压缩数据解压缩数据解压缩数据存储数据传输第二十一页,讲稿共四十三页哦u 数据冗余数据冗余 冗余是指信息所具有的各种性质中多余的无用空间,其多余的程度叫做冗余度。信息冗余是指信息所具有的各种性质中多余的无用空间,其多余的程度叫做冗余度。信息量、数据量和冗余量之间的关系如下:量、数据量和冗余量之间的关系如下:duDIIDdu其中,表示信息量表示信息量表示数据量表示数据量表示冗余量,冗余量应在数据存储和传输之前去掉。表示冗余量,冗余量应在数据存储和传输之前去掉。冗余大致可分为:空间冗余、时间冗余、冗余大致可分为:空间冗余、时间冗余、统计冗余、统计冗余、结构冗余、信息熵冗余、结
22、构冗余、信息熵冗余、知识冗余等知识冗余等 第二十二页,讲稿共四十三页哦u 数据压缩算法分类数据压缩算法分类 数据压缩算法可根据解码后的数据与压缩前的原始数数据压缩算法可根据解码后的数据与压缩前的原始数据是否完全一致分为据是否完全一致分为“无损压缩编码无损压缩编码”和和“有损压缩编码有损压缩编码”两大类。两大类。第二十三页,讲稿共四十三页哦第二十四页,讲稿共四十三页哦第二十五页,讲稿共四十三页哦u G.711 64kb/sG.711 64kb/s脉冲编码调制(脉冲编码调制(PCMPCM)19721972年,年,CCITTCCITT对一个对一个64kb/s64kb/s压扩型压扩型PCMPCM编码器
23、做了标准化,称为编码器做了标准化,称为G.711G.711。事实上,已经有两个标准。在北美和日本,使用事实上,已经有两个标准。在北美和日本,使用律律PCMPCM。世界其他国家使用。世界其他国家使用A A律律PCMPCM。两种编码器的信号都用两种编码器的信号都用8 8位表示。有效信噪比大约为位表示。有效信噪比大约为35dB35dB,能够把它们看成浮点,能够把它们看成浮点表示值。表示值。A A律律PCMPCM对小信号有较大的分辨力,其动态范围等效于对小信号有较大的分辨力,其动态范围等效于1212位线性位线性PCMPCM。律律PCMPCM等效于等效于1313位线性位线性PCMPCM,但是,对于小信号
24、有更多的粒状噪声。,但是,对于小信号有更多的粒状噪声。两种编码器在总体性能上是等效的。很重要的一点是:当这两种编码器级联时,可以考两种编码器在总体性能上是等效的。很重要的一点是:当这两种编码器级联时,可以考虑为省去了最低有效位,而降低为虑为省去了最低有效位,而降低为56kb/s56kb/s的比特率。的比特率。第二十六页,讲稿共四十三页哦u G.721G.721、G.723G.723自适应差分脉码调制(自适应差分脉码调制(ADPCMADPCM)19841984年,年,CCITTCCITT首先对首先对32kbit/s32kbit/s自适应差分脉码调制(自适应差分脉码调制(ADPCMADPCM)做了
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多媒体技术 基础 实验 教程 讲稿
限制150内