音频编辑与处理精品文稿.ppt
音频编辑与处理第1 页,本讲稿共45 页教学基本内容 第一章 音频理论基础知识 第二章 影视音频设备和制作技术 第三章 音频的采集 第四章 用 Windows 录音机制作和处理音频 第五章 GOLDWAVE制作和处理音频 第六章 影视节目制作中音频的使用第2 页,本讲稿共45 页课程简介 本课程主要讲授数字音频技术的基础理论、数字音频设备的工作原理、性能指标及操作方法、音频的采集、基本编辑和各种特效处理技术等,使学生不仅能全面地掌握数字音频软件的各个知识点,还能运用这些知识点制作出实用的作品或实现某些较复杂音频处理目的。其主要任务是为计算机多媒体技术人员进行多媒体音频处理奠定必要的理论基础和实际处理能力,并最终提高分析问题、解决问题的能力。第3 页,本讲稿共45 页作业及基本要求 本课程教学侧重培养学生的基本技能上机实践作业为主,作业主要是三个专题:1.音频采集;2.音频编辑作业;3.影视节目中声音蒙太奇的应用。大作业的方式考核。三个专题上机作业,四次上机,4次作业均要上交,每次评定满分20分,总分80分。大作业为总成绩的80;考勤和平时作业为总成绩的20。综合评分满分100分。第4 页,本讲稿共45 页学习参考书 数字音频原理及应用 机械工业出版社 卢官明主著 MIDI技巧与数字音频 清华大学出版社 颜东成主编 多媒体技术基础 清华大学出版社 林福宗编著 音频视频编缉与制作中国水利水电出版社 韩雪涛主编第5 页,本讲稿共45 页第一章 音频理论基础知识第6 页,本讲稿共45 页第一节 声音听觉理论一、声波传播特点l 声音是以声波的形式进行传递和存在的。l 声波是一种机械波,具有纵波一般的波动特性,例如,反射、折射、绕射、干涉等。l 声波在传播中遇到障碍物时,它的能量一部分会被障碍物吸收,另一部分会被反射回来。若在一个封闭的室内,产生的反射声波会被周围的墙壁、天花板和其它障碍物所吸收和反射,形成一系列逐渐衰减的反射声波。第7 页,本讲稿共45 页第一节 声音听觉理论一、声波传播特点l 从声音的发出到衰减60分贝(至原来的百万分之一)所需要的时间称为混响时间。一般,常用混响时间的长短来表明封闭室的混响衰减速度。房间混响时间的长短对听音效果有很大影响。第8 页,本讲稿共45 页第一节 声音听觉理论二、声音的三要素 自然界里,几乎所有声源发出的声音都不是只有一种频率和强度的“纯音”,而是包含了许多频率不同、强度不等的声音分量,组合成的复合音响,而且在发声过程中,其频率和强度不断地变化着。在音响中,频率最低的分量称为基音或基频,其它频率中,凡比基频高的分量统称泛音。在很多情况下,泛音的频率呈基音频率的整数倍形式,所以泛音也称为高次谐波分量或谐音。第9 页,本讲稿共45 页第一节 声音听觉理论二、声音的三要素1、音调 音调是人耳对声音调子高低的主观感受。人耳的音调感觉与声音的频率相对应。频率高,音调高,声音听起来“尖”;频率低,音调低,声音听起来“低沉”。在复合音中,音调决定于基频频率。但是,音调的高低感觉与声音频率之间不存在线性的对应关系,而是呈一种对数曲线的对应关系。第10 页,本讲稿共45 页音乐中音阶的划分是在频率的对数坐标(20log)上取等分而得的:音阶C D E F G A B简谱符号1 2 3 4 5 6 7频率(Hz)261 293 330 349 392 440 494频率(对数)48.3 49.3 50.3 50.8 51.8 52.8 53.8示例1:不同音调 示例2:正常改变 第1 1 页,本讲稿共45 页第一节 声音听觉理论二、声音的三要素2、音色 音色是人耳听觉的一种感受特性,代表人耳区别相同响度和音调的两类不同声音的主观感觉。人耳对音色的感觉决定于声音中泛音各分量的数量、相对强度关系和分布。第12 页,本讲稿共45 页 当许多不同乐器同奏一曲时,尽管它们所发出声音的基频频率相同,人们还是能分辨出各种乐器的不同声音特色,这正是由于其它频率分量的多少和大小比例不同的缘故。音色与声音信号的频谱相对应。每一种声音都有一基本频率,称为基频或基音,同时还有与基频成倍数关系的许多不同倍频的频率,称为谐波或泛音。基本频率决定了声音的音调,而谐波成分则决定着声音的音色。第13 页,本讲稿共45 页 音色是由混入基音的泛音所决定的,高次谐波越丰富,音色就越有明亮感和穿透力。不同的谐波具有不同的幅值An和相位偏移n,由此产生各种音色效果。示例1:不同乐器 示例2:正常改变 第14 页,本讲稿共45 页第一节 声音听觉理论二、声音的三要素3、响度 人耳对声音强弱的主观感觉称为响度,主要取决于声波振幅的大小,但并非是线性关系。人耳可以听到的声强范围最小和最大之间的差别可达1013倍。声音的响度一般用声压与基准声压比值的对数值(称为声压级),单位是分贝(dB)。(声压级=20lgP/P。,一般以1kHz纯音为准进行测量,人耳刚能听到的声压为0dB)第15 页,本讲稿共45 页 通常认为,对于1kHz纯音,0dB20dB为宁静声,30dB-40dB为微弱声,50dB70dB为正常声,80dB100dB为响音声,110dB130dB为极响声。第16 页,本讲稿共45 页 分贝是用来表示声音或电信号的功率增减程度的一种计算单位。它是测量和比较一个系统的功率,电压和电流大小的相对单位。后来认识到人类对声音的响应是按对数规律变化的,于是有了一个单位就是贝尔(Bel),是电话的发明人的名字。实际中发现Bel太大了,于是取其十分之一作为一个新单位,就是分贝(dB)。L=lgI/I0(贝尔)I和I0分别表示待测声强和标准声强,L表示人耳感觉到的声音大小,I0是人耳能听到的最小声强,为10-23瓦/米2。第17 页,本讲稿共45 页第一节 声音听觉理论三、音频信号的指标1、频带宽度 频带宽度或称为带宽,它是描述组成复合信号的频率范围。音频信号的频带越宽,所包含的音频信号分量越丰富,音质越好。在自然界声音的频率范围很宽,有些是人类听不见的。第18 页,本讲稿共45 页第19 页,本讲稿共45 页声源种类频率范围下限频率 上限频率男性语音 100HZ 9000HZ女性语音 150HZ 10000HZ电话语音 200HZ 3 400HZ调幅广播 50HZ 7 000HZ调频广播 20HZ 15 000HZ专业音响 10HZ 40 000HZ第20 页,本讲稿共45 页第21 页,本讲稿共45 页第一节 声音听觉理论三、音频信号的指标2、动态范围 动态范围越大,信号强度的相对变化范围越大,音响效果越好。动态范围20log(信号的最大强度/信号的最小强度)第22 页,本讲稿共45 页第一节 声音听觉理论三、音频信号的指标3、信噪比 信噪比SNR(Signal to Noise Ratio)是有用信号与噪声之比的简称。噪音可分为环境噪音和设备噪音。信噪比越大,声音质量越好。第23 页,本讲稿共45 页第一节 声音听觉理论四、听觉的方位感和立体声 立体声是指具有空间感的声音,立体声技术是利用听觉的方位感,在放音时重现各种声源的方向及相对位置的技术。第24 页,本讲稿共45 页第一节 声音听觉理论1、双耳效应 人们是用两只耳朵同时听声音的,当某一声源至两只耳朵的距离不同时,此时两只耳朵虽然听到的是同一声波,但却存在着时间差(相位差)和强度差(声级差),由于到达两耳处的声波状态的不同,造成了听觉的方位感和深度感。这就是常说的“双耳效应”。人们设法特意地在两耳处制造出与实际声源所能够产生的相同的声波状态,就应该可以造成某个方向上有一个对应的声源幻象(声像)感觉,这正是立体声技术的生理基础。四、听觉的方位感和立体声第25 页,本讲稿共45 页第一节 声音听觉理论2、立体声系统 双声道的立体声系统是最基本的能给人的双耳造成立体声像的系统。在双声道立体声系统中,为了正确重现真实声源的方位,录音时必须用两只配对的传声器,信号传输通道也需独立分开,而且每条信道的放大率、频响特性等都必须相同,任何差异都会明显改变声像的位置,影响立体声效果。四、听觉的方位感和立体声示例:单声道双声道第26 页,本讲稿共45 页第二节 数字音频原理 由于音频信号是一种连续变化的模拟信号,而计算机只能处理和记录二进制的数字信号,因此,由自然音源而得的音频信号必须经过一定的变化和处理,变成二进制数据后才能送到计算机进行再编辑和存贮。第27 页,本讲稿共45 页第二节 数字音频原理把模拟信号转换成数字信号的过程称为模/数转换,它主要包括:采样:在时间轴上对信号数字化;量化:在幅度轴上对信号数字化;编码:按一定格式记录采样和量化后的数字数据。脉冲编码调制PCM(Pulse Code Modulation)是一种模数转换的最基本编码方法。CD-DA采用的就是这种编码方式。一、PCM编码原理第28 页,本讲稿共45 页动画演示 第29 页,本讲稿共45 页第二节 数字音频原理二、数字音频的技术指标1、采样频率 采样频率是指一秒钟内采样的次数。采样频率的选择应该遵循奈奎斯特(Harry Nyquist)采样理论:如果对某一模拟信号进行采样,则采样后可还原的最高信号频率只有采样频率的一半,或者说只要采样频率高于输入信号最高频率的两倍,就能从采样信号系列重构原始信号。第30 页,本讲稿共45 页 根据该采样理论,CD 激光唱盘采样频率为44KHz,可记录的最高音频为22KHz,这样的音质与原始声音相差无几,也就是我们常说的超级高保真音质。采样的三个标准频率分别为:44.1KHz,22.05KHz和11.025KHz。第31 页,本讲稿共45 页第二节 数字音频原理二、数字音频的技术指标2、量化位数 量化位是对模拟音频信号的幅度轴进行数字化,它决定了模拟信号数字化以后的动态范围。由于计算机按字节运算,一般的量化位数为8位和16位。量化位越高,信号的动态范围越大,数字化后的音频信号就越可能接近原始信号,但所需要的存贮空间也越大。第32 页,本讲稿共45 页第33 页,本讲稿共45 页第二节 数字音频原理二、数字音频的技术指标3、声道数 有单声道和双声道之分。双声道又称为立体声,在硬件中要占两条线路,音质、音色好,但立体声数字化后所占空间比单声道多一倍。第34 页,本讲稿共45 页第二节 数字音频原理二、数字音频的技术指标4、数据率 数据率为每秒bit数,它与信息在计算机中的实时传输有直接关系,其大小与采样指标和压缩方法有关。未经压缩的数字音频数据率可按下式计算:数据率采样频率(Hz)量化位数(bit)声道数(bit/s)第35 页,本讲稿共45 页采样率(KHz)量化位(bit)声道数容量(MB/min)等效音质11.025 8单0.66语音22.05 16双5.292 FM广播44.1 16双10.584 CD唱盘第36 页,本讲稿共45 页第二节 数字音频原理二、数字音频的技术指标5、编码算法数据文件格式 编码的作用其一是采用一定的格式来记录数字数据,其二是采用一定的算法来压缩数字数据以减少存贮空间和提高传输效率。压缩算法包括有损压缩和无损压缩;有损压缩指解压后数据不能完全复原,要丢失一部分信息。压缩编码的基本指标之一就是压缩比,它通常小于1。压缩越多,信息丢失越多、信号还原后失真越大。根据不同的应用,应该选用不同的压缩编码算法。第37 页,本讲稿共45 页u音频信号的压缩编码算法一、PCM编码 这是一种最通用的无压缩编码。特点是保真度高,解码速度快,但编码后的数据量大。CD-DA就是采用的这种编码方式。第38 页,本讲稿共45 页u音频信号的压缩编码算法二、ADPCM编码 ADPCM(Adaptive Differential Pulse Code Modulation),称为自适应差分脉冲编码。这是一种有损压缩,它丢掉了部分信息。由于人耳对声音的不敏感性,适当的有损压缩对视听播放效果影响不大。ADPCM记录的量化值不是每个采样点的幅值,而是该点的幅值与前一个采样点幅值之差。这样,每个采样点的量化位就不需要16 bit,由此可减少信号的容量。可选的幅度差的量化比特位为8 bit、4 bit和2 bit。SB16的ADPCM编码采用4 bit 量化位,对 CD音质信号压缩,其压缩比为1:4,压缩后基本上分辨不出失真。第39 页,本讲稿共45 页u音频信号的压缩编码算法三、MP3编码 MP3 是利用 MPEG Audio Layer 3 的技术,将音频信息用 1:10 甚至 1:12 的压缩率,变成容量较小的数据文件。当然这是一种有损压缩,但是人耳却基本不能分辨出失真来。按照这种算法,十张CD-DA的内容可以压缩到一张CD-ROM中,而且视听效果相当。由于MP3的高压缩比和优秀的压缩质量,目前已广泛应用于网络中,而且很可能是被盗版商利用的工具。因此,有关MP3的标准性和合理性目前还在争议之中。第40 页,本讲稿共45 页u音频信号的压缩编码算法四、Real Audio编码 Real Audio时Real networks推出的一种音乐压缩格式,它的压缩比可达到1:96,因此在网上比较流行。经过压缩的音乐文件可以在通过速率为14.4kbps的Modem上网的计算机中流畅回放,其最大特点是可以实现网上实时回访,也就是说边下载边播放。第41 页,本讲稿共45 页u音频信号的压缩编码算法五、Mpeg压缩编码 MPEG提供三种音频压缩编码的等级,分别为I,II和III级(Level I、Level II、Level III)。I级最简单,其目标是压缩后每声道位数据率为192Kb/s。II级比I级精度高一些,压缩后每声道位数据率为128Kb/s。III级增加了不定长编码、霍夫曼编码等一些先进的算法,可获得非常低的数据率和较高的保真度,压缩后每声道的位数据率为64Kb/s。如果要获得每声道64Kb/s的数据率,采用III级编码比采样II级编码的保真度好;要获得每声道128Kb/s的数据率,采用III级和II级编码的效果类似,但III级和II级都比I级的效果好。每声道128Kb/s的数据率或双声道256Kb/s的数据率可以提供优质的保真度,因此采用II级压缩编码对高保真、立体声音频足矣。第42 页,本讲稿共45 页第43 页,本讲稿共45 页第二节 数字音频原理三、音频数据文件格式音频数据文件主要分为两大类:波形文件和MIDI文件。波形文件记录的声波状态的各种特征值;MIDI(Musical Instrument Digital Interface)是乐器数字接口的缩写,它不是把音乐的波形进行数字化采样和编码,而是将数字式电子乐器的弹奏过程记录下来,如按了哪一个键、力度多大、时间多长等等。当需要播放这首乐曲时,根据记录的乐谱指令,通过音乐合成器生成音乐声波,经放大后由扬声器播出。第44 页,本讲稿共45 页常见的波形文件格式:1、wav格式:Windows 下通用的数字音频标准,用Windows的媒体播放器可以播放。2、mp3格式:采用MP3编码方式的文件,其数据量小质量高,用MP3播放器播放。3、asf格式:微软定义的一种流式媒体格式,支持多种压缩编码方案,适于低速网络。4、ra格式:采用Real Audio编码的一种流式媒体格式。第45 页,本讲稿共45 页