第2章音频处理技术与应用PPT讲稿.ppt

上传人：石***

文档编号：43541897

上传时间：2022-09-17

格式：PPT

页数：33

大小：4.06MB

( 4.5 )

《第2章音频处理技术与应用PPT讲稿.ppt》由会员分享，可在线阅读，更多相关《第2章音频处理技术与应用PPT讲稿.ppt（33页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、第第2章音频处理技术与应用章音频处理技术与应用第1页，共33页，编辑于2022年，星期一2.1 2.1 音频处理基础音频处理基础 2.1.1 2.1.1 音频信号概述音频信号概述 1.1.声波声波（1 1）声波：）声波：由各种机械振动或气流的扰动引起周围的弹性媒质发生波动。（2 2）声源：）声源：产生声波的物体，如人的声带和乐器等。（3 3）声音：）声音：人的听觉系统所能感知到的声波。音频的频率范围：20 Hz 20 Hz 20000 Hz20000 Hz 语音的频率范围：300 Hz 300 Hz 3000 Hz3000 Hz 次声波的频率范围：20 Hz 20 kHz 20 kHz（4

2、4）声强：）声强：对于一定频率的声音，要能引起听觉，其声强也有一定的范围。下限：是恰能引起人听觉的最小声强，叫做该频率的可闻阈可闻阈；上限：是指人耳能听闻的最大声强，高于上限的声强，人耳感觉疼痛，所以叫做该频率的疼痛阈疼痛阈。第2页，共33页，编辑于2022年，星期一 2 2声音的基本特征声音的基本特征（1 1）声波信号的物理特征）声波信号的物理特征周期（周期（T T）：）：声波的两个波峰或波谷之间的相对时间。频率（频率（f f）：）：周期的倒数（f=1/T），即每秒波峰或波谷出现的次数。声波的幅度幅度：从声波信号的基线到波峰的距离，幅度越大声波的强度也越大。通常也用声压、声强或声功率来表示

3、声音的强弱。常见声音的分贝量级分贝数分贝数低于低于2020202040404040606060607070707090909090听觉效果听觉效果能分辨能分辨轻声轻声正常交谈声正常交谈声吵闹吵闹很吵很吵听力受损听力受损第3页，共33页，编辑于2022年，星期一（2 2）声音信号的心理学特征）声音信号的心理学特征人们感知到的声音特征称为心理学特征。n音音调调：在音乐中又叫音音高高，是由发声物体的振动频率决定，振动越快（即频率越大），音调越高，振动越慢，音调越低。音调的高低与声音基频的对数（20*log）成线性关系。基频越低，给人的感觉是声音越低沉，基频频率增加一倍，在音乐上就叫升高了一个八度。

4、n音音色色：这是一个主观评价声音的量，声音的音色取决于声音的频谱结构，一般高次谐波越丰富，音色越明亮并具有穿透力。n响度：响度：人耳对声音强弱的感觉程度，主要取决于振幅和声压。通常振幅越大声音越响，其次人耳距离声源越远，声音越小。第4页，共33页，编辑于2022年，星期一（3 3）声音质量的评价）声音质量的评价声音质量与带宽有关，频率范围越宽，声音质量越高。声音质量与带宽有关，频率范围越宽，声音质量越高。1 1）声音质量分级：）声音质量分级：按照声音信号的频率范围将声音质量分为5级。质量频率范围采样频率（kHz）采样精度（bits）声道数数据率（非压缩）（kB/s）电话2003400 Hz88

5、单道声8AM1005500Hz11.0258单道声11.0FM2011000Hz22.05016立体声88.2CD-DA520000Hz44.116立体声176.4DVD096000Hz192246声道12002）信噪比（）信噪比（SNR）：即有用信号与噪音信号的强度之比，对于声卡或音箱则是其产生的最大不失真声音信号强度与同时发出的噪音强度之比，单位是分贝。3)声音主观质量的度量：声音主观质量的度量：主观度量就是大多数人对声音质量的感觉。第5页，共33页，编辑于2022年，星期一 3 3音频信号的表示音频信号的表示声音信号通过麦克风等设备转换成电信号以后称之为音频信号。（1 1）规则音频信号

6、）规则音频信号规则音频（规则音频（AudioAudio）是带有语音、音乐和音效的有规律的音频信号，承载了一定的信息。语音：是语言的载体，有丰富的语言内涵，是人类交流的信息载体。音乐：是一种规范的符号化的声音。音效：是指自然界中的其他各种声音效果，如掌声、雷鸣声，爆破声等。不规则声音：不规则声音：不包含任何信息的声音，比如噪声。（2 2）音频信号的表示）音频信号的表示 1 1）音频信号的数学表示）音频信号的数学表示其中：0表示声音的基音，决定了音调的高低，n0是0的n次谐波分量，代表了声音的泛音，决定了声音的音色，An 是声波的振幅，表示声音的强弱。第6页，共33页，编辑于2022年，星期一2

7、 2）音频信号的波形表示）音频信号的波形表示3 3）音频信号的频谱表示）音频信号的频谱表示信号频谱即信号频率的分布曲线。复杂的声音可以认为是振幅不同和频率不同的正弦声波叠加而成的，这些正弦声波的幅值按频率排列的图形就叫做频谱。男声的基频较低，低频分量更加丰富，因此听起来会更加低沉、浑厚。第7页，共33页，编辑于2022年，星期一声音信号是典型的连续信号，不仅在时间上是连续的，而且在幅度上也是连续的，属于模拟信号。（1）采样声音信号在时间轴上的离散化，即每隔相等的一段时间抽取一个信号样本。n采样频率：采样频率：每秒采样的次数。n奈奎斯特理论（奈奎斯特理论（Nyquist theoryNyq

8、uist theory）：采样频率不应低于声音信号最高频率的两倍，这样就能把以数字声音还原成原来的声音，称为无损数字化。f s =2 f max 电话话音信号的最高频率约为3.4kHz，所以采样频率取为8kHz。2.1.2 2.1.2 音频信号的数字化音频信号的数字化1.1.音频信号数字化音频信号数字化第8页，共33页，编辑于2022年，星期一（2 2）量化量化将连续的声音信号的幅度离散化。也就是采样过程中对每一个采样点的幅度值用数字量来表示。如果幅度的划分是等间隔的，称为线性量化，否则为非线性量化。n采样精度：采样精度：即量化的位数，位数越多量化等级数也越多，所能表示的声波幅度的动态范围

9、也越大，当然需要的存储空间也越大。第9页，共33页，编辑于2022年，星期一（3 3）编码编码就是用一组二进制码组来表示每一个有固定电平的量化值，或者说将量化值转换成二进制码组。典型的音频编码方法：脉冲编码调制法（PCM）。（4 4）数字音频的数据量）数字音频的数据量数据量数据量 =采样频率采样频率*采样精度采样精度*采样时间采样时间*声道数声道数 /8 /8 （字节数）（字节数）单声道：单声道：一次只产生一组声波数据，立体声：立体声：一次产生两组声波数据，分别送往左声道和右声道，根据声音到达人耳的时间差产生空间立体效果，因此立体声声波数据所需存储空间是单声道的一倍。例例2.12.1 计算

10、一分钟未压缩的高保真立体声数字声音数据的大小。60*（44100*16*2）/8=10.09 MB 一首未经压缩的4分钟的歌曲文件的大小约为40MB，那么一个容量为512MB的MP3播放器也只能播放12首这样的歌曲。第10页，共33页，编辑于2022年，星期一（1 1）电话质量的语音压缩标准）电话质量的语音压缩标准（2 2）调幅广播语音压缩标准：）调幅广播语音压缩标准：G.722G.722（3）高保真立体声的宽带音频压缩标准）高保真立体声的宽带音频压缩标准2.2.数字音频压缩标准数字音频压缩标准标准标准编码方法编码方法采样频率采样频率采样精度采样精度数据传输率数据传输率G.711G.711PC

11、MPCM8kHz8kHz8 8位位64kb/s64kb/sG.721G.721ADPCMADPCM8kHz8kHz8 8位位32kb/s32kb/sG.723G.723ADPCMADPCM8kHz8kHz8 8位位24kb/s24kb/sG.728G.728LD-CELPLD-CELP8kHz8kHz8 8位位16kb/s16kb/s电话质量的语音压缩标准电话质量的语音压缩标准 MPEGMPEG音频音频：是第一个高保真立体声音频压缩的国际标准，MPEG音频压缩标准提供三个独立的压缩层次：1 1）Layer 1Layer 1：编码器简单，输出数据率为384 kb/s，主要用于小型数字盒式磁带。2

12、 2）Layer 2Layer 2：编码器较复杂，输出数据率为256 kb/s192kb/s，主要应用于数字广播声音、数字音乐、CD-I和VCD等。3 3）Layer 3Layer 3：编码器复杂，输出数据率为64kb/s，主要用于ISDN上的声音传输。第11页，共33页，编辑于2022年，星期一1 1WAVWAV文件：文件：波形文件，微软开发，需要的存储量大，多用于存储简短的声音片段和旁白。2 2MIDIMIDI文件：文件：记录的是生成音乐的指令，MIDI文件短小。由于MIDI记录的并不是真正的声音，所以不同的声卡，不同软波表，不同硬件音源的音色是不相同的，相同的MIDI文件在不同的设备上播

13、放也会有不同的效果。MIDI文件适合作为背景音乐来播放。3 3MP3MP3文件：文件：是MPEG音频第3层的简称，有损压缩，压缩比达12:1。MP3利用人耳的掩蔽特性，削减音频中人耳听不到的成分，同时尽可能地维持原来的声音质量。4 4RARA文件：文件：属于Real Media的音频部分，采用流式传输方式，可以在非常低的带宽下提供足够好的音质让用户能在线聆听。5 5WMA WMA 文件文件：Windows Media的音频部分。无损压缩，支持多声道编码。6 6AC3AC3文件：文件：又叫杜比数码环绕立体声，压缩比10:1，提供的环绕声系统由5个全频域声道和1个超低音声道组成，称为5.1声道，一

14、般作为DVD的伴音。3.3.数字音频文件的格式数字音频文件的格式第12页，共33页，编辑于2022年，星期一2.1.3 2.1.3 数字音频处理技术数字音频处理技术 1.1.数字音频技术数字音频技术是一门结合数字技术和计算机技术而实现传统音频处理的技术。（1 1）特点特点1）处理长样本文件的能力，录音时间只受硬盘本身大小的限制。2）随机存取编辑3）无损编辑（2 2）应用）应用1）声音剪辑和CD刻录。2）日常音乐录制。3）大规模音乐录音和混音。4）影视音乐的制作与合成。5）多媒体音乐制作与合成。数字音频工作站第13页，共33页，编辑于2022年，星期一2 2）语音识别系统分类）语音识别系统

15、分类n对说话人说话方式的要求n孤立字（词）语音识别系统n连接字语音识别系统n连续语音识别系统。n对说话人的依赖程度n特定人语音识别系统n非特定人语音识别系统n词汇量大小n小词汇量语音识别系统n中等词汇量语音识别系统n大词汇量语音识别系统n无限词汇量语音识别系统。2.2.智能语音处理技术智能语音处理技术（1 1）语音识别技术）语音识别技术1 1）语音识别的发展）语音识别的发展n50年代:AT&T Bell实验室实现了第一个可识别十个英文数字的语音识别系统Audry系统。n60年代：提出动态规划（DP）和线性预测分析技术（LP）。n70年代：提出了动态时间归正技术（DTW），矢量量化（VQ）和隐马

16、尔可夫模型（HMM）理论，实现了特定人孤立语音识别系统。n90年代：开始进入实用阶段。第14页，共33页，编辑于2022年，星期一语音合成技术：语音合成技术：指利用计算机合成语音信号的技术，使计算机能够产生高清晰度和高自然度的连续语音，能够具有类似普通人的说话能力。n语音合成的三个层次语音合成的三个层次n从文字到语音n从概念到语音n从意向到语音n语音合成技术的特点语音合成技术的特点n清晰度n自然度n表现力n复杂度n语音合成的应用语音合成的应用n文语转换n语音查询（2 2）语音合成技术语音合成技术第15页，共33页，编辑于2022年，星期一2.2 2.2 音频处理软件音频处理软件 Adobe A

17、uditionAdobe Audition 单轨编辑界面2.2.3 Audition2.2.3 Audition界面及基本操作界面及基本操作第16页，共33页，编辑于2022年，星期一多轨编辑界面第17页，共33页，编辑于2022年，星期一第18页，共33页，编辑于2022年，星期一2.2.4 2.2.4 音频信号获取音频信号获取直接读取计算机磁盘上的音频文件；提取视频信息中的音频信号；直接录音。Audition允许同时进行多音轨录音，当然需要有相应的硬件支持，比如多个音频输入接口、多个录音源等。1 1录音前声卡设置录音前声卡设置 “选项|Windows 录音控制台”2 2建立录音文件建立

18、录音文件3 3导入伴奏音乐导入伴奏音乐4 4控制录音电平控制录音电平5 5录制声音录制声音第19页，共33页，编辑于2022年，星期一2.2.5 2.2.5 音频编辑音频编辑n单轨编辑状态：单轨编辑状态：可以进行波形的各种编辑处理和效果的设置，还可以分别对左右声道单独进行编辑处理。n多轨编辑状态多轨编辑状态：适合对多个音频轨道进行编辑、录制和合成处理。最多可以同时处理的轨道数为128个。按钮“R”R”表示录音、表示录音、“S”S”表示独奏、表示独奏、“M”M”表示静音表示静音。1 1常用编辑常用编辑（1 1）裁剪音频波形）裁剪音频波形n 波形的选择波形的选择n 波形的删除波形的删除n 波形的移

19、动与复制波形的移动与复制n 混合工具混合工具：拖曳左键选中波形，拖曳右键移动波形。n 时间选择工具时间选择工具：拖曳左键选中波形。n 移动移动/复制剪辑工具复制剪辑工具：拖曳左键移动波形，拖曳右键移动或复制。n 刷选工具刷选工具：拖曳左键可以播放选中波形。第20页，共33页，编辑于2022年，星期一（2 2）切分和合并音频）切分和合并音频在多轨编辑状态下，可以对活动音轨上的波形进行分割，使其变成多个波形片段，定位播放线，执行“剪辑|分割”或右击鼠标点选“分割”。使两段波形首尾相接，按住Ctrl键将两段波形都选中，执行“剪辑|合并”或右击鼠标点选“合并”即可完成。（3 3）锁定音频波形）锁定音

20、频波形锁定使音频的绝对时间位置不变。（4 4）编组音频波形）编组音频波形编组则可以使多个音频片段的相对位置固定，移动时可整体移动。第21页，共33页，编辑于2022年，星期一2 2包络编辑包络编辑（1 1）音量包络编辑）音量包络编辑音量包络是指音频波形随时间变化而产生的音量变化，也即是音量变化的走势曲线。通过控制音量包络曲线来改变某音轨上音频信号的音量大小，是一个非常直观和简单有效的方法。（2 2）声相包络编辑）声相包络编辑声相就是声音在左右声道中所处的位置。声相包络线处于中间时（0点），声音在左右声道中达到平衡的效果，声相包络线位于上半部，声音偏向左声道，声相包络线位于下半部，声音偏

21、向右声道。第22页，共33页，编辑于2022年，星期一（3 3）音量淡化包络编辑）音量淡化包络编辑 Audition提供了简单快速的音量淡化包络。在音乐制作领域，淡化（fade）指音量的逐渐变化，音量由小到大变化称为淡入（fade in），音量由大到小变化称为淡出（fade out）。3 3时间伸缩时间伸缩用于改变声音播放的速度，且不影响音高。“查看|启用剪辑时间伸展”时间伸缩第23页，共33页，编辑于2022年，星期一2.2.6 2.2.6 加载效果器加载效果器加载效果器按照使用方法可分为：n 插入效果器插入效果器：作用的声音范围是一整条音轨；n 波形效果器：波形效果器：作用于音轨中的某一

22、段音频片段；n 总线效果器：总线效果器：加载在总线通道上的效果器，它使所有的音轨加入相同的效果器；1 1插入效果器插入效果器多轨编辑下多轨编辑下第24页，共33页，编辑于2022年，星期一2 2波形效果器波形效果器单轨编辑下，允许多个音频片段分别进行效果设置。第25页，共33页，编辑于2022年，星期一2.2.7 2.2.7 效果器效果器Audition的效果器按照功能分为：n 振幅类效果器振幅类效果器n 滤波类效果器滤波类效果器n 延迟类效果器延迟类效果器n 降噪类效果器降噪类效果器n 波形发生类效果器波形发生类效果器n 声码器声码器第26页，共33页，编辑于2022年，星期一1 1动态

23、处理效果器动态处理效果器属于幅度类效果器，用于将某个范围内的声音电平按比例增大或缩小。第27页，共33页，编辑于2022年，星期一2 2嘶声抑制降噪器嘶声抑制降噪器降噪类效果器可以精确分析音频信号中的嗡嗡类噪音进行消除，也可以根据实际录音环境进行噪声消除。嘶声抑制降噪器可以消除音频信号中的高频嘶嘶声。第28页，共33页，编辑于2022年，星期一3 3合奏效果器合奏效果器属于延迟类效果器。对人声进行润色可以使发薄的声音变得厚实丰满。合奏效果器第29页，共33页，编辑于2022年，星期一2.3 2.3 音频处理综合应用举例音频处理综合应用举例 2.3.1 2.3.1 消除人声消除人声1 1、采

24、用、采用VSTVST插件直接消除插件直接消除菜单“效果|幅度|通道混音器”，在预设效果中选择“Vocal Cut”2 2、将双声道转换为单声道、将双声道转换为单声道菜单“编辑|转换采样类型”选中“单声道”左混音：100%右混音：-100%第30页，共33页，编辑于2022年，星期一2.3.2 2.3.2 穿插录音技术穿插录音技术穿插录音：用于对已经录制好的声音片段进行重新录制。1、首先选定不满意的声音片段2、右击选择“穿插入”，选定部分变为空白，轨道左边的“R”处于按下状态3、点按“录音”按钮，那么声音将自动录制在选定的片段。选择要重新录音的片段，右击选择“穿插入”进入录音状态第31页，共33页，编辑于2022年，星期一2.3.3 2.3.3 声音信号降噪处理声音信号降噪处理噪声样本“效果|恢复|降噪处理”第32页，共33页，编辑于2022年，星期一2.3.4 2.3.4 配乐诗朗诵制作配乐诗朗诵制作1、导入背景音乐2、录制诗朗诵 3、声音的降噪处理4、声音幅度调整：使用效果器“幅度|包络”，可以把音量“高的压下来，低的提上去”，对声音的力度起到平衡的作用。5、人声润色：使用“延迟效果器|混响”使录制的人声变得更为厚实和丰满。6、混音：打开“混音器”，调整音量大小 7、混缩输出：“文件|导出|混缩音频”第33页，共33页，编辑于2022年，星期一

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

18 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 音频处理技术应用 PPT 讲稿

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：第2章音频处理技术与应用PPT讲稿.ppt
链接地址：https://www.taowenge.com/p-43541897.html