第2章音频处理技术与应用PPT讲稿.ppt
《第2章音频处理技术与应用PPT讲稿.ppt》由会员分享,可在线阅读,更多相关《第2章音频处理技术与应用PPT讲稿.ppt(33页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第第2章音频处理技术与应用章音频处理技术与应用第1页,共33页,编辑于2022年,星期一2.1 2.1 音频处理基础音频处理基础 2.1.1 2.1.1 音频信号概述音频信号概述 1.1.声波声波 (1 1)声波:)声波:由各种机械振动或气流的扰动引起周围的弹性媒质发生波动。(2 2)声源:)声源:产生声波的物体,如人的声带和乐器等。(3 3)声音:)声音:人的听觉系统所能感知到的声波。音频的频率范围:20 Hz 20 Hz 20000 Hz20000 Hz 语音的频率范围:300 Hz 300 Hz 3000 Hz3000 Hz 次声波的频率范围:20 Hz 20 kHz 20 kHz(4
2、4)声强:)声强:对于一定频率的声音,要能引起听觉,其声强也有一定的范围。下限:是恰能引起人听觉的最小声强,叫做该频率的可闻阈可闻阈;上限:是指人耳能听闻的最大声强,高于上限的声强,人耳感觉疼痛,所以叫做该频率的疼痛阈疼痛阈。第2页,共33页,编辑于2022年,星期一 2 2声音的基本特征声音的基本特征(1 1)声波信号的物理特征)声波信号的物理特征 周期(周期(T T):):声波的两个波峰或波谷之间的相对时间。频率(频率(f f):):周期的倒数(f=1/T),即每秒波峰或波谷出现的次数。声波的幅度幅度:从声波信号的基线到波峰的距离,幅度越大声波的强度也越大。通常也用声压、声强或声功率来表示
3、声音的强弱。常见声音的分贝量级分贝数分贝数低于低于2020202040404040606060607070707090909090听觉效果听觉效果能分辨能分辨轻声轻声正常交谈声正常交谈声吵闹吵闹很吵很吵听力受损听力受损第3页,共33页,编辑于2022年,星期一(2 2)声音信号的心理学特征)声音信号的心理学特征 人们感知到的声音特征称为心理学特征。n音音调调:在音乐中又叫音音高高,是由发声物体的振动频率决定,振动越快(即频率越大),音调越高,振动越慢,音调越低。音调的高低与声音基频的对数(20*log)成线性关系。基频越低,给人的感觉是声音越低沉,基频频率增加一倍,在音乐上就叫升高了一个八度。
4、n音音色色:这是一个主观评价声音的量,声音的音色取决于声音的频谱结构,一般高次谐波越丰富,音色越明亮并具有穿透力。n响度:响度:人耳对声音强弱的感觉程度,主要取决于振幅和声压。通常振幅越大声音越响,其次人耳距离声源越远,声音越小。第4页,共33页,编辑于2022年,星期一(3 3)声音质量的评价)声音质量的评价声音质量与带宽有关,频率范围越宽,声音质量越高。声音质量与带宽有关,频率范围越宽,声音质量越高。1 1)声音质量分级:)声音质量分级:按照声音信号的频率范围将声音质量分为5级。质量频率范围采样频率(kHz)采样精度(bits)声道数数据率(非压缩)(kB/s)电话2003400 Hz88
5、单道声8AM1005500Hz11.0258单道声11.0FM2011000Hz22.05016立体声88.2CD-DA520000Hz44.116立体声176.4DVD096000Hz192246声道12002)信噪比()信噪比(SNR):即有用信号与噪音信号的强度之比,对于声卡或音箱则是其产生的最大不失真声音信号强度与同时发出的噪音强度之比,单位是分贝。3)声音主观质量的度量:声音主观质量的度量:主观度量就是大多数人对声音质量的感觉。第5页,共33页,编辑于2022年,星期一 3 3音频信号的表示音频信号的表示 声音信号通过麦克风等设备转换成电信号以后称之为音频信号。(1 1)规则音频信号
6、)规则音频信号 规则音频(规则音频(AudioAudio)是带有语音、音乐和音效的有规律的音频信号,承载了一定的信息。语音:是语言的载体,有丰富的语言内涵,是人类交流的信息载体。音乐:是一种规范的符号化的声音。音效:是指自然界中的其他各种声音效果,如掌声、雷鸣声,爆破声等。不规则声音:不规则声音:不包含任何信息的声音,比如噪声。(2 2)音频信号的表示)音频信号的表示 1 1)音频信号的数学表示)音频信号的数学表示其中:0表示声音的基音,决定了音调的高低,n0是0的n次谐波分量,代表了声音的泛音,决定了声音的音色,An 是声波的振幅,表示声音的强弱。第6页,共33页,编辑于2022年,星期一2
7、 2)音频信号的波形表示)音频信号的波形表示3 3)音频信号的频谱表示)音频信号的频谱表示 信号频谱即信号频率的分布曲线。复杂的声音可以认为是振幅不同和频率不同的正弦声波叠加而成的,这些正弦声波的幅值按频率排列的图形就叫做频谱。男声的基频较低,低频分量更加丰富,因此听起来会更加低沉、浑厚。第7页,共33页,编辑于2022年,星期一 声音信号是典型的连续信号,不仅在时间上是连续的,而且在幅度上也是连续的,属于模拟信号。(1)采样 声音信号在时间轴上的离散化,即每隔相等的一段时间抽取一个信号样本。n采样频率:采样频率:每秒采样的次数。n奈奎斯特理论(奈奎斯特理论(Nyquist theoryNyq
8、uist theory):采样频率不应低于声音信号最高频率的两倍,这样就能把以数字声音还原成原来的声音,称为无损数字化。f s =2 f max 电话话音信号的最高频率约为3.4kHz,所以采样频率取为8kHz。2.1.2 2.1.2 音频信号的数字化音频信号的数字化1.1.音频信号数字化音频信号数字化第8页,共33页,编辑于2022年,星期一 (2 2)量化量化 将连续的声音信号的幅度离散化。也就是采样过程中对每一个采样点的幅度值用数字量来表示。如果幅度的划分是等间隔的,称为线性量化,否则为非线性量化。n采样精度:采样精度:即量化的位数,位数越多量化等级数也越多,所能表示的声波幅度的动态范围
9、也越大,当然需要的存储空间也越大。第9页,共33页,编辑于2022年,星期一(3 3)编码编码 就是用一组二进制码组来表示每一个有固定电平的量化值,或者说将量化值转换成二进制码组。典型的音频编码方法:脉冲编码调制法(PCM)。(4 4)数字音频的数据量)数字音频的数据量 数据量数据量 =采样频率采样频率*采样精度采样精度*采样时间采样时间*声道数声道数 /8 /8 (字节数)(字节数)单声道:单声道:一次只产生一组声波数据,立体声:立体声:一次产生两组声波数据,分别送往左声道和右声道,根据声音到达人耳的时间差产生空间立体效果,因此立体声声波数据所需存储空间是单声道的一倍。例例2.12.1 计算
10、一分钟未压缩的高保真立体声数字声音数据的大小。60*(44100*16*2)/8=10.09 MB 一首未经压缩的4分钟的歌曲文件的大小约为40MB,那么一个容量为512MB的MP3播放器也只能播放12首这样的歌曲。第10页,共33页,编辑于2022年,星期一(1 1)电话质量的语音压缩标准)电话质量的语音压缩标准(2 2)调幅广播语音压缩标准:)调幅广播语音压缩标准:G.722G.722(3)高保真立体声的宽带音频压缩标准)高保真立体声的宽带音频压缩标准2.2.数字音频压缩标准数字音频压缩标准标准标准编码方法编码方法采样频率采样频率采样精度采样精度数据传输率数据传输率G.711G.711PC
11、MPCM8kHz8kHz8 8位位64kb/s64kb/sG.721G.721ADPCMADPCM8kHz8kHz8 8位位32kb/s32kb/sG.723G.723ADPCMADPCM8kHz8kHz8 8位位24kb/s24kb/sG.728G.728LD-CELPLD-CELP8kHz8kHz8 8位位16kb/s16kb/s电话质量的语音压缩标准电话质量的语音压缩标准 MPEGMPEG音频音频:是第一个高保真立体声音频压缩的国际标准,MPEG音频压缩标准提供三个独立的压缩层次:1 1)Layer 1Layer 1:编码器简单,输出数据率为384 kb/s,主要用于小型数字盒式磁带。2
12、 2)Layer 2Layer 2:编码器较复杂,输出数据率为256 kb/s192kb/s,主要应用于数字广播声音、数字音乐、CD-I和VCD等。3 3)Layer 3Layer 3:编码器复杂,输出数据率为64kb/s,主要用于ISDN上的声音传输。第11页,共33页,编辑于2022年,星期一1 1WAVWAV文件:文件:波形文件,微软开发,需要的存储量大,多用于存储简短的声音片段和旁白。2 2MIDIMIDI文件:文件:记录的是生成音乐的指令,MIDI文件短小。由于MIDI记录的并不是真正的声音,所以不同的声卡,不同软波表,不同硬件音源的音色是不相同的,相同的MIDI文件在不同的设备上播
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 音频 处理 技术 应用 PPT 讲稿
限制150内