第2章音频信息处理PPT讲稿.ppt
《第2章音频信息处理PPT讲稿.ppt》由会员分享,可在线阅读,更多相关《第2章音频信息处理PPT讲稿.ppt(33页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第第2章章 音频信息处理音频信息处理第1页,共33页,编辑于2022年,星期一2.1 2.1 音频处理基础音频处理基础 1.1.声波声波 (1 1)声波:)声波:由各种机械振动或气流扰动引起周围的弹性媒质发生波动。由各种机械振动或气流扰动引起周围的弹性媒质发生波动。(2 2)声源:)声源:产生声波的物体,如人的声带和乐器等。产生声波的物体,如人的声带和乐器等。(3 3)声音:)声音:人的听觉系统所能感知到的声波。人的听觉系统所能感知到的声波。音频的频率范围:音频的频率范围:20 Hz 20 Hz 20000 Hz 20000 Hz 语音的频率范围:语音的频率范围:300 Hz 300 Hz 3
2、000 Hz 3000 Hz 次声波的频率范围:次声波的频率范围:20 Hz 20 kHz 20 kHz(4 4)声强:)声强:对于一定频率的声音,要能引起听觉,其声强也有一定的范围。对于一定频率的声音,要能引起听觉,其声强也有一定的范围。下限:是恰能引起人听觉的最小声强,叫做该频率的下限:是恰能引起人听觉的最小声强,叫做该频率的可闻阈可闻阈;上限:是指人耳能听闻的最大声强,高于上限的声强,人耳感觉疼痛,上限:是指人耳能听闻的最大声强,高于上限的声强,人耳感觉疼痛,所以叫做该频率的所以叫做该频率的疼痛阈疼痛阈。第2页,共33页,编辑于2022年,星期一常见声音的分贝量级分贝数分贝数低于低于20
3、20202040404040606060607070707090909090听觉效果听觉效果能分辨能分辨轻声轻声正常交谈声正常交谈声吵闹吵闹很吵很吵听力受损听力受损2声音的基本特征声音的基本特征(1)声波信号的物理特征)声波信号的物理特征 周期(周期(T T):):声波的两个波峰或波谷之间的相对时间。声波的两个波峰或波谷之间的相对时间。频率(频率(f f):):周期的倒数周期的倒数(f=1/Tf=1/T),即每秒波峰或波谷出现的次数。,即每秒波峰或波谷出现的次数。幅度幅度:从声波信号的基线到波峰的距离,幅度越大声波的强度也越大。通常也用声压、声强:从声波信号的基线到波峰的距离,幅度越大声波的强
4、度也越大。通常也用声压、声强或声功率来表示声音的强弱。或声功率来表示声音的强弱。第3页,共33页,编辑于2022年,星期一 人们感知到的声音特征称为心理学特征人们感知到的声音特征称为心理学特征n音音调调:在在音音乐乐中中又又叫叫音音高高,是是由由发发声声物物体体的的振振动动频频率率决决定定,振振动动越越快快(即即频频率率越越大大),音音调调越越高高,振振动动越越慢慢,音音调调越越低低。音音调调的的高高低低与与声声音音基基频频的的对对数数(20*log20*log)成成线线性性关关系系。基基频频越越低低,给给人人的的感感觉觉是是声声音音越越低低沉沉,基基频频频频率率增增加加一一倍,在音乐上就叫升
5、高了一个八度。倍,在音乐上就叫升高了一个八度。n音音色色:这这是是一一个个主主观观评评价价声声音音的的量量,声声音音的的音音色色取取决决于于声声音音的的频频谱谱结结构构,一一般般高次谐波越丰富,音色越明亮并具有穿透力。高次谐波越丰富,音色越明亮并具有穿透力。n响度:响度:人耳对声音强弱的感觉程度,主要取决于振幅和声压。通常振幅越大声音人耳对声音强弱的感觉程度,主要取决于振幅和声压。通常振幅越大声音越响,其次人耳距离声源越远,声音越小。越响,其次人耳距离声源越远,声音越小。(2 2)声音信号的心理学特征)声音信号的心理学特征第4页,共33页,编辑于2022年,星期一(3 3)声音质量的评价)声音
6、质量的评价声音质量与带宽有关,频率范围越宽,声音质量越高。声音质量与带宽有关,频率范围越宽,声音质量越高。1 1)声音质量分级:)声音质量分级:按照声音信号的频率范围将声音质量分为按照声音信号的频率范围将声音质量分为5 5级。级。质量质量频率范围频率范围采样频率采样频率(kHzkHz)采样精度采样精度(bitsbits)声道数声道数数据率(非压缩)数据率(非压缩)(kB/skB/s)电话电话2002003400 Hz3400 Hz8 88 8单道声单道声8 8AMAM1001005500Hz5500Hz11.02511.0258 8单道声单道声11.011.0FMFM202011000Hz11
7、000Hz22.05022.0501616立体声立体声88.288.2CD-DACD-DA5 520000Hz20000Hz44.144.11616立体声立体声176.4176.4DVDDVD0 096000Hz96000Hz19219224246 6声道声道120012002 2)信噪比()信噪比(SNRSNR):即有用信号与噪音信号的强度之比,单位是分贝。:即有用信号与噪音信号的强度之比,单位是分贝。3)3)声音主观质量的度量:声音主观质量的度量:主观度量就是大多数人对声音质量的感觉。主观度量就是大多数人对声音质量的感觉。第5页,共33页,编辑于2022年,星期一3音频信号的表示音频信号的
8、表示(1 1)音频信号:)音频信号:通过麦克风等设备转换成的电信号。通过麦克风等设备转换成的电信号。n规则音频信号:规则音频信号:带有语音、音乐和音效的有规律的音频信号,承载了一定的信息。带有语音、音乐和音效的有规律的音频信号,承载了一定的信息。语音:语音:语言的载体,有丰富的语言内涵,是人类交流的信息载体。语言的载体,有丰富的语言内涵,是人类交流的信息载体。音乐:音乐:是一种规范的符号化的声音。是一种规范的符号化的声音。音效:音效:自然界中各种声音效果,如掌声、雷鸣声,爆破声等。自然界中各种声音效果,如掌声、雷鸣声,爆破声等。n不规则音频信号:不规则音频信号:不包含任何信息的声音,比如噪声。
9、不包含任何信息的声音,比如噪声。(2 2)音频信号的表示)音频信号的表示 音频信号的数学表示音频信号的数学表示0:声音的基音,决定了音调的高低声音的基音,决定了音调的高低n0:声音的泛音,决定了声音的音色声音的泛音,决定了声音的音色An:声波的振幅,表示声音的强弱声波的振幅,表示声音的强弱第6页,共33页,编辑于2022年,星期一2 2)音频信号的波形表示)音频信号的波形表示3 3)音频信号的频谱表示)音频信号的频谱表示 声音信号的频率分布曲线。复杂的声音是由振幅和频率不同的正弦声波叠加而成的,声音信号的频率分布曲线。复杂的声音是由振幅和频率不同的正弦声波叠加而成的,这些正弦波的幅值按频率排列
10、的图形就叫做频谱。这些正弦波的幅值按频率排列的图形就叫做频谱。男声的基频较低,低频分量更加丰富,因此听起来会更加低沉、浑厚。男声的基频较低,低频分量更加丰富,因此听起来会更加低沉、浑厚。第7页,共33页,编辑于2022年,星期一1.1.音频信号数字化音频信号数字化 声音信号在时间上是连续的,在幅度上也是连续的,属于模拟信号。声音信号在时间上是连续的,在幅度上也是连续的,属于模拟信号。(1 1)采样)采样 声音信号在时间上的离散化,即每隔一段时间抽取一个信号样本。声音信号在时间上的离散化,即每隔一段时间抽取一个信号样本。n采样频率:采样频率:每秒采样的次数。每秒采样的次数。n奈奎斯特理论(奈奎斯
11、特理论(Nyquist theoryNyquist theory):采样频率不低于声音信号最高频率的两:采样频率不低于声音信号最高频率的两倍,这样就能把数字声音还原成原来的声音,称为无损数字化。倍,这样就能把数字声音还原成原来的声音,称为无损数字化。f s =2 f max f s =2 f max 电话话音信号的最高频率约为电话话音信号的最高频率约为3.4kHz3.4kHz,所以采样频率取为,所以采样频率取为8kHz8kHz。2.1.2 2.1.2 音频信号的数字化音频信号的数字化第8页,共33页,编辑于2022年,星期一 声音信号在幅度上的离散化声音信号在幅度上的离散化 也就是采样过程中对
12、每一个采样点的幅度值用数字量来表示。如果幅度的也就是采样过程中对每一个采样点的幅度值用数字量来表示。如果幅度的划分是等间隔的,称为线性量化,否则为非线性量化。划分是等间隔的,称为线性量化,否则为非线性量化。n采样精度:采样精度:即量化的位数,位数越多量化等级数也越多,所能表示的声波幅即量化的位数,位数越多量化等级数也越多,所能表示的声波幅度的动态范围也越大,当然需要的存储空间也越大。度的动态范围也越大,当然需要的存储空间也越大。(2 2)量化量化第9页,共33页,编辑于2022年,星期一(3 3)编码编码 就是用一组二进制码组来表示每一个有固定电平的量化值,或者说将量化值转就是用一组二进制码组
13、来表示每一个有固定电平的量化值,或者说将量化值转换成二进制码组。换成二进制码组。典型的音频编码方法:脉冲编码调制法(典型的音频编码方法:脉冲编码调制法(PCMPCM)。)。(4 4)数字音频的数据量)数字音频的数据量 数据量数据量=采样频率采样频率*采样精度采样精度*采样时间采样时间*声道数声道数/8 /8 (字节数)(字节数)单声道:单声道:一次只产生一组声波数据,立体声:立体声:一次产生两组声波数据。例例2.12.1 计算一分钟未压缩的高保真立体声数字声音数据的大小。60*(44100*16*2)/8=10.09 MB 一首未经压缩的4分钟的歌曲文件的大小约为40MB,那么一个容量为512
14、MB的MP3播放器也只能播放12首这样的歌曲。第10页,共33页,编辑于2022年,星期一2.数字音频压缩标准数字音频压缩标准(1 1)电话质量的语音压缩标准)电话质量的语音压缩标准(2 2)调幅广播语音压缩标准)调幅广播语音压缩标准 G.722 G.722(3)高保真立体声的宽带音频压缩标准)高保真立体声的宽带音频压缩标准标准标准编码方法编码方法采样频率采样频率采样精度采样精度数据传输率数据传输率G.711G.711PCMPCM8kHz8kHz8 8位位64kb/s64kb/sG.721G.721ADPCMADPCM8kHz8kHz8 8位位32kb/s32kb/sG.723G.723ADP
15、CMADPCM8kHz8kHz8 8位位24kb/s24kb/sG.728G.728LD-CELPLD-CELP8kHz8kHz8 8位位16kb/s16kb/s电话质量的语音压缩标准电话质量的语音压缩标准 MPEG音频:第一个高保真立体声音频压缩的国际标准 MPEG音频压缩标准提供三个独立的压缩层次:1)Layer 1:编码器简单,输出数据率为384 kb/s,主要用于小型数字盒式磁带。2)Layer 2:编码器较复杂,输出数据率为256 kb/s192kb/s,主要应用于数字广播声音、数字音乐、CD-I和VCD等。3)Layer 3:编码器复杂,输出数据率为64kb/s,主要用于ISDN上
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第2章 音频信息处理PPT讲稿 音频 信息处理 PPT 讲稿
限制150内