第3章数字音频处理技术PPT讲稿.ppt
《第3章数字音频处理技术PPT讲稿.ppt》由会员分享,可在线阅读,更多相关《第3章数字音频处理技术PPT讲稿.ppt(42页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第第3章数字音章数字音频处理技理技术第1页,共42页,编辑于2022年,星期一v音频携带的信息量大、精细、准确。音频携带的信息量大、精细、准确。v以一个汉字的表示为例:以一个汉字的表示为例:表示方式表示方式数据量数据量信息信息汉字内码汉字内码2 2 字节字节汉字名称汉字名称点阵点阵32 32 几百字节几百字节带有字型、字体特征的汉字带有字型、字体特征的汉字声音声音几千字节几千字节汉字名称、声学特性、意向或情感汉字名称、声学特性、意向或情感第2页,共42页,编辑于2022年,星期一3.1 音频基础v声音是由物体振动产生的。声音是通过一定介质声音是由物体振动产生的。声音是通过一定介质传播的连续的波
2、,叫声波。传播的连续的波,叫声波。v声音的强弱(声音的强弱(音强音强)体现在声波压力的大小上)体现在声波压力的大小上(振幅振幅)。)。v音调音调的高低体现在声音的的高低体现在声音的频率频率上。上。v音色音色指声音的感觉特性,与声音波形相关。指声音的感觉特性,与声音波形相关。第3页,共42页,编辑于2022年,星期一2.1.1 声音的基本概念v声音的声音的3 3个重要指标:振幅(个重要指标:振幅(amplitudeamplitude)、周期、频率()、周期、频率(raterate)。)。v纯音:振幅和周期均为常数的声音。纯音:振幅和周期均为常数的声音。v复音:具有不同频率和不同振幅的混合声音。复
3、音:具有不同频率和不同振幅的混合声音。自然界中大部分的声音是复合信号。自然界中大部分的声音是复合信号。复合信号中某单一频率的信号称为分量信号。复合信号中某单一频率的信号称为分量信号。复音中最低频率的信号是基音,其他频率的声音称为谐音(泛音)。复音中最低频率的信号是基音,其他频率的声音称为谐音(泛音)。振幅:音量的大小振幅:音量的大小周期:重复出现的时间间隔周期:重复出现的时间间隔频率:指信号每秒钟变化的次数频率:指信号每秒钟变化的次数第4页,共42页,编辑于2022年,星期一v研究结果表明人类听力的大致范围在研究结果表明人类听力的大致范围在20Hz20K Hz20Hz20K Hz。v声音按频率
4、可分为:声音按频率可分为:人们把频率小于人们把频率小于20Hz20Hz的信号称为的信号称为亚音信号亚音信号,或称为次音信号,或称为次音信号(subsonicsubsonic););频率范围为频率范围为20 Hz20K Hz20 Hz20K Hz的信号称为的信号称为音频音频(audioaudio)信号;)信号;高于高于20 KHz20 KHz的信号称为的信号称为超音频信号超音频信号,或称超声波(,或称超声波(ultrasonicultrasonic)信号。信号。人的发音器官发出的声音的频率大约是人的发音器官发出的声音的频率大约是803400Hz803400Hz,但人说话的,但人说话的信号频率通常
5、为信号频率通常为3003000 Hz3003000 Hz,人们把这种频率范围的信号称为,人们把这种频率范围的信号称为话音或语音话音或语音(speechspeech)信号。)信号。第5页,共42页,编辑于2022年,星期一v带宽:带宽:声音信号的一个重要参数就是带宽,它用来描述组成复合信声音信号的一个重要参数就是带宽,它用来描述组成复合信号的频率范围。如高保真声音(号的频率范围。如高保真声音(high-fidelity audiohigh-fidelity audio)的)的频率范围为频率范围为10 Hz20K Hz10 Hz20K Hz,它的带宽约为,它的带宽约为20K Hz20K Hz。一般
6、而言,声源的频带越宽,表现力越好,层次越丰富。一般而言,声源的频带越宽,表现力越好,层次越丰富。声音质量的频率范围:声音质量的频率范围:10 20 50 200 3.4k 7k 15k 20kCD-DAFM广播广播AM广播广播电话电话f(Hz)频带频带第6页,共42页,编辑于2022年,星期一3.2 声音的数字化1 1模拟信号与数字信号模拟信号与数字信号 v话音信号是典型的连续信号,不仅在话音信号是典型的连续信号,不仅在时间时间上是连上是连续的,而且在续的,而且在幅度幅度上也是连续的。我们把在时间上也是连续的。我们把在时间和幅度上都是连续的信号称为模拟信号。和幅度上都是连续的信号称为模拟信号。
7、v我们把时间和幅度都用离散的数字表示的信号就我们把时间和幅度都用离散的数字表示的信号就称为是数字信号。称为是数字信号。v把模拟声音信号转变为数字声音信号的过程称为把模拟声音信号转变为数字声音信号的过程称为声音的数字化,它是通过对声音信号进行采样、声音的数字化,它是通过对声音信号进行采样、量化和编码实现的。量化和编码实现的。第7页,共42页,编辑于2022年,星期一 2.2.声音数字化过程声音数字化过程采样采样量化量化编码编码模拟信号模拟信号数字信号数字信号模拟信号模拟信号数字信号数字信号A/DD/A第8页,共42页,编辑于2022年,星期一 连续的模拟声音信号连续的模拟声音信号声音信号的采样声
8、音信号的采样离散的音频信号离散的音频信号第9页,共42页,编辑于2022年,星期一v每隔一个时间间隔在摸拟声音波形上取一个每隔一个时间间隔在摸拟声音波形上取一个幅度值,这称之为幅度值,这称之为采样采样(samplingsampling)。)。该时间间隔称为采样周期该时间间隔称为采样周期(其倒数称为采样频率其倒数称为采样频率)。v把某一幅度范围内的电压用一个数字表示,把某一幅度范围内的电压用一个数字表示,这称之为这称之为量化量化。v把量化后的值写成有利于计算机传输和存储把量化后的值写成有利于计算机传输和存储的数据格式,这称之为的数据格式,这称之为编码编码。第10页,共42页,编辑于2022年,星
9、期一例如,模拟电压幅度、量化和编码的关系电压电压范范围围(V)量化量化编码编码0.50.730110.30.520100.10.31001-0.10.10000-0.3-0.1-1111-0.5-0.3-2110-0.7-0.5-3101-0.9-0.7-4100第11页,共42页,编辑于2022年,星期一3.影响声音数字化质量的主要因素v 采样频率:也就是每秒钟需要采集多少个采样频率:也就是每秒钟需要采集多少个声音样本声音样本v量化位数:每个声音样本的位数应该是多少,量化位数:每个声音样本的位数应该是多少,也叫量化精度也叫量化精度v声道数:指所使用的声音通道的个数声道数:指所使用的声音通道的
10、个数 第12页,共42页,编辑于2022年,星期一(1)采样频率v采样频率决定了声音的保真度采样频率决定了声音的保真度 。频率以。频率以kHzkHz(千赫兹)去衡量。(千赫兹)去衡量。可以想象,采样频率越高声音的保真度就越好。可以想象,采样频率越高声音的保真度就越好。但是问题在于如果我们采样频率过高,则需要存但是问题在于如果我们采样频率过高,则需要存储的数据量就过大了。储的数据量就过大了。如何能既保证数据的无损恢复,而数据量又不要如何能既保证数据的无损恢复,而数据量又不要太大呢?太大呢?v抽样要满足抽样要满足采样定理采样定理(奈魁斯特定理)(奈魁斯特定理)采样定理用通俗话来说,就是采样定理用通
11、俗话来说,就是采样的频率要大于采样的频率要大于或等于被采样对象最高频率的两倍或等于被采样对象最高频率的两倍 。第13页,共42页,编辑于2022年,星期一v常用的音频采样频率有:常用的音频采样频率有:8kHz8kHz,11.025kHz11.025kHz,22.05kHz22.05kHz,16kHz16kHz,37.8 kHz37.8 kHz,44.1 kHz44.1 kHz,48 kHz48 kHz。其中其中8kHz 8kHz,11.025 kHz11.025 kHz,22.05 kHz22.05 kHz,44.1 kHz44.1 kHz是音频工业标准采样频率,多数声卡都支持。市是音频工业标
12、准采样频率,多数声卡都支持。市场上的非专业声卡的最高采样率为场上的非专业声卡的最高采样率为48kHz48kHz,专业,专业声卡可高达声卡可高达96kHz96kHz或以上。或以上。v为什么将为什么将CDCD音质的采样频率定为音质的采样频率定为44.1kHz44.1kHz?第14页,共42页,编辑于2022年,星期一(2)量化位数v量化的过程如下:先将整个幅度划分成为量化的过程如下:先将整个幅度划分成为有限个小幅度有限个小幅度(量化阶距量化阶距)的集合,把落入某个阶距内的样值归为一类,的集合,把落入某个阶距内的样值归为一类,并赋予相同的量化值。并赋予相同的量化值。v样本大小是用每个声音样本的样本大
13、小是用每个声音样本的位数位数表示的表示的.它反映度量声它反映度量声音波形幅度的精度音波形幅度的精度.v用用B B位二进制码字可以表示位二进制码字可以表示2 2B B个不同的量化电平(级别)。个不同的量化电平(级别)。例如:例如:8 8位的声音从最低到最高有位的声音从最低到最高有2 28 8,即,即256256个级别,个级别,1616位声音有位声音有2 21616,即,即6553665536个级别。位数越多,音质越细腻,但数据量也越大。个级别。位数越多,音质越细腻,但数据量也越大。v量化位数主要有量化位数主要有8 8位和位和1616位两种。专业级别使用位两种。专业级别使用2424位甚至位甚至32
14、32位。位。第15页,共42页,编辑于2022年,星期一v量化的方法可以归纳为两类:一类称为量化的方法可以归纳为两类:一类称为均匀均匀量化量化,另一类称为,另一类称为非均匀量化非均匀量化。第16页,共42页,编辑于2022年,星期一均匀量化v采用相等的量化间隔对采用相等的量化间隔对采样得到的信号做量化采样得到的信号做量化就是均匀量化。就是均匀量化。分析:分析:l如果出现大的幅度信号如果出现大的幅度信号,同时同时又要满足精度要求又要满足精度要求,就需要增加就需要增加样本的位数样本的位数.l但是对话音信号来说但是对话音信号来说,大信号出大信号出现的机会并不多现的机会并不多,增加样本位数增加样本位数
15、就没有充分得利用就没有充分得利用,x1 x2 x3 x4 x5 x6 x7第17页,共42页,编辑于2022年,星期一非均匀量化v非线性量化的基本想法是非线性量化的基本想法是对输入信号进行量化时,大的输入信号采用大对输入信号进行量化时,大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔,的量化间隔,小的输入信号采用小的量化间隔,这样就可以在满足精度要求的情况下用较少的这样就可以在满足精度要求的情况下用较少的位数来表示。位数来表示。声音数据还原时,采用相同的规则。声音数据还原时,采用相同的规则。第18页,共42页,编辑于2022年,星期一根据语音信号非均根据语音信号非均匀分布的特点,设匀
16、分布的特点,设法让量化阶距随信法让量化阶距随信号概率密度的减小号概率密度的减小而增大,或者说把而增大,或者说把大的量化误差留给大的量化误差留给出现概率小的样值出现概率小的样值,而得到较大的信,而得到较大的信噪比。噪比。第19页,共42页,编辑于2022年,星期一(3)声道数v声道数是指所使用的声音通道的个数。它表声道数是指所使用的声音通道的个数。它表明声音记录只产生一个波形(单声道)还是明声音记录只产生一个波形(单声道)还是多个波形(立体声)。多个波形(立体声)。v双声道立体声听起来要比单音丰满优美,但双声道立体声听起来要比单音丰满优美,但需要两倍于单音的存储空间。需要两倍于单音的存储空间。第
17、20页,共42页,编辑于2022年,星期一v存储数字音频信号的存储数字音频信号的数据率数据率=采样频率(采样频率(HzHz)*量化位数量化位数(b)(b)8*8*声道数声道数 (B/sB/s)v音频信息文件所需存储空间为:音频信息文件所需存储空间为:存储容量存储容量=采样频率采样频率*量化位数量化位数8*8*声道数声道数*时间时间 (B B)第21页,共42页,编辑于2022年,星期一关于声道的补充知识 v双声道立体声双声道立体声v杜比杜比AC-3AC-3音频和音频和5.15.1声道声道第22页,共42页,编辑于2022年,星期一5个全频带声道:左、中、右、左环绕、右环绕个全频带声道:左、中、
18、右、左环绕、右环绕0.1声道:低于声道:低于120Hz的超重低音声道。的超重低音声道。第23页,共42页,编辑于2022年,星期一3.3 声音文件的存储格式PCMPCM格式:格式:PCMPCM数据序列。数据序列。是指模拟的音频信号,经模数转换直接形成的二进制序列。该文件是指模拟的音频信号,经模数转换直接形成的二进制序列。该文件没有附加的文件头或文件结束标志。没有附加的文件头或文件结束标志。WAVWAV:由由MicrosoftMicrosoft公司推出的波形音频文件格式,波形音频公司推出的波形音频文件格式,波形音频(Waveform Audio)(Waveform Audio)。是通过对一段模拟
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数字音频 处理 技术 PPT 讲稿
限制150内