多媒体技术音频处理技术教案.ppt
《多媒体技术音频处理技术教案.ppt》由会员分享,可在线阅读,更多相关《多媒体技术音频处理技术教案.ppt(61页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、多媒体技术音频处理技术 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望 第第2 2章章 音频信息处理音频信息处理 学习目标学习目标:了解声音信号的特点、存储格式及质量的度量方法了解声音信号的特点、存储格式及质量的度量方法理解音频信号压缩方法及音频编码标准理解音频信号压缩方法及音频编码标准掌握常用的音频处理软件对声音信号进行处理掌握常用的音频处理软件对声音信号进行处理了解语音识别技术及其应用了解语音识别技术及其应用2.12.1数字音频的基本概念数字音频的基本概念2.
2、1.12.1.1声音与音频的概念声音与音频的概念1 1、声音的定义:、声音的定义:震动物体产生的声波,传入耳朵形成声音。震动物体产生的声波,传入耳朵形成声音。2 2、声音的分类、声音的分类按频率分按频率分v亚音频:亚音频:020Hz 020Hzv音频(音频(AudioAudio):):20Hz20KHz20Hz20KHzv超音频:超音频:20KHz1GHz 20KHz1GHzv过音频:过音频:1GHz1THz 1GHz1THz按原始声源划分按原始声源划分v语音:人类为表达思想和感情发出的声音语音:人类为表达思想和感情发出的声音v乐音:演奏乐器时乐器发出的声音乐音:演奏乐器时乐器发出的声音v声响
3、:除语音和乐音以外的所有声音。如声响:除语音和乐音以外的所有声音。如自然界的声音自然界的声音按存储形式划分按存储形式划分v模拟声音:模拟方式存储,如磁带模拟声音:模拟方式存储,如磁带v数字声音:用数字声音:用0 0、1 1表示的声音数据表示的声音数据3 3、音频、音频 20HZ20KHz 20HZ20KHz范围内的声波,也是人的耳朵范围内的声波,也是人的耳朵可以听到的声音。可以听到的声音。4 4、声音质量的评价标准(信噪比、频带宽度)、声音质量的评价标准(信噪比、频带宽度)按照声音频率的变化幅度可以分为:按照声音频率的变化幅度可以分为:电话话音质量:电话话音质量:2003400Hz200340
4、0Hz调幅广播音质:调幅广播音质:507000Hz 507000Hz,简称,简称AMAM音质音质调频广播音质:调频广播音质:2015000HZ2015000HZ,简称,简称FMFM音质音质激光唱盘音质:激光唱盘音质:1020000HZ1020000HZ,简称,简称CDCD音质音质2.1.2 2.1.2 模拟音频的数字化过程模拟音频的数字化过程 对模拟音频数字化过程涉及到音频的对模拟音频数字化过程涉及到音频的采样采样、量化量化和和编码编码。采样和量化的过程可由采样和量化的过程可由A/DA/D转换器实现。转换器实现。A/DA/D转换器以固定转换器以固定的频率去采样,即每个周期测量和量化信号一次。经
5、采样的频率去采样,即每个周期测量和量化信号一次。经采样和量化后声音信号经编码后就成为数字音频信号,可以将和量化后声音信号经编码后就成为数字音频信号,可以将其以文件形式保存在计算机的存储介质中。其以文件形式保存在计算机的存储介质中。信息论的奠基者香农(信息论的奠基者香农(ShannonShannon)指出:在一定条件下,)指出:在一定条件下,用离散的序列可以完全代表一个连续函数,这是采样定理的用离散的序列可以完全代表一个连续函数,这是采样定理的基本内容。基本内容。为实现为实现A/DA/D转换,需要转换,需要把模拟音频信号波形进行分割,把模拟音频信号波形进行分割,这种方法称为采样这种方法称为采样(
6、Sampling)(Sampling)。采样的过程是每隔一个时间采样的过程是每隔一个时间间隔在模拟声音的波形上取一个幅度值,把时间上的连续信间隔在模拟声音的波形上取一个幅度值,把时间上的连续信号变成时间上的离散信号。该时间间隔称为采样周期,其倒号变成时间上的离散信号。该时间间隔称为采样周期,其倒数为采样频率。数为采样频率。采样频率是指计算机每秒钟采集多少个声音采样频率是指计算机每秒钟采集多少个声音样本。样本。1.1.采样采样 对声波波形幅度的数字化表示称之为对声波波形幅度的数字化表示称之为“量化量化”。量化的。量化的过程是先将采样后的信号按整个声波的幅度划分成有限个过程是先将采样后的信号按整个
7、声波的幅度划分成有限个区段的集合,把落入某个区段内的样值归为一类,并赋于区段的集合,把落入某个区段内的样值归为一类,并赋于相同的量化值。相同的量化值。以位以位(bit)(bit)或或1616位位(bit)(bit)的方式来划分纵轴。也就是说的方式来划分纵轴。也就是说在一个以在一个以8 8位为记录模式的音效中,其纵轴将会被划分为位为记录模式的音效中,其纵轴将会被划分为?个量化等级,用以记录其幅度大小。个量化等级,用以记录其幅度大小。2.2.量化量化采样和量化采样和量化 D/A D/A转换器从上图得到的数值中重构原来信号时,得到转换器从上图得到的数值中重构原来信号时,得到下图蓝色线段所示的波形。可
8、以看出,蓝色线与原波形下图蓝色线段所示的波形。可以看出,蓝色线与原波形(红色线红色线)相比,其波形的细节部分丢失了很多。这意味着相比,其波形的细节部分丢失了很多。这意味着重构后的信号波形有较大的失真。重构后的信号波形有较大的失真。失真是不可避免的,如何减少失真呢?在下图中,采样失真是不可避免的,如何减少失真呢?在下图中,采样率和量化等级再提高了一倍。从图中可以看出,当用率和量化等级再提高了一倍。从图中可以看出,当用D/AD/A转转换器重构原来信号时(图中的轮廓线),信号的失真明显减换器重构原来信号时(图中的轮廓线),信号的失真明显减少,信号质量得到了提高。少,信号质量得到了提高。3.3.编码编
9、码 模拟信号量经过采样和量化以后,形成一系列的离散模拟信号量经过采样和量化以后,形成一系列的离散信号信号脉冲数字信号。这种脉冲数字信号可以一定的方脉冲数字信号。这种脉冲数字信号可以一定的方式进行编码,形成计算机内部运行的数据。式进行编码,形成计算机内部运行的数据。所谓编码,就是按照一定的格式把经过采样和量化得所谓编码,就是按照一定的格式把经过采样和量化得到的离散数据记录下来,并在有用的数据中加入一些用于到的离散数据记录下来,并在有用的数据中加入一些用于纠错、同步和控制的数据。纠错、同步和控制的数据。2.1.3 2.1.3 数字音频的文件格式数字音频的文件格式 在多媒体技术中,存储音频信息的文件
10、格式主要有:在多媒体技术中,存储音频信息的文件格式主要有:WAVWAV文件、文件、VOCVOC文件和文件和MP3MP3文件等。文件等。1 1.WAVWAV文件文件 WAVWAV文件又称波形文件,来源于对声音模拟波形的采样,文件又称波形文件,来源于对声音模拟波形的采样,并以不同的量化位数把这些采样点的值轮换成二进制数,并以不同的量化位数把这些采样点的值轮换成二进制数,然后存入磁盘,这就产生了波形文件。然后存入磁盘,这就产生了波形文件。WAVWAV文件用于保存文件用于保存WindowsWindows平台的音频信息资源,被平台的音频信息资源,被WindowsWindows平台及其应用平台及其应用程序
11、所广泛支持。程序所广泛支持。请计算对于请计算对于5 5分钟双声道、分钟双声道、1616位采样位位采样位数、数、44.1kHz44.1kHz采样频率声音的不压缩数据量采样频率声音的不压缩数据量是多少?是多少?思考题思考题解:解:根据公式:根据公式:数据量数据量=(采样频率(采样频率采样位数采样位数声道数声道数时间)时间)/8/8 得,数据量得,数据量=44.11000162=44.11000162(560560)/(810241024810241024)=50.47MB =50.47MB 因此,声音的不因此,声音的不压缩数据量约为压缩数据量约为50.47MB50.47MB。计算时要注意几个单位的
12、换算细节:计算时要注意几个单位的换算细节:时间单位换算:时间单位换算:1 1分分=60=60秒秒 采样频率单位换算:采样频率单位换算:1kHz=1000Hz 1kHz=1000Hz 数据量单位换算:数据量单位换算:1MB=10241024=1048576B1MB=10241024=1048576B未压缩的声音文件的存储量可用下式计算:未压缩的声音文件的存储量可用下式计算:存储量(存储量(KBKB)=(采样频率(采样频率KHZKHZ采样位数采样位数bitbit声道数声道数时间秒)时间秒)/8/8 2.VOC2.VOC文件文件 VOCVOC文件是文件是CreativeCreative公司所使用的标
13、准音频文件公司所使用的标准音频文件格式,多用于保存格式,多用于保存 Creative Sound Blaster(Creative Sound Blaster(创新创新声霸声霸)系列声卡所采集的声音数据,被系列声卡所采集的声音数据,被WindowsWindows平台平台和和DOSDOS平台所支持。平台所支持。3.MPEG3.MPEG音频文件音频文件.MP1/.MP2/.MP3.MP1/.MP2/.MP3 MPEGMPEGMPEGMPEG音频文件的压缩是一种有损压缩,根据压缩质量音频文件的压缩是一种有损压缩,根据压缩质量音频文件的压缩是一种有损压缩,根据压缩质量音频文件的压缩是一种有损压缩,根据
14、压缩质量和编码复杂程度的不同可分为三层和编码复杂程度的不同可分为三层和编码复杂程度的不同可分为三层和编码复杂程度的不同可分为三层(MPEG Audio Layer(MPEG Audio Layer(MPEG Audio Layer(MPEG Audio Layer 1/2/3)1/2/3)1/2/3)1/2/3),分别对应,分别对应,分别对应,分别对应MP1MP1MP1MP1、MP2MP2MP2MP2和和和和MP3MP3MP3MP3这三种声音文件;这三种声音文件;这三种声音文件;这三种声音文件;MPEGMPEGMPEGMPEG音音音音频频频频编编编编码码码码具具具具有有有有很很很很高高高高的的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多媒体技术 音频 处理 技术 教案
限制150内