第2章--数字音频处理-多媒体技术--课件.ppt
《第2章--数字音频处理-多媒体技术--课件.ppt》由会员分享,可在线阅读,更多相关《第2章--数字音频处理-多媒体技术--课件.ppt(128页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第第2章章 数字音频处理数字音频处理 本章重点本章重点:n模拟音频与数字音频的概念模拟音频与数字音频的概念n数字音频的获取数字音频的获取n音频信号压缩编码音频信号压缩编码n音乐合成和语音识别音乐合成和语音识别 第第2章章 数字音频处理数字音频处理n2.1概述概述n2.2数字音频的获取数字音频的获取n2.3音频信号压缩编码音频信号压缩编码n2.4音乐合成和音乐合成和MIDIn2.5语音识别语音识别n2.6实例实例 VC+播放声音的实现播放声音的实现n2.7本章小结本章小结2.12.1概述概述声音是携带信息的重要媒体。研究表明,声音是携带信息的重要媒体。研究表明,人类从外部世界获取的信息中,人类从
2、外部世界获取的信息中,10%10%是通过是通过听觉获得的听觉获得的,因此声音是多媒体技术研究中因此声音是多媒体技术研究中的一个重要内容。的一个重要内容。2.12.1概述概述声音是由物体振动产生的,这种振动引声音是由物体振动产生的,这种振动引起周围空气压强的振荡,从而使耳朵产起周围空气压强的振荡,从而使耳朵产生听觉的印象。生听觉的印象。幅幅值值t一个周期一个周期+空气压强空气压强图图2.1 空气压强振荡的波形示意图空气压强振荡的波形示意图0频率次声020Hz人耳能听见的声音20Hz20kHz超声20kHz1GHz特超声1GHz10THz超声波的应用(1)利用超声波的巨大能量还可以把人体内的结石击
3、碎(2)清理金属零件、玻璃和陶瓷制品的除垢是件麻烦事如果在放有这些物品的清洗液中通入超声波,清洗液的剧烈振动冲击物品上的污垢,能够很快清洗干净(3)用超声波探测金属、陶瓷混凝土制品,甚至水库大坝,检查内部是否有气泡、空洞和裂纹(4)人体各个内脏的表面对超声波的反射能力是不同的,健康内脏和病变内脏的反射能力也不一样平常说的“B超”就是根据内脏反射的超声波进行造影,帮助医生分析体内的病变2.12.1概述概述音频信号所携带的信息大体上可分为语音、音音频信号所携带的信息大体上可分为语音、音乐和音效三类。乐和音效三类。语音语音,指,指具有语言内涵和人类约定俗成的特殊具有语言内涵和人类约定俗成的特殊 媒体
4、媒体。音乐音乐,指规范的符号化了的声音,指规范的符号化了的声音。音效音效,指人类熟悉的其他声音。,指人类熟悉的其他声音。在多媒体系统中,处理的信号主要是音频信在多媒体系统中,处理的信号主要是音频信号。号。2.12.1概述概述 音乐中音乐中音阶音阶的划分是在频率的对数坐标的划分是在频率的对数坐标(20log)上取等分而得的。如表所示上取等分而得的。如表所示,20log261=48.3,20log293=49.3等。等。音阶音阶C CD DE E F FG GA AB B简谱符号简谱符号1 12 23 34 45 56 67 7频率频率(H(HZ Z)26126129329333033034934
5、9392392440440494494频率频率(对数对数)48.348.349.349.350.350.350.850.851.851.852.852.853.853.82.12.1概述概述谐波与音色:谐波与音色:no称为基波称为基波o的的n次谐波分量次谐波分量(n就是高次谐波的方次,就是高次谐波的方次,no就是基波就是基波o的的n次次谐波谐波),也称为泛音。音色是由混入基音的泛音所决,也称为泛音。音色是由混入基音的泛音所决定的定的。幅度与音强:信号的幅度是从信号的基线到当前波幅度与音强:信号的幅度是从信号的基线到当前波峰的距离。峰的距离。幅度决定了信号音量的强弱程度。幅度越幅度决定了信号音量
6、的强弱程度。幅度越大,声音越强。一般用动态范围定义相对强度:大,声音越强。一般用动态范围定义相对强度:动态范围动态范围20log(信号的最大强度信号的最大强度/信号的最小强度信号的最小强度)(dB)2.12.1概述概述 声音的质量可以通过信噪比来度量。信噪比声音的质量可以通过信噪比来度量。信噪比(SNR,SignaltoNoiseRatio)是有用信号与噪声是有用信号与噪声之比的简称,定义为:之比的简称,定义为:信噪比越大,声音质量越好。信噪比越大,声音质量越好。2.2.12.2.1采样采样图2.5模拟信号的采样 所谓采样就是在某些特定的时刻对模拟信号进所谓采样就是在某些特定的时刻对模拟信号进
7、行取值,如上图所示。采样的过程是每隔一个时行取值,如上图所示。采样的过程是每隔一个时间间隔在模拟声音的波形上取一个幅值,把时间间间隔在模拟声音的波形上取一个幅值,把时间上的连续信号变成时间上的离散信号。上的连续信号变成时间上的离散信号。2.2.12.2.1采样采样采样时间间隔称为采样周期采样时间间隔称为采样周期t,其倒数为采样频其倒数为采样频率率fs=1/t。一般来讲,采样频率越高,则在单位时一般来讲,采样频率越高,则在单位时间内计算机得到的声音样本数据就越多,对声音间内计算机得到的声音样本数据就越多,对声音波形的表示也越精确,声音失真越小,但用于存波形的表示也越精确,声音失真越小,但用于存储
8、音频的数据量越大。储音频的数据量越大。更通俗地讲:只有采样频率高于声音信号最高频率的两倍时,才能把数字信号表示的声音还原为原来的声音。奈奎斯特采样定理用公式表示为:,其中,为声音信号的最高频率。举例:(1)在数字电话系统中,由于电话语音的最高信号频率约为3.4KHz,为将人的声音变为数字信号,电话语音采样频率不低于6.8kHz,通常选为8kHz。(2)要想获得CD音质的效果,则要保证采样频率为44.1kHz,也就是能够捕获频率高达22050Hz的信号。说明:因为人耳能够听见的最高声音频率为20kHz,为了避免高于20kHz的高频信号干扰采样,在进行采样之前,需要对输入的声音信号进行滤波。考虑到
9、滤波器在20kHz处大约有10%的衰减,因此再将其提高10%成为22kHz。这个值再乘以2就得到44kHz的采样频率。但是,为了能够与电视信号同步,PAL电视的扫描为50Hz,NTSC电视的场扫描为60Hz,所以取50和60的整数倍,选用了44100Hz作为激光唱盘声音的采样标准。2.2.22.2.2量化量化 每个采样值在幅度上进行离散化处理的过程称每个采样值在幅度上进行离散化处理的过程称为量化为量化。量化可分为均匀量化和非均匀量化。均匀量化量化可分为均匀量化和非均匀量化。均匀量化是把将采样后的信号按整个声波的幅度等间隔分是把将采样后的信号按整个声波的幅度等间隔分成有限个区段,把落入某个区段内
10、的样值归为一成有限个区段,把落入某个区段内的样值归为一类,并赋于相同的量化值。以类,并赋于相同的量化值。以8bit或或16bit的方式来的方式来划分纵轴为例,其纵轴将会被划分为划分纵轴为例,其纵轴将会被划分为28个和个和216个个量化等级,用以记录其幅度大小。量化等级,用以记录其幅度大小。2.2.22.2.2量化量化非均匀量化是根据信号的不同区间来确定量化非均匀量化是根据信号的不同区间来确定量化间隔。对于信号值小的区间,其量化间隔也小;间隔。对于信号值小的区间,其量化间隔也小;反之,量化间隔就大。反之,量化间隔就大。量化会引入失真,并且量化失真是一种不可逆量化会引入失真,并且量化失真是一种不可
11、逆失真,这就是通常所说的量化噪声。失真,这就是通常所说的量化噪声。A律压扩n很明显,小信号时为线性特性,大信号时近似为对数特性。这种压扩特性常把压缩、量化和编码合为一体。A律可用13段折线逼近(相当于A=87.6),便于用数字电路实现。2.2.32.2.3数字音频的技术指标数字音频的技术指标1.采样频率(常用频率:8KHz,11.025KHz,22.05KHz,44.1KHz 等)2.量化位数(常用:8位,12位,16位)3.通道(声道)个数(Mono 单声道,Stereo 双声道,四声道环绕 4.1声道,Dolby AC-3音效 5.1声道)数字音频数据量计算 数据传输率是计算机处理时基本参
12、数。未数据传输率是计算机处理时基本参数。未经压缩的数字音频数据传输率可按下式经压缩的数字音频数据传输率可按下式计算:计算:数据传输率数据传输率=采样频率采样频率量化位数量化位数声道声道数数 数字音频数据量计算(1)CD音质(20Hz-20KHz):(2)44.1KHz 采样,16位量化,双声道数据量为 44100*16*2=1.411 Mb/s(2)AM Radio音质(50Hz-7KHz):16KHz 采样,14位量化数据量为 16000*14=224 Kb/s(3)Telephone音质(300Hz-3400Hz):8KHz 采样,8位量化数据量为 8000*8=64 Kb/s CD播放器
13、和CDROM中使用的光盘是存储立体声音乐和大多数多媒体信息的数字存储体。与之相关的标准称为CD数字音频(CDDA)标准。音乐的音频带宽是15Hz20kHz,因此,最小采样频率为40kHz。实际采样率定义为:44.1kHz传送比特率:CD质量的音频传送比特率计算例25 假定使用CDDA标准,求(1)存储60分钟多媒体节目的光盘存储容量;(2)当传输信道的比特率分别为64kbits/s和1.5Mbit/s时,传输30秒多媒体节目的时间。2.2.42.2.4数字音频的文件格式数字音频的文件格式 WAV 文件(Microsoft 波形文件,采样量化后波形数据)VOC 文件(Creative 公司波形音
14、频文件)MIDI 文件(记录一系列描述乐曲演奏过程中的指令)还有 *.MP3(用Mpeg layer 3标准对wave音频文件压缩而成)*.RM(Real Networks制定的音频视频压缩RealMedia文件)*.RMI(Microsoft公司的MIDI文件格式)*.PCM(模拟的音频信号经A/D变换直接形成的二进制序列)*.SND(一种波形音频文件格式)*.AIF(Apple计算机的音频文件格式)等nWAVE(WaveformAudio)文件是多媒体中使用的声音文件格式之一,它以RIFF格式为基础,每个WAVE文件的头四个字节为“RIFF”。WAVE文件的扩展名为“.WAV”。WAVE文
15、件格式nRIFF是英文ResourceInterchange的缩写,每个WAVE文件的头四个字节便是“RIFF”。WAVE文件由文件头和数据体两大部分组成。其中文件头又分为RIFFWAV文件标识段和声音数据格式说明段两部分。WAVE文件格式Format 块块Sound 数据块数据块 RIFF WAVE Chunk WAVE文件由文件头和数据两部分组成。最小的 WAVE文件结构 _|RIFF WAVE Chunk|groupID=RIFF|riffType=WAVE|_|Format Chunk|ckID=fmt|_|_|Sound Data Chunk|ckID=data|_|_ _|RIFF
16、WAVE块头块标志RIFF块大小(32-bits)Wave类型标志WAVEThe Format(fmt)Chunk格式块(fmt)是WAVE文件必选项,描述波形文件的基本参数,如采样率、位分辨率以及通道数等。#define FormatID fmt /*chunkID for Format Chunk.*/typedef struct ID chunkID;long chunkSize;short wFormatTag;/*currently PCM*/unsigned short wChannels;/*num of channels*/unsigned long dwSamplesPerS
17、ec;/*sample rate in Hz*/unsigned long dwAvgBytesPerSec;/*xxx Bytes/s*/unsigned short wBlockAlign;/*1/2/4-8/16 mono/stereo*/unsigned short wBitsPerSample;/*bits in a sample*/*根据 wFormatTag不同,可以有附加字段.*/FormatChunk;Data Chunk数据块包含实际的波形数据:#define DataID data/*chunk ID for data Chunk*/typedef struct ID c
18、hunkID;long chunkSize;unsigned char waveformData;DataChunk;Data chunk的chunkID总是“data”。chunkSize是chunk占据的字节数,不计ID和size两个域占用的8个字节,不计为了使chunk占用的字节数为偶数而添加的填充字节。Offset Description-Offset Contents-0 x00 chunk id RIFF0 x04 chunk size(32-bits)0 x08 wave chunk id WAVE0 x0C0 x0C format chunk id fmt format chu
19、nk id fmt 0 x10 0 x10 format chunk size(32-bits)format chunk size(32-bits)0 x14 format tag (currently PCM)0 x16 number of channels 1=mono,2=stereo0 x18 sample rate in Hz0 x1C average bytes per second-Offset Contents-0 x20 number of bytes per sample 1=8-bit mono 2=8-bit stereo or 16-bit mono 4=16-bit
20、 stereo 0 x22 number of bits in a sample 0 x240 x24 data chunk id datadata chunk id data 0 x280 x28 length of data chunk(32-bits)length of data chunk(32-bits)0 x2C Sample data-2.2.42.2.4数字音频的文件格式数字音频的文件格式MP3MP3文件格式简介文件格式简介 MP3MP3是第一个实用的有损音频压缩编码技术。在是第一个实用的有损音频压缩编码技术。在MP3MP3出现之前,一般的音频编码即使以有损方式进出现之前,一般
21、的音频编码即使以有损方式进行压缩,能达到行压缩,能达到4:14:1的压缩比例已经非常不错了。的压缩比例已经非常不错了。但是,但是,MP3MP3可以实现可以实现12:112:1的压缩比例。的压缩比例。衡量衡量MP3MP3文件的压缩比例通常使用比特率来表示文件的压缩比例通常使用比特率来表示。通常比特率越高,压缩文件就越大,但音乐中。通常比特率越高,压缩文件就越大,但音乐中获得保留的成分就越多,音质就越好。获得保留的成分就越多,音质就越好。2.2.42.2.4数字音频的文件格式数字音频的文件格式MIDI MIDI 文件格式简介文件格式简介 MIDIMIDI最初应用在电子乐器上用来记录乐手的弹最初应用
22、在电子乐器上用来记录乐手的弹奏,以便以后重播。随着在电脑里面引入了支持奏,以便以后重播。随着在电脑里面引入了支持MIDIMIDI合成的声音卡之后,合成的声音卡之后,MIDIMIDI才正式地成为了一才正式地成为了一种音频格式。种音频格式。MIDIMIDI的内容除了乐谱之外还记录了的内容除了乐谱之外还记录了每个音符的弹奏方法。每个音符的弹奏方法。2.2.42.2.4数字音频的文件格式数字音频的文件格式 各种文件格式与各种文件格式与WAVWAV格式之间可以进行转换。格式之间可以进行转换。最简单的方法就是使用最简单的方法就是使用WINAMPWINAMP。只要。只要WINAMPWINAMP能播能播放某种
23、格式的音乐,就可以通过它的放某种格式的音乐,就可以通过它的Output Output PluginPlugin中的中的Disk Writer Plugin Disk Writer Plugin 来输出为来输出为WAVWAV文文件。目前件。目前WINAMPWINAMP支持的格式包括:支持的格式包括:VOCVOC、WAVWAV、MIDMID、MP3MP3、MP2MP2、MP1MP1、CDCD、ITIT、XMXM、S3MS3M、STMSTM、MODMOD、DSMDSM、FARFAR、ULTULT、MTMMTM、669669、ASAS、WMAWMA、MJFMJF。2.32.3音频信号压缩编码音频信号压
24、缩编码n2.3.12.3.1概述概述n2.3.22.3.2编码方法编码方法n2.3.32.3.3音频数据的标准音频数据的标准2.3.1 音频编码基础为什么要进行语音编码?为什么能进行语音编码?为什么要进行语音编码?随着对音质要求的增加,信号频率范围逐渐增随着对音质要求的增加,信号频率范围逐渐增加,要求描述信号的数据量也就随之增加,从而加,要求描述信号的数据量也就随之增加,从而带来处理这些数据的时间和传输、存储这些数据带来处理这些数据的时间和传输、存储这些数据的容量增加,因此多媒体音频压缩技术是多媒体的容量增加,因此多媒体音频压缩技术是多媒体技术实用化的关键之一。技术实用化的关键之一。语音信号中
25、存在多种冗余度:语音信号中存在多种冗余度:1.时域信息的冗余度时域信息的冗余度2.(1)(1)幅度的非均匀分布幅度的非均匀分布3.(2)(2)样本间的相关样本间的相关4.(3)(3)周期之间的相关周期之间的相关5.(4)(4)基音之间的相关基音之间的相关6.(5)(5)静止系数静止系数7.(6)(6)长时自相关函数长时自相关函数12例:语音的时域信息的冗余度基音周期(音调周期)一 个 单 音 1 (1)非均匀的长时功率谱密度 (2)语音特有的短时功率谱密度3.人的听觉感知机理4.(1)人的听觉具有掩蔽效应5.(2)人耳对不同频段的声音的敏感程度6.不同7.(3)人耳对语音信号的相位变化不敏感2
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数字音频 处理 多媒体技术 课件
限制150内