数字音频处理课件.ppt
《数字音频处理课件.ppt》由会员分享,可在线阅读,更多相关《数字音频处理课件.ppt(120页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 第第2章章 数字音频处理数字音频处理 本章重点本章重点:n模拟音频与数字音频的概念模拟音频与数字音频的概念n数字音频的获取数字音频的获取n音频信号压缩编码音频信号压缩编码n音乐合成和语音识别音乐合成和语音识别 第第2章章 数字音频处理数字音频处理n2.1概述概述n2.2数字音频的获取数字音频的获取n2.3音频信号压缩编码音频信号压缩编码n2.4音乐合成和音乐合成和MIDIn2.5语音识别语音识别n2.6实验部分实验部分n2.7本章小结本章小结2.12.1概述概述声音是携带信息的重要媒体。研究表明,人类从声音是携带信息的重要媒体。研究表明,人类从外部世界获取的信息中,外部世界获取的信息中,10
2、%10%是通过听觉获得的是通过听觉获得的,因此声音是多媒体技术研究中的一个重要内容。因此声音是多媒体技术研究中的一个重要内容。声音是由物体振动产生的,这种振动引起周围空声音是由物体振动产生的,这种振动引起周围空气压强的振荡,从而使耳朵产生听觉的印象。气压强的振荡,从而使耳朵产生听觉的印象。声音的种类繁多,人的语音是最重要的声音。此声音的种类繁多,人的语音是最重要的声音。此外,还有动物、乐器等发出的声音,风声、雨声、外,还有动物、乐器等发出的声音,风声、雨声、雷声等自然声音,以及机器合成产生的声音等。雷声等自然声音,以及机器合成产生的声音等。2.12.1概述概述幅幅值值t一个周期一个周期+空气压
3、强空气压强图图2.1 空气压强振荡的波形示意图空气压强振荡的波形示意图0 人耳能识别的声音频率范围大约在人耳能识别的声音频率范围大约在202020kHz20kHz,通常称为音频(通常称为音频(audioaudio)信号。)信号。2.12.1概述概述音频信号所携带的信息大体上可分为语音、音音频信号所携带的信息大体上可分为语音、音乐和音效三类。乐和音效三类。语音,指语音,指具有语言内涵和人类约定俗成的特殊具有语言内涵和人类约定俗成的特殊 媒体媒体。音乐,指规范的符号化了的声音音乐,指规范的符号化了的声音。音效,指人类熟悉的其他声音。音效,指人类熟悉的其他声音。在多媒体系统中,处理的信号主要是音频信
4、在多媒体系统中,处理的信号主要是音频信号。号。2.12.1概述概述 声音包含三个要素:音调、音强和音色。声音包含三个要素:音调、音强和音色。基频与音调:一个声源每秒钟可产生成百上基频与音调:一个声源每秒钟可产生成百上千个波,通常把每秒钟波峰所产生的数目称之为千个波,通常把每秒钟波峰所产生的数目称之为信号的频率,单位用赫兹信号的频率,单位用赫兹(Hz)或千赫兹或千赫兹(kHz)表表示。示。人对声音频率的感觉表现为音调的高低,在人对声音频率的感觉表现为音调的高低,在音乐中称为音高。音调正是由频率音乐中称为音高。音调正是由频率所决定的。所决定的。2.12.1概述概述 音乐中音阶的划分是在频率的对数坐
5、标音乐中音阶的划分是在频率的对数坐标(20log)上取等分而得的。如表所示上取等分而得的。如表所示,20log261=48.3,20log293=49.3等。等。音阶音阶C CD DE E F FG GA AB B简谱符号简谱符号1 12 23 34 45 56 67 7频率频率(H(HZ Z)261261293293330330349349392392440440494494频率频率(对数对数)48.348.349.349.350.350.350.850.851.851.852.852.853.853.82.12.1概述概述谐波与音色:谐波与音色:no称为基波称为基波o的的n次谐波分量次谐波
6、分量(n就是高次谐波的方次,就是高次谐波的方次,n o就是基波就是基波o的的n次次谐波谐波),也称为泛音。音色是由混入基音的泛音所决,也称为泛音。音色是由混入基音的泛音所决定的定的。幅度与音强:信号的幅度是从信号的基线到当前波幅度与音强:信号的幅度是从信号的基线到当前波峰的距离。峰的距离。幅度决定了信号音量的强弱程度。幅度越幅度决定了信号音量的强弱程度。幅度越大,声音越强。一般用动态范围定义相对强度:大,声音越强。一般用动态范围定义相对强度:动态范围动态范围20log(信号的最大强度信号的最大强度/信号的最小强度信号的最小强度)(dB)2.12.1概述概述音宽与频带:频带宽度,也称为带宽,它是
7、描音宽与频带:频带宽度,也称为带宽,它是描述组成复合信号的频率范围。述组成复合信号的频率范围。客观上,通常用频带宽度、动态范围、信噪比客观上,通常用频带宽度、动态范围、信噪比等指标衡量音频信号的质量。音频信号的频带越等指标衡量音频信号的质量。音频信号的频带越宽,所包含的音频信号分量越丰富,音质越好。宽,所包含的音频信号分量越丰富,音质越好。动态范围越大,信号强度的相对变化范围越大,动态范围越大,信号强度的相对变化范围越大,音响效果越好。音响效果越好。CD-DA数字音乐、FM广播、AM广播和电话的带宽2.12.1概述概述 声音的质量可以通过信噪比来度量。信噪比声音的质量可以通过信噪比来度量。信噪
8、比(SNR,Signal to Noise Ratio)是有用信号与噪声是有用信号与噪声之比的简称,定义为:之比的简称,定义为:信噪比越大,声音质量越好。信噪比越大,声音质量越好。2.22.2数字音频的获取数字音频的获取n2.2.1采样采样n2.2.2量化量化n2.2.3数字音频的技术指标数字音频的技术指标n2.2.4数字音频的文件格式数字音频的文件格式音频信息处理结构框图 2.2.12.2.1采样采样图2.5 模拟信号的采样 所谓采样就是在某些特定的时刻对模拟信号进所谓采样就是在某些特定的时刻对模拟信号进行取值,如上图所示。采样的过程是每隔一个时行取值,如上图所示。采样的过程是每隔一个时间间
9、隔在模拟声音的波形上取一个幅值,把时间间间隔在模拟声音的波形上取一个幅值,把时间上的连续信号变成时间上的离散信号。上的连续信号变成时间上的离散信号。2.2.12.2.1采样采样 采样时间间隔称为采样周期采样时间间隔称为采样周期t,其倒数为采样频其倒数为采样频率率fs=1/t。一般来讲,采样频率越高,则在单位时一般来讲,采样频率越高,则在单位时间内计算机得到的声音样本数据就越多,对声音间内计算机得到的声音样本数据就越多,对声音波形的表示也越精确,声音失真越小,但用于存波形的表示也越精确,声音失真越小,但用于存储音频的数据量越大。储音频的数据量越大。根据奈奎斯特定理,只有采样频率高于声音信根据奈奎
10、斯特定理,只有采样频率高于声音信号最高频率的两倍时,才能把数字信号表示的声号最高频率的两倍时,才能把数字信号表示的声音还原为原来的声音。音还原为原来的声音。2.2.22.2.2量化量化 每个采样值在幅度上进行离散化处理的过程称每个采样值在幅度上进行离散化处理的过程称为量化为量化。量化可分为均匀量化和非均匀量化。均匀量化量化可分为均匀量化和非均匀量化。均匀量化是把将采样后的信号按整个声波的幅度等间隔分是把将采样后的信号按整个声波的幅度等间隔分成有限个区段,把落入某个区段内的样值归为一成有限个区段,把落入某个区段内的样值归为一类,并赋于相同的量化值。以类,并赋于相同的量化值。以8bit或或16bi
11、t的方式来的方式来划分纵轴为例,其纵轴将会被划分为划分纵轴为例,其纵轴将会被划分为28个和个和216个个量化等级,用以记录其幅度大小。量化等级,用以记录其幅度大小。均匀量化 2.2.22.2.2量化量化 非均匀量化是根据信号的不同区间来确定量化非均匀量化是根据信号的不同区间来确定量化间隔。对于信号值小的区间,其量化间隔也小;间隔。对于信号值小的区间,其量化间隔也小;反之,量化间隔就大。反之,量化间隔就大。非均匀量化的实现方法通常是将采样值非均匀量化的实现方法通常是将采样值x通过一个通过一个变换变换y=f(x)后,再对后,再对y进行均匀量化,这种变换通常进行均匀量化,这种变换通常叫做压扩。叫做压
12、扩。根据函数根据函数f(x)的不同,非均匀压扩可以分为的不同,非均匀压扩可以分为u律压律压扩算法和扩算法和A律压扩算法。律压扩算法。量化会引入失真,并且量化失真是一种不可逆失真,量化会引入失真,并且量化失真是一种不可逆失真,这就是通常所说的量化噪声。这就是通常所说的量化噪声。A A律和律和律律律压扩律压扩的数学解析式:其中:x为输入信号的归一化值;y为压扩后的信号。对话音信号编码,常采用=255,这样适量化信噪比改善约24dB。A律压扩其特性可表示为:A律压扩n很明显,小信号时为线性特性,大信号时近似为对数特性。这种压扩特性常把压缩、量化和编码合为一体。A律可用13段折线逼近(相当于A=87.
13、6),便于用数字电路实现。2.2.32.2.3数字音频的技术指标数字音频的技术指标 衡量数字音频的主要指标包括:衡量数字音频的主要指标包括:采样频率采样频率量化位数量化位数 通道通道(声道声道)个数个数 数据传输率是计算机处理时基本参数。未经压数据传输率是计算机处理时基本参数。未经压缩的数字音频数据传输率可按下式计算:缩的数字音频数据传输率可按下式计算:数据传输率数据传输率=采样频率采样频率量化位数量化位数声道数声道数 2.2.32.2.3数字音频的技术指标数字音频的技术指标例例:假定语音信号的带宽是50 Hz10kHz,而音乐信号的是15Hz 20 kHz。采用奈奎斯特频率,并用12bit表
14、示语音信号样值,用16bit表示音乐信号样值,计算这两种信号数字化以后的比特率以及存储一段10分钟的立体声音乐所需要的存储器容量。解:语音信号:取样频率210kHz20kHz;比特率=20k12240 kbit/s 音乐信号:取样频率220kHz40kHz;比特率40kl6kbit/s21280kbits(立体声)所需存储空间1280k 600896MB2.2.42.2.4数字音频的文件格式数字音频的文件格式WAVWAV文件格式简介文件格式简介 WAVWAV是是Microsoft WindowsMicrosoft Windows提供的音频格式。这个提供的音频格式。这个格式是目前通用音频格式,它
15、通常用来保存一些没格式是目前通用音频格式,它通常用来保存一些没有压缩的音频。目前所有的音频播放软件和编辑软有压缩的音频。目前所有的音频播放软件和编辑软件都支持这一格式。件都支持这一格式。WAVWAV文件由三部分组成:文件头文件由三部分组成:文件头(标明是标明是WAVWAV文件、文件、文件结构和数据的总字节数文件结构和数据的总字节数)、数字化参数、数字化参数(如采样如采样频率、声道数、编码算法等频率、声道数、编码算法等),最后是实际波形数据,最后是实际波形数据。一般来说,声音质量与其。一般来说,声音质量与其WAVWAV格式的文件大小成正格式的文件大小成正比。比。nWAVE(Waveform Au
16、dio File Format)文件是多媒体中使用的声音文件格式之一,它以RIFF格式为基础,每个WAVE文件的头四个字节为“RIFF”。WAVE文件的扩展名为“.WAV”。WAVE 文件格式WAVE 文件格式Format 块块Sound 数据块数据块RIFFWAVEChunkWAVE文件由文件头和数据两部分组成。最小的 WAVE文件结构 _|RIFF WAVE Chunk|groupID=RIFF|riffType=WAVE|_|Format Chunk|ckID=fmt|_|_|Sound Data Chunk|ckID=data|_|_ _|RIFF WAVE 块头块标志 RIFF块大小
17、 (32-bits)Wave类型标志 WAVEThe Format(fmt)Chunk格式块(fmt)是WAVE文件必选项,描述波形文件的基本参数,如采样率、位分辨率以及通道数等。#define FormatID fmt /*chunkID for Format Chunk.*/typedef struct ID chunkID;long chunkSize;short wFormatTag;/*currently PCM*/unsigned short wChannels;/*num of channels*/unsigned long dwSamplesPerSec;/*sample ra
18、te in Hz*/unsigned long dwAvgBytesPerSec;/*xxx Bytes/s*/unsigned short wBlockAlign;/*1/2/4-8/16 mono/stereo*/unsigned short wBitsPerSample;/*bits in a sample*/*根据 wFormatTag不同,可以有附加字段.*/FormatChunk;Data Chunk数据块包含实际的波形数据:#define DataID data/*chunk ID for data Chunk*/typedef struct ID chunkID;long ch
19、unkSize;unsigned char waveformData;DataChunk;Offset Description-Offset Contents-0 x00 chunk id RIFF0 x04 chunk size(32-bits)0 x08 wave chunk id WAVE0 x0C0 x0C format chunk id fmt format chunk id fmt 0 x10 0 x10 format chunk size(32-bits)format chunk size(32-bits)0 x14 format tag (currently PCM)0 x16
20、 number of channels 1=mono,2=stereo0 x18 sample rate in Hz0 x1C average bytes per second-Offset Contents-0 x20 number of bytes per sample 1=8-bit mono 2=8-bit stereo or 16-bit mono 4=16-bit stereo 0 x22 number of bits in a sample 0 x240 x24 data chunk id datadata chunk id data 0 x280 x28 length of d
21、ata chunk(32-bits)length of data chunk(32-bits)0 x2C Sample data-2.2.42.2.4数字音频的文件格式数字音频的文件格式MP3MP3文件格式简介文件格式简介 MP3MP3是第一个实用的有损音频压缩编码技术。在是第一个实用的有损音频压缩编码技术。在MP3MP3出现之前,一般的音频编码即使以有损方式进出现之前,一般的音频编码即使以有损方式进行压缩,能达到行压缩,能达到4:14:1的压缩比例已经非常不错了。的压缩比例已经非常不错了。但是,但是,MP3MP3可以实现可以实现12:112:1的压缩比例。的压缩比例。衡量衡量MP3MP3文件
22、的压缩比例通常使用比特率来表示文件的压缩比例通常使用比特率来表示。通常比特率越高,压缩文件就越大,但音乐中。通常比特率越高,压缩文件就越大,但音乐中获得保留的成分就越多,音质就越好。获得保留的成分就越多,音质就越好。2.2.42.2.4数字音频的文件格式数字音频的文件格式MIDI MIDI 文件格式简介文件格式简介 MIDIMIDI最初应用在电子乐器上用来记录乐手的弹最初应用在电子乐器上用来记录乐手的弹奏,以便以后重播。随着在电脑里面引入了支持奏,以便以后重播。随着在电脑里面引入了支持MIDIMIDI合成的声音卡之后,合成的声音卡之后,MIDIMIDI才正式地成为了一才正式地成为了一种音频格式
23、。种音频格式。MIDIMIDI的内容除了乐谱之外还记录了的内容除了乐谱之外还记录了每个音符的弹奏方法。每个音符的弹奏方法。2.2.42.2.4数字音频的文件格式数字音频的文件格式 各种文件格式与各种文件格式与WAVWAV格式之间可以进行转换。格式之间可以进行转换。最简单的方法就是使用最简单的方法就是使用WINAMPWINAMP。只要。只要WINAMPWINAMP能播能播放某种格式的音乐,就可以通过它的放某种格式的音乐,就可以通过它的Output Output PluginPlugin中的中的Disk Writer Plugin Disk Writer Plugin 来输出为来输出为WAVWAV
24、文文件。目前件。目前WINAMPWINAMP支持的格式包括:支持的格式包括:VOCVOC、WAVWAV、MIDMID、MP3MP3、MP2MP2、MP1MP1、CDCD、ITIT、XMXM、S3MS3M、STMSTM、MODMOD、DSMDSM、FARFAR、ULTULT、MTMMTM、669669、ASAS、WMAWMA、MJFMJF。2.32.3音频信号压缩编码音频信号压缩编码n2.3.12.3.1概述概述n2.3.22.3.2编码方法编码方法n2.3.32.3.3音频数据的标准音频数据的标准2.3.1 音频编码基础为什么要进行语音编码?为什么能进行语音编码?为什么要进行语音编码?随着对音
25、质要求的增加,信号频率范围逐渐增随着对音质要求的增加,信号频率范围逐渐增加,要求描述信号的数据量也就随之增加,从而加,要求描述信号的数据量也就随之增加,从而带来处理这些数据的时间和传输、存储这些数据带来处理这些数据的时间和传输、存储这些数据的容量增加,因此多媒体音频压缩技术是多媒体的容量增加,因此多媒体音频压缩技术是多媒体技术实用化的关键之一。技术实用化的关键之一。.语音信号中存在多种冗余度 1.时域信息的冗余度 2.频域信息的冗余度 3.人的听觉感知机理 .音频编码的分类为什么能进行语音编码?语音信号中存在多种冗余度:语音信号中存在多种冗余度:1.1.时域信息的冗余度时域信息的冗余度 (1)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数字音频 处理 课件
限制150内