书签分享收藏举报版权申诉 / 120

立即下载

当前位置：首页 > 教育专区 > 教案示例 > 数字音频处理课件.ppt

数字音频处理课件.ppt

上传人：飞****2

文档编号：70789975

上传时间：2023-01-28

格式：PPT

页数：120

大小：1.65MB

( 4.5 )

《数字音频处理课件.ppt》由会员分享，可在线阅读，更多相关《数字音频处理课件.ppt（120页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、第第2章章数字音频处理数字音频处理本章重点本章重点:n模拟音频与数字音频的概念模拟音频与数字音频的概念n数字音频的获取数字音频的获取n音频信号压缩编码音频信号压缩编码n音乐合成和语音识别音乐合成和语音识别第第2章章数字音频处理数字音频处理n2.1概述概述n2.2数字音频的获取数字音频的获取n2.3音频信号压缩编码音频信号压缩编码n2.4音乐合成和音乐合成和MIDIn2.5语音识别语音识别n2.6实验部分实验部分n2.7本章小结本章小结2.12.1概述概述声音是携带信息的重要媒体。研究表明，人类从声音是携带信息的重要媒体。研究表明，人类从外部世界获取的信息中，外部世界获取的信息中，10

2、%10%是通过听觉获得的是通过听觉获得的,因此声音是多媒体技术研究中的一个重要内容。因此声音是多媒体技术研究中的一个重要内容。声音是由物体振动产生的，这种振动引起周围空声音是由物体振动产生的，这种振动引起周围空气压强的振荡，从而使耳朵产生听觉的印象。气压强的振荡，从而使耳朵产生听觉的印象。声音的种类繁多，人的语音是最重要的声音。此声音的种类繁多，人的语音是最重要的声音。此外，还有动物、乐器等发出的声音，风声、雨声、外，还有动物、乐器等发出的声音，风声、雨声、雷声等自然声音，以及机器合成产生的声音等。雷声等自然声音，以及机器合成产生的声音等。2.12.1概述概述幅幅值值t一个周期一个周期+空气压

3、强空气压强图图2.1 空气压强振荡的波形示意图空气压强振荡的波形示意图0 人耳能识别的声音频率范围大约在人耳能识别的声音频率范围大约在202020kHz20kHz，通常称为音频（通常称为音频（audioaudio）信号。）信号。2.12.1概述概述音频信号所携带的信息大体上可分为语音、音音频信号所携带的信息大体上可分为语音、音乐和音效三类。乐和音效三类。语音，指语音，指具有语言内涵和人类约定俗成的特殊具有语言内涵和人类约定俗成的特殊媒体媒体。音乐，指规范的符号化了的声音音乐，指规范的符号化了的声音。音效，指人类熟悉的其他声音。音效，指人类熟悉的其他声音。在多媒体系统中，处理的信号主要是音频信

4、在多媒体系统中，处理的信号主要是音频信号。号。2.12.1概述概述声音包含三个要素：音调、音强和音色。声音包含三个要素：音调、音强和音色。基频与音调：一个声源每秒钟可产生成百上基频与音调：一个声源每秒钟可产生成百上千个波，通常把每秒钟波峰所产生的数目称之为千个波，通常把每秒钟波峰所产生的数目称之为信号的频率，单位用赫兹信号的频率，单位用赫兹(Hz)或千赫兹或千赫兹(kHz)表表示。示。人对声音频率的感觉表现为音调的高低，在人对声音频率的感觉表现为音调的高低，在音乐中称为音高。音调正是由频率音乐中称为音高。音调正是由频率所决定的。所决定的。2.12.1概述概述音乐中音阶的划分是在频率的对数坐

5、标音乐中音阶的划分是在频率的对数坐标(20log)上取等分而得的。如表所示上取等分而得的。如表所示，20log261=48.3，20log293=49.3等。等。音阶音阶C CD DE E F FG GA AB B简谱符号简谱符号1 12 23 34 45 56 67 7频率频率(H(HZ Z)261261293293330330349349392392440440494494频率频率(对数对数)48.348.349.349.350.350.350.850.851.851.852.852.853.853.82.12.1概述概述谐波与音色：谐波与音色：no称为基波称为基波o的的n次谐波分量次谐波

6、分量(n就是高次谐波的方次，就是高次谐波的方次，n o就是基波就是基波o的的n次次谐波谐波)，也称为泛音。音色是由混入基音的泛音所决，也称为泛音。音色是由混入基音的泛音所决定的定的。幅度与音强：信号的幅度是从信号的基线到当前波幅度与音强：信号的幅度是从信号的基线到当前波峰的距离。峰的距离。幅度决定了信号音量的强弱程度。幅度越幅度决定了信号音量的强弱程度。幅度越大，声音越强。一般用动态范围定义相对强度：大，声音越强。一般用动态范围定义相对强度：动态范围动态范围20log(信号的最大强度信号的最大强度/信号的最小强度信号的最小强度)(dB)2.12.1概述概述音宽与频带：频带宽度，也称为带宽，它是

7、描音宽与频带：频带宽度，也称为带宽，它是描述组成复合信号的频率范围。述组成复合信号的频率范围。客观上，通常用频带宽度、动态范围、信噪比客观上，通常用频带宽度、动态范围、信噪比等指标衡量音频信号的质量。音频信号的频带越等指标衡量音频信号的质量。音频信号的频带越宽，所包含的音频信号分量越丰富，音质越好。宽，所包含的音频信号分量越丰富，音质越好。动态范围越大，信号强度的相对变化范围越大，动态范围越大，信号强度的相对变化范围越大，音响效果越好。音响效果越好。CD-DA数字音乐、FM广播、AM广播和电话的带宽2.12.1概述概述声音的质量可以通过信噪比来度量。信噪比声音的质量可以通过信噪比来度量。信噪

8、比(SNR，Signal to Noise Ratio)是有用信号与噪声是有用信号与噪声之比的简称，定义为：之比的简称，定义为：信噪比越大，声音质量越好。信噪比越大，声音质量越好。2.22.2数字音频的获取数字音频的获取n2.2.1采样采样n2.2.2量化量化n2.2.3数字音频的技术指标数字音频的技术指标n2.2.4数字音频的文件格式数字音频的文件格式音频信息处理结构框图 2.2.12.2.1采样采样图2.5 模拟信号的采样所谓采样就是在某些特定的时刻对模拟信号进所谓采样就是在某些特定的时刻对模拟信号进行取值，如上图所示。采样的过程是每隔一个时行取值，如上图所示。采样的过程是每隔一个时间间

9、隔在模拟声音的波形上取一个幅值，把时间间间隔在模拟声音的波形上取一个幅值，把时间上的连续信号变成时间上的离散信号。上的连续信号变成时间上的离散信号。2.2.12.2.1采样采样采样时间间隔称为采样周期采样时间间隔称为采样周期t，其倒数为采样频其倒数为采样频率率fs=1/t。一般来讲，采样频率越高，则在单位时一般来讲，采样频率越高，则在单位时间内计算机得到的声音样本数据就越多，对声音间内计算机得到的声音样本数据就越多，对声音波形的表示也越精确，声音失真越小，但用于存波形的表示也越精确，声音失真越小，但用于存储音频的数据量越大。储音频的数据量越大。根据奈奎斯特定理，只有采样频率高于声音信根据奈奎

10、斯特定理，只有采样频率高于声音信号最高频率的两倍时，才能把数字信号表示的声号最高频率的两倍时，才能把数字信号表示的声音还原为原来的声音。音还原为原来的声音。2.2.22.2.2量化量化每个采样值在幅度上进行离散化处理的过程称每个采样值在幅度上进行离散化处理的过程称为量化为量化。量化可分为均匀量化和非均匀量化。均匀量化量化可分为均匀量化和非均匀量化。均匀量化是把将采样后的信号按整个声波的幅度等间隔分是把将采样后的信号按整个声波的幅度等间隔分成有限个区段，把落入某个区段内的样值归为一成有限个区段，把落入某个区段内的样值归为一类，并赋于相同的量化值。以类，并赋于相同的量化值。以8bit或或16bi

11、t的方式来的方式来划分纵轴为例，其纵轴将会被划分为划分纵轴为例，其纵轴将会被划分为28个和个和216个个量化等级，用以记录其幅度大小。量化等级，用以记录其幅度大小。均匀量化 2.2.22.2.2量化量化非均匀量化是根据信号的不同区间来确定量化非均匀量化是根据信号的不同区间来确定量化间隔。对于信号值小的区间，其量化间隔也小；间隔。对于信号值小的区间，其量化间隔也小；反之，量化间隔就大。反之，量化间隔就大。非均匀量化的实现方法通常是将采样值非均匀量化的实现方法通常是将采样值x通过一个通过一个变换变换y=f(x)后，再对后，再对y进行均匀量化，这种变换通常进行均匀量化，这种变换通常叫做压扩。叫做压

12、扩。根据函数根据函数f(x)的不同，非均匀压扩可以分为的不同，非均匀压扩可以分为u律压律压扩算法和扩算法和A律压扩算法。律压扩算法。量化会引入失真，并且量化失真是一种不可逆失真，量化会引入失真，并且量化失真是一种不可逆失真，这就是通常所说的量化噪声。这就是通常所说的量化噪声。A A律和律和律律律压扩律压扩的数学解析式：其中：x为输入信号的归一化值；y为压扩后的信号。对话音信号编码，常采用=255，这样适量化信噪比改善约24dB。A律压扩其特性可表示为：A律压扩n很明显，小信号时为线性特性，大信号时近似为对数特性。这种压扩特性常把压缩、量化和编码合为一体。A律可用13段折线逼近（相当于A=87.

13、6），便于用数字电路实现。2.2.32.2.3数字音频的技术指标数字音频的技术指标衡量数字音频的主要指标包括：衡量数字音频的主要指标包括：采样频率采样频率量化位数量化位数通道通道(声道声道)个数个数数据传输率是计算机处理时基本参数。未经压数据传输率是计算机处理时基本参数。未经压缩的数字音频数据传输率可按下式计算：缩的数字音频数据传输率可按下式计算：数据传输率数据传输率=采样频率采样频率量化位数量化位数声道数声道数 2.2.32.2.3数字音频的技术指标数字音频的技术指标例例:假定语音信号的带宽是50 Hz10kHz，而音乐信号的是15Hz 20 kHz。采用奈奎斯特频率，并用12bit表

14、示语音信号样值，用16bit表示音乐信号样值，计算这两种信号数字化以后的比特率以及存储一段10分钟的立体声音乐所需要的存储器容量。解：语音信号：取样频率210kHz20kHz；比特率=20k12240 kbit/s 音乐信号：取样频率220kHz40kHz；比特率40kl6kbit/s21280kbits(立体声)所需存储空间1280k 600896MB2.2.42.2.4数字音频的文件格式数字音频的文件格式WAVWAV文件格式简介文件格式简介 WAVWAV是是Microsoft WindowsMicrosoft Windows提供的音频格式。这个提供的音频格式。这个格式是目前通用音频格式，它

15、通常用来保存一些没格式是目前通用音频格式，它通常用来保存一些没有压缩的音频。目前所有的音频播放软件和编辑软有压缩的音频。目前所有的音频播放软件和编辑软件都支持这一格式。件都支持这一格式。WAVWAV文件由三部分组成：文件头文件由三部分组成：文件头(标明是标明是WAVWAV文件、文件、文件结构和数据的总字节数文件结构和数据的总字节数)、数字化参数、数字化参数(如采样如采样频率、声道数、编码算法等频率、声道数、编码算法等)，最后是实际波形数据，最后是实际波形数据。一般来说，声音质量与其。一般来说，声音质量与其WAVWAV格式的文件大小成正格式的文件大小成正比。比。nWAVE(Waveform Au

17、 (32-bits)Wave类型标志 WAVEThe Format(fmt)Chunk格式块(fmt)是WAVE文件必选项，描述波形文件的基本参数，如采样率、位分辨率以及通道数等。#define FormatID fmt /*chunkID for Format Chunk.*/typedef struct ID chunkID;long chunkSize;short wFormatTag;/*currently PCM*/unsigned short wChannels;/*num of channels*/unsigned long dwSamplesPerSec;/*sample ra

18、te in Hz*/unsigned long dwAvgBytesPerSec;/*xxx Bytes/s*/unsigned short wBlockAlign;/*1/2/4-8/16 mono/stereo*/unsigned short wBitsPerSample;/*bits in a sample*/*根据 wFormatTag不同,可以有附加字段.*/FormatChunk;Data Chunk数据块包含实际的波形数据：#define DataID data/*chunk ID for data Chunk*/typedef struct ID chunkID;long ch

19、unkSize;unsigned char waveformData;DataChunk;Offset Description-Offset Contents-0 x00 chunk id RIFF0 x04 chunk size(32-bits)0 x08 wave chunk id WAVE0 x0C0 x0C format chunk id fmt format chunk id fmt 0 x10 0 x10 format chunk size(32-bits)format chunk size(32-bits)0 x14 format tag (currently PCM)0 x16

20、 number of channels 1=mono,2=stereo0 x18 sample rate in Hz0 x1C average bytes per second-Offset Contents-0 x20 number of bytes per sample 1=8-bit mono 2=8-bit stereo or 16-bit mono 4=16-bit stereo 0 x22 number of bits in a sample 0 x240 x24 data chunk id datadata chunk id data 0 x280 x28 length of d

21、ata chunk(32-bits)length of data chunk(32-bits)0 x2C Sample data-2.2.42.2.4数字音频的文件格式数字音频的文件格式MP3MP3文件格式简介文件格式简介 MP3MP3是第一个实用的有损音频压缩编码技术。在是第一个实用的有损音频压缩编码技术。在MP3MP3出现之前，一般的音频编码即使以有损方式进出现之前，一般的音频编码即使以有损方式进行压缩，能达到行压缩，能达到4:14:1的压缩比例已经非常不错了。的压缩比例已经非常不错了。但是，但是，MP3MP3可以实现可以实现12:112:1的压缩比例。的压缩比例。衡量衡量MP3MP3文件

22、的压缩比例通常使用比特率来表示文件的压缩比例通常使用比特率来表示。通常比特率越高，压缩文件就越大，但音乐中。通常比特率越高，压缩文件就越大，但音乐中获得保留的成分就越多，音质就越好。获得保留的成分就越多，音质就越好。2.2.42.2.4数字音频的文件格式数字音频的文件格式MIDI MIDI 文件格式简介文件格式简介 MIDIMIDI最初应用在电子乐器上用来记录乐手的弹最初应用在电子乐器上用来记录乐手的弹奏，以便以后重播。随着在电脑里面引入了支持奏，以便以后重播。随着在电脑里面引入了支持MIDIMIDI合成的声音卡之后，合成的声音卡之后，MIDIMIDI才正式地成为了一才正式地成为了一种音频格式

23、。种音频格式。MIDIMIDI的内容除了乐谱之外还记录了的内容除了乐谱之外还记录了每个音符的弹奏方法。每个音符的弹奏方法。2.2.42.2.4数字音频的文件格式数字音频的文件格式各种文件格式与各种文件格式与WAVWAV格式之间可以进行转换。格式之间可以进行转换。最简单的方法就是使用最简单的方法就是使用WINAMPWINAMP。只要。只要WINAMPWINAMP能播能播放某种格式的音乐，就可以通过它的放某种格式的音乐，就可以通过它的Output Output PluginPlugin中的中的Disk Writer Plugin Disk Writer Plugin 来输出为来输出为WAVWAV

24、文文件。目前件。目前WINAMPWINAMP支持的格式包括：支持的格式包括：VOCVOC、WAVWAV、MIDMID、MP3MP3、MP2MP2、MP1MP1、CDCD、ITIT、XMXM、S3MS3M、STMSTM、MODMOD、DSMDSM、FARFAR、ULTULT、MTMMTM、669669、ASAS、WMAWMA、MJFMJF。2.32.3音频信号压缩编码音频信号压缩编码n2.3.12.3.1概述概述n2.3.22.3.2编码方法编码方法n2.3.32.3.3音频数据的标准音频数据的标准2.3.1 音频编码基础为什么要进行语音编码？为什么能进行语音编码？为什么要进行语音编码？随着对音

25、质要求的增加，信号频率范围逐渐增随着对音质要求的增加，信号频率范围逐渐增加，要求描述信号的数据量也就随之增加，从而加，要求描述信号的数据量也就随之增加，从而带来处理这些数据的时间和传输、存储这些数据带来处理这些数据的时间和传输、存储这些数据的容量增加，因此多媒体音频压缩技术是多媒体的容量增加，因此多媒体音频压缩技术是多媒体技术实用化的关键之一。技术实用化的关键之一。.语音信号中存在多种冗余度 1.时域信息的冗余度 2.频域信息的冗余度 3.人的听觉感知机理 .音频编码的分类为什么能进行语音编码？语音信号中存在多种冗余度：语音信号中存在多种冗余度：1.1.时域信息的冗余度时域信息的冗余度 (1)

26、(1)幅度的非均匀分布幅度的非均匀分布 (2)(2)样本间的相关样本间的相关 (3)(3)周期之间的相关周期之间的相关 (4)(4)基音之间的相关基音之间的相关 (5)(5)静止系数静止系数 (6)(6)长时自相关函数长时自相关函数12例:语音的时域信息的冗余度基音周期(音调周期)一个单音 1 (1)非均匀的长时功率谱密度 (2)语音特有的短时功率谱密度3.3.人的听觉感知机理 (1)人的听觉具有掩蔽效应 (2)人耳对不同频段的声音的敏感程度不同 (3)人耳对语音信号的相位变化不敏感2.频域信息的冗余度在给定的编码速率下获得尽可能好的高质量语音。1.主观评价 (1)可懂度评价 (2)音

27、质评价:平均意见得分、判断满意度测量 2.客观评价语音编码系统性能评价2.3.12.3.1概述概述根据解压后数据是否有失真可以将音频压缩根据解压后数据是否有失真可以将音频压缩分为无损压缩（无失真压缩）和有损压缩（有失分为无损压缩（无失真压缩）和有损压缩（有失真压缩）。真压缩）。无损压缩的压缩效率低，但是可以无失真地重现无损压缩的压缩效率低，但是可以无失真地重现原始数据。原始数据。无损压缩的压缩效率较高，但有数据丢失。无损压缩的压缩效率较高，但有数据丢失。2.3.12.3.1概述概述音频信息编码技术主要可分为三类音频信息编码技术主要可分为三类。波形编码：这种方法主要基于语音波形预测，波形编

28、码：这种方法主要基于语音波形预测，它力图使重建的语音波形保持原有的波形状态。它力图使重建的语音波形保持原有的波形状态。常用的波形编码技术有增量调制常用的波形编码技术有增量调制(DM)(DM)、自适应差、自适应差分脉冲编码调制分脉冲编码调制(ADPCM)(ADPCM)、子带编码、子带编码(SBC)(SBC)和矢量和矢量量化编码量化编码(VQ)(VQ)等等。等等。2.3.12.3.1概述概述波形编码的特点是在高码率的条件下获得高波形编码的特点是在高码率的条件下获得高质量的音频信号，适用于高保真度语音和音乐信质量的音频信号，适用于高保真度语音和音乐信号的压缩技术。号的压缩技术。它的优点是编码方法简

29、单、易于实现、适应能它的优点是编码方法简单、易于实现、适应能力强、语音质量好等，缺点是压缩比相对来说较力强、语音质量好等，缺点是压缩比相对来说较低，需要较高的编码速率。低，需要较高的编码速率。2.3.12.3.1概述概述参数编码：参数编码的方法是将音频信号以某参数编码：参数编码的方法是将音频信号以某种模型表示，再抽出合适的模型参数和参考激励种模型表示，再抽出合适的模型参数和参考激励信号进行编码；声音重放时，再根据这些参数重信号进行编码；声音重放时，再根据这些参数重建即可。显然参数编码压缩比很高，但计算量建即可。显然参数编码压缩比很高，但计算量大。它主要用于在窄带信道上提供大。它主要用于在窄带信

30、道上提供4.8kb/s4.8kb/s以下以下的低速语音通信和一些对延时要求较宽的应用场的低速语音通信和一些对延时要求较宽的应用场合（如卫星通信等）。最常用的参数编码法为线合（如卫星通信等）。最常用的参数编码法为线性预测（性预测（LPCLPC）编码。）编码。2.3.12.3.1概述概述混合编码：这种方法克服了原有波形编码与参混合编码：这种方法克服了原有波形编码与参数编码的弱点，并且结合了波形编码的高质量和数编码的弱点，并且结合了波形编码的高质量和参数编码的低数据率，取得了比较好的效果。混参数编码的低数据率，取得了比较好的效果。混合编码是指同时使用两种或两种以上的编码方法合编码是指同时使用两种或两

31、种以上的编码方法进行编码的过程。由于每种编码方法都有自己的进行编码的过程。由于每种编码方法都有自己的优势和不足，若是用两种或两种以上的编码方法优势和不足，若是用两种或两种以上的编码方法进行编码，可以优势互补，克服各自的不足，从进行编码，可以优势互补，克服各自的不足，从而达到高效数据压缩的目的。而达到高效数据压缩的目的。2.3.22.3.2编码方法编码方法常用的音频编码压缩算法有以下几种常用的音频编码压缩算法有以下几种。增量调制增量调制增量调制增量调制(DM)是是一种比较简单且有数据压缩功一种比较简单且有数据压缩功能的波形编码方法。在编码端，由前一个输入信能的波形编码方法。在编码端，由前一个

32、输入信号的编码值经解码器解码可得到下一个信号的预号的编码值经解码器解码可得到下一个信号的预测值。输入的模拟音频信号与预测值在比较器上测值。输入的模拟音频信号与预测值在比较器上相减，从而得到差值。差值的极性可以是正也可相减，从而得到差值。差值的极性可以是正也可以是负。若为正，则编码输出为；若为负，则以是负。若为正，则编码输出为；若为负，则编码输出为编码输出为0。这样，在增量调制的输出端可以。这样，在增量调制的输出端可以得到一串得到一串1位编码的位编码的DM码。码。2.3.22.3.2编码方法编码方法译码器译码器比较器比较器极性判别极性判别信信道道调制器调制器输入输入信号信号脉冲脉冲发生器发生器

33、增量调制的系统结构图增量调制的系统结构图增量调制编码过程示意图增量调制编码过程示意图问题1:斜率过载当语音信号大幅度发生变化时，阶梯波形的上升或下降有可能跟不上信号的变化,因而产生滞后，这种失真称为“过载失真”。在斜率过载期间的码字将是一连串的0或者一连串的1。为避免斜率过载，要求阶梯波的上升或下降的斜率必须大于或等于语音信号的最大变化斜率。当话音信号不发生变化或者变化很缓慢时，预测误差信号将等于零或具有很小的绝对值，在这种情况下，编码为0和1交替出现的序列。这样，在解码器中所得到的是等幅脉冲序列，这样形成的噪声称为颗粒噪声。问题2:颗粒噪声为了减少颗粒噪声，希望使输出编码1位所表示的量化

34、阶距小一些。但是，减少量化阶距会使在固定采样速度下产生更严重的斜率过载。为了解决这些矛盾，促使人们研究出了自适应增量调制(ADM)方法。分析2.3.22.3.2编码方法编码方法自适应增量调制（自适应增量调制（ADM）在在ADM中，常用的规则有两种中，常用的规则有两种:一种是控制可一种是控制可变因子变因子M，使量化阶距在一定范围内变化。对于，使量化阶距在一定范围内变化。对于每一个新的采样，其量化阶距为其前面数值的每一个新的采样，其量化阶距为其前面数值的M倍。而的值则由输入信号的变化率来决定。如倍。而的值则由输入信号的变化率来决定。如果出现连续相同的编码，则说明有发生过载的危果出现连续相同的编码，

35、则说明有发生过载的危险，这时就要加大。当险，这时就要加大。当0、1信号交替出现时信号交替出现时，说明信号变化很慢，会产生颗粒噪声，这时就，说明信号变化很慢，会产生颗粒噪声，这时就要减少要减少M值。值。2.3.22.3.2编码方法编码方法其典型的规则为其典型的规则为:另一类使用较多的自适应增量调制称为可变斜另一类使用较多的自适应增量调制称为可变斜率增量调制。其工作原理如下：如果调制器连续率增量调制。其工作原理如下：如果调制器连续输出三个相同的码，则量化阶距加上一个大的增输出三个相同的码，则量化阶距加上一个大的增量，也就是说，三个连续相同的码表示有过载发量，也就是说，三个连续相同的码表示有过载发生

36、。反之，则量化阶距增加一个小的增量。生。反之，则量化阶距增加一个小的增量。2.3.22.3.2编码方法编码方法可变斜率增量的自适应规则为：可变斜率增量的自适应规则为：式中，式中，可在可在01之间取值。可以看到，的大之间取值。可以看到，的大小可以通过调节增量调制来适应输入信号变化小可以通过调节增量调制来适应输入信号变化所需时间的长短。和为增量，而且要大所需时间的长短。和为增量，而且要大于等于。于等于。2.3.22.3.2编码方法编码方法脉冲编码调制脉冲编码调制PCMv PCM编码是对连续语音信号进行空间采样、编码是对连续语音信号进行空间采样、幅度量化及用适当码字将其编码的总称。幅度量化及用适当

37、码字将其编码的总称。vPCM是一种最通用的无损压缩编码，其特点是是一种最通用的无损压缩编码，其特点是保真度高，解码速度快，但编码后的数据量大。保真度高，解码速度快，但编码后的数据量大。CD-DA就是采用的这种编码方式。就是采用的这种编码方式。PCM方法可方法可以按量化方式的不同，分为均匀量化以按量化方式的不同，分为均匀量化PCM、非、非均匀量化均匀量化PCM和自适应量化和自适应量化PCM等几种。等几种。2.3.22.3.2编码方法编码方法差分脉冲编码调制差分脉冲编码调制DPCM 差分脉冲编码调制的中心思想是对信号的差值差分脉冲编码调制的中心思想是对信号的差值而不是对信号本身进行编码。这个差值是

38、指信号而不是对信号本身进行编码。这个差值是指信号值与预测值的差值。预测值可以由过去的采样值值与预测值的差值。预测值可以由过去的采样值进行预测，其计算公式如下所示：进行预测，其计算公式如下所示：2.3.22.3.2编码方法编码方法式中为预测系数。因此，利用若干个前面的式中为预测系数。因此，利用若干个前面的采样值可以预测当前值。当前值与预测值的差采样值可以预测当前值。当前值与预测值的差为：为：差分脉冲编码调制就是将上述每个样点的差值差分脉冲编码调制就是将上述每个样点的差值量化编码，而后用于存储或传递量化编码，而后用于存储或传递。2.3.22.3.2编码方法编码方法自适应差分脉冲编码调制自适应差分

39、脉冲编码调制ADPCM 将自适应量化器和自适应预测器结合在一起用将自适应量化器和自适应预测器结合在一起用于于DPCM之中，从而实现了自适应差分脉冲编码之中，从而实现了自适应差分脉冲编码。ADPCM是一种有损压缩编码，记录的量化值是一种有损压缩编码，记录的量化值不是每个采样点的幅值，而是该点的幅值与前一不是每个采样点的幅值，而是该点的幅值与前一个采样点幅值之差。个采样点幅值之差。2.3.22.3.2编码方法编码方法其简化框图如下图所示其简化框图如下图所示：图2.10 ADPCM框图预测PCM样本+PCM样本 +差分量化器ADPC“差值”量化阶调整逆量化器预测器ADPC“差值”2.3.22.3

40、.2编码方法编码方法子带编码子带编码首先用一组带通滤波器，将输入的音频信号分首先用一组带通滤波器，将输入的音频信号分成若干个连续的频段，并将这些频段称为子带。成若干个连续的频段，并将这些频段称为子带。然后，再分别对这些子带中的音频分量进行采样然后，再分别对这些子带中的音频分量进行采样和编码。最后，再将各子带的编码信号组织到一和编码。最后，再将各子带的编码信号组织到一起进行存储或送到信道上传送。在信道的接收端起进行存储或送到信道上传送。在信道的接收端得到各子带编码的混合信号，将各子带的编码取得到各子带编码的混合信号，将各子带的编码取出来，对它们分别进行解码，产生各子带的音频出来，对它们分别进行

41、解码，产生各子带的音频分量，再将各子带的音频分量组合在一起，恢复分量，再将各子带的音频分量组合在一起，恢复原始的音频信号。原始的音频信号。2.3.22.3.2编码方法编码方法子带编码的原理框如下图：子带编码的原理框如下图：2.3.22.3.2编码方法编码方法变换域编码变换域编码在子带编码中，划分子带的方法是通过带通滤在子带编码中，划分子带的方法是通过带通滤波器来完成的。而另外一种方法就是通过变换域波器来完成的。而另外一种方法就是通过变换域编码方法，将输入信号直接转换到频域，然后在编码方法，将输入信号直接转换到频域，然后在频域划分各频段，根据不同的频段能量大小分配频域划分各频段，根据不同的频

42、段能量大小分配码字然后编码，接收端解码后再用相应的反变换码字然后编码，接收端解码后再用相应的反变换转换成时域信号。转换成时域信号。2.3.32.3.3音频数据的标准音频数据的标准从数据通信的角度，音频编码标准主要有三种从数据通信的角度，音频编码标准主要有三种：在电话传输系统中应用的电话质量的音频压缩编码在电话传输系统中应用的电话质量的音频压缩编码技术标准技术标准，如如PCMPCM（ITU G.711ITU G.711）等）等。在窄带综合服务数据网传送中应用的调幅广播质量在窄带综合服务数据网传送中应用的调幅广播质量的音频压缩编码技术标准的音频压缩编码技术标准,如如G.722G.722等。等。在

43、电视传输系统、视频点播系统中应用的音频编码在电视传输系统、视频点播系统中应用的音频编码标准，如标准，如MPEGMPEG音频标准等。音频标准等。2.3.32.3.3音频数据的标准音频数据的标准电话质量的音频压缩编码技术标准电话质量的音频压缩编码技术标准(1)G.711(1)G.711 G.711 G.711标准是标准是19721972年年CCITTCCITT（现称为（现称为ITU-TITU-T）制定）制定的的PCMPCM语音标准，采样频率为语音标准，采样频率为8kHz8kHz，每个样本值用，每个样本值用8 8位二进制编码，因此输出的数据率位二进制编码，因此输出的数据率64kb/s.64kb/s.

44、采用采用非线性量化非线性量化律或律或A A律，将样本精度为律，将样本精度为1313位的位的PCMPCM按按A A律压扩编码，律压扩编码，1414位的位的PCMPCM按按律压扩编码转换律压扩编码转换为为8 8位编码，其质量相当于位编码，其质量相当于12bit12bit线性量化的音质。线性量化的音质。2.3.32.3.3音频数据的标准音频数据的标准(2)G.721(2)G.721 G.721G.721标准是标准是19841984年年ITU-TITU-T制定的，主要目的制定的，主要目的是用于是用于64kbit/s64kbit/s的的A A律和律和律律PCMPCM与与32kbit/s32kbit/s的

45、的ADPCMADPCM之间的转换。它基于之间的转换。它基于ADPCMADPCM技术，采样频率技术，采样频率为为8kHz8kHz，每个样本与预测值的差值用，每个样本与预测值的差值用4 4位编码，位编码，其编码速率为其编码速率为32kbit/s32kbit/s。2.3.32.3.3音频数据的标准音频数据的标准(3)G.728(3)G.728 G.728 G.728标准是一个追求低比特率的标准，其标准是一个追求低比特率的标准，其速率为速率为16kbit/s16kbit/s，其质量与，其质量与32kbit/s32kbit/s的的G.721G.721标标准基本相当。它使用了准基本相当。它使用了LD-CE

46、LPLD-CELP（低延时码本激（低延时码本激励线性预测）算法。励线性预测）算法。2.3.32.3.3音频数据的标准音频数据的标准调幅广播质量的音频压缩编码技术标准调幅广播质量的音频压缩编码技术标准调幅广播质量音频信号的频率在调幅广播质量音频信号的频率在50Hz50Hz7kHz7kHz范围。范围。CCITTCCITT在在19881988年制定了年制定了G.722G.722标准。标准。G.722G.722标准是采标准是采用用16kHz16kHz采样，采样，14bit14bit量化，信号数据速率为量化，信号数据速率为224kbit/s224kbit/s，采用子带编码方法，将输入音频信号经，采用子

47、带编码方法，将输入音频信号经滤波器分成高子带和低子带两个部分，分别进行滤波器分成高子带和低子带两个部分，分别进行ADPCMADPCM编码，再混合形成输出码流，编码，再混合形成输出码流，224kbit/s224kbit/s可以可以被压缩成被压缩成64kbit/s64kbit/s，最后进行数据插入（最高插入，最后进行数据插入（最高插入速率达速率达16kbit/s16kbit/s）。）。2.3.32.3.3音频数据的标准音频数据的标准高保真度立体声音频压缩编码技术标准高保真立体声音频信号频率范围是高保真立体声音频信号频率范围是50Hz50Hz20kHz20kHz，采用，采用44.1kHz44.1

48、kHz采样频率，采样频率，16bit16bit量化进量化进行数字化转换，其数据速率每声道行数字化转换，其数据速率每声道705kbit/s705kbit/s。2.42.4音乐合成和音乐合成和MIDIMIDIn2.4.1概述n2.4.2计算机上合成音乐的产生过程n2.4.3MIDI音乐合成器2.4.12.4.1概述概述数字音频实际上是一种数字式录音数字音频实际上是一种数字式录音/重放的过重放的过程，它需要很大的数据量。在多媒体系统中，除程，它需要很大的数据量。在多媒体系统中，除了用数字音频的方式之外，还可以用采样合成的了用数字音频的方式之外，还可以用采样合成的方式产生音乐。音乐合成的方式是根据一

49、定的协方式产生音乐。音乐合成的方式是根据一定的协议标准，采用音乐符号记录方法来记录和解释乐议标准，采用音乐符号记录方法来记录和解释乐谱，并合成相应的音乐信号，这也就是谱，并合成相应的音乐信号，这也就是MIDIMIDI（Musical Instrument Digital InterfaceMusical Instrument Digital Interface）方）方式。式。2.4.12.4.1概述概述 MIDIMIDI是乐器数字接口的缩写，泛指数字音乐是乐器数字接口的缩写，泛指数字音乐的国际标准，它是音乐与计算机结合的产物。的国际标准，它是音乐与计算机结合的产物。MIDIMIDI不是把音乐的

50、波形进行数字化采样和编码，不是把音乐的波形进行数字化采样和编码，而是将数字式电子乐器弹奏过程记录下来，如按而是将数字式电子乐器弹奏过程记录下来，如按了哪一个键、力度多大、时间多长等。当需要播了哪一个键、力度多大、时间多长等。当需要播放这首乐曲时，根据记录的乐谱指令，通过音乐放这首乐曲时，根据记录的乐谱指令，通过音乐合成器生成音乐声波，经放大后由扬声器播出。合成器生成音乐声波，经放大后由扬声器播出。2.4.12.4.1概述概述音乐合成器生成音乐采用音乐合成器生成音乐采用MIDIMIDI文件存储。文件存储。MIDIMIDI文件是用来记录音乐的一种文件格式，文件后缀文件是用来记录音乐的一种文件格式

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

20 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 数字音频处理课件

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：数字音频处理课件.ppt
链接地址：https://www.taowenge.com/p-70789975.html