音频信息处理技术.ppt
《音频信息处理技术.ppt》由会员分享,可在线阅读,更多相关《音频信息处理技术.ppt(68页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、音频信息处理技术音频信息处理技术本章导读音频信息处理技术是多媒体信息处理的主要技术之一,音频信息处理技术是多媒体信息处理的主要技术之一,它使计算机具备了录音、声音编辑、语音合成、声音播放它使计算机具备了录音、声音编辑、语音合成、声音播放等功能。在等功能。在MPC中,可以通过声音传递信息、制造效果、中,可以通过声音传递信息、制造效果、营造气氛及演奏音乐等。目前的音频信息处理技术主要包营造气氛及演奏音乐等。目前的音频信息处理技术主要包括模拟声音信号的数字化、数据压缩编码、数字音效处理、括模拟声音信号的数字化、数据压缩编码、数字音效处理、音频文件存储、传输、播放等内容。音频文件存储、传输、播放等内容
2、。本章主要介绍声音信本章主要介绍声音信号及其数字化的基本概念、音频卡的组成及其工作原理、号及其数字化的基本概念、音频卡的组成及其工作原理、数字音频的采集与编辑、数字音频的采集与编辑、MIDI音乐以及几个常用的音频处音乐以及几个常用的音频处理软件等内容,理软件等内容,并以并以AdobeAudition3.0版本为例,详细版本为例,详细介绍音频信息编辑处理的具体方法。介绍音频信息编辑处理的具体方法。http:/ http:/ http:/ http:/ http:/ http:/ http:/ http:/ http:/ http:/ http:/ http:/ http:/ http:/www.
3、zg- http:/ http:/www.skf- http:/www.nsk- http:/www.fag- http:/ http:/www.ntn- http:/ http:/ http:/ http:/ http:/ http:/www.xunchi- http:/ http:/ http:/ http:/ http:/ http:/ http:/www.ort- 4.1 音频基础知识音频基础知识 4.2 4.2 音质标准与评价音质标准与评价4.3 4.3 音频的数字化与编码音频的数字化与编码4.4 4.4 音频卡音频卡4.5 4.5 数字音频的采集与编辑数字音频的采集与编辑4.6 M
4、IDI4.6 MIDI音乐音乐4.1 4.1 音频基础知识音频基础知识4.1.1 4.1.1 声音的物理特征声音的物理特征 声音声音是由物体振动产生的,并以是由物体振动产生的,并以声波形式声波形式通过介质(如通过介质(如空气、水、金属等)传播。物理上,声音可以用空气、水、金属等)传播。物理上,声音可以用一条连续曲一条连续曲线线来表示,来表示,,如图如图4-1 4-1。物体振动的最大位移称为。物体振动的最大位移称为振幅振幅A A,声,声波中两个连续波峰(或波谷)之间的距离称为波中两个连续波峰(或波谷)之间的距离称为周期周期T T,周期,周期的倒数的倒数1/T1/T即为即为频率频率f f,以,以赫
5、兹(赫兹(HzHz)为单位,频率为单位,频率反映了单位时间(反映了单位时间(1 1秒)物秒)物体振动的次数。体振动的次数。图图4-1 4-1 声波的振幅与频率声波的振幅与频率TAt0 声音按频率可分为三类:声音按频率可分为三类:音频、次声、超声音频、次声、超声 l 低于低于20Hz20Hz的声音称为次声的声音称为次声l 频率范围在频率范围在20Hz20Hz20kHz20kHz范范围的可听声音称为音频,围的可听声音称为音频,其中人说话发出的语音信号的其中人说话发出的语音信号的频率范围是频率范围是300Hz300Hz3kHz3kHzl 频率高于频率高于20kHz20kHz的称为超音的称为超音频(或
6、超声)频(或超声)15 20 300 3k 20k 50k f(Hz)音频信号音频信号语音信号语音信号超声信号超声信号次声信号次声信号图图4-2 4-2 不同声音信号的频率范围不同声音信号的频率范围 可听的音频声音又可分为可听的音频声音又可分为语音、乐音、效果音、合语音、乐音、效果音、合成音、噪音(声)成音、噪音(声)等五种。等五种。4.1.2 4.1.2 音频三要素音频三要素 音频有三个主要属性,分别是音频有三个主要属性,分别是音调、音强音调、音强和和音色音色,它们,它们既反映了音频信号的基本特征,也是人感受声音信号的三个既反映了音频信号的基本特征,也是人感受声音信号的三个主要因素,因此又被
7、称为音频三要素。主要因素,因此又被称为音频三要素。音调音调:又称音高,反映声音的高低程度,由声音信号的:又称音高,反映声音的高低程度,由声音信号的频率大小所决定。频率越大,音调越高;频率越小,音调越频率大小所决定。频率越大,音调越高;频率越小,音调越低。低。音强音强:又称响度,反映声音的大小或强弱,由振幅和声:又称响度,反映声音的大小或强弱,由振幅和声源距离共同决定。振幅越大,距离越小,音强(响度)越大。源距离共同决定。振幅越大,距离越小,音强(响度)越大。音色音色:又称音质,反映声音的品质,它由振动物体(声:又称音质,反映声音的品质,它由振动物体(声源)的材料、结构、状态等自身因素决定,表现
8、为声源的频源)的材料、结构、状态等自身因素决定,表现为声源的频带宽度。带宽度。4.1.3 4.1.3 数字音频的三种形式数字音频的三种形式 音频(音频(AudioAudio)是指频率在)是指频率在20Hz20Hz20kHz20kHz范围内的可听声范围内的可听声音,是多媒体信息中的一种媒体类型音,是多媒体信息中的一种媒体类型听觉类媒体。听觉类媒体。目前多媒体计算机中的音频主要有目前多媒体计算机中的音频主要有波形音频、波形音频、CDCD音频和音频和MIDIMIDI音乐音乐3 3种形式。种形式。1 1、波形音频:、波形音频:是由外部声音源通过数字化过程采集到多媒体计算机中是由外部声音源通过数字化过程
9、采集到多媒体计算机中的所有声音形式。可通过编辑(裁剪、合成、效果等)、编的所有声音形式。可通过编辑(裁剪、合成、效果等)、编码压缩、存储、传输以及还原播放等方式进行处理。在波形码压缩、存储、传输以及还原播放等方式进行处理。在波形音频中,有一类特殊的声音需要特别提到,即人的语音。语音频中,有一类特殊的声音需要特别提到,即人的语音。语音是波形声音中人的说话声音,具有内在的语言学、语音学音是波形声音中人的说话声音,具有内在的语言学、语音学的内涵。的内涵。2 2、CDCD音频音频 CD-CD-音频(音频(CD-AudioCD-Audio)是存储在音乐)是存储在音乐CDCD光盘中的数字音光盘中的数字音频
10、,可以通过频,可以通过CD-ROMCD-ROM驱动器读取并采集到多媒体计算机系驱动器读取并采集到多媒体计算机系统中,并以波形音频的相应形式存储、传输和处理。统中,并以波形音频的相应形式存储、传输和处理。3 3、MIDIMIDI音乐音乐 也称也称MIDIMIDI音频。它将音乐符号化并保存在音频。它将音乐符号化并保存在MIDIMIDI文件中,文件中,并通过音乐合成器产生相应的声音波形来还原播放。并通过音乐合成器产生相应的声音波形来还原播放。音频是时间的函数,具有很强的前后相关性,所以实音频是时间的函数,具有很强的前后相关性,所以实时性是音频处理的基本要求。时性是音频处理的基本要求。4.1.4 4.
11、1.4 数字音频的文件格式数字音频的文件格式音频文件通常分为两大类:音频文件通常分为两大类:声音文件声音文件 和和 MIDIMIDI文件文件下表介绍几种常用的音频文件格式及后缀名:下表介绍几种常用的音频文件格式及后缀名:序号序号音频文件名称音频文件名称后缀名后缀名1 1WaveWave文件文件 .WAV.WAV 2 2AIFFAIFF文件文件 .AIF/.AIFF.AIF/.AIFF 3 3AudioAudio文件文件 .AU.AU 4 4 Sound Sound文件文件 .SND.SND 5 5VoiceVoice文件文件 .VOC.VOC 6 6 Mpeg Mpeg音频文件音频文件 .MP
12、1/.MP2/.MP3.MP1/.MP2/.MP3 7 7RealAudioRealAudio文件文件 .RA/.RM/.RAM.RA/.RM/.RAM 8 8Windows Media AudioWindows Media Audio文件文件 .WMA/.ASF/.ASX/.WAX.WMA/.ASF/.ASX/.WAX 9 9MIDIMIDI文件文件 .MID/.RMI/.CMI/.CMF.MID/.RMI/.CMI/.CMF 1010ModuleModule文件文件 .MOD/.S3M/.XM/.MTM/.FAR/.KAR/.MOD/.S3M/.XM/.MTM/.FAR/.KAR/4.1.
13、5 4.1.5 音频处理工具软件简介音频处理工具软件简介 音频工具软件在内容上主要指处理数字音频和音频工具软件在内容上主要指处理数字音频和MIDIMIDI乐谱的乐谱的各种工具软件,在功能上包括各种工具软件,在功能上包括音频采集、编辑、合成、编码压音频采集、编辑、合成、编码压缩以及缩以及MIDIMIDI乐谱的创作、编辑、发布等环节乐谱的创作、编辑、发布等环节。按照音频处理的基本过程,通常可把音频工具软件分为:按照音频处理的基本过程,通常可把音频工具软件分为:1 1、MIDIMIDI制作软件制作软件 2 2、音频处理软件、音频处理软件 3 3、音频压缩软件、音频压缩软件 4 4、音乐、音乐CDCD
14、刻录软件刻录软件4.2 4.2 音质标准与评价音质标准与评价4.2.1 4.2.1 音质等级标准音质等级标准 音质音质是指音频信号经传输、处理后所再现的声音质量是指音频信号经传输、处理后所再现的声音质量(保真度)。(保真度)。等级等级频率范围频率范围音质音质高端高端DVDDVD0 048kHz48kHz顶级顶级标准标准DVDDVD0 024kHz24kHzCD-DACD-DA音质音质10Hz10Hz20kHz20kHz高高FMFM广播音质广播音质20Hz20Hz15kHz15kHz较高较高AMAM广播音质广播音质50Hz50Hz7kHz7kHz中中电话音质电话音质200Hz200Hz3.4kH
15、z3.4kHz低低4.2.2 4.2.2 音质客观评价音质客观评价 客观评价客观评价是指通过检测仪器测量音频信号的技术指标来进是指通过检测仪器测量音频信号的技术指标来进行声音质量评价,主要技术指标有:频带宽度、动态范围和信行声音质量评价,主要技术指标有:频带宽度、动态范围和信噪比等。噪比等。理论上,理论上,声音信号是由许多频率不同的分量信号组合而成声音信号是由许多频率不同的分量信号组合而成的复合信号,因此,声音的频带宽度特指复合声音信号的频率的复合信号,因此,声音的频带宽度特指复合声音信号的频率范围,范围越大,频带越宽,可包含的音频信号(谐波)越丰范围,范围越大,频带越宽,可包含的音频信号(谐
16、波)越丰富,因而声音质量就越高。富,因而声音质量就越高。实际上实际上,再现声音(特别是乐音)的质量与所用的播放设,再现声音(特别是乐音)的质量与所用的播放设备和场地条件有关。高质量的音频信号要通过高品质的音响设备和场地条件有关。高质量的音频信号要通过高品质的音响设备在较好的音响环境中,才能再现出高质量的音响效果。对于备在较好的音响环境中,才能再现出高质量的音响效果。对于音响设备而言,主要关注音响设备而言,主要关注失真度、频响、瞬态响应、信噪比、失真度、频响、瞬态响应、信噪比、声道分离度、声道平衡度声道分离度、声道平衡度等指标。等指标。4.2.3 4.2.3 音质主观评价音质主观评价 主观评价是
17、指通过人聆听各种声音而产生的好恶感觉来进主观评价是指通过人聆听各种声音而产生的好恶感觉来进行声音质量评价。行声音质量评价。1 1、语音质量评价方法、语音质量评价方法 常用的主观评价方法有:常用的主观评价方法有:平均主观分法,失真平均主观分平均主观分法,失真平均主观分法,判断满意度测量法法,判断满意度测量法等。等。ITU-TP800ITU-TP800标准中定义的标准中定义的MOSMOS,它将语音质量分为,它将语音质量分为5 5级,如表级,如表所示:所示:等级等级音质音质主观感觉主观感觉5 5优优未察觉失真未察觉失真4 4良良刚察觉失真,但不讨厌刚察觉失真,但不讨厌3 3中中察觉失真,稍微讨厌察觉
18、失真,稍微讨厌2 2差差讨厌,但不令人反感讨厌,但不令人反感1 1劣劣极其讨厌,令人反感极其讨厌,令人反感 2 2、乐音质量评价、乐音质量评价 乐音音质的优劣取决于多种因素,如乐音音质的优劣取决于多种因素,如声源特性、音响器声源特性、音响器材的信号特性、声场特性、听觉特性材的信号特性、声场特性、听觉特性等。因此,对音响设等。因此,对音响设备再现的乐音音质的准确评价难度较大。备再现的乐音音质的准确评价难度较大。主观评价乐音音质,一般是通过再现乐音的响度、音调主观评价乐音音质,一般是通过再现乐音的响度、音调和音色的变化及其组合来评价音质的,和音色的变化及其组合来评价音质的,几种典型的听感:几种典型
19、的听感:定位感定位感 ,空间感,空间感 ,层次感,层次感 ,厚度,厚度感感 ,立体感,立体感 。除此之外,还有力度感、亮度感、临场感、。除此之外,还有力度感、亮度感、临场感、软硬感、松紧感、宽窄感等许多评价音质的听感。软硬感、松紧感、宽窄感等许多评价音质的听感。4.3 4.3 音频的数字化与编码音频的数字化与编码 计算机在处理音频信号之前,计算机在处理音频信号之前,必须将模拟的声音信号数字化,形必须将模拟的声音信号数字化,形成数字音频。具体过程包括:成数字音频。具体过程包括:采样采样、量化、编码、量化、编码。4.3.1 4.3.1 采样与采样频率采样与采样频率 采样是每间隔一段时间读采样是每间
20、隔一段时间读取一次声音信号幅度,使声音取一次声音信号幅度,使声音信号在时间上被离散化,如图信号在时间上被离散化,如图4-24-2所示。采样的主要参数是所示。采样的主要参数是采样频率采样频率 。采样频率采样频率:是指将模拟声音波形数字化时,每秒钟所抽取:是指将模拟声音波形数字化时,每秒钟所抽取声波幅度样本的次数,其计算单位是声波幅度样本的次数,其计算单位是kHz(kHz(千赫兹千赫兹)。如图。如图4-34-3是模拟声音信号数字化时的采样图示。是模拟声音信号数字化时的采样图示。一般来讲,采样频率一般来讲,采样频率越高声音失真越小,用于越高声音失真越小,用于存储数字音频的数据量也存储数字音频的数据量
21、也越大。越大。采样频率的高低是根采样频率的高低是根据据声音信号本身的最高频声音信号本身的最高频率和采样定理率和采样定理决定的。决定的。图图4-3 4-3 声音信号采样声音信号采样 采样定理采样定理:在进行模拟:在进行模拟/数字信号的转换过程中,当采数字信号的转换过程中,当采样频率样频率f fs s大于信号中最高频率大于信号中最高频率f fmaxmax的的2 2倍时,即倍时,即f fs s=2f=2fmaxmax,采,采样之后的数字信号完整地保留了原始信号中的信息。采样定样之后的数字信号完整地保留了原始信号中的信息。采样定理又叫奈奎斯特定理(理又叫奈奎斯特定理(Nyquist theoryNyq
22、uist theory)。)。表表4-4 4-4 不同音质数字音频的常用采样率不同音质数字音频的常用采样率采样率采样率音质音质频率范围频率范围8,000 Hz8,000 Hz电话电话0 04,000 Hz4,000 Hz11,025 Hz11,025 Hz低于低于AMAM广播广播0 05,512 Hz5,512 Hz22,050 Hz22,050 Hz接近接近FMFM广播广播0 011,025 Hz11,025 Hz32,000 Hz32,000 Hz优于优于FMFM广播广播0 016,000 Hz16,000 Hz44,100 Hz44,100 HzCD-DACD-DA0 022,050 H
23、z22,050 Hz48,000 Hz48,000 Hz标准标准DVDDVD0 024,000 Hz24,000 Hz96,000 Hz96,000 Hz高端高端DVDDVD0 048,000 Hz48,000 Hz4.3.2 4.3.2 量化与量化位数量化与量化位数 量化量化就是把采样得到的声音信号幅度转换为数字值,就是把采样得到的声音信号幅度转换为数字值,是声音信号在幅度上被离散化。是声音信号在幅度上被离散化。量化位数量化位数n n定义了每个采样点的数据范围(定义了每个采样点的数据范围(0 02 2n n-1-1),),也叫量化等级,量化等级的多少决定了声音的动态范围。也叫量化等级,量化等
24、级的多少决定了声音的动态范围。图图4-4 4-4 量化位数与动态范围量化位数与动态范围 4.3.2 4.3.2 量化与量化位数量化与量化位数表表4-5 4-5 不同音质的量化位数、量化范围、动态范围不同音质的量化位数、量化范围、动态范围量化位数量化位数音质音质量化等级量化等级动态范围动态范围8 8位位电话电话25625648 dB48 dB1616位位CDCD65,53665,53696 dB96 dB2424位位DVDDVD16,777,21616,777,216144 dB144 dB3232位位顶级顶级4,294,967,2964,294,967,296192 dB192 dB4.3.3
25、 4.3.3 声道声道声道个数是声道个数是反映音频数字化质量的另一个因素。反映音频数字化质量的另一个因素。单声道:单声道:采集声音数据时,仅采集一个声波的数据采集声音数据时,仅采集一个声波的数据双声道(立体声)双声道(立体声):采集两个声波数据:采集两个声波数据多声道(环绕立体声)多声道(环绕立体声):采集两个以上声波数据:采集两个以上声波数据声道数越多,再现出的音响效果就越好。声道数越多,再现出的音响效果就越好。4.3.4 4.3.4 音频采样的数据量音频采样的数据量数字音频的数据量主要取决于两个因素:数字音频的数据量主要取决于两个因素:u音质因素音质因素:由采样频率、量化位数和声道数:由采
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 音频 信息处理 技术
限制150内