音频信息的获取与处理精.ppt
《音频信息的获取与处理精.ppt》由会员分享,可在线阅读,更多相关《音频信息的获取与处理精.ppt(125页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、音频信息的获取与处理第1页,本讲稿共125页2.1 音频信号及其概念u2.1.1 声音处理技术历史回顾 语言、音乐和各种自然声是以声波为载体传递信息的基本语言、音乐和各种自然声是以声波为载体传递信息的基本形式形式 。人类很早就开始研究声音,并利用当时已掌握了的声音。人类很早就开始研究声音,并利用当时已掌握了的声音的某些规律来制造乐器、进行建筑设计或传声装置设计,使发出的某些规律来制造乐器、进行建筑设计或传声装置设计,使发出的声音传得更远。可是几千年来,人类只能凭耳朵来辨别声音的的声音传得更远。可是几千年来,人类只能凭耳朵来辨别声音的高低、强弱,而不能把声音记录和储存起来。所以与其他研究领高低、
2、强弱,而不能把声音记录和储存起来。所以与其他研究领域相比,声学的研究相对滞后。直到域相比,声学的研究相对滞后。直到1919世纪爱迪生发明了留声机,世纪爱迪生发明了留声机,人们才能用机械的方法把各种声音记录在唱片上。可是声音、机人们才能用机械的方法把各种声音记录在唱片上。可是声音、机械振动不容易传递,也不容易放大,机械方法很不方便。随着电械振动不容易传递,也不容易放大,机械方法很不方便。随着电学、电子学的发展学、电子学的发展,人们开始尝试记录下这些真实的声音,利用人们开始尝试记录下这些真实的声音,利用把声的振动转换成电信号的原理,使声音的记录成为可能。最终电把声的振动转换成电信号的原理,使声音的
3、记录成为可能。最终电声技术获得了迅速发展。声技术获得了迅速发展。第2页,本讲稿共125页 电声技术是研究可听声频率范围内声音的产生、传播、存储、重放和接收的技术。顾名思义,电声技术是依靠“电电”来记录并播放声音的,其基本原理是通过电压来产生模拟声波变化的电流信号,并记录下来,灌录成早期的唱片或磁带,这种电流信号便被称之为“模拟信号模拟信号”。传统的声音记录方式就是将模拟信号直接记录下来,例如磁带录音和密纹唱片就是将声音拾取处理后以磁记录或机械刻度的方式记录下来,此时磁带上磁极的变化或密纹唱片音槽内的纹路起伏变化都是与声音信号的变化相对应、成正比的。这里,密纹唱片、盒式磁带等是记录储存这种模拟声
4、音信号的载体,而能够播放和(或)记录这些软件的信号处理设备,诸如电唱机、磁带录音机等,则称为模拟音响设备。第3页,本讲稿共125页 电声技术把声信号转换成电信号,经扩声系统直接进行扩声;或者将其信号利用磁带、CD或其他存储形式,使声音可超越时间和空间,通过重放系统将其信号(数字的或模拟的)经过放大,由扬声器或耳机转换成声信号,进入最后的终端-人耳,以实现任何时间和地点的声音重现。电声转换、音频信号的存储、重放技术、加工处理技术以及数字化音频信号的编码、压缩、传输、存取、纠错等技术,是音频技术的主要对象。第4页,本讲稿共125页 随着计算机技术的发展,特别是海量存储设备和大容量内存在计算机上的实
5、现,对音频媒体进行数字化处理便成为可能。数字化处理的核心是对音频信息的采样,通过对采集到的样本进行加工,生成各种效果。音频信息在多媒体中的应用是极为广泛的,当计算机配有声卡和音箱后,就能够发出各种悦耳的声音,尤其是视频图像配以娓娓动听的音乐和语音,使计算机的操作得以藉由视觉以外的听觉加以辅助而成为一种愉快的过程。静态或动态图像配以解说和背景音乐,可使图像充满生气;立体声音乐可增加空间感,使人身临其境;语音电子邮件,听声如见其人,游戏中的音响效果对于渲染气氛则为显得更为重要;此外,在多媒体通信中,可视电话、电视会议、这些都离不开数字化音频处理技术。第5页,本讲稿共125页u2.1.2 音频信号的
6、形式 在日常生活中,音频(Audio)信号可分为两类:语音信号和非语音信号。语音是语言的物质载体,是社会交际工具的符号,它包含了丰富的语言内涵,是人类进它包含了丰富的语言内涵,是人类进行信息交流所特有的形式。非语音信号主要包括音乐和自然行信息交流所特有的形式。非语音信号主要包括音乐和自然界存在的其他声音形式。非语音信号的特点是不具有复杂的界存在的其他声音形式。非语音信号的特点是不具有复杂的语义和语法信息,信息量低、识别简单。语义和语法信息,信息量低、识别简单。我们之所以能听到日常生活中的各种声音信息,其实就我们之所以能听到日常生活中的各种声音信息,其实就是不同频率的声波通过空气产生震动,刺激人
7、耳的结果。在是不同频率的声波通过空气产生震动,刺激人耳的结果。在物理上,声音可用一条连续的曲线来表示。这条连续的曲线物理上,声音可用一条连续的曲线来表示。这条连续的曲线无论多复杂,都可分解成一系列正弦波的线性叠加。规则音无论多复杂,都可分解成一系列正弦波的线性叠加。规则音频是一种连续变化的模拟信号频是一种连续变化的模拟信号,可用一条连续的曲线来表示,称为声波。因声波是在时间和幅度上都连续变化的量,我们称之为模拟量。第6页,本讲稿共125页 用声音录制软件记录的英文单词用声音录制软件记录的英文单词“Hello”Hello”的语音实际波形的语音实际波形 第7页,本讲稿共125页u2.1.3 模拟音
8、频信号的物理特征 模拟音频信号有两个重要参数:频率和幅度。声音的模拟音频信号有两个重要参数:频率和幅度。声音的频率体现音调的高低,声波幅度的大小体现声音的强弱。频率体现音调的高低,声波幅度的大小体现声音的强弱。一个声源每秒钟可产生成百上千个波,我们把每秒钟波峰所发生的数目称之为信号的频率,单位用赫兹(Hz)(Hz)或千赫兹(kHz)表示。例如一个声波信号在一秒钟内有表示。例如一个声波信号在一秒钟内有5000个波峰,则可将它的频率表示为5000Hz或或5kHz5kHz。人们在日常说话时的语音信号频率范围在300Hz300Hz3000Hz之间。频率小于之间。频率小于20 Hz20 Hz的信号称为亚
9、音的信号称为亚音(Subsonic);频率范围;频率范围为为20Hz20Hz20kHz的信号称为音频(Audio),高于20kHz的信的信号称为超音频号称为超音频(Ultrasonic)。第8页,本讲稿共125页 与频率相关的另一个参数是信号的周期。它是指信号在两个峰点或谷底之间的相对时间。周期和频率之间的关系是互为倒数。信号的幅度是从信号的基线到当前波峰的距离。幅度决定了信号音量的强弱程度。幅度越大,声音越强。对音频信号,声音的强度用分贝(dB)表示,分贝的幅度就是音量。幅 度限周期基线第9页,本讲稿共125页u2.1.4 声音的A/D与D/A转换 模拟信号很容易受到电子干扰,因此随着技术的
10、发展,声音信号就逐渐过渡到了数字存储阶段,A/D转换和转换和D/A转换技术便应运而生。这里,A A代表AnalogAnalog”(类比、模拟),D代表代表“Digital”(数字、数码),(数字、数码),A/DA/D转换就是把模拟信号转换成数字信号的过程,模拟电信号变为了由“0 0”和“1”组成的BitBit信号。这样做的好处是显而易见的,声音存储质量得到了加强,数字化的声音信息使计算机能够进行识别、处理和压缩,这也就是为什么如今磁带逐渐被淘汰,CD唱片却趋于流行的原因。唱片却趋于流行的原因。A/DA/D转换的一个关键步骤是声音的采样和量化,得到转换的一个关键步骤是声音的采样和量化,得到数字音
11、频信号,它在时间上是不连续的离散信号。数字音频信号,它在时间上是不连续的离散信号。第10页,本讲稿共125页借助于借助于A/DA/D或或D/AD/A转换器,模拟信号和数字信号可以互相转换转换器,模拟信号和数字信号可以互相转换第11页,本讲稿共125页u2.1.5 与声音有关的几个术语 音高是人对声波频率的主观属性,它首先与声波的频率有关。声波的振动频率高,我们听到的声音就高,反之亦然,但它们之间并非线性关系。音色是声波波形的主观属性。不同的发音体所发出的音音色是声波波形的主观属性。不同的发音体所发出的音波都有自己的特异性。声波的类型是多种多样的,一般可分波都有自己的特异性。声波的类型是多种多样
12、的,一般可分为纯音和复合音两大类。为纯音和复合音两大类。语音是特殊的复合音。语音由元音和辅音所构成。元音语音是特殊的复合音。语音由元音和辅音所构成。元音是一种能连续发出的乐音,辅音主要是不能连续发出的短是一种能连续发出的乐音,辅音主要是不能连续发出的短促的噪音,元音与辅音合成汉语音节。促的噪音,元音与辅音合成汉语音节。响度是声波振幅的主观属性,它是由声波的振幅引起的。振幅越大则响度越大,但它们之间也不是线性关系。第12页,本讲稿共125页u2.1.6 声音质量的评价 我们经常会对某一位歌手的歌声发表意见,并与其他歌手进行比较,这其实是在对声音的质量进行评价。声音质量的评价是一个很困难的问题,也
13、是一个值得研究的课题。目前来看,声音质量的度量有两种基本方法,一种是客观质量度量,另一种是主观质量的度量。声音客观质量的度量方法 声波的测量与分析传统的方法是先用机电换能器把声波转换为相应的电信号,然后用电子仪表放大到一定的电压级进行测量与分析。由于计算技术的发展,使许多计算和测量工作都使用了计算机或程序实现。这些带计算机处理系统的高级声学测量仪器,能完成下列一些测量工作:第13页,本讲稿共125页q评价值的测量评价值的测量 响度和响度级,噪音级,清晰度指数,噪响度和响度级,噪音级,清晰度指数,噪音评价数。音评价数。q声源的测量 频谱的时间变化,声功率,指向性,效率,频谱特征,幅值分布等。q音
14、质的测量 混响时间,隔音量,吸音量。声测量的基本仪器是声级计。声级计是一种能对声音作声测量的基本仪器是声级计。声级计是一种能对声音作出类似人耳的反应的仪器,同时,它能进行客观而可重复的出类似人耳的反应的仪器,同时,它能进行客观而可重复的声压和声级测量。声压测量的好处很多:它能帮助音乐厅提声压和声级测量。声压测量的好处很多:它能帮助音乐厅提高音响效果;能对烦扰声音进行精密的、科学的分析。声级高音响效果;能对烦扰声音进行精密的、科学的分析。声级测量还能明确地告诉我们什么声音会引起听力损害,并提醒测量还能明确地告诉我们什么声音会引起听力损害,并提醒人们采用适当的听力保护措施。因此,声测量是不可少的。
15、人们采用适当的听力保护措施。因此,声测量是不可少的。第14页,本讲稿共125页 度量声音客观质量的一个主要指标是信噪比度量声音客观质量的一个主要指标是信噪比SNRSNR(Signal to Noise Ration),信噪比是有用信号与),信噪比是有用信号与噪声之比的简称。其单位是分贝噪声之比的简称。其单位是分贝(dB)。声音主观质量的度量声音主观质量的度量 采用客观标准方法很难真正评定某种编码器的质量,采用客观标准方法很难真正评定某种编码器的质量,在实际评价中,主观的质量度量比客观质量的度量更为恰在实际评价中,主观的质量度量比客观质量的度量更为恰当和合理。通常是对某编码器的输出的声音质量进行
16、评价,当和合理。通常是对某编码器的输出的声音质量进行评价,例如播放一段音乐,记录一段话,然后重放给实验者听,例如播放一段音乐,记录一段话,然后重放给实验者听,再由实验者进行综合评定。可以说,人的感觉机理最具有再由实验者进行综合评定。可以说,人的感觉机理最具有决定意义。当然,可靠的主观度量值是较难获得的。决定意义。当然,可靠的主观度量值是较难获得的。第15页,本讲稿共125页 平均判分(Mean Opnion Scose-MOS)过程是召集一批实验者,请每个实验者对某个编解码器的输出进行质量判分,采用类似于考试的五级分制,不同的MOS分对应的质量级别和失真级别见表2-。MOS质量级别失真级别5优
17、(Excellent)不察觉4 4良(Good)刚察觉但不可厌3 3中(Fair)察觉及稍微可厌2 2差(Poor)可厌(但不令人反感)1 1劣(Unacceptable)极可厌(令人反感)第16页,本讲稿共125页 声音质量分级与带宽 声音的质量与它所占用的频带宽度有关,频带越宽,信号强度的相对变化范围就越大大,音响效果也就越好。按照带宽可将声音质量分为4级:qq数字激光唱盘质量数字激光唱盘质量 ,通常又通常又CD-DACD-DA质量,这种质量也就是我们质量,这种质量也就是我们常说的超高保真,即常说的超高保真,即Super HiFi(High Fidelity)Super HiFi(High
18、 Fidelity)。qq调频无线电广播,简称调频无线电广播,简称FM(Frequency Modulation)FM(Frequency Modulation)质量。质量。qq调幅无线电广播,简称调幅无线电广播,简称AM(Amplitude Modulation)AM(Amplitude Modulation)质量。质量。qq电话电话(Telephone)(Telephone)质量。质量。在在这这4 4级质级质量中,以量中,以CD-DACD-DA的声音的声音质质量等量等级级最高,其余次之。最高,其余次之。第17页,本讲稿共125页4 4级声音质量的频率范围级声音质量的频率范围第18页,本讲稿
19、共125页2.2 模拟音频的数字化过程 如果要用计算机对音频信息进行处理,则首先要将模拟音频信号(如语音、音乐等)转变成数字信号。数字化的声音易于用计算机软件处理,现在几乎所有的专业化声音录制、编辑器都是数字方式。对模拟音频数字化过程涉及到音频的采样、量化和编码。采样和量化的过程可由采样和量化的过程可由A/DA/D转换器实现。转换器实现。A/D转换器以固转换器以固定的频率去采样,即每个周期测量和量化信号一次。经采样定的频率去采样,即每个周期测量和量化信号一次。经采样和量化后声音信号经编码后就成为数字音频信号,可以将其和量化后声音信号经编码后就成为数字音频信号,可以将其以文件形式保存在计算机的存
20、储介质中,这样的文件一般称以文件形式保存在计算机的存储介质中,这样的文件一般称为数字声波文件。为数字声波文件。第19页,本讲稿共125页u2.2.1采样 早在早在4040年代,信息论的奠基者香农(年代,信息论的奠基者香农(ShannonShannon)指出:在一定条)指出:在一定条件下,用离散的序列可以完全代表一个连续函数,这是采样定理的件下,用离散的序列可以完全代表一个连续函数,这是采样定理的基本内容。采样定理看来象是一个数学问题,而实质上它为数字化基本内容。采样定理看来象是一个数学问题,而实质上它为数字化技术奠定了一个基础。技术奠定了一个基础。为实现为实现A/DA/D转换,需要把模拟音频信
21、号波形进行分割,以转转换,需要把模拟音频信号波形进行分割,以转变成数字信号,这种方法称为采样变成数字信号,这种方法称为采样(Sampling)(Sampling)。采样的过程是每。采样的过程是每隔一个时间间隔在模拟声音的波形上取一个幅度值,把时间上隔一个时间间隔在模拟声音的波形上取一个幅度值,把时间上的连续信号,变成时间上的离散信号。该时间间隔称为采样周的连续信号,变成时间上的离散信号。该时间间隔称为采样周期,其倒数为采样频率。采样频率是指计算机每秒钟采集多少期,其倒数为采样频率。采样频率是指计算机每秒钟采集多少个声音样本。采样频率越高,即采样的间隔时间越短,则在单个声音样本。采样频率越高,即
22、采样的间隔时间越短,则在单位时间内计算机得到的声音样本数据就越多,对声音波形的表位时间内计算机得到的声音样本数据就越多,对声音波形的表示也越精确。这和测定每天示也越精确。这和测定每天2424小时气温变化是一样的,每小时测小时气温变化是一样的,每小时测定定1 1次气温比每两小时测定次气温比每两小时测定1 1次气温的精度要高一倍。次气温的精度要高一倍。第20页,本讲稿共125页 采采样样频频率率与与声声音音频频率率之之间间有有一一定定的的关关系系,根根据据奈奈奎奎斯斯特特(NyquistNyquist)理论,只有采样频率高于声音信号最高频率的两倍时,才能把数字信号表示的声音还原成为原来的声音。用公
23、式表示如下:T1/2fT1/2fc c 或或 f fc c 1/2T 1/2T 采采样样的的著著名名实实例例就就在在我我们们的的日日常常生生活活中中,例例如如电电话话和和CDCD唱片。在数字电话系统中,为将人的声音变为数字信号,采用脉冲编码调制PCMPCM方方法法,每每秒秒钟钟可可进进行行8000次次的的采采样样。PCM提供的数据传输率是56kb/s(b/s表表示示b/s)或或64kb/s。CD唱片存储的是数字信息,要想获得CD音音质质的的效效果果,则则要要保保证证采采样样频频率率为为44.1kHz44.1kHz,也就是能够捕获频率高达22050Hz22050Hz的信号。第21页,本讲稿共12
24、5页u2.2.2 量化 采样只解决了音频波形信号在时间坐标采样只解决了音频波形信号在时间坐标(即横轴即横轴)上把一上把一个波形切成若干个等分的数字化问题,但是每一等分的长方个波形切成若干个等分的数字化问题,但是每一等分的长方形的高是多少呢形的高是多少呢?即需要用某种数字化的方法来反映某一瞬间即需要用某种数字化的方法来反映某一瞬间声波幅度的电压值的大小。该值的大小影响音量的高低。我们把声波幅度的电压值的大小。该值的大小影响音量的高低。我们把对声波波形幅度的数字化表示称之为对声波波形幅度的数字化表示称之为“量化量化”。量化的过程是先将采样后的信号按整个声波的幅度划分量化的过程是先将采样后的信号按整
25、个声波的幅度划分成有限个区段的集合,把落入某个区段内的样值归为一类,成有限个区段的集合,把落入某个区段内的样值归为一类,并赋于相同的量化值。如何分割采样信号的幅度呢并赋于相同的量化值。如何分割采样信号的幅度呢?我们还我们还是采取二进制的方式,以位是采取二进制的方式,以位(bit)(bit)或或1616位位(bit)(bit)的方式来划的方式来划分纵轴。也就是说在一个以分纵轴。也就是说在一个以8 8位为记录模式的音效中,其纵位为记录模式的音效中,其纵轴将会被划分为个量化等级轴将会被划分为个量化等级(quantizationlevels)(quantizationlevels),用以记录,用以记录
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 音频 信息 获取 处理
限制150内