音频信息的获取与处理幻灯片.ppt
《音频信息的获取与处理幻灯片.ppt》由会员分享,可在线阅读,更多相关《音频信息的获取与处理幻灯片.ppt(125页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、音频信息的获取与处理第1页,共125页,编辑于2022年,星期三2.1 音频信号及其概念u2.1.1 声音处理技术历史回顾 语言、音乐和各种自然声是以声波为载体传递信息的基本语言、音乐和各种自然声是以声波为载体传递信息的基本形式形式 。人类很早就开始研究声音,并利用当时已掌握了的声。人类很早就开始研究声音,并利用当时已掌握了的声音的某些规律来制造乐器、进行建筑设计或传声装置设计,音的某些规律来制造乐器、进行建筑设计或传声装置设计,使发出的声音传得更远。可是几千年来,人类只能凭耳朵来使发出的声音传得更远。可是几千年来,人类只能凭耳朵来辨别声音的高低、强弱,而不能把声音记录和储存起来。所辨别声音的
2、高低、强弱,而不能把声音记录和储存起来。所以与其他研究领域相比,声学的研究相对滞后。直到以与其他研究领域相比,声学的研究相对滞后。直到1919世纪世纪爱迪生发明了留声机,人们才能用机械的方法把各种声音记爱迪生发明了留声机,人们才能用机械的方法把各种声音记录在唱片上。可是声音、机械振动不容易传递,也不容易放录在唱片上。可是声音、机械振动不容易传递,也不容易放大,机械方法很不方便。随着电学、电子学的发展大,机械方法很不方便。随着电学、电子学的发展,人们开人们开始尝试记录下这些真实的声音,利用把声的振动转换成电信始尝试记录下这些真实的声音,利用把声的振动转换成电信号的原理,使声音的记录成为可能。最终
3、电声技术获得了迅号的原理,使声音的记录成为可能。最终电声技术获得了迅速发展。速发展。第2页,共125页,编辑于2022年,星期三 电声技术是研究可听声频率范围内声音的产生、传播、电声技术是研究可听声频率范围内声音的产生、传播、存储、重放和接收的技术。顾名思义,电声技术是依靠存储、重放和接收的技术。顾名思义,电声技术是依靠“电电”来记录并播放声音的,其基本原理是通过电来记录并播放声音的,其基本原理是通过电压来产生模拟声波变化的电流信号,并记录下来,压来产生模拟声波变化的电流信号,并记录下来,灌录成早期的唱片或磁带,这种电流信号便被称之灌录成早期的唱片或磁带,这种电流信号便被称之为为“模拟信号模拟
4、信号”。传统的声音记录方式就是将模拟信。传统的声音记录方式就是将模拟信号直接记录下来,例如磁带录音和密纹唱片就是将声音号直接记录下来,例如磁带录音和密纹唱片就是将声音拾取处理后以磁记录或机械刻度的方式记录下来,此时拾取处理后以磁记录或机械刻度的方式记录下来,此时磁带上磁极的变化或密纹唱片音槽内的纹路起伏变化都磁带上磁极的变化或密纹唱片音槽内的纹路起伏变化都是与声音信号的变化相对应、成正比的。这里,密纹唱是与声音信号的变化相对应、成正比的。这里,密纹唱片、盒式磁带等是记录储存这种模拟声音信号的载体,片、盒式磁带等是记录储存这种模拟声音信号的载体,而能够播放和(或)记录这些软件的信号处理设备,诸而
5、能够播放和(或)记录这些软件的信号处理设备,诸如电唱机、磁带录音机等,则称为模拟音响设备。如电唱机、磁带录音机等,则称为模拟音响设备。第3页,共125页,编辑于2022年,星期三 电声技术把声信号转换成电信号,经扩声系统直接进行扩声;或者将其信号利用磁带、CD或其他存储形式,使声音可超越时间和空间,通过重放系统将其信号(数字的或模拟的)经过放大,由扬声器或耳机转换成声信号,进入最后的终端-人耳,以实现任何时间和地点的声音重现。电声转换、音频信号的存储、重放技术、加工处理技术以及数字化音频信号的编码、压缩、传输、存取、纠错等技术,是音频技术的主要对象。第4页,共125页,编辑于2022年,星期三
6、 随着计算机技术的发展,特别是海量存储设备和大容量随着计算机技术的发展,特别是海量存储设备和大容量内存在计算机上的实现,对音频媒体进行数字化处理便内存在计算机上的实现,对音频媒体进行数字化处理便成为可能。数字化处理的核心是对音频信息的采样,通成为可能。数字化处理的核心是对音频信息的采样,通过对采集到的样本进行加工,生成各种效果。音频信息过对采集到的样本进行加工,生成各种效果。音频信息在多媒体中的应用是极为广泛的,当计算机配有声卡和在多媒体中的应用是极为广泛的,当计算机配有声卡和音箱后,就能够发出各种悦耳的声音,尤其是视频图像音箱后,就能够发出各种悦耳的声音,尤其是视频图像配以娓娓动听的音乐和语
7、音,使计算机的操作得以藉由配以娓娓动听的音乐和语音,使计算机的操作得以藉由视觉以外的听觉加以辅助而成为一种愉快的过程。静态视觉以外的听觉加以辅助而成为一种愉快的过程。静态或动态图像配以解说和背景音乐,可使图像充满生气;或动态图像配以解说和背景音乐,可使图像充满生气;立体声音乐可增加空间感,使人身临其境;语音电子邮立体声音乐可增加空间感,使人身临其境;语音电子邮件,听声如见其人,游戏中的音响效果对于渲染气氛则件,听声如见其人,游戏中的音响效果对于渲染气氛则为显得更为重要;此外,在多媒体通信中,可视电话、为显得更为重要;此外,在多媒体通信中,可视电话、电视会议、这些都离不开数字化音频处理技术。电视
8、会议、这些都离不开数字化音频处理技术。第5页,共125页,编辑于2022年,星期三u2.1.2 音频信号的形式 在日常生活中,音频在日常生活中,音频(Audio)(Audio)信号可分为两类:语音信号可分为两类:语音信号和非语音信号。语音是语言的物质载体,是社会交际信号和非语音信号。语音是语言的物质载体,是社会交际工具的符号工具的符号,它包含了丰富的语言内涵,是人类进行它包含了丰富的语言内涵,是人类进行信息交流所特有的形式。非语音信号主要包括音乐和信息交流所特有的形式。非语音信号主要包括音乐和自然界存在的其他声音形式。非语音信号的特点是不自然界存在的其他声音形式。非语音信号的特点是不具有复杂的
9、语义和语法信息,信息量低、识别简单。具有复杂的语义和语法信息,信息量低、识别简单。我们之所以能听到日常生活中的各种声音信息,我们之所以能听到日常生活中的各种声音信息,其实就是不同频率的声波通过空气产生震动,刺激人其实就是不同频率的声波通过空气产生震动,刺激人耳的结果。在物理上,声音可用一条连续的曲线来表耳的结果。在物理上,声音可用一条连续的曲线来表示。这条连续的曲线无论多复杂,都可分解成一系列示。这条连续的曲线无论多复杂,都可分解成一系列正弦波的线性叠加。规则音频是一种连续变化的模拟正弦波的线性叠加。规则音频是一种连续变化的模拟信号信号,可用一条连续的曲线来表示,称为声波。因声波可用一条连续的
10、曲线来表示,称为声波。因声波是在时间和幅度上都连续变化的量,我们称之为模拟量。是在时间和幅度上都连续变化的量,我们称之为模拟量。第6页,共125页,编辑于2022年,星期三 用声音录制软件记录的英文单词用声音录制软件记录的英文单词“Hello”Hello”的语音实际波形的语音实际波形 第7页,共125页,编辑于2022年,星期三u2.1.3 模拟音频信号的物理特征 模拟音频信号有两个重要参数:频率和幅度。声模拟音频信号有两个重要参数:频率和幅度。声音的频率体现音调的高低,声波幅度的大小体现声音音的频率体现音调的高低,声波幅度的大小体现声音的强弱。的强弱。一个声源每秒钟可产生成百上千个波,我们把
11、每秒钟一个声源每秒钟可产生成百上千个波,我们把每秒钟波峰所发生的数目称之为信号的频率,单位用赫兹波峰所发生的数目称之为信号的频率,单位用赫兹(Hz)(Hz)或或千赫兹千赫兹(kHz)(kHz)表示。例如一个声波信号在一秒钟内有表示。例如一个声波信号在一秒钟内有50005000个波峰,则可将它的频率表示为个波峰,则可将它的频率表示为5000Hz5000Hz或或5kHz5kHz。人们在。人们在日常说话时的语音信号频率范围在日常说话时的语音信号频率范围在300Hz300Hz3000Hz3000Hz之间。频之间。频率小于率小于20 Hz20 Hz的信号称为亚音的信号称为亚音(Subsonic)(Sub
12、sonic);频率范围为;频率范围为20Hz20Hz20kHz20kHz的信号称为音频的信号称为音频(Audio)(Audio),高于,高于20kHz20kHz的信号称为超音的信号称为超音频频(Ultrasonic)(Ultrasonic)。第8页,共125页,编辑于2022年,星期三 与频率相关的另一个参数是信号的周期。它是指信号在两个峰点或谷底之间的相对时间。周期和频率之间的关系是互为倒数。信号的幅度是从信号的基线到当前波峰的距离。幅度决定了信号音量的强弱程度。幅度越大,声音越强。对音频信号,声音的强度用分贝(dB)(dB)表示,分贝的幅度就是音量。幅 度限周期基线第9页,共125页,编辑
13、于2022年,星期三u2.1.4 声音的A/D与D/A转换 模拟信号很容易受到电子干扰,因此随着技术的发展,模拟信号很容易受到电子干扰,因此随着技术的发展,声音信号就逐渐过渡到了数字存储阶段,声音信号就逐渐过渡到了数字存储阶段,A/DA/D转换和转换和D/AD/A转换转换技术便应运而生。这里,技术便应运而生。这里,A A代表代表AnalogAnalog”(类比、模拟),(类比、模拟),D D代表代表“Digital Digital”(数字、数码),(数字、数码),A/DA/D转换就是把模拟信转换就是把模拟信号转换成数字信号的过程,模拟电信号变为了由号转换成数字信号的过程,模拟电信号变为了由“0
14、 0”和和“1 1”组成的组成的BitBit信号。这样做的好处是显而易见的,声音信号。这样做的好处是显而易见的,声音存储质量得到了加强,数字化的声音信息使计算机能够存储质量得到了加强,数字化的声音信息使计算机能够进行识别、处理和压缩,这也就是为什么如今磁带逐渐进行识别、处理和压缩,这也就是为什么如今磁带逐渐被淘汰,被淘汰,CDCD唱片却趋于流行的原因。唱片却趋于流行的原因。A/DA/D转换的一个关键步骤是声音的采样和量化,得转换的一个关键步骤是声音的采样和量化,得到数字音频信号,它在时间上是不连续的离散信号。到数字音频信号,它在时间上是不连续的离散信号。第10页,共125页,编辑于2022年,
15、星期三借助于借助于A/DA/D或或D/AD/A转换器,模拟信号和数字信号可以互相转换转换器,模拟信号和数字信号可以互相转换第11页,共125页,编辑于2022年,星期三u2.1.5 与声音有关的几个术语 音高是人对声波频率的主观属性,它首先与声波的频率音高是人对声波频率的主观属性,它首先与声波的频率有关。声波的振动频率高,我们听到的声音就高,反之亦有关。声波的振动频率高,我们听到的声音就高,反之亦然,但它们之间并非线性关系。然,但它们之间并非线性关系。音色是声波波形的主观属性。不同的发音体所发出的音色是声波波形的主观属性。不同的发音体所发出的音波都有自己的特异性。声波的类型是多种多样的,一般音
16、波都有自己的特异性。声波的类型是多种多样的,一般可分为纯音和复合音两大类。可分为纯音和复合音两大类。语音是特殊的复合音。语音由元音和辅音所构成。元音语音是特殊的复合音。语音由元音和辅音所构成。元音是一种能连续发出的乐音,辅音主要是不能连续发出的短是一种能连续发出的乐音,辅音主要是不能连续发出的短促的噪音,元音与辅音合成汉语音节。促的噪音,元音与辅音合成汉语音节。响度是声波振幅的主观属性,它是由声波的振幅引起的。响度是声波振幅的主观属性,它是由声波的振幅引起的。振幅越大则响度越大,但它们之间也不是线性关系。振幅越大则响度越大,但它们之间也不是线性关系。第12页,共125页,编辑于2022年,星期
17、三u2.1.6 声音质量的评价 我们经常会对某一位歌手的歌声发表意见,并与其他我们经常会对某一位歌手的歌声发表意见,并与其他歌手进行比较,这其实是在对声音的质量进行评价。声音歌手进行比较,这其实是在对声音的质量进行评价。声音质量的评价是一个很困难的问题,也是一个值得研究的课质量的评价是一个很困难的问题,也是一个值得研究的课题。目前来看,声音质量的度量有两种基本方法,一种是题。目前来看,声音质量的度量有两种基本方法,一种是客观质量度量,另一种是主观质量的度量。客观质量度量,另一种是主观质量的度量。声音客观质量的度量方法 声波的测量与分析传统的方法是先用机电换能器把声波转换为相应的电信号,然后用电
18、子仪表放大到一定的电压级进行测量与分析。由于计算技术的发展,使许多计算和测量工作都使用了计算机或程序实现。这些带计算机处理系统的高级声学测量仪器,能完成下列一些测量工作:第13页,共125页,编辑于2022年,星期三q评价值的测量评价值的测量 响度和响度级,噪音级,清晰度指数,响度和响度级,噪音级,清晰度指数,噪音评价数。噪音评价数。q声源的测量声源的测量 频谱的时间变化,声功率,指向性,频谱的时间变化,声功率,指向性,效率,频谱特征,幅值分布等。效率,频谱特征,幅值分布等。q音质的测量音质的测量 混响时间,隔音量,吸音量。混响时间,隔音量,吸音量。声测量的基本仪器是声级计。声级计是一种能对声
19、测量的基本仪器是声级计。声级计是一种能对声音作出类似人耳的反应的仪器,同时,它能进行客声音作出类似人耳的反应的仪器,同时,它能进行客观而可重复的声压和声级测量。声压测量的好处很多:观而可重复的声压和声级测量。声压测量的好处很多:它能帮助音乐厅提高音响效果;能对烦扰声音进行精它能帮助音乐厅提高音响效果;能对烦扰声音进行精密的、科学的分析。声级测量还能明确地告诉我们什密的、科学的分析。声级测量还能明确地告诉我们什么声音会引起听力损害,并提醒人们采用适当的听力么声音会引起听力损害,并提醒人们采用适当的听力保护措施。因此,声测量是不可少的。保护措施。因此,声测量是不可少的。第14页,共125页,编辑于
20、2022年,星期三 度量声音客观质量的一个主要指标是信噪比度量声音客观质量的一个主要指标是信噪比SNRSNR(Signal to Noise RationSignal to Noise Ration),信噪比是有用信号与噪),信噪比是有用信号与噪声之比的简称。其单位是分贝声之比的简称。其单位是分贝(dB)(dB)。声音主观质量的度量声音主观质量的度量 采用客观标准方法很难真正评定某种编码器的质量,采用客观标准方法很难真正评定某种编码器的质量,在实际评价中,主观的质量度量比客观质量的度量更为恰在实际评价中,主观的质量度量比客观质量的度量更为恰当和合理。通常是对某编码器的输出的声音质量进行评价,当
21、和合理。通常是对某编码器的输出的声音质量进行评价,例如播放一段音乐,记录一段话,然后重放给实验者听,例如播放一段音乐,记录一段话,然后重放给实验者听,再由实验者进行综合评定。可以说,人的感觉机理最具有再由实验者进行综合评定。可以说,人的感觉机理最具有决定意义。当然,可靠的主观度量值是较难获得的。决定意义。当然,可靠的主观度量值是较难获得的。第15页,共125页,编辑于2022年,星期三 平均判分(Mean Opnion Scose-MOS)过程是召集一批实验者,请每个实验者对某个编解码器的输出进行质量判分,采用类似于考试的五级分制,不同的MOS分对应的质量级别和失真级别见表2-。MOS质量级别
22、失真级别5优(Excellent)不察觉4 4良(Good)刚察觉但不可厌3 3中(Fair)察觉及稍微可厌2 2差(Poor)可厌(但不令人反感)1 1劣(Unacceptable)极可厌(令人反感)第16页,共125页,编辑于2022年,星期三 声音质量分级与带宽声音质量分级与带宽 声音的质量与它所占用的频带宽度有关,频带越宽,信声音的质量与它所占用的频带宽度有关,频带越宽,信号强度的相对变化范围就越大大,音响效果也就越好。按照号强度的相对变化范围就越大大,音响效果也就越好。按照带宽可将声音质量分为带宽可将声音质量分为4 4级:级:qq数字激光唱盘质量数字激光唱盘质量 ,通常又通常又CD-
23、DACD-DA质量,这种质量也就是我们质量,这种质量也就是我们常说的超高保真,即常说的超高保真,即Super HiFi(High Fidelity)Super HiFi(High Fidelity)。qq调频无线电广播,简称调频无线电广播,简称FM(Frequency Modulation)FM(Frequency Modulation)质量。质量。qq调幅无线电广播,简称调幅无线电广播,简称AM(Amplitude Modulation)AM(Amplitude Modulation)质量。质量。qq电话电话(Telephone)(Telephone)质量。质量。在在这这4 4级质级质量中,
24、以量中,以CD-DACD-DA的声音的声音质质量等量等级级最高,其余次之。最高,其余次之。第17页,共125页,编辑于2022年,星期三4 4级声音质量的频率范围级声音质量的频率范围第18页,共125页,编辑于2022年,星期三2.2 模拟音频的数字化过程 如果要用如果要用计计算机算机对对音音频频信息信息进进行行处处理,理,则则首先要将模首先要将模拟拟音音频频信号(如信号(如语语音、音音、音乐乐等)等)转变转变成数字信号。数字化成数字信号。数字化的声音易于用的声音易于用计计算机算机软软件件处处理,理,现现在几乎所有的在几乎所有的专业专业化声化声音音录录制、制、编辑编辑器都是数字方式。器都是数字
25、方式。对对模模拟拟音音频频数字化数字化过过程涉程涉及到音及到音频频的采的采样样、量化和、量化和编码编码。采样和量化的过程可由采样和量化的过程可由A/DA/D转换器实现。转换器实现。A/DA/D转换器以固转换器以固定的频率去采样,即每个周期测量和量化信号一次。经采样和定的频率去采样,即每个周期测量和量化信号一次。经采样和量化后声音信号经编码后就成为数字音频信号,可以将其以文量化后声音信号经编码后就成为数字音频信号,可以将其以文件形式保存在计算机的存储介质中,这样的文件一般称为数字件形式保存在计算机的存储介质中,这样的文件一般称为数字声波文件。声波文件。第19页,共125页,编辑于2022年,星期
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 音频 信息 获取 处理 幻灯片
限制150内