欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    音频信息的获取与处理幻灯片.ppt

    • 资源ID:88343080       资源大小:4.81MB        全文页数:125页
    • 资源格式: PPT        下载积分:18金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要18金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    音频信息的获取与处理幻灯片.ppt

    音频信息的获取与处理第1页,共125页,编辑于2022年,星期三2.1 音频信号及其概念u2.1.1 声音处理技术历史回顾 语言、音乐和各种自然声是以声波为载体传递信息的基本语言、音乐和各种自然声是以声波为载体传递信息的基本形式形式 。人类很早就开始研究声音,并利用当时已掌握了的声。人类很早就开始研究声音,并利用当时已掌握了的声音的某些规律来制造乐器、进行建筑设计或传声装置设计,音的某些规律来制造乐器、进行建筑设计或传声装置设计,使发出的声音传得更远。可是几千年来,人类只能凭耳朵来使发出的声音传得更远。可是几千年来,人类只能凭耳朵来辨别声音的高低、强弱,而不能把声音记录和储存起来。所辨别声音的高低、强弱,而不能把声音记录和储存起来。所以与其他研究领域相比,声学的研究相对滞后。直到以与其他研究领域相比,声学的研究相对滞后。直到1919世纪世纪爱迪生发明了留声机,人们才能用机械的方法把各种声音记爱迪生发明了留声机,人们才能用机械的方法把各种声音记录在唱片上。可是声音、机械振动不容易传递,也不容易放录在唱片上。可是声音、机械振动不容易传递,也不容易放大,机械方法很不方便。随着电学、电子学的发展大,机械方法很不方便。随着电学、电子学的发展,人们开人们开始尝试记录下这些真实的声音,利用把声的振动转换成电信始尝试记录下这些真实的声音,利用把声的振动转换成电信号的原理,使声音的记录成为可能。最终电声技术获得了迅号的原理,使声音的记录成为可能。最终电声技术获得了迅速发展。速发展。第2页,共125页,编辑于2022年,星期三 电声技术是研究可听声频率范围内声音的产生、传播、电声技术是研究可听声频率范围内声音的产生、传播、存储、重放和接收的技术。顾名思义,电声技术是依靠存储、重放和接收的技术。顾名思义,电声技术是依靠“电电”来记录并播放声音的,其基本原理是通过电来记录并播放声音的,其基本原理是通过电压来产生模拟声波变化的电流信号,并记录下来,压来产生模拟声波变化的电流信号,并记录下来,灌录成早期的唱片或磁带,这种电流信号便被称之灌录成早期的唱片或磁带,这种电流信号便被称之为为“模拟信号模拟信号”。传统的声音记录方式就是将模拟信。传统的声音记录方式就是将模拟信号直接记录下来,例如磁带录音和密纹唱片就是将声音号直接记录下来,例如磁带录音和密纹唱片就是将声音拾取处理后以磁记录或机械刻度的方式记录下来,此时拾取处理后以磁记录或机械刻度的方式记录下来,此时磁带上磁极的变化或密纹唱片音槽内的纹路起伏变化都磁带上磁极的变化或密纹唱片音槽内的纹路起伏变化都是与声音信号的变化相对应、成正比的。这里,密纹唱是与声音信号的变化相对应、成正比的。这里,密纹唱片、盒式磁带等是记录储存这种模拟声音信号的载体,片、盒式磁带等是记录储存这种模拟声音信号的载体,而能够播放和(或)记录这些软件的信号处理设备,诸而能够播放和(或)记录这些软件的信号处理设备,诸如电唱机、磁带录音机等,则称为模拟音响设备。如电唱机、磁带录音机等,则称为模拟音响设备。第3页,共125页,编辑于2022年,星期三 电声技术把声信号转换成电信号,经扩声系统直接进行扩声;或者将其信号利用磁带、CD或其他存储形式,使声音可超越时间和空间,通过重放系统将其信号(数字的或模拟的)经过放大,由扬声器或耳机转换成声信号,进入最后的终端-人耳,以实现任何时间和地点的声音重现。电声转换、音频信号的存储、重放技术、加工处理技术以及数字化音频信号的编码、压缩、传输、存取、纠错等技术,是音频技术的主要对象。第4页,共125页,编辑于2022年,星期三 随着计算机技术的发展,特别是海量存储设备和大容量随着计算机技术的发展,特别是海量存储设备和大容量内存在计算机上的实现,对音频媒体进行数字化处理便内存在计算机上的实现,对音频媒体进行数字化处理便成为可能。数字化处理的核心是对音频信息的采样,通成为可能。数字化处理的核心是对音频信息的采样,通过对采集到的样本进行加工,生成各种效果。音频信息过对采集到的样本进行加工,生成各种效果。音频信息在多媒体中的应用是极为广泛的,当计算机配有声卡和在多媒体中的应用是极为广泛的,当计算机配有声卡和音箱后,就能够发出各种悦耳的声音,尤其是视频图像音箱后,就能够发出各种悦耳的声音,尤其是视频图像配以娓娓动听的音乐和语音,使计算机的操作得以藉由配以娓娓动听的音乐和语音,使计算机的操作得以藉由视觉以外的听觉加以辅助而成为一种愉快的过程。静态视觉以外的听觉加以辅助而成为一种愉快的过程。静态或动态图像配以解说和背景音乐,可使图像充满生气;或动态图像配以解说和背景音乐,可使图像充满生气;立体声音乐可增加空间感,使人身临其境;语音电子邮立体声音乐可增加空间感,使人身临其境;语音电子邮件,听声如见其人,游戏中的音响效果对于渲染气氛则件,听声如见其人,游戏中的音响效果对于渲染气氛则为显得更为重要;此外,在多媒体通信中,可视电话、为显得更为重要;此外,在多媒体通信中,可视电话、电视会议、这些都离不开数字化音频处理技术。电视会议、这些都离不开数字化音频处理技术。第5页,共125页,编辑于2022年,星期三u2.1.2 音频信号的形式 在日常生活中,音频在日常生活中,音频(Audio)(Audio)信号可分为两类:语音信号可分为两类:语音信号和非语音信号。语音是语言的物质载体,是社会交际信号和非语音信号。语音是语言的物质载体,是社会交际工具的符号工具的符号,它包含了丰富的语言内涵,是人类进行它包含了丰富的语言内涵,是人类进行信息交流所特有的形式。非语音信号主要包括音乐和信息交流所特有的形式。非语音信号主要包括音乐和自然界存在的其他声音形式。非语音信号的特点是不自然界存在的其他声音形式。非语音信号的特点是不具有复杂的语义和语法信息,信息量低、识别简单。具有复杂的语义和语法信息,信息量低、识别简单。我们之所以能听到日常生活中的各种声音信息,我们之所以能听到日常生活中的各种声音信息,其实就是不同频率的声波通过空气产生震动,刺激人其实就是不同频率的声波通过空气产生震动,刺激人耳的结果。在物理上,声音可用一条连续的曲线来表耳的结果。在物理上,声音可用一条连续的曲线来表示。这条连续的曲线无论多复杂,都可分解成一系列示。这条连续的曲线无论多复杂,都可分解成一系列正弦波的线性叠加。规则音频是一种连续变化的模拟正弦波的线性叠加。规则音频是一种连续变化的模拟信号信号,可用一条连续的曲线来表示,称为声波。因声波可用一条连续的曲线来表示,称为声波。因声波是在时间和幅度上都连续变化的量,我们称之为模拟量。是在时间和幅度上都连续变化的量,我们称之为模拟量。第6页,共125页,编辑于2022年,星期三 用声音录制软件记录的英文单词用声音录制软件记录的英文单词“Hello”Hello”的语音实际波形的语音实际波形 第7页,共125页,编辑于2022年,星期三u2.1.3 模拟音频信号的物理特征 模拟音频信号有两个重要参数:频率和幅度。声模拟音频信号有两个重要参数:频率和幅度。声音的频率体现音调的高低,声波幅度的大小体现声音音的频率体现音调的高低,声波幅度的大小体现声音的强弱。的强弱。一个声源每秒钟可产生成百上千个波,我们把每秒钟一个声源每秒钟可产生成百上千个波,我们把每秒钟波峰所发生的数目称之为信号的频率,单位用赫兹波峰所发生的数目称之为信号的频率,单位用赫兹(Hz)(Hz)或或千赫兹千赫兹(kHz)(kHz)表示。例如一个声波信号在一秒钟内有表示。例如一个声波信号在一秒钟内有50005000个波峰,则可将它的频率表示为个波峰,则可将它的频率表示为5000Hz5000Hz或或5kHz5kHz。人们在。人们在日常说话时的语音信号频率范围在日常说话时的语音信号频率范围在300Hz300Hz3000Hz3000Hz之间。频之间。频率小于率小于20 Hz20 Hz的信号称为亚音的信号称为亚音(Subsonic)(Subsonic);频率范围为;频率范围为20Hz20Hz20kHz20kHz的信号称为音频的信号称为音频(Audio)(Audio),高于,高于20kHz20kHz的信号称为超音的信号称为超音频频(Ultrasonic)(Ultrasonic)。第8页,共125页,编辑于2022年,星期三 与频率相关的另一个参数是信号的周期。它是指信号在两个峰点或谷底之间的相对时间。周期和频率之间的关系是互为倒数。信号的幅度是从信号的基线到当前波峰的距离。幅度决定了信号音量的强弱程度。幅度越大,声音越强。对音频信号,声音的强度用分贝(dB)(dB)表示,分贝的幅度就是音量。幅 度限周期基线第9页,共125页,编辑于2022年,星期三u2.1.4 声音的A/D与D/A转换 模拟信号很容易受到电子干扰,因此随着技术的发展,模拟信号很容易受到电子干扰,因此随着技术的发展,声音信号就逐渐过渡到了数字存储阶段,声音信号就逐渐过渡到了数字存储阶段,A/DA/D转换和转换和D/AD/A转换转换技术便应运而生。这里,技术便应运而生。这里,A A代表代表AnalogAnalog”(类比、模拟),(类比、模拟),D D代表代表“Digital Digital”(数字、数码),(数字、数码),A/DA/D转换就是把模拟信转换就是把模拟信号转换成数字信号的过程,模拟电信号变为了由号转换成数字信号的过程,模拟电信号变为了由“0 0”和和“1 1”组成的组成的BitBit信号。这样做的好处是显而易见的,声音信号。这样做的好处是显而易见的,声音存储质量得到了加强,数字化的声音信息使计算机能够存储质量得到了加强,数字化的声音信息使计算机能够进行识别、处理和压缩,这也就是为什么如今磁带逐渐进行识别、处理和压缩,这也就是为什么如今磁带逐渐被淘汰,被淘汰,CDCD唱片却趋于流行的原因。唱片却趋于流行的原因。A/DA/D转换的一个关键步骤是声音的采样和量化,得转换的一个关键步骤是声音的采样和量化,得到数字音频信号,它在时间上是不连续的离散信号。到数字音频信号,它在时间上是不连续的离散信号。第10页,共125页,编辑于2022年,星期三借助于借助于A/DA/D或或D/AD/A转换器,模拟信号和数字信号可以互相转换转换器,模拟信号和数字信号可以互相转换第11页,共125页,编辑于2022年,星期三u2.1.5 与声音有关的几个术语 音高是人对声波频率的主观属性,它首先与声波的频率音高是人对声波频率的主观属性,它首先与声波的频率有关。声波的振动频率高,我们听到的声音就高,反之亦有关。声波的振动频率高,我们听到的声音就高,反之亦然,但它们之间并非线性关系。然,但它们之间并非线性关系。音色是声波波形的主观属性。不同的发音体所发出的音色是声波波形的主观属性。不同的发音体所发出的音波都有自己的特异性。声波的类型是多种多样的,一般音波都有自己的特异性。声波的类型是多种多样的,一般可分为纯音和复合音两大类。可分为纯音和复合音两大类。语音是特殊的复合音。语音由元音和辅音所构成。元音语音是特殊的复合音。语音由元音和辅音所构成。元音是一种能连续发出的乐音,辅音主要是不能连续发出的短是一种能连续发出的乐音,辅音主要是不能连续发出的短促的噪音,元音与辅音合成汉语音节。促的噪音,元音与辅音合成汉语音节。响度是声波振幅的主观属性,它是由声波的振幅引起的。响度是声波振幅的主观属性,它是由声波的振幅引起的。振幅越大则响度越大,但它们之间也不是线性关系。振幅越大则响度越大,但它们之间也不是线性关系。第12页,共125页,编辑于2022年,星期三u2.1.6 声音质量的评价 我们经常会对某一位歌手的歌声发表意见,并与其他我们经常会对某一位歌手的歌声发表意见,并与其他歌手进行比较,这其实是在对声音的质量进行评价。声音歌手进行比较,这其实是在对声音的质量进行评价。声音质量的评价是一个很困难的问题,也是一个值得研究的课质量的评价是一个很困难的问题,也是一个值得研究的课题。目前来看,声音质量的度量有两种基本方法,一种是题。目前来看,声音质量的度量有两种基本方法,一种是客观质量度量,另一种是主观质量的度量。客观质量度量,另一种是主观质量的度量。声音客观质量的度量方法 声波的测量与分析传统的方法是先用机电换能器把声波转换为相应的电信号,然后用电子仪表放大到一定的电压级进行测量与分析。由于计算技术的发展,使许多计算和测量工作都使用了计算机或程序实现。这些带计算机处理系统的高级声学测量仪器,能完成下列一些测量工作:第13页,共125页,编辑于2022年,星期三q评价值的测量评价值的测量 响度和响度级,噪音级,清晰度指数,响度和响度级,噪音级,清晰度指数,噪音评价数。噪音评价数。q声源的测量声源的测量 频谱的时间变化,声功率,指向性,频谱的时间变化,声功率,指向性,效率,频谱特征,幅值分布等。效率,频谱特征,幅值分布等。q音质的测量音质的测量 混响时间,隔音量,吸音量。混响时间,隔音量,吸音量。声测量的基本仪器是声级计。声级计是一种能对声测量的基本仪器是声级计。声级计是一种能对声音作出类似人耳的反应的仪器,同时,它能进行客声音作出类似人耳的反应的仪器,同时,它能进行客观而可重复的声压和声级测量。声压测量的好处很多:观而可重复的声压和声级测量。声压测量的好处很多:它能帮助音乐厅提高音响效果;能对烦扰声音进行精它能帮助音乐厅提高音响效果;能对烦扰声音进行精密的、科学的分析。声级测量还能明确地告诉我们什密的、科学的分析。声级测量还能明确地告诉我们什么声音会引起听力损害,并提醒人们采用适当的听力么声音会引起听力损害,并提醒人们采用适当的听力保护措施。因此,声测量是不可少的。保护措施。因此,声测量是不可少的。第14页,共125页,编辑于2022年,星期三 度量声音客观质量的一个主要指标是信噪比度量声音客观质量的一个主要指标是信噪比SNRSNR(Signal to Noise RationSignal to Noise Ration),信噪比是有用信号与噪),信噪比是有用信号与噪声之比的简称。其单位是分贝声之比的简称。其单位是分贝(dB)(dB)。声音主观质量的度量声音主观质量的度量 采用客观标准方法很难真正评定某种编码器的质量,采用客观标准方法很难真正评定某种编码器的质量,在实际评价中,主观的质量度量比客观质量的度量更为恰在实际评价中,主观的质量度量比客观质量的度量更为恰当和合理。通常是对某编码器的输出的声音质量进行评价,当和合理。通常是对某编码器的输出的声音质量进行评价,例如播放一段音乐,记录一段话,然后重放给实验者听,例如播放一段音乐,记录一段话,然后重放给实验者听,再由实验者进行综合评定。可以说,人的感觉机理最具有再由实验者进行综合评定。可以说,人的感觉机理最具有决定意义。当然,可靠的主观度量值是较难获得的。决定意义。当然,可靠的主观度量值是较难获得的。第15页,共125页,编辑于2022年,星期三 平均判分(Mean Opnion Scose-MOS)过程是召集一批实验者,请每个实验者对某个编解码器的输出进行质量判分,采用类似于考试的五级分制,不同的MOS分对应的质量级别和失真级别见表2-。MOS质量级别失真级别5优(Excellent)不察觉4 4良(Good)刚察觉但不可厌3 3中(Fair)察觉及稍微可厌2 2差(Poor)可厌(但不令人反感)1 1劣(Unacceptable)极可厌(令人反感)第16页,共125页,编辑于2022年,星期三 声音质量分级与带宽声音质量分级与带宽 声音的质量与它所占用的频带宽度有关,频带越宽,信声音的质量与它所占用的频带宽度有关,频带越宽,信号强度的相对变化范围就越大大,音响效果也就越好。按照号强度的相对变化范围就越大大,音响效果也就越好。按照带宽可将声音质量分为带宽可将声音质量分为4 4级:级:qq数字激光唱盘质量数字激光唱盘质量 ,通常又通常又CD-DACD-DA质量,这种质量也就是我们质量,这种质量也就是我们常说的超高保真,即常说的超高保真,即Super HiFi(High Fidelity)Super HiFi(High Fidelity)。qq调频无线电广播,简称调频无线电广播,简称FM(Frequency Modulation)FM(Frequency Modulation)质量。质量。qq调幅无线电广播,简称调幅无线电广播,简称AM(Amplitude Modulation)AM(Amplitude Modulation)质量。质量。qq电话电话(Telephone)(Telephone)质量。质量。在在这这4 4级质级质量中,以量中,以CD-DACD-DA的声音的声音质质量等量等级级最高,其余次之。最高,其余次之。第17页,共125页,编辑于2022年,星期三4 4级声音质量的频率范围级声音质量的频率范围第18页,共125页,编辑于2022年,星期三2.2 模拟音频的数字化过程 如果要用如果要用计计算机算机对对音音频频信息信息进进行行处处理,理,则则首先要将模首先要将模拟拟音音频频信号(如信号(如语语音、音音、音乐乐等)等)转变转变成数字信号。数字化成数字信号。数字化的声音易于用的声音易于用计计算机算机软软件件处处理,理,现现在几乎所有的在几乎所有的专业专业化声化声音音录录制、制、编辑编辑器都是数字方式。器都是数字方式。对对模模拟拟音音频频数字化数字化过过程涉程涉及到音及到音频频的采的采样样、量化和、量化和编码编码。采样和量化的过程可由采样和量化的过程可由A/DA/D转换器实现。转换器实现。A/DA/D转换器以固转换器以固定的频率去采样,即每个周期测量和量化信号一次。经采样和定的频率去采样,即每个周期测量和量化信号一次。经采样和量化后声音信号经编码后就成为数字音频信号,可以将其以文量化后声音信号经编码后就成为数字音频信号,可以将其以文件形式保存在计算机的存储介质中,这样的文件一般称为数字件形式保存在计算机的存储介质中,这样的文件一般称为数字声波文件。声波文件。第19页,共125页,编辑于2022年,星期三u2.2.1采样 早在早在4040年代,信息论的奠基者香农(年代,信息论的奠基者香农(ShannonShannon)指出:在一定)指出:在一定条件下,用离散的序列可以完全代表一个连续函数,这是采样定理的条件下,用离散的序列可以完全代表一个连续函数,这是采样定理的基本内容。采样定理看来象是一个数学问题,而实质上它为数字化技基本内容。采样定理看来象是一个数学问题,而实质上它为数字化技术奠定了一个基础。术奠定了一个基础。为实现为实现A/DA/D转换,需要把模拟音频信号波形进行分割,以转变成数转换,需要把模拟音频信号波形进行分割,以转变成数字信号,这种方法称为采样字信号,这种方法称为采样(Sampling)(Sampling)。采样的过程是每隔一个时间。采样的过程是每隔一个时间间隔在模拟声音的波形上取一个幅度值,把时间上的连续信号,变成间隔在模拟声音的波形上取一个幅度值,把时间上的连续信号,变成时间上的离散信号。该时间间隔称为采样周期,其倒数为采样频率。时间上的离散信号。该时间间隔称为采样周期,其倒数为采样频率。采样频率是指计算机每秒钟采集多少个声音样本。采样频率越高,即采样频率是指计算机每秒钟采集多少个声音样本。采样频率越高,即采样的间隔时间越短,则在单位时间内计算机得到的声音样本数据就采样的间隔时间越短,则在单位时间内计算机得到的声音样本数据就越多,对声音波形的表示也越精确。这和测定每天越多,对声音波形的表示也越精确。这和测定每天2424小时气温变化小时气温变化是一样的,每小时测定是一样的,每小时测定1 1次气温比每两小时测定次气温比每两小时测定1 1次气温的精度要高一次气温的精度要高一倍。倍。第20页,共125页,编辑于2022年,星期三 采采样样频频率率与与声声音音频频率率之之间间有有一一定定的的关关系系,根根据据奈奈奎奎斯斯特特(NyquistNyquist)理理论论,只只有有采采样样频频率率高高于于声声音音信信号号最最高高频频率率的的两两倍倍时时,才才能能把把数数字字信信号号表表示示的的声声音音还还原原成成为为原来的声音。用公式表示如下:原来的声音。用公式表示如下:T1/2fT1/2fT1/2fT1/2fc c 或或 f f f fc c c c 1/2T 1/2T 1/2T 1/2T 采采样样的的著著名名实实例例就就在在我我们们的的日日常常生生活活中中,例例如如电电话话和和CDCD唱唱片片。在在数数字字电电话话系系统统中中,为为将将人人的的声声音音变变为为数数字字信信号号,采采用用脉脉冲冲编编码码调调制制PCMPCM方方法法,每每秒秒钟钟可可进进行行80008000次次的的采采样样。PCMPCM提提供供的的数数据据传传输输率率是是56kb/s(b/s56kb/s(b/s表表示示b/s)b/s)或或64kb/s64kb/s。CDCD唱唱片片存存储储的的是是数数字字信信息息,要要想想获获得得CDCD音音质质的的效效果果,则则要要保保 证证 采采 样样 频频 率率 为为44.1kHz44.1kHz,也也就就是是能能够够捕捕获获频频率率高高达达22050Hz22050Hz的信号。的信号。第21页,共125页,编辑于2022年,星期三u2.2.2 量化 采样只解决了音频波形信号在时间坐标采样只解决了音频波形信号在时间坐标(即横轴即横轴)上把一个上把一个波形切成若干个等分的数字化问题,但是每一等分的长方形的波形切成若干个等分的数字化问题,但是每一等分的长方形的高是多少呢高是多少呢?即需要用某种数字化的方法来反映某一瞬间声波即需要用某种数字化的方法来反映某一瞬间声波幅度的电压值的大小。该值的大小影响音量的高低。我们把对幅度的电压值的大小。该值的大小影响音量的高低。我们把对声波波形幅度的数字化表示称之为声波波形幅度的数字化表示称之为“量化量化”。量化的过程是先将采样后的信号按整个声波的幅度划分成量化的过程是先将采样后的信号按整个声波的幅度划分成有限个区段的集合,把落入某个区段内的样值归为一类,并赋有限个区段的集合,把落入某个区段内的样值归为一类,并赋于相同的量化值。如何分割采样信号的幅度呢于相同的量化值。如何分割采样信号的幅度呢?我们还是采取我们还是采取二进制的方式,以位二进制的方式,以位(bit)(bit)或或1616位位(bit)(bit)的方式来划分纵轴。的方式来划分纵轴。也就是说在一个以也就是说在一个以8 8位为记录模式的音效中,其纵轴将会被划分位为记录模式的音效中,其纵轴将会被划分为个量化等级为个量化等级(quantizationlevels)(quantizationlevels),用以记录其幅度大小。而一,用以记录其幅度大小。而一个以个以1616位为采样模式的音效中,它在每一个固定采样的区间内所位为采样模式的音效中,它在每一个固定采样的区间内所被采集的声音幅度,将以个不同的量化等级加以记录。被采集的声音幅度,将以个不同的量化等级加以记录。第22页,共125页,编辑于2022年,星期三 在相同的采样频率之下,量化位数愈高,声音的在相同的采样频率之下,量化位数愈高,声音的质量越好。同理,在相同量化位数的情况下,采样频质量越好。同理,在相同量化位数的情况下,采样频率越高,声音效果也就越好。这就好比是量一个人的率越高,声音效果也就越好。这就好比是量一个人的身高,若是以毫米为单位来测量,会比用厘米为单位身高,若是以毫米为单位来测量,会比用厘米为单位量更加准确。量更加准确。下下表给出了不同信号类型的采样率和量化精度。表给出了不同信号类型的采样率和量化精度。信号类型频率范围(Hz)采样率(kHz)量化精度(位)电话话音200-340088 8宽带音频50-700016161616调频广播20-15k3783781616高质量音频20-22k4414411616第23页,共125页,编辑于2022年,星期三u2.2.3 采样与量化过程示例 以图以图2-12-1所示的原始模拟波形为例进行采样和量化。假设所示的原始模拟波形为例进行采样和量化。假设采样频率为采样频率为10001000次次/秒,即每秒,即每1/10001/1000秒秒A/DA/D转换器采样一次,转换器采样一次,其幅度被划分成其幅度被划分成0 0 9 9共共1010个量化等级,并将其采样的幅度个量化等级,并将其采样的幅度值取最接近值取最接近0 0 9 9之间的一个数来表示,如图之间的一个数来表示,如图2-22-2所示。图中所示。图中每个正方形表示一次采样。每个正方形表示一次采样。第24页,共125页,编辑于2022年,星期三 当当D/AD/A转换器从图转换器从图2-22-2得到的数值中重构原来信号时,得到的数值中重构原来信号时,得到图得到图2-32-3中蓝色中蓝色(直线段直线段)线段所示的波形。从图中可以看线段所示的波形。从图中可以看出,蓝色线与原波形出,蓝色线与原波形(红色线红色线)相比,其波形的细节部分丢失相比,其波形的细节部分丢失了很多。这意味着重构后的信号波形有较大的失真。了很多。这意味着重构后的信号波形有较大的失真。第25页,共125页,编辑于2022年,星期三 失真在采样过程中是不可避免的,如何减少失真呢?可以直观地看出,我们可以把图2-2中的波形划分成更为细小的区间,即采用更高的采样频率。同时,增加量化精度,以得到更高的量化等级,即可减少失真的程度。在图2-4中,采样率和量化等级均提高了一倍,分别为2000次/秒和20个量化等级。在图2-5中,采样率和量化等级再提高了一倍,分别达到4000次/秒和40个量化等级。从图中可以看出,当用D/A转换器重构原来信号时(图中的轮廓线),信号的失真明显减少,信号质量得到了提高。第26页,共125页,编辑于2022年,星期三 图图2-42-4采样率为采样率为2000Hz2000Hz,量化等级为,量化等级为2020的采样量化过程的采样量化过程 图图2-52-5采样率为采样率为4000Hz4000Hz,量化等级为,量化等级为4040的采样量化过程的采样量化过程 第27页,共125页,编辑于2022年,星期三u2.2.4 编码 模拟信号量经过采样和量化以后,形成一系列的离散信号模拟信号量经过采样和量化以后,形成一系列的离散信号脉冲数字信号。这种脉冲数字信号可以一定的方式进行编码,形脉冲数字信号。这种脉冲数字信号可以一定的方式进行编码,形成计算机内部运行的数据。成计算机内部运行的数据。所谓编码,就是按照一定的格式把所谓编码,就是按照一定的格式把经过采样和量化得到的离散数据记录下来,并在有用的数据中经过采样和量化得到的离散数据记录下来,并在有用的数据中加入一些用于纠错、同步和控制的数据。在数据回放时,可以加入一些用于纠错、同步和控制的数据。在数据回放时,可以根据所记录的纠错数据判别读出的声音数据是否有错,如在一根据所记录的纠错数据判别读出的声音数据是否有错,如在一定范围内有错,可加以纠正。定范围内有错,可加以纠正。编码的形式比较多,常用的编码方式是编码的形式比较多,常用的编码方式是PCMPCM脉冲调制。脉脉冲调制。脉冲编码调制(冲编码调制(PCMPCM)是把模拟信号变换为数字信号的一种调制)是把模拟信号变换为数字信号的一种调制方式,既把连续输入的模拟信号变换为在时域和振幅上都离散方式,既把连续输入的模拟信号变换为在时域和振幅上都离散的量,然后将其转化为代码形式传输或存储。的量,然后将其转化为代码形式传输或存储。PCMPCM的主要优点是:的主要优点是:抗干扰能力强;失真小;传输特性稳定,尤其是远距离信号再生中继时抗干扰能力强;失真小;传输特性稳定,尤其是远距离信号再生中继时噪声不累积,而且可以采用压缩编码、纠错编码和保密编码等来提高系噪声不累积,而且可以采用压缩编码、纠错编码和保密编码等来提高系统的有效性、可靠性和保密性。统的有效性、可靠性和保密性。第28页,共125页,编辑于2022年,星期三 模模拟拟信信号号经经过过采采样样再再经经量量化化,然然后后用用有有限限个个二二进进制制码码去去代代表表量量化化后后的的幅幅度度,在在编编码码器器中中引引入入的的量量化化误误差差在在解解码码时时无无法法消消除除,这这一一误误差差等等效效于于引引入入了了噪噪声声、降降低低了了信信噪噪比比。在在比比特特率率较较高高的的波波形形编编码码中中可可以以用用客客观观指指标标如如信信噪噪比比来来衡衡量量编编码码的的质质量量,例例如如现现在在电电话话中中普普遍遍使使用用的的律律标标准准(ITU ITU G.711G.711标标准准),要要求求信信噪噪比比优优于于35dB35dB。除除此此之之外外,还还可可以以规规定定动动态态范范围围和和频频率率响响应应,在在有有关关的的国国际际标标准准中中都都有有具具体体规规定定。在在低低比比特特率率情情况况下下,采采用用了了语语音音特特征征参参数数分分析析和和合合成成语语音音的的编编码码方法,每个样值仅或方法,每个样值仅或0.50.5比特。比特。在在ISOISO的的红红皮皮书书(Red Red BookBook)标标准准中中,规规定定CD-DACD-DA每每2424字字节节双双声声道道音音频频数数据据为为一一帧帧,对对每每一一帧帧数数据据编编码码后后要要形形成成帧帧同同步步码码、子子码码(用用于于控控制制和和显显示示)及及纠纠错错码码,采采用用差差错错校校验验码码CIRCCIRC,用用来来检检测测和和纠纠正正因因CDCD表表面面的的划划伤伤或或灰灰尘尘产产生生的的差差错错。其格式如表其格式如表2-32-3所示。所示。第29页,共125页,编辑于2022年,星期三 在在CD-DACD-DA中,数据、控制码和纠错码分别记录在不同中,数据、控制码和纠错码分别记录在不同的光道上的光道上 。定义。定义9898个音频数据帧为一个扇区。因此每个个音频数据帧为一个扇区。因此每个扇区所含音频数据量为扇区所含音频数据量为 9898 24 24 23522352(ByteByte),它),它使得一张使得一张CDCD唱盘上可容纳约唱盘上可容纳约7474分钟的立体声音乐信号。分钟的立体声音乐信号。帧同步子码音频数据(左声道)Q校验音频数据(右声道)P校验41124124第30页,共125页,编辑于2022年,星期三2.3 2.3 音频信号的压缩编码与标准 将量化后的数字声音信息直接存入计算机将会占用大量的存储空间。在多媒体系统中,一般是对数字化声音信息进行压缩和编码后再存入计算机,以减少音频的数据量。u2.3.1 2.3.1 音频信号压缩编码概述音频信号压缩编码概述在多媒体音频信号处理中,一般需要对数字化后的在多媒体音频信号处理中,一般需要对数字化后的声音信号进行压缩编码,使其成为具有一定字长的声音信号进行压缩编码,使其成为具有一定字长的二进制数字序列,并以这种形式在计算机内传输和二进制数字序列,并以这种形式在计算机内传输和存储。在播放这些声音时,需要经解码器将二进制存储。在播放这些声音时,需要经解码器将二进制编码恢复成原来的声音信号播放。编码恢复成原来的声音信号播放。第31页,共125页,编辑于2022年,星期三音频信号处理过程音频信号处理过程 声音信号能进行压缩编码的基本依据是:声音信号能进行压缩编码的基本依据是:声音信号中存在着很大的冗余度,通过识别和去除这些冗声音信号中存在着很大的冗余度,通过识别和去除这些冗余度,便能达到压缩的目的;余度,便能达到压缩的目的;音频信息的最终接收者是人,人的听觉器官音频信息的最终接收者是人,人的听觉器官(包括视觉器包括视觉器器官器官)都具有某种不敏感性,舍去人的感官所不敏感的信都具有某种不敏感性,舍去人的感官所不敏感的信息对声音质量的影响很小,在有些情况下,甚至可以忽息对声音质量的影响很小,在有些情况下,甚至可以忽略不计。例如,人耳听觉中有一个重要的特点,即听觉略不计。例如,人耳听觉中有一个重要的特点,即听觉的的“掩蔽掩蔽”。它是指一个强音能抑制一个同时存在的弱音的听觉。它是指一个强音能抑制一个同时存在的弱音的听觉现象。利用该性质,可以抑制与信号同时存在的量化噪音。现象。利用该性质,可以抑制与信号同时存在的量化噪音。第32页,共125页,编辑于2022年,星期三.对声音波形取样后,相邻样值之间存在着很强的相关性。对声音波形取样后,相邻样值之间存在着很强的相关性。音频数据压缩和编码与图像压缩编码有着很大的不同。音频数据压缩和编码与图像压缩编码有着很大的不同。图像数据表达的是二维空间,很难找出固定的模型来形式图像数据表达的是二维空间,很难找出固定的模型来形式化地表征它。音频数据表达的是一维随时间变化的函数,化地表征它。音频数据表达的是一维随时间变化的函数,因而声音数据的压缩比图像数据压缩要容易得多。从方法因而声音数据的压缩比图像数据压缩要容易得多。从方法上看,声音信号的编码方式大致可分为三类,即波形编码、上看,声音信号的编码方式大致可分为三类,即波形编码、参数编码和混合编码。参数编码和混合编码。波形波形编码编码的的编码编码信息是声音的波形。信息是声音的波形。这这种方法要种方法要求重构的声音信号的各个求重构的声音信号的各个样样本尽可能地接近于原始声本尽可能地接近于原始声音的采音的采样值样值,复原的声音,复原的声音质质量量较较高。波形高。波形编码编码技技术术有有PCMPCM(脉冲(脉冲编码调编码调制)、制)、ADPCMADPCM(自适(自适应应差分脉冲差分脉冲编码编码调调制)和制)和ATCATC(自适(自适应变换编码应变换编码)等)等。第33页,共125页,编辑于2022年,星期三 参参数数编编码码是是一一种种对对语语音音参参数数进进行行分分析析合合成成的的方方法法。语语音音的的基基本本参参数数是是基基音音周周期期、共共振振峰峰、语语音音谱谱、声声强强等等,如如能能得得到到这这些些语语音音基基本本参参数数,就就可可以以不不对对语语音音的的波波形形进进行行编编码码,而而只只要要记记录录和和传传输输这这些些参参数数就就能能实实现现声声音音数数据据的的压压缩缩。这这些些语语音音基基本本参参数数可可以以由由语语音音生生成成机机构构模模型型通通过过实实验验获获得得。得得到到语语音音参参数数后后,就就可可以以对对其其进进行行线线性性预预测测编编码码(LPC-Linear LPC-Linear Predictive Predictive CodingCoding)。)。混混合合型型编编码码方方法法是是一一种种在在保保留留参参数数编编码码技技术术的的基基础础上上,引引用用波波型型编编码码准准则则去去优优化化激激励励源源信信号号的的方方案案。混混合合编编码码充充分分利利用用了了线线性性预预测测技技术术和和综综合合分分析析技技术术,其其典典型型算算法法有有:码码本本激激励励线线性性预预测测(CELPCELP)、多脉冲线性预测(多脉冲线性预测(MP-LPCMP-LPC)及矢量和激励线性预测()及矢量和激励线性预测(VSELPVSELP)等。)等。总的来说,波形编码在声音编码方案中应用较广,可以获得很高的总的来说,波形编码在声音编码方案中应用较广,可以获得很高的声音质量。下面我们介绍波形编码方案中常用的声音质量。下面我们介绍波形编码方案中常用的PCMPCM编码。编码。第34页,共125页,编辑于2022年,星期三u2.3.2PCM编码 19391939年法国工程师年法国工程师Alec ReevesAlec Reeves发明了将连续的模发明了将连续的模拟信号变换成时间和幅度都离散的二进制码代表的脉冲编拟信号变换成时间和幅度都离散的二进制码代表的脉冲编码调制信号(码调制信号(Pulse Code Modulation-PCMPulse Code Modulation-PCM),并申请了),并申请了专利。首先开始应用于电话系统,但一直到专利。首先开始应用于电话系统,但一直到年美国年美国BellBell实验室才为制成了国际上第一套实验室才为制成了国际上第一套商用电话系统(系统),这标志了通信开始商用电话系统(系统),这标志了通信开始步入数字化

    注意事项

    本文(音频信息的获取与处理幻灯片.ppt)为本站会员(石***)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开