书签分享收藏举报版权申诉 / 118

立即下载

当前位置：首页 > 教育专区 > 大学资料 > 音频信息处理概述.ppt

音频信息处理概述.ppt

上传人：wuy****n92

文档编号：88506178

上传时间：2023-04-26

格式：PPT

页数：118

大小：2.88MB

( 4.5 )

《音频信息处理概述.ppt》由会员分享，可在线阅读，更多相关《音频信息处理概述.ppt（118页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、第二章音频信息处理这这一章将讨论声音、音乐编码以及语音的一章将讨论声音、音乐编码以及语音的处理。我们将介绍声音的基本概念、常用格式处理。我们将介绍声音的基本概念、常用格式以及声音在计算机中的表现形式。由于在多媒以及声音在计算机中的表现形式。由于在多媒体系统中，声音主要是以音乐和或语音的形体系统中，声音主要是以音乐和或语音的形式出现、所以我们还着重讨论音乐和音乐的式出现、所以我们还着重讨论音乐和音乐的MIDIMIDI标准以及语音的合成、识别、传输技术。标准以及语音的合成、识别、传输技术。本章本章重点讲述重点讲述重点讲述重点讲述2003年9月1内容目录2.1多媒体中音频信息与信息处理2

2、.2 音频编码基础2.3音频编码标准2.4音乐合成和MIDI2.5语音合成2.6 语音识别2003年9月22003年9月3 3第二章音频信息处理引言音频信息处理概述上课思路上课思路简述音频信息和音频信息处理的概念。简述音频信息和音频信息处理的概念。介绍音频信息的应用前景介绍音频信息的应用前景介绍一些音频处理工具介绍一些音频处理工具2.12003年9月4多媒体中音频信号处理应用和处理技术多媒体中音频信号处理应用和处理技术多媒体中音频信号处理应用和处理技术多媒体中音频信号处理应用和处理技术l l从人与计算机交互的角度来看音频信号相应的处理从人与计算机交互的角度来看音频信号相应的处理如下：如下

3、：人与计算机通信（计算机接收音频信号）人与计算机通信（计算机接收音频信号）音频获取；语音识别与理解音频获取；语音识别与理解计算机与人通信（计算机输出音频）计算机与人通信（计算机输出音频）音频合成：音频合成：包括音乐合成和语音合成包括音乐合成和语音合成声音定位：声音定位：包括包括立体声模拟立体声模拟；音频；音频/视频同步；目的是让计算机视频同步；目的是让计算机产生真实感声音产生真实感声音人人计算机计算机人通信人通信人通过网络，与处于异地的人进行语音通信人通过网络，与处于异地的人进行语音通信语音采集、音频编码语音采集、音频编码/解码、音频传输；说话人识别；解码、音频传输；说话人识别；基于内容

4、基于内容检索；口语翻译检索；口语翻译2003年9月5 5第二章音频信息处理引言一、多媒体中音频信息l l 音频信息的分类音频信息的分类l l 音频信息的特点音频信息的特点l l 声音的物理特性声音的物理特性2003年9月6多媒体中音频信息Audio音频音频 Unvoice 清清不带音不带音Noise 杂音杂音Sound 非语音非语音声音声音 Voice 浊浊带音带音Music 乐音乐音Speech 语音语音言语言语音频处理技术？音频是多媒体的重要媒体之一音频是多媒体的重要媒体之一音频是多媒体的重要媒体之一音频是多媒体的重要媒体之一:2003年9月7 7第二章音频信息处理引言声

5、音的物理特征l l频率频率l l振幅振幅声音是机械振动。振动越强，声音越大。2003年9月8 8第二章音频信息处理引言音频信息的特点l l音频携带的信息量大、精细、准确音频携带的信息量大、精细、准确音频被用来传递消息、意向、情感，是人类最熟悉的传音频被用来传递消息、意向、情感，是人类最熟悉的传递消息的方式。递消息的方式。以某个汉字为例，表以某个汉字为例，表3.13.1列出了其表达方式、数据量和信列出了其表达方式、数据量和信息：息：2003年9月9 9第二章音频信息处理引言二、音频处理基础l l 音频信号的数字化与数字化音频音频信号的数字化与数字化音频信号采样与特征采样信号采样与特征采样

6、抽样与混叠抽样与混叠量化与噪声量化与噪声l l 音频信号的分析与处理音频信号的分析与处理音频信号分析：时域、频域、倒谱分析，线性音频信号分析：时域、频域、倒谱分析，线性/非线性预测非线性预测短时处理短时处理2003年9月10音频处理基础l l什么是数字音频什么是数字音频?话筒把机械振动转换成电信号，模拟音频中以话筒把机械振动转换成电信号，模拟音频中以模拟电压模拟电压的幅度表示声音强弱。的幅度表示声音强弱。在数字音频中，数字声音是一个数据序列。它是由模拟在数字音频中，数字声音是一个数据序列。它是由模拟声音经声音经抽样、量化和编码抽样、量化和编码后得到的。后得到的。2003年9月11 11第二章

7、音频信息处理引言电压范围电压范围(V)(V)量化量化(十进制十进制)编码编码(二进制二进制)0.5 0.70.5 0.73 30110110.3 0.50.3 0.52 20100100.1 0.30.1 0.31 1001001-0.1 0.1-0.1 0.10 0000000-0.3 -0.1-0.3 -0.1-1-1111111-0.5 -0.3-0.5 -0.3-2-2110110-0.7 -0.5-0.7 -0.5-3-3101101-0.9 -0.7-0.9 -0.7-4-4100100模拟电压、量化和编码举例模拟电压、量化和编码举例2003年9月12 12第二章音频信息处理

8、引言音频处理基础l l音频数字化音频数字化把模拟音频信号转换成有限个数字表示的离散序列，即把模拟音频信号转换成有限个数字表示的离散序列，即实现实现音频数字化音频数字化。它涉及到音频的抽样、量化和编码。它涉及到音频的抽样、量化和编码。在数字音频中，用数字来表示音频幅度时，只能把无穷在数字音频中，用数字来表示音频幅度时，只能把无穷多个电压幅度用有限个数字表示。即把某一幅度范围内多个电压幅度用有限个数字表示。即把某一幅度范围内的电压用一个数字表示，这称之为的电压用一个数字表示，这称之为量化量化。当把模拟声音变成数字声音时，每隔一个时间间隔在摸当把模拟声音变成数字声音时，每隔一个时间间隔在摸拟声音波形

9、上取一个幅度值，这称之为拟声音波形上取一个幅度值，这称之为抽样抽样。该时间间。该时间间隔称为隔称为抽样周期抽样周期(其倒数称为采样频率其倒数称为采样频率)。2003年9月13 13第二章音频信息处理引言采样与量化采样间隔t量化2003年9月14 14第二章音频信息处理引言2003年9月15 15第二章音频信息处理引言l l抽样定理抽样定理Why?乃奎斯特(Nyquist)采样理论：采样频率不应低于声音信号最高频率的两倍，即这样就能把以数字表达的声音还原成原来的声音。例如：电话话音的信号频率约为 3.4 kHz，采样频率一般选用 8 kHz或者2003年9月16 16第二章音频信

10、息处理引言2003年9月17 17第二章音频信息处理引言连续/离散周期/非周期连续非周期连续周期离散周期离散非周期2003年9月18 18第二章音频信息处理引言l l抽样与混叠抽样与混叠常用的音频抽样率有：常用的音频抽样率有：8kH8kHz z、11.025kH11.025kHz z、22.05kHz22.05kHz、16kHz16kHz、37.8kHz37.8kHz、44.1kHz44.1kHz、48kHz48kHz。2003年9月19 19第二章音频信息处理引言l l抽样与混叠抽样与混叠2003年9月2020第二章音频信息处理引言l l抽样与混叠抽样与混叠 200

11、3年9月21 21第二章音频信息处理引言l l量化量化 2003年9月2222第二章音频信息处理引言l l量化噪声量化噪声 2003年9月2323第二章音频信息处理引言l l量化噪声量化噪声量化噪声量化噪声的特点的特点 2003年9月2424第二章音频信息处理引言l l量化性能评价量化性能评价 2003年9月2525第二章音频信息处理引言l l量化性能评价量化性能评价 2003年9月2626第二章音频信息处理引言分析与处理l l音频信号的时域音频信号的时域(Time Domain)(Time Domain)分析分析TV0语音信号的时域波形语音信号的时域波形2003年9月

12、2727第二章音频信息处理引言时域分析l l语音信号的时域分析就是分析和提取语音信号的时语音信号的时域分析就是分析和提取语音信号的时域参数。贯穿于语音信号分析全过程的是域参数。贯穿于语音信号分析全过程的是“短时分短时分析技术析技术”语音信号是时变的，但在较短的时间内语音信号是时变的，但在较短的时间内(10 30ms)(10 30ms)其特其特性被认为是基本保持不变性被认为是基本保持不变(或者说具有相对的稳定性或者说具有相对的稳定性)将语音信号时域波形划分成段，逐段进行分析将语音信号时域波形划分成段，逐段进行分析(每一段称每一段称之为一个帧之为一个帧)l l时域参数包括：短时能量时域参数包括

13、：短时能量(度量度量语语音信号幅度音信号幅度值变值变化的函数化的函数)、短时过零率短时过零率(表示一表示一帧语帧语音中音中语语音信号波形穿音信号波形穿过过横横轴轴(零零电电平平)的次的次数数)、短时自相关函数和短时平均幅度差函数等等、短时自相关函数和短时平均幅度差函数等等2003年9月2828第二章音频信息处理引言l l特征计算、短时处理特征计算、短时处理 2003年9月2929第二章音频信息处理引言l l特征计算、短时处理特征计算、短时处理加窗处理：假设语音特征在短时间内基本不变，那么，加窗处理：假设语音特征在短时间内基本不变，那么，可以将语音利用加窗处理，截成一个个短段。可以将语音

14、利用加窗处理，截成一个个短段。2003年9月3030第二章音频信息处理引言l l特征计算、短时处理特征计算、短时处理2003年9月31 31第二章音频信息处理引言l l特征计算、短时处理特征计算、短时处理如如何何计计算算其其平平均均幅幅度度?设设音音频频信信号号抽抽样样频频率率为为10KHz10KHz，设设矩形窗的窗长为矩形窗的窗长为100100点点2003年9月3232第二章音频信息处理引言频域分析l l语音信号的频域分析就是分析语音信号的频域持征。语音信号的频域分析就是分析语音信号的频域持征。从广义上讲，语音信号的频域分析包括语音信号的从广义上讲，语音信号的频域分析包括语音信号

15、的频谱、功率谱、倒频谱、频谱包络分析等，而常用频谱、功率谱、倒频谱、频谱包络分析等，而常用的频域分析方法有带通滤波器组法、傅里叶变换法、的频域分析方法有带通滤波器组法、傅里叶变换法、线件预测法等几种。线件预测法等几种。浊音段的功率普密度举例清音段的功率谱密度举例凸起的转折点称之为“共振峰”凸起的转折点称之为“共振峰”2003年9月3333第二章音频信息处理引言语谱图分析l l语音信号的语音信号的语谱语谱语谱语谱(Sonogram)(Sonogram)图分析图分析图分析图分析：把和时序相：把和时序相关的傅里叶分析结果显示的图形称为语谱图关的傅里叶分析结果显示的图形称为语谱图(Sonogr

16、am(Sonogram，或者，或者 S Spectrogram)pectrogram)，它表示语音频谱，它表示语音频谱随时间变化的三维图形。随时间变化的三维图形。Spectrogram:time,frequency,amplitudeSpectrogram:time,frequency,amplitudeSonogramSonogram2003年9月3434第二章音频信息处理引言倒谱分析l l倒频谱倒频谱(Cepstrum)(Cepstrum)，其英文为，其英文为SpectrumSpectrum的前的前4 4个字个字母的倒排列母的倒排列将语音卷积信号将语音卷积信号(乘积形式，音源信号与声道

17、脉冲信号的乘积形式，音源信号与声道脉冲信号的乘积乘积)的频谱转换为的频谱转换为加性加性形式，其中要进行离散傅里叶变形式，其中要进行离散傅里叶变换与逆变换，其结果为复数形式，称之为换与逆变换，其结果为复数形式，称之为“复倒谱复倒谱(Complex Cepstrun)”(Complex Cepstrun)”，其实部形式称之为，其实部形式称之为“倒谱倒谱(Cepstrun)”(Cepstrun)”在语音识别技术中将详细描述在语音识别技术中将详细描述2003年9月3535第二章音频信息处理引言三、音频信息的应用l l 音频信息在各领域中的应用音频信息在各领域中的应用l l 应用举例应用举例l l

18、Internet Internet 电话及电话及VoIPVoIP(Voice over IP)(Voice over IP)简介简介2003年9月36音频信息的应用l l视频图象的配音、配乐。如静态图象的解说、背景音乐视频图象的配音、配乐。如静态图象的解说、背景音乐l l可视电话、电视会议中的话音。游戏中的音响效果可视电话、电视会议中的话音。游戏中的音响效果l lInternet Internet 电话电话电话电话(IP phone)(IP phone)；l l声音欺骗系统声音欺骗系统l l现代现代“芝麻开门芝麻开门”系统系统l l电子读物的有声输出电子读物的有声输出l l声音控制命令：声音控

19、制命令：用声音控制用声音控制WebWeb，或读出，或读出WebWeb的内容的内容用声音控制电话拨号用声音控制电话拨号l lInternetInternet上的实时音频上的实时音频l l用电话听电子邮件、股票信息用电话听电子邮件、股票信息l l智能房间中的音频、虚拟现实中的声音模拟智能房间中的音频、虚拟现实中的声音模拟2003年9月3737第二章音频信息处理引言l l声音欺骗声音欺骗复制敌人声音将作为一种作战技巧。复制敌人声音将作为一种作战技巧。截获敌人的无线电信号，改变其内容，用敌军话务员的截获敌人的无线电信号，改变其内容，用敌军话务员的原声把信号重新传送出去。原声把信号重新传送出去。声音

20、伪造装置将截获的信号分割成声音伪造装置将截获的信号分割成0.250.25秒的片断，把敌军秒的片断，把敌军话务员的声音分为几十个音素。转换成参考模板，储存话务员的声音分为几十个音素。转换成参考模板，储存在电子图书馆里。情报技师可用自己的声音讲话，但只在电子图书馆里。情报技师可用自己的声音讲话，但只要触发相应敌军话务员的音素参考模板。要触发相应敌军话务员的音素参考模板。声音欺骗系统需要高超的声音分析技术和语音合成技术。声音欺骗系统需要高超的声音分析技术和语音合成技术。声纹识别可以用来破案。声纹识别可以用来破案。2003年9月3838第二章音频信息处理引言l l现代现代“芝麻开门芝麻开门”系统系

21、统阿里巴巴利用阿里巴巴利用“芝麻开门芝麻开门”的的咒语防止不相干的人进入宝库，而咒语防止不相干的人进入宝库，而现代现代“芝麻开门芝麻开门”系统比童话更好系统比童话更好地防止假冒地防止假冒。这一进口通道控制的自动化系这一进口通道控制的自动化系统是一个声音、图象和动作的综合统是一个声音、图象和动作的综合认知系统。认知系统。它的信息输入部分由一个话筒它的信息输入部分由一个话筒和一个装在半透明的镜子后面的摄和一个装在半透明的镜子后面的摄像机组成，训练时系统把人的声音像机组成，训练时系统把人的声音和和嘴唇动作存入一个处理器。和和嘴唇动作存入一个处理器。2003年9月3939第二章音频信息处理引言

22、l l用光盘听书用光盘听书(e-Book)(e-Book)数字图书馆、语音翻译、信息咨询服务系统数字图书馆、语音翻译、信息咨询服务系统数字式有声信息系统数字式有声信息系统”这是通过计算机或专用设备，访问存于光盘中的电子出版物，并用这是通过计算机或专用设备，访问存于光盘中的电子出版物，并用声音将其读出的一种装置。读者可通过简单的操作，根据目录声音将其读出的一种装置。读者可通过简单的操作，根据目录“听听”到一本书的任意一页或其中的某一段。这将极大地改变目前盲文到一本书的任意一页或其中的某一段。这将极大地改变目前盲文书籍和磁带给盲人带来的不便。书籍和磁带给盲人带来的不便。一张光盘可存放十几本图书，相

23、当于一张光盘可存放十几本图书，相当于5050小时的录音。电子出版小时的录音。电子出版物的有声输出可采用录音物的有声输出可采用录音/重放方式，也可采用语音合成技术。通过重放方式，也可采用语音合成技术。通过语音合成技术，还可以实现有声电子邮件、有声主页。语音合成技术，还可以实现有声电子邮件、有声主页。2003年9月4040第二章音频信息处理引言l l虚拟主持人虚拟主持人英国报纸联合新闻社设计出世界首位虚拟播音员英国报纸联合新闻社设计出世界首位虚拟播音员安娜安娜诺娃（安娜诺娃网络公司）诺娃（安娜诺娃网络公司）(ANANOVA.COM)(ANANOVA.COM)中国中国“混血儿混血儿”虚拟主持人比

24、尔虚拟主持人比尔中国首个虚拟主持人言东方上班中国首个虚拟主持人言东方上班比尔比尔-邓邓言东方言东方2003年9月41 41第二章音频信息处理引言英国电脑专家的杰作，科学家把她的性格和外貌塑造得尽善尽美英国电脑专家的杰作，科学家把她的性格和外貌塑造得尽善尽美安娜芳龄安娜芳龄2828岁，未婚，样貌糅合了辣妹乐队成员维多利亚、名模米诺格及新闻主播福德曼岁，未婚，样貌糅合了辣妹乐队成员维多利亚、名模米诺格及新闻主播福德曼的五官特征，衣着入时，有品位，据说很有观众缘。报道新闻的时候，她表现冷的五官特征，衣着入时，有品位，据说很有观众缘。报道新闻的时候，她表现冷静，声调令人愉快。亲切愉快的性情

25、使她表面看起来文静而很有智慧。静，声调令人愉快。亲切愉快的性情使她表面看起来文静而很有智慧。2003年9月4242第二章音频信息处理引言其实安娜背后是一套运行速度极高的电脑系统，能够全日不断其实安娜背后是一套运行速度极高的电脑系统，能够全日不断地更新新闻资讯，把文字资讯迅速转变成声音，从她地更新新闻资讯，把文字资讯迅速转变成声音，从她“口口”中读出中读出来，并配合脸部表情。电脑又即时制作动画配合有关新闻，然后利来，并配合脸部表情。电脑又即时制作动画配合有关新闻，然后利用最新的立体影像科技，在网上播出。技术人员指出，虽然现时人用最新的立体影像科技，在网上播出。技术人员指出，虽然现时人们大多

26、利用电话线上网，影像效果不太理想，但随着宽频科技的急们大多利用电话线上网，影像效果不太理想，但随着宽频科技的急速发展，这个局限很快会被突破，在手提电话及视讯手表等数码媒速发展，这个局限很快会被突破，在手提电话及视讯手表等数码媒体上播放新闻，也将指日可待。体上播放新闻，也将指日可待。（袁安）（袁安）20002000年年0606月月0909日日 2003年9月4343第二章音频信息处理引言l l用电话听电子邮件、股票信用电话听电子邮件、股票信息息SinoSonic:2003年9月4444第二章音频信息处理引言2003年9月4545第二章音频信息处理引言l l智能房间中的音频、虚拟现实中

27、的声音模拟智能房间中的音频、虚拟现实中的声音模拟将房间中的各种数字设施集成起来构成具有自主能力的将房间中的各种数字设施集成起来构成具有自主能力的“虚拟实体虚拟实体”。“虚拟实体虚拟实体”能感知房间的各种状态（跟踪人物、辨别能感知房间的各种状态（跟踪人物、辨别身份、做出响应），身份、做出响应），“虚拟实体虚拟实体”能与能与“来人来人”进行对进行对话。话。关键技术：关键技术：环境建模（现实世界的虚拟化）环境建模（现实世界的虚拟化）人体跟踪与活动分析人体跟踪与活动分析身份验证（人脸检测与识别、身份验证（人脸检测与识别、说话人识别、声音定位说话人识别、声音定位说话人识别、声音定位说话人识别、声音定位

28、）人机对话（语音识别、语音合成）人机对话（语音识别、语音合成）人机对话（语音识别、语音合成）人机对话（语音识别、语音合成）2003年9月4646第二章音频信息处理引言四、音频处理工具l l GoldWaveGoldWavel l Adobe Adobe公司的公司的CoolEditorCoolEditorl l 其它工具其它工具2003年9月47GoldWavehttp:/2003年9月4848第二章音频信息处理引言CoolEditor Pro2003年9月4949第二章音频信息处理引言音频编码基础本节介绍音频编码的概念与方法。本节介绍音频编码的概念与方法。音频编码概述音频编码

29、概述音频的波形编码音频的波形编码音频的参数编码音频的参数编码音频的感知编码音频的感知编码2.22003年9月50一、概述l l音频压缩编码的必要性音频压缩编码的必要性多媒体音频数据的存储和传输中，必须压缩数据。利用多媒体音频数据的存储和传输中，必须压缩数据。利用音频编码压缩数据。音频编码压缩数据。2003年9月51 51第二章音频信息处理引言一、概述(cont.)(cont.)数据压缩造成音频质量的下降、计算量的增加。数据压缩造成音频质量的下降、计算量的增加。多领域的专家致力于算法的研究，众多的企业致力于芯多领域的专家致力于算法的研究，众多的企业致力于芯片和产品的研制，国际标准化组织

30、也先后推出一系列建片和产品的研制，国际标准化组织也先后推出一系列建议。议。高质量高效率的音频压缩技术广泛地用于多媒体应用、高质量高效率的音频压缩技术广泛地用于多媒体应用、音像制品、数字广播、数字电视等领域。音像制品、数字广播、数字电视等领域。2003年9月5252第二章音频信息处理引言一、概述(cont.)(cont.)l l话音波形的特性话音波形的特性浊音段的波形举例浊音段的功率普密度举例清音段的波形举例清音段的功率谱密度举例 2003年9月5353第二章音频信息处理引言一、概述(cont.)(cont.)l l功率谱的概念功率谱的概念2003年9月5454第二章音频信息处理

31、引言音频编码的分类l l基于音频数据的统计特性进行编码基于音频数据的统计特性进行编码典型技术：波形编码典型技术：波形编码如：如：PCMPCM(Pulse Code ModulationPulse Code Modulation),),DPCMDPCM(Differential Pulse Code ModulationDifferential Pulse Code Modulation),),APCMAPCM (Adaptive Pulse Code ModulationAdaptive Pulse Code Modulation),),ADPCMADPCM(Adaptive Differe

32、ntial Pulse Code ModulationAdaptive Differential Pulse Code Modulation)特点：自适应强、语音质量好，但压缩比不大、数据率高特点：自适应强、语音质量好，但压缩比不大、数据率高l l基于音频的声学参数进行编码基于音频的声学参数进行编码目标：是使重建的音频保持原音频的特性目标：是使重建的音频保持原音频的特性常用的音频参数有：共振峰、线性预测系数、滤波器等常用的音频参数有：共振峰、线性预测系数、滤波器等特点：数据率低，但还原信号的质量较差、清晰度低特点：数据率低，但还原信号的质量较差、清晰度低l l混合编码混合编码目标：在较低码率上

33、得到较高的音质目标：在较低码率上得到较高的音质如：码本激励线性预测编码如：码本激励线性预测编码(CELPCELP)、多脉冲线性预测编码、多脉冲线性预测编码(MPLPCMPLPC)l l基于人的听觉特性进行编码基于人的听觉特性进行编码从人的听觉系统出发利用掩蔽效应，设计心理声学模型，实现更高效率的数从人的听觉系统出发利用掩蔽效应，设计心理声学模型，实现更高效率的数字音频的压缩字音频的压缩如如：MPEGMPEG中的高频编码，中的高频编码，Dolby AC-3Dolby AC-32003年9月5555第二章音频信息处理引言音频编码算法评价l l评价因子评价因子音频质量音频质量数据率数据率编编/

34、解码延时解码延时算法的复杂度算法的复杂度l l评价方法评价方法客观评定客观评定主观评定主观评定算法复杂度高，致使计算量大、缓存增加，算法复杂度高，致使计算量大、缓存增加，速度减慢，硬件成本提高。速度减慢，硬件成本提高。编码延时长，会影响通信质量，引起回声。编码延时长，会影响通信质量，引起回声。单次语音编码延时最好小于单次语音编码延时最好小于1010msms。2003年9月5656第二章音频信息处理引言语音质量的客观评定l l通过测量某些特性来判定解码音频的质量通过测量某些特性来判定解码音频的质量l l特性有特性有测量信噪比测量信噪比加权信噪比加权信噪比平均分段信噪比平均分段信噪比l l测

35、量的值为测量的值为信号方差信号方差误差方差误差方差l l特点特点计算简单，但与人对音频的感知不完全一致计算简单，但与人对音频的感知不完全一致信噪比(signal to noise ratio，SNR)其中：Vsingal为信号电压，Vnoise为噪声电压2003年9月5757第二章音频信息处理引言语音质量的主观评定l l质量指：可懂性、清晰度和自然性质量指：可懂性、清晰度和自然性l l评测方法评测方法主观意见打分主观意见打分(Mean Opinion Score,MOS)(Mean Opinion Score,MOS)评测方法评测方法五分制五分制专家打分专家打分 ITU-TSS(ITU

36、 Telecommunication Standardization Sector)ITU-TSS(ITU Telecommunication Standardization Sector)建议建议(P.830P.830)汉语清晰度诊断押韵字测试法汉语清晰度诊断押韵字测试法(DRT)(DRT)百分制百分制电子工业部第三十研究所电子工业部第三十研究所 GB/T 13504-92GB/T 13504-922003年9月5858第二章音频信息处理引言MOSl lMOSMOS的的5 5级划分级划分l l部分编码器的部分编码器的MOSMOS得分得分分数分数质量级别质量级别失真级别失真级别5 5优优

37、(Excellent)(Excellent)无察觉无察觉4 4良良(Good)(Good)(刚刚)察觉但不讨厌察觉但不讨厌3 3中中(Fair)(Fair)(察觉察觉)有点讨厌有点讨厌2 2差差(Poor)(Poor)讨厌但不反感讨厌但不反感1 1劣劣(Bad)(Bad)极讨厌极讨厌(令人反感令人反感)编码器编码器MOSMOS分分64 kb/s64 kb/s脉冲编码调制脉冲编码调制(PCM)(PCM)4.34.332 kb/s32 kb/s自适应差分脉冲编码调制自适应差分脉冲编码调制(ADPCM)(ADPCM)4.14.116 kb/s16 kb/s低时延码激励线性预测编码低时延码激励线性预测

38、编码(LD-CELP)(LD-CELP)4.04.08 kb/s8 kb/s码激励线性预测编码码激励线性预测编码(CELP)(CELP)3.73.73.8 kb/s3.8 kb/s码激励线性预测编码码激励线性预测编码(CELP)(CELP)3.03.02.4 kb/s2.4 kb/s线性预测编码线性预测编码(LPC)(LPC)2.52.5ReportedReported2003年9月5959第二章音频信息处理引言DRTl lGB/T 13504-92GB/T 13504-92中提供两张字中提供两张字表，各用表，各用108108对押运字对押运字如：如：“辅辅补，数补，数主主”l l每一对为一

39、测试项，两项为每一对为一测试项，两项为一组一组l l计算计算DRTDRT清晰度的公式如下清晰度的公式如下DRTDRT得分得分(%)(%)音质评价音质评价100 A 95100 A 95优优(Excellent)(Excellent)95 A 8595 A 85良好良好(Good)(Good)85 A 7585 A 75中等中等(Fair)(Fair)75 A 6575 A 65差差(Poor)(Poor)65 A65 A不可接受不可接受 (Unacceptable)(Unacceptable)R:正确回答数W:错误回答数T:总测试项数2003年9月6060第二章音频信息处理引言数字音频的质

40、量l l数字音频的质量与下列因素相关数字音频的质量与下列因素相关采样频率（采样频率（s s ）量化精度（每个样值的比特数）量化精度（每个样值的比特数）B B一般一般 s s 越高越高 B B 越大，数字音频的质量越高，但数据率越大（每秒比特率）。越大，数字音频的质量越高，但数据率越大（每秒比特率）。l l数字音频可分为以下几个等级数字音频可分为以下几个等级信号类型信号类型频率范围频率范围(Hz)(Hz)采样率采样率(kHz)(kHz)量化精度（位）量化精度（位）电话话音电话话音200340020034008 88 8宽带音频宽带音频50700050700016161616调频广播调频广播201

41、5k2015k37.837.81616高质量音频高质量音频2020k2020k44.144.116162003年9月61 61第二章音频信息处理引言音频质量与数据率的关系MOS得分数据率2003年9月6262第二章音频信息处理引言二、音频的波形编码l l以下重点将介绍：以下重点将介绍：脉冲编码调制（脉冲编码调制（PCMPCM）技术及其应用）技术及其应用自适应差分编码调制（自适应差分编码调制（ADPCM ADPCM）技术）技术子带自适应差分编码调制（子带自适应差分编码调制（SB-ADPCM SB-ADPCM）技术）技术增量调制（增量调制（DMDM）与自适应增量调制（）与自适应增量调制（A

42、DMADM）技术）技术2003年9月6363第二章音频信息处理引言脉冲编码调制脉冲编码调制线线性性(均匀均匀)非线性非线性(瞬时压扩瞬时压扩律、律、A A律律)G.711)G.711最佳最佳SNRSNR自适应脉冲编码调制自适应脉冲编码调制前馈自适应前馈自适应反馈自适应反馈自适应最佳自适应最佳自适应差值脉冲编码调制差值脉冲编码调制增量调制增量调制差值脉冲编码调制差值脉冲编码调制线性增量调制线性增量调制连续可变增量调制连续可变增量调制(CVSD)LM13111(CVSD)LM13111自适应增量调制自适应增量调制 T6668 UM5101 T6668 UM5101自适应差值脉冲编码调制自适

43、应差值脉冲编码调制自适应差值脉冲编码调制自适应差值脉冲编码调制 MSM5248 7756 MSM5248 7756自适应预测自适应差值脉冲编码调制自适应预测自适应差值脉冲编码调制1、波形编码分类波形编码原理和特点波形编码：波形编码：波形编码：波形编码：力图使重建语音波形保持原语音信号的波形形状。力图使重建语音波形保持原语音信号的波形形状。力图使重建语音波形保持原语音信号的波形形状。力图使重建语音波形保持原语音信号的波形形状。特点：特点：特点：特点：适应能力强、话音质量好。适应能力强、话音质量好。适应能力强、话音质量好。适应能力强、话音质量好。编码数据率高。编码数据率高。编码数据率高。编码数据率

44、高。2003年9月6464第二章音频信息处理引言2、脉冲编码调制l l脉冲编码调制脉冲编码调制(p pulse ulse c code ode mmodulationodulation，PCM)PCM)是概念上最简单、理论上最是概念上最简单、理论上最完善的编码系统，是最早研制成功、使用最为广泛的编码系统，但也是完善的编码系统，是最早研制成功、使用最为广泛的编码系统，但也是数据量最大的编码系统。数据量最大的编码系统。l lPCMPCM的编码原理比较直观和简单，它的原理框图如下所示。在这个编码的编码原理比较直观和简单，它的原理框图如下所示。在这个编码框图中，它的输入是模拟声音信号，它的输出是框

45、图中，它的输入是模拟声音信号，它的输出是PCMPCM样本。图中的样本。图中的“防防失真滤波器失真滤波器”是一个低通滤波器，用来滤除声音频带以外的信号；是一个低通滤波器，用来滤除声音频带以外的信号；“波波形编码器形编码器”可暂时理解为可暂时理解为“采样器采样器”，“量化器量化器”可理解为可理解为“量化阶大量化阶大小小(step-size)”(step-size)”生成器或者称为生成器或者称为“量化间隔量化间隔”生成器。生成器。2003年9月6565第二章音频信息处理引言2、脉冲编码调制(cont.)(cont.)l l均匀量化均匀量化定义定义1 1：如果采用相等的量化间隔对采样得到的信号作量

46、化，那么这：如果采用相等的量化间隔对采样得到的信号作量化，那么这种量化称为均匀量化。均匀量化也称为线性量化，就是采用相同的种量化称为均匀量化。均匀量化也称为线性量化，就是采用相同的“等分尺等分尺”来度量采样得到的幅度。来度量采样得到的幅度。定义定义2 2：量化后的样本值：量化后的样本值 y y(i i)和原始值和原始值 x x(i i)的差的差e(e(i i)=)=y y(i i)-)-x x(i i)称为量称为量化误差或量化噪声化误差或量化噪声。用这种方法量化输入信号时，无论对大的输入信号还是小用这种方法量化输入信号时，无论对大的输入信号还是小的输入信号一律都采用相同的量化间隔。为了适应幅

47、度大的输的输入信号一律都采用相同的量化间隔。为了适应幅度大的输入信号，同时又要满足精度要求，就需要增加样本的位数。但入信号，同时又要满足精度要求，就需要增加样本的位数。但是，对话音信号来说，大信号出现的机会并不多，增加的样本是，对话音信号来说，大信号出现的机会并不多，增加的样本位数就没有充分利用。位数就没有充分利用。2003年9月6666第二章音频信息处理引言2、脉冲编码调制(cont.)(cont.)l l非均匀量化非均匀量化非线性量化的基本想法是，对输入信号进行量化时，大的输入信号非线性量化的基本想法是，对输入信号进行量化时，大的输入信号采用大的量化间隔，小的输入信号采用小的量化间隔，

48、如图采用大的量化间隔，小的输入信号采用小的量化间隔，如图3-093-09所所示。这样就可以在满足精度要求的情况下用较少的位数来表示。声示。这样就可以在满足精度要求的情况下用较少的位数来表示。声音数据还原时，采用相同的规则。音数据还原时，采用相同的规则。在非线性量化中，采样输入信号幅度和在非线性量化中，采样输入信号幅度和量化输出数据之间定义了两种对应关系，一量化输出数据之间定义了两种对应关系，一种称为种称为律压扩律压扩(companding)(companding)算法，另一种称为算法，另一种称为A A律压扩算法。律压扩算法。CompandingCompanding:Compressing a

49、nd :Compressing and ExpandingExpanding2003年9月6767第二章音频信息处理引言3、瞬时压扩技术Log|Q 编码器sign 解码器EXP X对数编码器对数编码器对数解码器对数解码器根据语音抽样非均匀分布的特点，设法让量化阶距随信号的概率密度的减小而增大，或者说把大的量化误差留给出现概率小的样值，得到较大的信噪比。2003年9月6868第二章音频信息处理引言3、瞬时压扩技术(cont.)(cont.)2003年9月6969第二章音频信息处理引言3、瞬时压扩技术(cont.)(cont.)l l量化器的信噪比量化器的信噪比2003年9月7070

50、第二章音频信息处理引言4、律(-law)压扩l l主要用于北美和日本的数字通信中主要用于北美和日本的数字通信中l l量化量化输输入入/输输出关系：出关系：x :输入信号的幅度，规格化成-1|x|1。x(n)为未量化的样值。sgn(x):x的极性 :确定压缩量的参数，它反映最大和最小量化间隔之比，取100 500，一般取 =255，把对数曲线简化成8条折线简化计算过程。2003年9月71 71第二章音频信息处理引言4、律(-law)压扩(cont.)(cont.)可以推导出律量化器的信噪比：Xmax为信号 x(n)的最大幅度，越大压缩率越大。2003年9月7272第二章音频信息处理引

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

11.9 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 音频信息处理概述

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：音频信息处理概述.ppt
链接地址：https://www.taowenge.com/p-88506178.html