音频信息处理概述.ppt
《音频信息处理概述.ppt》由会员分享,可在线阅读,更多相关《音频信息处理概述.ppt(118页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第二章 音频信息处理 这这 一章将讨论声音、音乐编码以及语音的一章将讨论声音、音乐编码以及语音的处理。我们将介绍声音的基本概念、常用格式处理。我们将介绍声音的基本概念、常用格式以及声音在计算机中的表现形式。由于在多媒以及声音在计算机中的表现形式。由于在多媒体系统中,声音主要是以音乐和或语音的形体系统中,声音主要是以音乐和或语音的形式出现、所以我们还着重讨论音乐和音乐的式出现、所以我们还着重讨论音乐和音乐的MIDIMIDI标准以及语音的合成、识别、传输技术。标准以及语音的合成、识别、传输技术。本章本章重点讲述重点讲述重点讲述重点讲述2003年9月1内 容 目 录2.1多媒体中音频信息与信息处理2
2、.2 音频编码基础2.3音频编码标准2.4音乐合成和MIDI2.5语音合成2.6 语音识别2003年9月22003年9月3 3第二章 音频信息处理 引言 音频信息处理概述上课思路上课思路简述音频信息和音频信息处理的概念。简述音频信息和音频信息处理的概念。介绍音频信息的应用前景介绍音频信息的应用前景介绍一些音频处理工具介绍一些音频处理工具2.12003年9月4多媒体中音频信号处理应用和处理技术多媒体中音频信号处理应用和处理技术多媒体中音频信号处理应用和处理技术多媒体中音频信号处理应用和处理技术l l从人与计算机交互的角度来看音频信号相应的处理从人与计算机交互的角度来看音频信号相应的处理如下:如下
3、:人与计算机通信(计算机接收音频信号)人与计算机通信(计算机接收音频信号)音频获取;语音识别与理解音频获取;语音识别与理解计算机与人通信(计算机输出音频)计算机与人通信(计算机输出音频)音频合成:音频合成:包括音乐合成和语音合成包括音乐合成和语音合成 声音定位:声音定位:包括包括立体声模拟立体声模拟;音频;音频/视频同步;目的是让计算机视频同步;目的是让计算机产生真实感声音产生真实感声音人人计算机计算机人通信人通信 人通过网络,与处于异地的人进行语音通信人通过网络,与处于异地的人进行语音通信 语音采集、音频编码语音采集、音频编码/解码、音频传输;说话人识别;解码、音频传输;说话人识别;基于内容
4、基于内容检索;口语翻译检索;口语翻译2003年9月5 5第二章 音频信息处理 引言一、多媒体中音频信息l l 音频信息的分类音频信息的分类l l 音频信息的特点音频信息的特点l l 声音的物理特性声音的物理特性2003年9月6多媒体中音频信息Audio音频音频 Unvoice 清清 不带音不带音Noise 杂音杂音Sound 非语音非语音 声音声音 Voice 浊浊 带音带音Music 乐音乐音Speech 语音语音 言语言语 音频处理技术?音频是多媒体的重要媒体之一音频是多媒体的重要媒体之一音频是多媒体的重要媒体之一音频是多媒体的重要媒体之一:2003年9月7 7第二章 音频信息处理 引言声
5、音的物理特征l l频率频率l l振幅振幅声音是机械振动。振动越强,声音越大。2003年9月8 8第二章 音频信息处理 引言音频信息的特点l l音频携带的信息量大、精细、准确音频携带的信息量大、精细、准确音频被用来传递消息、意向、情感,是人类最熟悉的传音频被用来传递消息、意向、情感,是人类最熟悉的传递消息的方式。递消息的方式。以某个汉字为例,表以某个汉字为例,表3.13.1列出了其表达方式、数据量和信列出了其表达方式、数据量和信息:息:2003年9月9 9第二章 音频信息处理 引言二、音频处理基础l l 音频信号的数字化与数字化音频音频信号的数字化与数字化音频信号采样与特征采样信号采样与特征采样
6、抽样与混叠抽样与混叠量化与噪声量化与噪声l l 音频信号的分析与处理音频信号的分析与处理音频信号分析:时域、频域、倒谱分析,线性音频信号分析:时域、频域、倒谱分析,线性/非线性预测非线性预测短时处理短时处理2003年9月10音频处理基础l l什么是数字音频什么是数字音频?话筒把机械振动转换成电信号,模拟音频中以话筒把机械振动转换成电信号,模拟音频中以模拟电压模拟电压的幅度表示声音强弱。的幅度表示声音强弱。在数字音频中,数字声音是一个数据序列。它是由模拟在数字音频中,数字声音是一个数据序列。它是由模拟声音经声音经抽样、量化和编码抽样、量化和编码后得到的。后得到的。2003年9月11 11第二章
7、音频信息处理 引言电压范围电压范围(V)(V)量化量化(十进制十进制)编码编码(二进制二进制)0.5 0.70.5 0.73 30110110.3 0.50.3 0.52 20100100.1 0.30.1 0.31 1001001-0.1 0.1-0.1 0.10 0000000-0.3 -0.1-0.3 -0.1-1-1111111-0.5 -0.3-0.5 -0.3-2-2110110-0.7 -0.5-0.7 -0.5-3-3101101-0.9 -0.7-0.9 -0.7-4-4100100模拟电压、量化和编码举例模拟电压、量化和编码举例2003年9月12 12第二章 音频信息处理
8、引言音频处理基础l l音频数字化音频数字化把模拟音频信号转换成有限个数字表示的离散序列,即把模拟音频信号转换成有限个数字表示的离散序列,即实现实现音频数字化音频数字化。它涉及到音频的抽样、量化和编码。它涉及到音频的抽样、量化和编码。在数字音频中,用数字来表示音频幅度时,只能把无穷在数字音频中,用数字来表示音频幅度时,只能把无穷多个电压幅度用有限个数字表示。即把某一幅度范围内多个电压幅度用有限个数字表示。即把某一幅度范围内的电压用一个数字表示,这称之为的电压用一个数字表示,这称之为量化量化。当把模拟声音变成数字声音时,每隔一个时间间隔在摸当把模拟声音变成数字声音时,每隔一个时间间隔在摸拟声音波形
9、上取一个幅度值,这称之为拟声音波形上取一个幅度值,这称之为抽样抽样。该时间间。该时间间隔称为隔称为抽样周期抽样周期(其倒数称为采样频率其倒数称为采样频率)。2003年9月13 13第二章 音频信息处理 引言采样与量化采样间隔t量化2003年9月14 14第二章 音频信息处理 引言2003年9月15 15第二章 音频信息处理 引言l l抽样定理抽样定理Why?乃奎斯特(Nyquist)采样理论:采样频率不应低于声音信号最高频率的两倍,即 这样就能把以数字表达的声音还原成原来的声音。例如:电话话音的信号频率约为 3.4 kHz,采样频率一般选用 8 kHz或者2003年9月16 16第二章 音频信
10、息处理 引言2003年9月17 17第二章 音频信息处理 引言连续/离散周期/非周期连续 非周期连续 周期离散 周期离散 非周期2003年9月18 18第二章 音频信息处理 引言l l抽样与混叠抽样与混叠常用的音频抽样率有:常用的音频抽样率有:8kH8kHz z、11.025kH11.025kHz z、22.05kHz22.05kHz、16kHz16kHz、37.8kHz37.8kHz、44.1kHz44.1kHz、48kHz48kHz。2003年9月19 19第二章 音频信息处理 引言l l抽样与混叠抽样与混叠2003年9月2020第二章 音频信息处理 引言l l抽样与混叠抽样与混叠 200
11、3年9月21 21第二章 音频信息处理 引言l l量化量化 2003年9月2222第二章 音频信息处理 引言l l量化噪声量化噪声 2003年9月2323第二章 音频信息处理 引言l l量化噪声量化噪声量化噪声量化噪声的特点的特点 2003年9月2424第二章 音频信息处理 引言l l量化性能评价量化性能评价 2003年9月2525第二章 音频信息处理 引言l l量化性能评价量化性能评价 2003年9月2626第二章 音频信息处理 引言分析与处理l l音频信号的时域音频信号的时域(Time Domain)(Time Domain)分析分析TV0语音信号的时域波形语音信号的时域波形2003年9月
12、2727第二章 音频信息处理 引言时域分析l l语音信号的时域分析就是分析和提取语音信号的时语音信号的时域分析就是分析和提取语音信号的时域参数。贯穿于语音信号分析全过程的是域参数。贯穿于语音信号分析全过程的是“短时分短时分析技术析技术”语音信号是时变的,但在较短的时间内语音信号是时变的,但在较短的时间内(10 30ms)(10 30ms)其特其特性被认为是基本保持不变性被认为是基本保持不变(或者说具有相对的稳定性或者说具有相对的稳定性)将语音信号时域波形划分成段,逐段进行分析将语音信号时域波形划分成段,逐段进行分析(每一段称每一段称之为一个帧之为一个帧)l l时域参数包括:短时能量时域参数包括
13、:短时能量(度量度量语语音信号幅度音信号幅度值变值变化的函数化的函数)、短时过零率短时过零率(表示一表示一帧语帧语音中音中语语音信号波形穿音信号波形穿过过横横轴轴(零零电电平平)的次的次数数)、短时自相关函数和短时平均幅度差函数等等、短时自相关函数和短时平均幅度差函数等等2003年9月2828第二章 音频信息处理 引言l l特征计算、短时处理特征计算、短时处理 2003年9月2929第二章 音频信息处理 引言l l特征计算、短时处理特征计算、短时处理加窗处理:假设语音特征在短时间内基本不变,那么,加窗处理:假设语音特征在短时间内基本不变,那么,可以将语音利用加窗处理,截成一个个短段。可以将语音
14、利用加窗处理,截成一个个短段。2003年9月3030第二章 音频信息处理 引言l l特征计算、短时处理特征计算、短时处理2003年9月31 31第二章 音频信息处理 引言l l特征计算、短时处理特征计算、短时处理如如何何计计算算其其平平均均幅幅度度?设设音音频频信信号号抽抽样样频频率率为为10KHz10KHz,设设矩形窗的窗长为矩形窗的窗长为100100点点2003年9月3232第二章 音频信息处理 引言频域分析l l语音信号的频域分析就是分析语音信号的频域持征。语音信号的频域分析就是分析语音信号的频域持征。从广义上讲,语音信号的频域分析包括语音信号的从广义上讲,语音信号的频域分析包括语音信号
15、的频谱、功率谱、倒频谱、频谱包络分析等,而常用频谱、功率谱、倒频谱、频谱包络分析等,而常用的频域分析方法有带通滤波器组法、傅里叶变换法、的频域分析方法有带通滤波器组法、傅里叶变换法、线件预测法等几种。线件预测法等几种。浊音段的功率普密度举例 清音段的功率谱密度举例 凸起的转折点称之为“共振峰”凸起的转折点称之为“共振峰”2003年9月3333第二章 音频信息处理 引言语谱图分析l l语音信号的语音信号的语谱语谱语谱语谱(Sonogram)(Sonogram)图分析图分析图分析图分析:把和时序相:把和时序相关的傅里叶分析结果显示的图形称为语谱图关的傅里叶分析结果显示的图形称为语谱图(Sonogr
16、am(Sonogram,或者,或者 S Spectrogram)pectrogram),它表示语音频谱,它表示语音频谱随时间变化的三维图形。随时间变化的三维图形。Spectrogram:time,frequency,amplitudeSpectrogram:time,frequency,amplitudeSonogramSonogram2003年9月3434第二章 音频信息处理 引言倒谱分析l l倒频谱倒频谱(Cepstrum)(Cepstrum),其英文为,其英文为SpectrumSpectrum的前的前4 4个字个字母的倒排列母的倒排列将语音卷积信号将语音卷积信号(乘积形式,音源信号与声道
17、脉冲信号的乘积形式,音源信号与声道脉冲信号的乘积乘积)的频谱转换为的频谱转换为加性加性形式,其中要进行离散傅里叶变形式,其中要进行离散傅里叶变换与逆变换,其结果为复数形式,称之为换与逆变换,其结果为复数形式,称之为“复倒谱复倒谱(Complex Cepstrun)”(Complex Cepstrun)”,其实部形式称之为,其实部形式称之为“倒谱倒谱(Cepstrun)”(Cepstrun)”在语音识别技术中将详细描述在语音识别技术中将详细描述2003年9月3535第二章 音频信息处理 引言三、音频信息的应用l l 音频信息在各领域中的应用音频信息在各领域中的应用l l 应用举例应用举例l l
18、Internet Internet 电话及电话及VoIPVoIP(Voice over IP)(Voice over IP)简介简介2003年9月36音频信息的应用l l视频图象的配音、配乐。如静态图象的解说、背景音乐视频图象的配音、配乐。如静态图象的解说、背景音乐l l可视电话、电视会议中的话音。游戏中的音响效果可视电话、电视会议中的话音。游戏中的音响效果l lInternet Internet 电话电话电话电话(IP phone)(IP phone);l l声音欺骗系统声音欺骗系统l l现代现代“芝麻开门芝麻开门”系统系统l l电子读物的有声输出电子读物的有声输出l l声音控制命令:声音控
19、制命令:用声音控制用声音控制WebWeb,或读出,或读出WebWeb的内容的内容用声音控制电话拨号用声音控制电话拨号l lInternetInternet上的实时音频上的实时音频l l用电话听电子邮件、股票信息用电话听电子邮件、股票信息l l智能房间中的音频、虚拟现实中的声音模拟智能房间中的音频、虚拟现实中的声音模拟2003年9月3737第二章 音频信息处理 引言l l声音欺骗声音欺骗复制敌人声音将作为一种作战技巧。复制敌人声音将作为一种作战技巧。截获敌人的无线电信号,改变其内容,用敌军话务员的截获敌人的无线电信号,改变其内容,用敌军话务员的原声把信号重新传送出去。原声把信号重新传送出去。声音
20、伪造装置将截获的信号分割成声音伪造装置将截获的信号分割成0.250.25秒的片断,把敌军秒的片断,把敌军话务员的声音分为几十个音素。转换成参考模板,储存话务员的声音分为几十个音素。转换成参考模板,储存在电子图书馆里。情报技师可用自己的声音讲话,但只在电子图书馆里。情报技师可用自己的声音讲话,但只要触发相应敌军话务员的音素参考模板。要触发相应敌军话务员的音素参考模板。声音欺骗系统需要高超的声音分析技术和语音合成技术。声音欺骗系统需要高超的声音分析技术和语音合成技术。声纹识别可以用来破案。声纹识别可以用来破案。2003年9月3838第二章 音频信息处理 引言l l现代现代“芝麻开门芝麻开门”系统系
21、统 阿里巴巴利用阿里巴巴利用“芝麻开门芝麻开门”的的咒语防止不相干的人进入宝库,而咒语防止不相干的人进入宝库,而现代现代“芝麻开门芝麻开门”系统比童话更好系统比童话更好地防止假冒地防止假冒 。这一进口通道控制的自动化系这一进口通道控制的自动化系统是一个声音、图象和动作的综合统是一个声音、图象和动作的综合认知系统。认知系统。它的信息输入部分由一个话筒它的信息输入部分由一个话筒和一个装在半透明的镜子后面的摄和一个装在半透明的镜子后面的摄像机组成,训练时系统把人的声音像机组成,训练时系统把人的声音和和嘴唇动作存入一个处理器。和和嘴唇动作存入一个处理器。2003年9月3939第二章 音频信息处理 引言
22、l l用光盘听书用光盘听书(e-Book)(e-Book)数字图书馆、语音翻译、信息咨询服务系统数字图书馆、语音翻译、信息咨询服务系统数字式有声信息系统数字式有声信息系统”这是通过计算机或专用设备,访问存于光盘中的电子出版物,并用这是通过计算机或专用设备,访问存于光盘中的电子出版物,并用声音将其读出的一种装置。读者可通过简单的操作,根据目录声音将其读出的一种装置。读者可通过简单的操作,根据目录“听听”到一本书的任意一页或其中的某一段。这将极大地改变目前盲文到一本书的任意一页或其中的某一段。这将极大地改变目前盲文书籍和磁带给盲人带来的不便。书籍和磁带给盲人带来的不便。一张光盘可存放十几本图书,相
23、当于一张光盘可存放十几本图书,相当于5050小时的录音。电子出版小时的录音。电子出版物的有声输出可采用录音物的有声输出可采用录音/重放方式,也可采用语音合成技术。通过重放方式,也可采用语音合成技术。通过语音合成技术,还可以实现有声电子邮件、有声主页。语音合成技术,还可以实现有声电子邮件、有声主页。2003年9月4040第二章 音频信息处理 引言l l虚拟主持人虚拟主持人英国报纸联合新闻社设计出世界首位虚拟播音员英国报纸联合新闻社设计出世界首位虚拟播音员安娜安娜诺娃(安娜诺娃网络公司)诺娃(安娜诺娃网络公司)(ANANOVA.COM)(ANANOVA.COM)中国中国“混血儿混血儿”虚拟主持人比
24、尔虚拟主持人比尔 中国首个虚拟主持人言东方上班中国首个虚拟主持人言东方上班 比尔比尔-邓邓 言东方言东方2003年9月41 41第二章 音频信息处理 引言 英国电脑专家的杰作,科学家把她的性格和外貌塑造得尽善尽美英国电脑专家的杰作,科学家把她的性格和外貌塑造得尽善尽美安娜芳龄安娜芳龄2828岁,未婚,样貌糅合了辣妹乐队成员维多利亚、名模米诺格及新闻主播福德曼岁,未婚,样貌糅合了辣妹乐队成员维多利亚、名模米诺格及新闻主播福德曼的五官特征,衣着入时,有品位,据说很有观众缘。报道新闻的时候,她表现冷的五官特征,衣着入时,有品位,据说很有观众缘。报道新闻的时候,她表现冷静,声调令人愉快。亲切愉快的性情
25、使她表面看起来文静而很有智慧。静,声调令人愉快。亲切愉快的性情使她表面看起来文静而很有智慧。2003年9月4242第二章 音频信息处理 引言 其实安娜背后是一套运行速度极高的电脑系统,能够全日不断其实安娜背后是一套运行速度极高的电脑系统,能够全日不断地更新新闻资讯,把文字资讯迅速转变成声音,从她地更新新闻资讯,把文字资讯迅速转变成声音,从她“口口”中读出中读出来,并配合脸部表情。电脑又即时制作动画配合有关新闻,然后利来,并配合脸部表情。电脑又即时制作动画配合有关新闻,然后利用最新的立体影像科技,在网上播出。技术人员指出,虽然现时人用最新的立体影像科技,在网上播出。技术人员指出,虽然现时人们大多
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 音频 信息处理 概述
限制150内