《2.第二章 音频.ppt》由会员分享,可在线阅读,更多相关《2.第二章 音频.ppt(123页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第二章音频信息的获取与处理第二章音频信息的获取与处理数字音频基础声卡的组成与工作原理音频编码基础和标准音乐合成和MIDI规范语音识别第二章音频信息的获取与处理本章要点:数字化音频的获取与处理的基本概念;数字音频采样和量化的基本原理,以及数字音频的文件格式和音频信号的特点音频卡的工作原理、功能、分类和音频卡的安装使用音频编码的原理和标准以及编码解码的基本方法音乐合成和乐器数字接口(MIDI)的规范;语音识别基本知识2.12.1数字音频基础数字音频基础 2.1.1声音概述声音是携带信息的重要媒体音乐和解说使静态图像更加丰富多彩、音乐和视频的同步使视频图像更具真实性传统计算机与人交互是通过键盘和显示
2、器,人们通过键盘或鼠标输入,通过视觉接收信息。多媒体计算机为计算机增加音频通道,采用人们最熟悉、最习惯的方式与计算机交换信息为计算机装上“耳朵”(麦克风),让计算机听懂、理解人们的讲话语音识别为计算机安上嘴巴和乐器(扬声器),让计算机能够讲话和奏乐语音和音乐合成2.1.1声音概述声音是通过空气传播的一种连续的波,叫声波,具有普通波所具有的反射、折射和衍射等特性经分析,声音信号是由许多频率不同的分量信号(单一频率的信号)组成的复合信号带宽是描述声音信号的重要参数,它表示组成复合信号的频率范围2.1.1声音概述人的听觉器官能感知的声音频率大约是2020kHz,在这种频率范围里感知的声音幅度大约在0
3、120dB语音信号(speech):人说话的信号频率通常为3003400Hz亚音信号(subsonic):小于20Hz的信号超声波信号(ultrasonic):高于20KHz的信号t振幅周期A声波声波2.1.1声音概述在组合声音信号的一系列分量信号音波中,最低频的音波称为基音,其余音波称为泛音声音的三要素:音调、音色、音强音调(音高):取决于基频的高低。直观感受:“唱不上去了”,“跑调了”音色:是由混入基音的泛音所决定的,如果中高泛音丰富音色就明亮,反之音色就暗淡。不同的乐器、不同人的语音音色不同音强(响度):取决于声音的幅度(分贝)振幅振幅:音量的大小:音量的大小周期周期:重复出现的时间间隔
4、:重复出现的时间间隔频率频率:指信号每秒钟变化的次数:指信号每秒钟变化的次数重要重要指标指标 声音按频率分类:次声波次声波可听声波可听声波超声波超声波20Hz20kHzf(Hz)人类说话声音频率范围:人类说话声音频率范围:300300Hz-3kHzHz-3kHz声音质量的频率范围:声音质量的频率范围:10 20 50 200 3.4k 7k 15k 20kCD-DAFM广播广播AM广播广播电话电话f(Hz)频带频带2.1.2音频的数字化模拟音频:时间和幅度上都是连续的模拟磁性录音技术,受电磁性能影响较大数字音频:时间和幅度上都是离散的计算机、数字CD、数字磁带(DAT)A/D转换模拟音频数字音
5、频二、声音的数字化 1.声音信号的类型 模拟信号(自然界、物理)数字信号(计算机)2.声音数字化过程采样采样量化量化编码编码模拟信号模拟信号数字信号数字信号模拟信号模拟信号数字信号数字信号A/D ADCD/A DAC2.1.2音频的数字化采样(sampling):时间上的离散化量化(quantization):幅度上的离散化 3.声音数字化过程图示连续的模拟声音信号连续的模拟声音信号声音信号的采样声音信号的采样离散的音频信号离散的音频信号顺序顺序顺序顺序2.1.2音频的数字化数字化音频的质量取决于两个重要参数采样频率:每秒钟采集多少个声音样本量化位数:每个声音样本用多少位来表示(bit per
6、 sample,bps),即量化精度位数越多,声音质量越高,而存储空间也越多位数越少,声音质量越低,存储空间也越少2.1.2音频的数字化采样定理(Nyquist theory)奈奎斯特理论指出:采样频率不应低于声音信号最高频率的两倍,这样就能把以数字表达的声音还原成原来的声音 人类听觉的频率范围大约为:2020kHz,为保证不失真,采样频率应在40kHz左右常用的采样频率有:8kHz,11.025kHz,22.05kHz,16kHz,37.8kHz,44.1kHz,48kHzfs=2fmax2.1.2音频的数字化量化位数:每个采样点能够表示的数据范围,常用的有8位、12位和16位 电压范围电压
7、范围 量化量化 编码编码 0.5 0.7 3 011 0.3 0.5 2 010 0.1 0.3 1 001-0.1 0.1 0 000-0.3 -0.1 -1 111-0.5 -0.3 -2 110-0.7 -0.5 -3 101-0.9 -0.7 -4 100声音数字化三要素采样频率量化位数声道数每秒钟抽取声波幅度样本的次数每个采样点用多少二进制位表示数据范围使用声音通道的个数采样频率越高声音质量越好数据量也越大量化位数越多音质越好数据量也越大立体声比单声道的表现力丰富,但数据量翻倍11.025kHz22.05 kHz44.1 kHz 8位256 个值16位65536个值单声道立体声2.1
8、.2音频的数字化量化可归纳为两类:均匀量化(线性量化):采样相等的量化间隔对采样样本作量化。缺点:为适应幅度大的输入信号,同时又要满足精度高的要求,就需要增加样本的位数非均匀量化(非线性量化):对大的输入采用大的量化间隔,小的输入采用小的量化间隔。做到在满足精度要求的情况下使用较少的位数2.1.2音频的数字化均匀量化2.1.2音频的数字化非均匀量化2.1.2音频的数字化数字音频的存储存储量的计算公式(假定不经压缩)如一分钟CD-DA音乐(CD音质)所需的存储量为:(44.1100016260/8)B=10 584 000BWAV文件每秒的存储量(字节)采样频率(Hz)量化位数(位)通道数/8
9、5.声音数字化计算公式 数据量采样频率量化位数 声道数/8(字节/秒)采样频率(kHz)量化位数(bit)数据量(KB/s)单声道立体声11.025810.7721.531621.5343.0722.05821.5343.071643.0786.1344.1843.0786.131686.13172.272.1.3数字音频的文件格式多媒体计算机中存储声音信息的文件格式主要有WAV文件 Microsoft的波形音频文件格式MIDI文件 MIDI文件格式VOC文件 声霸卡(Sound Blaster)使用的音频文件格式AIF文件 Apple计算机的波形音频文件格式RMI文件 Microsoft公司
10、的MIDI文件格式2.1.3数字音频的文件格式波形声音(WAV文件)波形音频是多媒体计算机获得声音最直接、最简便的方式。麦克风、录音机、CD唱盘等声源经声卡数字化后存入计算机波形文件是Windows所使用的标准数字音频文件,扩展名为.wav,存储的数据为实际的声音样本波形文件的主要缺点是文件太大,不适合长时间记录压缩处理(Microsoft的ACM、PCM等)降低质量(采样频率、量化位数、声道)2.1.3数字音频的文件格式MIDI音频(MIDI文件)MIDI音频是计算机产生声音(特别是音乐)的另一种方式,可满足长时间音乐的需要MIDI文件记录的不是声音本身,节省空间半小时立体声音乐:MIDI文
11、件200KB vs WAV文件300MB缺点:缺乏重现真实自然声音的能力只能记录标准所规定的有限种乐器的组合,且回放质量受声卡上合成芯片的严重限制波表合成法可使音乐的音质大大提高(效果接近CD音质)2.1.3数字音频的文件格式VOC文件VOC文件是Creative公司波形音频格式,也是声霸卡使用的音频文件格式VOC文件:文件头块音频数据块文件头:包含一个标识、版本号、一个指向数据块起始的指针数据块:分成各种类型的子块,如声音数据、静音、标记、ASCII码文件、重复以及终止标志、扩展块等声卡提供的软件可实现VOC和WAV文件的转换2.1.3数字音频的文件格式CD音频CD音频也是一种数字化声音,以
12、16位量化级、44.1kHz采样率的立体声存储,可完全重现原始声音,每片CD唱盘能记录约74min多媒体计算机上输出CD音频的两种途径1、通过CD-ROM驱动器前端耳机插孔输出(音质不受声卡质量影响,但不能混音)2、通过声卡放大后由扬声器输出(可与波形、MIDI进行混音输出,但声卡放大功率较小)2.1.4音频信号的特点音频信号处理的特点:依赖时间的连续媒体,时序性要求很高,25ms的延迟就会感到断续为使计算机模拟自然声音,理想的合成声音应是立体声(两个声道)语音信号蕴含语意等其他信息,对其处理涉及语言学、社会学、声学数字音频压缩标准一、音频压缩方法概述编码器编码器传输传输/存储存储解码器解码器
13、输入音频信号输入音频信号输出音频信号输出音频信号压缩编码是用某种方法使压缩编码是用某种方法使数字化信息的编码率减低数字化信息的编码率减低声音信号中存在大量的冗余度声音信号中存在大量的冗余度听觉具有强音能抑制弱音现象听觉具有强音能抑制弱音现象音频压缩音频压缩依据依据无损压缩无损压缩:霍夫曼编码、算术编码、行程编码:霍夫曼编码、算术编码、行程编码有损压缩有损压缩:波形编码、参数编码、混合编码:波形编码、参数编码、混合编码2.1.4音频信号的特点从人与计算机交互角度来看,音频信号相应的处理如下:1、人与计算机通信(计算机接收音频)音频获取:语音识别与理解2、计算机与人通信(计算机输出音频)音频合成:
14、包括音乐合成和语音合成声音定位:包括立体声模拟、音频/视频同步,目的是让计算机产生真实感声音3、人通过计算机与别人通信语音采集、音频编码/解码、音频传输等2.1.53D音频在一向讲究软硬兼施的PC界,多声道音频的实现自然是少不了软件算法的控制过程。因此,3D音频API就扮演了重要的接口角色这些API与3D图形程序接口,统称为3DAPI,即3D应用程序接口。对于支持3D定位技术的新一代声卡而言,算法往往决定了其定位及其它效果的优劣2.1.53D音频音频API种类繁多,目前各种游戏可以使用的API和3D技术大体上DirectSound3D(DS3D)Aureal3D(A3D)EAXSensaura
15、3D(S3D)Qsound3D(Q3D)IAS2.22.2声卡的组成与工作原理声卡的组成与工作原理2.2.1声卡的功能与分类在还没有发明声卡的时候,PC游戏是没有任何声音效果的。为了得到更好的声音效果,人们进行了大量的研究和实验,最后终于诞生了声卡真正意义上的第一块声卡是由AdlibAudio公司(声卡之父)于1984年研发的计算机的第一次发声是在Apple的机种上2.2.1声卡的功能与分类AdLib魔音卡开创了电脑音频技术的先河2.2.1声卡的功能与分类真正把声卡带入个人电脑领域的是我们都很熟悉的新加坡Creative创新公司1989年CreativeLabs的第1代SoundBlaster
16、(声霸卡)问世,很快取代了AdLib成为PC机上的声音标准2.2.1声卡的功能与分类声卡的功能主要包括以下几个方面音频录放、编辑音乐合成文语转换CD-ROM接口MIDI接口游戏接口2.2.1声卡的功能与分类1、音频录放数字化音频采样频率范围:544.1kHz;量化位:8位/16位;通道数:立体声/单声道编码与压缩基本编码方法:PCM压缩编码方法:ADPCM(8:4,8:3,8:2,16:4)CCITT A(13:8)CCITT u(14:8)音频录放的自动动态滤波录音声源:麦克风、立体声线路输入、CD输入输出功率放大器,直接驱动扬声器,且输出音量可调2.2.1声卡的功能与分类2、MIDI接口和
17、音乐合成MIDI规定了电子乐器与计算机之间相互数据通信的协议。MIDI文件中含有播放某些乐器声音的指令和要产生的效果通过声卡上的MIDI接口可以连接其他MIDI设备,构成以计算机为核心的个人音乐作曲和演奏平台音乐合成功能和性能依赖于合成芯片Yamaha的FMOPL系列:调频(FM)音乐合成法Sound Blaster Ave32:波形表音乐合成法2.2.1声卡的功能与分类3、其他功能接口CD-ROM接口游戏棒接口4、文语转换与语音识别文语转换软件:把计算机内的文本转换成声音,一般声卡都提供英语文语转换软件,如Sound Blaster语音识别软件:如Sound Blaster卡上的Voice
18、Assist、Microsoft Sound System卡上的Voice Pilot软件(这两个软件都是特定人的命令识别系统)2.2.1声卡的功能与分类声卡的技术指标采样率和量化位FM合成与波表合成兼容性外围接口音频压缩DSP芯片软件支持2.2.1声卡的功能与分类声卡的分类按应用环境分类DOS/GAMEWindows从技术角度分类以DSP技术为基础的声卡全硬件声卡(CODEC芯片)两者优点的结合根据总线的不同分类:ISA声卡、PCI声卡其他分类:普通声卡、集成主板声卡;16位声卡、32位声卡;单声道声卡、立体声声卡 2.声卡的组成原理线性输出线性输出总线接口芯片总线接口芯片数字音频处理芯片数
19、字音频处理芯片音乐合成器音乐合成器A/DA/D和和D/AD/AMIDIMIDI接口接口混音器混音器CDCD接口接口计算机总线计算机总线话筒输入话筒输入线性输入线性输入扬声器输出扬声器输出2.2.2声卡的工作原理 3.声卡的性能指标 采样和量化能力 衡量音响器材音质好坏。采样频率:11.025kHz (语音效果)22.05 kHz (音乐效果)44.1 kHz (高保真效果)量化等级:8位/256级 (语音质量)16位/65536级(高保真质量)芯片类型 CODEC芯片(依赖CPU,价格便宜)数字信号处理器DSP(不依赖CPU)总线类型 ISA总线、PCI总线、USB接口 输出声道数 2声道(立
20、体声)、2.1/4.1/5.1声道 多通道声卡(营造杜比环绕立体声)2.2.2声卡的工作原理2.2.2声卡的工作原理2.2.2声卡的工作原理杜比环绕立体声技术2.32.3音频编码基础和标准音频编码基础和标准2.3.1音频编码基础从信息保持角度讲,只有当信源本身具有冗余度(redundancy),才能对其进行压缩时、频域信息的冗余如幅度的非均匀分布、样本间的相关 人的听觉感知机理语音最终是给人听的,要避免做“即使记录了,人耳也听不见”的无用功2.3.1音频编码基础一段浊音的波形2.3.1音频编码基础人的听觉感知机理人的听觉具有掩蔽效应同时掩蔽、异时掩蔽人耳对不同频段的声音敏感程度不同,通常对低频
21、更敏感对相位变化不敏感人耳听不到或感知极不灵敏的声音分量都可视为冗余的掩蔽效应一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声音(掩蔽音)影响的现象称为人耳的“掩蔽效应”。被掩蔽音单独存在时的听阈分贝值,或者说在安静环境中能被人耳听到的纯音的最小值称为绝对闻阈。实验表明,3kHz5kHz绝对闻阈值最小,即人耳对它的微弱声音最敏感;而在低频和高频区绝对闻阈值要大得多。在800Hz-1500Hz范围内闻阈随频率变化最不显著,即在这个范围内语言可储度最高。在掩蔽情况下,提高被掩蔽弱音的强度,使人耳能够听见时的闻阈称为掩蔽闻阈(或称掩蔽门限),被掩蔽弱音必须提高的分贝值称为掩蔽量(或称阈移)。A.
22、纯音间的掩蔽对处于中等强度时的纯音最有效的掩蔽是出现在它的频率附近。低频的纯音可以有效地掩蔽高频的纯音,而反过来则作用很小。B.噪音对纯音的掩蔽噪音是由多种纯音组成,具有无限宽的频谱若掩蔽声为宽带噪声,被掩蔽声为纯音,则它产生的掩蔽门限在低频段一般高于噪声功率谱密度17dB,且较平坦;超过500Hz时大约每十倍频程增大10dB。若掩蔽声为窄带噪声,被掩蔽声为纯音,则情况较复杂。其中位于被掩蔽音附近的由纯音分量组成的窄带噪声即临界频带的掩蔽作用最明显。所谓临界频带是指当某个纯音被以它为中心频率,且具有一定带宽的连续噪声所掩蔽时,如果该纯音刚好能被听到时的功率等于这一频带内噪声的功率,那么这一带宽
23、称为临界频带宽度。临界频带的单位叫巴克(Bark),1Bark一个临界频带宽度。频率小于500Hz时,1Bark约等于freq100;频率大于500Hz时,1Bark约等于9+41og(freq1000),即约为某个纯音中心频率的20通常认为,20Hz-16kHz范围内有24个子临界频带。而当某个纯音位于掩蔽声的临界频带之外时,掩蔽效应仍然存在。(1)频域掩蔽所谓频域掩蔽是指掩蔽声与被掩蔽声同时作用时发生掩蔽效应,又称同时掩蔽。这时,掩蔽声在掩蔽效应发生期间一直起作用,是一种较强的掩蔽效应。通常,频域中的一个强音会掩蔽与之同时发声的附近的弱音,弱音离强音越近,一般越容易被掩蔽;反之,离强音较远
24、的弱音不容易被掩蔽。例如,个1000Hz的音比另一个900Hz的音高18dB,则900Hz的音将被1000Hz的音掩蔽。而若1000Hz的音比离它较远的另一个1800Hz的音高18dB,则这两个音将同时被人耳听到。若要让1800Hz的音听不到,则1000Hz的音要比1800Hz的音高45dB。一般来说,低频的音容易掩蔽高频的音;在距离强音较远处,绝对闻阈比该强音所引起的掩蔽阈值高,这时,噪声的掩蔽阈值应取绝对闻阈。(2)时域掩蔽所谓时域掩蔽是指掩蔽效应发生在掩蔽声与被掩蔽声不同时出现时,又称异时掩蔽。异时掩蔽又分为导前掩蔽和滞后掩蔽。若掩蔽声音出现之前的一段时间内发生掩蔽效应,则称为导前掩蔽;
25、否则称为滞后掩蔽。产生时域掩蔽的主要原因是人的大脑处理信息需要花费一定的时间,异时掩蔽也随着时间的推移很快会衰减,是一种弱掩蔽效应。一般情况下,导前掩蔽只有3ms20ms,而滞后掩蔽却可以持续50ms100m2.3.1音频编码基础同时掩蔽2.3.1音频编码基础异时掩蔽2.3.1音频编码基础对响度的感知(听阈频率曲线)2.3.1音频编码基础对音高的感知(音高频率曲线)在测量音高时则以40dB声强为基准2.3.1音频编码基础音频编码的分类基于音频数据的统计特性进行编码波形编码:目标是使重建语音波形保持原波形的形状。PCM、DPCM、APCM、ADPCM等算法。特点:音质好、但数据率较大基于音频的声
26、学参数进行参数编码音源编码:目标是使重建音频保持原音频特性。特点:数据率低、质量差、保密性好(军事)混合编码将波形编码和音源编码很好的结合起来特点:在较低的码率上得到较高的音质2.3.1音频编码基础三种编译码器的话音质量和数据率的关系2.3.1音频编码基础基于人的听觉特性进行编码从人的听觉系统出发,利用掩蔽效应,设计心理学声学模型,从而实现更高效率的音频压缩以MPEG音频、Dolby AC-3最具影响2.3.2音频编码评价方法音频编码算法的评价声音的清晰度和自然度难以度量,评价十分困难具有重要意义评价的主要依据音频质量数据率计算复杂度音频编码目标低码率、短延时、高质量2.3.2音频编码评价方法
27、音频质量评价方法分为两类:客观测量法:信噪比(SNR)主观测量法:主观平均判分法(meanopinionscore,MOS),一般采用5分制分数质量级别失真级别5优无察觉4良(刚)察觉但不讨厌3中(察觉)有点讨厌2差讨厌但不反感1劣极讨厌(令人反感)2.3.3音频编码标准2.3.3音频编码标准2.3.3数字音频压缩标准二、音频压缩技术标准分类 标准说明电话语音质量G.711采样8kHz,量化8bit,码率64kbpsG.721采用ADPCM编码,码率32kbpsG.723采用ADPCM有损压缩,码率24kbpsG.728采用LD-CELP压缩技术,码率16kbps调幅广播质量G.722采样16
28、kHz,量化14bit,码率224(64)kbps高保真立体声MPEG音频采样44.1kHz,量化16bit,码率705kbps(MPEG三个压缩层次,384-64kbps)2.3.3音频编码标准国际上,对语音信号压缩编码的审议在CCITT下设的第15研究组进行,相应的建议为G系列G.711、G.721、G.722、G.723 G.711是CCITT为话音信号(3003.4kHz)制定的编码标准。8kHz、8位/样本、64kb/s A律和u律PCMG.721在G.711基础上实现2:1的压缩。8kHz、4位/样本、32kb/s ADPCMG.722是CCITT推荐的音频信号编码标准。信号带宽为
29、7kHz,采样频率16kHz,保持数据率仍为64kb/s SB-ADPCM2.3.3音频编码标准G.711和G.721:适用于3003.4KHz窄带话音信号,应用于公共电话网G.722:针对507KHz的宽带语音,应用于综合业务数据网(ISDN)2.3.3音频编码标准G.711 标准对于采样频率8kHz,样本精度为13、14位的输入信号,经过A律或u律的PCM编码后的样本精度为8位,输出数据率位64kb/sA 律:u 律:2.3.3音频编码标准正输入码与A律输出码的关系2.3.3音频编码标准G.721标准用于64kb/s的A律和u律PCM与32kb/s的ADPCM之间的转换G.721标准所采用
30、的编码方法自适应差分脉冲编码调制(ADPCM)64kb/s64kb/s的的A A律律和和u u律律PCMPCM32kb/s32kb/s的的ADPCMADPCM2.3.3音频编码标准差分脉冲编码调制(DPCM)语音信号存在很强的相关性(时域冗余),预测值与当前样本的实际值比较接近,因此它们之间的差值变化范围相对原始语音样本而言比较小,对差值进行量化便可减少样本位数2.3.3音频编码标准自适应差分脉冲编码调制(ADPCM)自适应改变量化阶的大小:小的量化阶去编码小的差值;大的量化阶去编码大的差值2.3.3音频编码标准G.721标准编译码器框图2.3.3音频编码标准G.722标准该标准是描述音频信号
31、带宽为7kHz、数据率为64kb/s的编译码原理、算法和计算细节。编译码系统采用子带-自适应差分脉冲编码调制(SB-ADPCM)G.722的主要目标是保持64kb/s的数据率,而音频信号的质量要明显高于G.711的质量。G.722标准把音频信号采样频率由8kHz提高到16kHz,是G.711PCM采样率的2倍音频信号的质量有很大改善,由数字电话的话音质量提高到调幅(AM)无线电广播的质量。2.3.3音频编码标准子带编码(SBC)使用一组带通滤波器把输入信号分成若干子带,对每个子带中的音频信号采用单独的编码方案去编码优点:1、对每个子带信号分别进行自适应控制,量化阶的大小可按照每个子带的能量电平
32、加以调节;2、可根据每个子带信号在感觉上的重要性,对每个子带分配不同的位数,用来表示每个样本值2.3.3音频编码标准G.722编译码系统采用SB-ADPCM技术用正交镜象滤波器(QMF)把频带分割成两个等带宽的子带:高频子带和低频子带在每个子带中的信号都用ADPCM进行编码。对高子带分配2位表示每个样本值,而低子带分配6位2.3.3音频编码标准G.722的简化框图2.3.3音频编码标准流行的感知编码系统2.42.4音乐合成和音乐合成和MIDIMIDI规范规范2.4.1MIDI简介MIDI(MusicInstrumentDigitalInterface)是乐器数字接口的缩写,泛指数字音乐的标准,
33、初始建于1982年MIDI标准规定了不同厂家的电子乐器与计算机连接的电缆和硬件。它还指定从一个装置传送数据到另一个装置的通信协议MIDI间靠这个接口传递消息而进行彼此通信MIDI消息(记录在MIDI文件中)是乐谱的数字描述。因此,在MIDI电缆上传送的不是声音,而是指令2.4.2 MIDI与音乐合成 2.MIDI标准 MIDI是各种电子音乐设备之间以及与计算机交换信息的国际标准。(Yamaha,Roland)MIDI硬件规范:硬件接口标准和信号传输机制(I/O通道类型、连接电缆和插座形式)。MIDI软件规范:音乐信息数字化编码方式(音符、音符长短、音调和音量等)。原声钢琴原声钢琴8 8分音符的
34、分音符的C3C3音:音:00 00 6000 00 60音色音色PianoPiano编号编号 音符音符C3C3编号编号 8 8分音符编号分音符编号2.4.1MIDI简介三、MIDI的工作过程MIDI乐器乐器MIDI接口接口MIDI文件文件音序器音序器合成器合成器扬声器扬声器音频卡PC机 音序器是音序器是MIDIMIDI音乐音乐创作的核心控制部件。创作的核心控制部件。2.4.1MIDI简介MIDI文件比较小因为MIDI文件(.mid)存储的是命令,而不是声音波形,存储空间比wav文件小的多容易编辑编辑命令比编辑声音波形要容易的多,用户可以自由地改变音调、音色等属性,直到自己想要的效果可以作背景音
35、乐因为MIDI音乐可以和其他媒体,如数字电视、图形、动画、语音一起播放,加强演示效果2.4.2音乐合成技术产生MIDI乐音的方法主要有两种:频率调制(FM)合成法波表(wavetable)合成法2.4.2音乐合成技术频率调制(FM)合成法FM 是使高频振荡波的频率按调制信号规律变化的一种调制方式。采用不同的调制波频率和调制指数,就可以方便地合成具有不同频谱分布的波形,再现某些乐器的音色采用这种方式可以得到具有独特效果的“电子模拟声”,创造出丰富多彩的、真实乐器所不具备的音色,这也是 FM 音乐合成方法特有的魅力之一2.4.2音乐合成技术调频(FM)合成法工作原理2.4.2音乐合成技术数字载波波
36、形和调制波形有多种,不同型号的FM合成器所选用的波形也不同YamahaOPL-III数字式FM合成器采用的波形2.4.2音乐合成技术波表(wavetable)合成法把真实乐器发出的声音以数字的形式记录下来,播放时改变播放速度,从而改变音调周期,生成各种音阶的音符真实乐音样本的采集:音乐家在真实乐器上演奏的不同音符,选择44.1kHz的采样频率、16位的乐音样本(CD音质)乐音样本通常放在ROM芯片上,播放时以查表的方式给出2.4.2音乐合成技术波表合成法工作原理2.4.3MIDI系统MIDI的物理接口MIDIIn:接收从其他MIDI装置传来的消息MIDIOut:发送某装置生成的原始MIDI消息
37、MIDIThru:传送从输入口接收的消息到其他MIDI装置MIDIThru Out In2.4.3MIDI系统MIDI数据流通常由MIDI控制器(当作乐器使用)或者MIDI音序器(用来记录、播放、编辑MIDI事件)产生,然后通过该装置的MIDIOUT连接器输出MIDI数据流的接收设备是MIDI声音发生器,它们在MIDIIN端口接收MIDI信息,然后播放声音2.4.3MIDI系统2.4.3MIDI系统MIDI乐器乐器MIDI接口接口MIDI文件文件音序器音序器合成器合成器扬声器扬声器音频卡PC机2.52.5语音识别语音识别2.5.1语音识别的发展与分类使用语言(人类自己交换信息最直接最方便的形式
38、)与计算机通信一直是人类的理想,从而诞生了计算机语音学研究内容包括:语音编码、语音合成、语音识别、语种识别、说话人识别或说话人确认等语音识别是发展人机语音通信和新一代智能计算机的主要组成部分大量信息的输入、友好的人机交互方式计算机言语输出:声文并茂的信息表示方式、语音压缩(文字到语音的转换)2.5.1语音识别的发展与分类机器识别语音的研究可以追溯到20世纪50年代1952年,美国Davis等人研究成功世界上第一个识别10个英文数字发音的实验系统50年代后期,我们研制出一套“自动语音识别器”,用来识别汉语的10个元音1960年,Denes等人研究成功了第一个计算机语音识别系统,开始了计算机语音识
39、别的正式阶段进入1970s,语音识别在小词汇量、特定人、孤立词的识别方面取得了实质性进展。线性预测分析技术(LPC)、动态时间规划算法(DTW)、矢量量化技术(VQ)等得到广泛应用2.5.1语音识别的发展与分类1970s后期开始,语音识别沿着3个不同方向发展特定人非特定人孤立词连接词小词汇量大词汇量20世纪80年代中期以来,新技术的出现推动了语音识别的迅速发展(特别是HMM模型的应用)CMU的Sphinx系统(达到97%的识别率)IBM的Tangora20、VoiceType3.0语音识别正在向最高层次应用冲刺非特定人、大词汇量、连续语音的听写机系统2.5.1语音识别的发展与分类按可识别的词汇
40、量多少小词汇量:1000按语音的输入方式孤立词、连接词、连续语音按发音人特定人、限定人、非特定人语音识别的基本原理语音识别系统的分类语音识别系统的分类 1.1.根据词汇量大小根据词汇量大小 小词汇量语音识别系统:几十词小词汇量语音识别系统:几十词 中词汇量语音识别系统:几百词中词汇量语音识别系统:几百词大词汇量语音识别系统:几千-几万词 2.根据对说话人依赖程度 特定人语音识别系统:专人 非特定人语音识别系统:所有人 限定人识别系统:一组人 3.根据对说话人说话方式 孤立词语音识别系统:每词后停顿 连接词语音识别系统:连音 连续语音识别系统:连音、变音2.5.2语音识别的应用语音识别技术应用于
41、需要以语音作为人机交互手段的场合,主要实现听写和命令控制功能办公自动化:文件的录入、个人通信终端PDA、不能或不便于将信息输入计算机的人电话商业服务:语音拨号电话机、电话订票服务、自动话务转换系统、电话自动翻译系统计算机领域:具有语音识别能力的多媒体产品、命令和控制计算机像代理一样为用户处理各种事务2.6 语音识别技术四、语音识别软件 中文听写 语音识别软件 语音命令 语音合成 IBM ViaVoice 8.0中文语音识别系统英特尔公司的可视音频语音识别软件英特尔公司的可视音频语音识别软件(AVSR)AVSR)。2.6 音频处理软件专业音乐软件音乐编曲软件(音序器)合成器软件Cakewalk
42、1.0-9.0Sonar 1.0-3.0Cubase VSI 5.xCubase SX 2.1(MIDI/音频/合成器一体化)Logic Audio、Vegas Audio/Video等录音、混音、音频编辑软件Sound Forge(Sonic Foundry)Wavelab (德国Steinberg)Cool Edit (Syntrillium)效果器软件效果器插件Waves Native Gold Bundle(20以上)TC Native Bundle(4)Ultrafunk Sonltus fx(7)2.6 音频处理软件一、Cool Edit概述Cool Edit Pro 1.1/1.
43、2/2.0/2.1(专业版)Cool Edit 2000(简化版)是一种集录音、编辑、合成于一体的数字音频处理软件。编辑:插入、叠加、替换、调制等;音效:回音、延迟、失真、杂音等;分析音讯及频率;与Cakewalk能很好地结合。2.6 音频处理软件 1.Cool Edit的启动和退出 开始/所有程序Cool Edit 2000 2.Cool Edit的窗口组成标题栏菜单栏工具栏状态栏 显示范围条 波形显示区 声音播放工具 水平缩放工具 时间显示区 垂直缩放工具 CD播放栏 音量电平表2.6 音频处理软件二、音频的基本操作 1.声音的录制 Options/Windows Mixer音量控制 从麦
44、克风中输入 File/NewNew Waveform对话框 语音:11025Hz、Mono、8-bit 音乐:44100Hz、Stereo、16-bit 从CD唱机中输入 CD唱机(波形输出混音)2.6 音频处理软件 2.音频的编辑 选择 删除(选区、非选区)复制 粘贴 混合粘贴2.6 音频处理软件 3.音频文件管理 新建文件 打开文件 保存文件 另存为(其他格式)保存选择区2.6 音频处理软件三、调整音量大小 1.调整音量 Transform/Amplitude/Amplify菜单 Amplify对话框 Constant Amplification选项卡 2.显示振幅边界线(90%)View
45、/Show Boundaries 3.静音(选择区域)Transform/Silence2.6 音频处理软件四、淡入与淡出 淡入效果是指音频选区的起始音量很小甚至无声,而最终音量相对效大。淡出效果是指音频选区的起始音量相对较大,而最终音量很小甚至无声。操作步骤:选择音频区域Transform/Amplitude/Amplify选择Fade In(淡入)、Fade Out(淡出)Linear Fades(线性)Logarithmic Fades(对数)2.6 音频处理软件五、消除环境噪音 环境噪音是在语音停顿之处有一种振幅变化不大的声音,这个声音贯穿于录制声音的整个过程。消除环境噪音的方法是在语
46、音停顿之处选择一段环境噪音,让CE记录噪音的特征,然后自动消除所有的环境噪音。操作步骤:选取噪音样本Transform/Noise Reduction/Noise Reduction双击波形显示区选取整个波形2.6 音频处理软件六、延迟效果 1.Delay延迟效果 Transform/Delay Effects/Delay菜单 Delay对话框参数:Delay:延时(-500500ms)Mixing:声音混合(0100%)Invert:颠倒 Presets:预置 模拟各种房间效果、空中回声、隧道。2.6 音频处理软件 2.Echo回声效果 Transform/Delay Effects/Ech
47、o菜单 Echo对话框的参数:Decay:衰减(0100%)Delay:延时(02000ms)Initial Echo Volume:初始回声音量 Lock Left/Right:锁定左右声道 Echo Bounce:弹簧回声 模拟声场效果,如礼堂、峡谷、大厅。2.6 音频处理软件 3.Flanger空间感效果 Transform/Delay Effects/Flanger菜单 Flanger对话框的主要参数:Original Delayed原始声音和延时声音比例Initial Mix Delay初始混合延时Final Mix Delay最终混合延时Stereo Phasing立体声相位Feedback反馈量模拟科幻、火星人、水下等声音感觉。模拟科幻、火星人、水下等声音感觉。2.6 音频处理软件七、正弦波发生器 正弦波发生器 音频信号发生器 非正弦法发生器 噪音发生器 Generate/TonesNew Waveform (16000,Mono,16-bit)Generate Tones (选中Lock to these 400,0,0)课题MIDI合成,播放一组手机铃声Mp3解码器,播放Mp3MP3信息获取歌词同步?MP3编码工具(开源)语音合成M$API语言识别IBM卡拉ok特效PK
限制150内