《多媒体音频信息处理.ppt》由会员分享,可在线阅读,更多相关《多媒体音频信息处理.ppt(74页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第三章第三章 多媒体音频信息处理多媒体音频信息处理 声音是携带信息的极其重要的媒体,声音是携带信息的极其重要的媒体,是多媒体技术研究中的一个重要内容。声是多媒体技术研究中的一个重要内容。声音的种类繁多,如人的话音、乐器声、动音的种类繁多,如人的话音、乐器声、动物发出的声音、机器产生的声音以及自然物发出的声音、机器产生的声音以及自然界的声音等。界的声音等。这些声音有许多共同的特性,也有这些声音有许多共同的特性,也有它们各自的特性。在用计算机处理这些声它们各自的特性。在用计算机处理这些声音时,既要考虑它们的共性,又要利用它音时,既要考虑它们的共性,又要利用它们的各自的特性。们的各自的特性。一、音频
2、信号的分类一、音频信号的分类音频信号可分为两类:音频信号可分为两类:v 语音信号语音信号:语音是语言的物质载体,它包含了:语音是语言的物质载体,它包含了 丰富的语言内涵,是人类进行信息交流所特有丰富的语言内涵,是人类进行信息交流所特有 的形式。的形式。v 非语音信号非语音信号:主要包括音乐和自然界存在的其他:主要包括音乐和自然界存在的其他 声音形式。非语音信号的特点是不含复杂的语义声音形式。非语音信号的特点是不含复杂的语义 和语法信息,其信息量低,识别简单。和语法信息,其信息量低,识别简单。二、音频信号的形式二、音频信号的形式 声音可用一条连续的曲线来表示。这条连声音可用一条连续的曲线来表示。
3、这条连续的曲线无论多么复杂,都可分解成一系列正续的曲线无论多么复杂,都可分解成一系列正炫波的线性叠加,称为炫波的线性叠加,称为声波声波。因声波是在时间。因声波是在时间上和幅度上都连续变化的量,因此称之为模拟上和幅度上都连续变化的量,因此称之为模拟量。模拟信号有两个重要参数:量。模拟信号有两个重要参数:频率频率和和幅度幅度。q 一个声源每秒钟可产生成百上千个波峰,把每一个声源每秒钟可产生成百上千个波峰,把每 秒钟波峰所发生的数目称之为秒钟波峰所发生的数目称之为信号的频率信号的频率。q 信号周期信号周期是指两个峰点或谷底之间的相对时间。是指两个峰点或谷底之间的相对时间。q 信号的基线信号的基线提供
4、了一个测量声音的起点。提供了一个测量声音的起点。信号信号 的幅度的幅度是从信号的基线到当前波峰的距离。幅是从信号的基线到当前波峰的距离。幅 度决定了信号音量的强弱程度。度决定了信号音量的强弱程度。q 信号带宽信号带宽是声音信号的一个重要参数,它用来描是声音信号的一个重要参数,它用来描 述组成复合信号的频率范围。述组成复合信号的频率范围。振幅周期基线1GHz10GHz超高声波超高声波20kHz1GHz超声波超声波20Hz20kHz人类听力所能接受人类听力所能接受020Hz亚声波亚声波频率范围频率范围声音分类声音分类三、声音质量的评价三、声音质量的评价v 客观质量度量:用信噪比来衡量。客观质量度量
5、:用信噪比来衡量。v 主观质量度量主观质量度量现在公认的声音质量分为现在公认的声音质量分为4级级 数字激光唱盘质量数字激光唱盘质量 调频无线电广播调频无线电广播 调幅无线电广播调幅无线电广播 电话质量电话质量CD-DAFM广播广播AM广播广播电话电话10 20 50 200 3.4K 7K 15K 22K 四、模拟音频的数字化过程四、模拟音频的数字化过程话音信号是典型的连续信号,不话音信号是典型的连续信号,不仅在时间上是连续的,而且在幅仅在时间上是连续的,而且在幅度上也是连续的。在时间上度上也是连续的。在时间上“连连续续”是指在一个指定的时间范围是指在一个指定的时间范围里声音信号的幅值有无穷多
6、个,里声音信号的幅值有无穷多个,在幅度上在幅度上“连续连续”是指幅度的数是指幅度的数值有无穷多个。我们把在时间和值有无穷多个。我们把在时间和幅度上都是连续的信号称为模拟幅度上都是连续的信号称为模拟信号。信号。如果要用计算机对音频信息进行处理如果要用计算机对音频信息进行处理,则首先将则首先将模拟音频信号模拟音频信号(如语音、音乐等如语音、音乐等)转换成数字信号转换成数字信号.对模拟音频数字化的过程涉及到音频的对模拟音频数字化的过程涉及到音频的采样、采样、量化和编码量化和编码.模拟音频信号模拟音频信号采样采样量化量化编码编码数字音频信号数字音频信号n计算机对声音的表示主要是通过计算机对声音的表示主
7、要是通过规则规则的的时间时间间隔间隔测出音波振动的幅度从而产生的一系列测出音波振动的幅度从而产生的一系列声音数据。这种测出数据的方法就称为声音数据。这种测出数据的方法就称为采样采样,一秒内采样的次数称为一秒内采样的次数称为采样率采样率(sampling rate),),单位为单位为Hz。例如:例如:采样频率通常采用种:11.025KHz(语音效果)、22.05KHz(音乐效果)44.1KHz(高保真效果)。常见的CD唱盘的采样频率即为44.144.1KHzKHz。采样采样 奈奎斯特理论奈奎斯特理论:采样频率与声音频率之间有采样频率与声音频率之间有 一定的关系一定的关系,只有采样频率高于声音信号
8、最只有采样频率高于声音信号最 高频率的两倍时高频率的两倍时,才能把数字信号表示的声才能把数字信号表示的声 音还原成为原来的声音音还原成为原来的声音.例如例如:CDCD唱片唱片,要想获得要想获得CDCD音质的效果音质的效果,则要则要 保证采样频率为保证采样频率为44.144.1KHzKHz.n采样的离散音频数据要转换成计算机能够表示的采样的离散音频数据要转换成计算机能够表示的 数据范围的过程数据范围的过程,我们把对声波波形幅度的数字化我们把对声波波形幅度的数字化 表示称之为表示称之为“量化量化”n量化的过程首先将采样后的信号按整个声波的幅量化的过程首先将采样后的信号按整个声波的幅 度划分成有限个
9、区段的集合度划分成有限个区段的集合,把落入某个区段内把落入某个区段内 的样值归为一类的样值归为一类,并赋予相同的量化值并赋予相同的量化值.量化量化(c)c)采样信号的量化采样信号的量化(a)a)模拟音频信号模拟音频信号(b)b)音频信号的采样音频信号的采样数字化音频的过程如下图所示。数字化音频的过程如下图所示。量化位数量化位数 量化位数也称量化位数也称“量化精度量化精度”,是描述每个采样,是描述每个采样点样值的二进制位数。例如,点样值的二进制位数。例如,8 8位量化位数表示每位量化位数表示每个采样值可以用个采样值可以用2 28 8即即256256个不同的量化值之一来表个不同的量化值之一来表示,
10、而示,而1616位量化位数表示每个采样值可以用位量化位数表示每个采样值可以用2 21616即即6553665536个不同的量化值之一来表示。这个参数就是个不同的量化值之一来表示。这个参数就是通常所说的声卡的位数通常所说的声卡的位数.常用的量化位数为常用的量化位数为8 8位、位、1616位、位、3232位位,专业级的高档声卡有专业级的高档声卡有6464位的。位的。编码编码为什么要对音频编码?为什么要对音频编码?nA、获取更好的数学描述方法?nB、让声音不失真?nC、不编码就不是比特流?nD、为了使比特流更加简练?nE、为了便于计算机存储?nF、为了便于在网络上传输音频?以上哪个是最根本的出发点?
11、以上哪个是最根本的出发点?以上哪个是最根本的出发点?以上哪个是最根本的出发点?所谓所谓编码编码,就是按照一定的格式把离散的数字就是按照一定的格式把离散的数字记录下来记录下来,并在有用的数据中加入一些用于纠错并在有用的数据中加入一些用于纠错、同步和控制的数据同步和控制的数据.在数据回放时在数据回放时,可以根据所记可以根据所记录的纠错数据判别读出的声音数据是否有错录的纠错数据判别读出的声音数据是否有错,如如在一定范围内有错在一定范围内有错,可加以纠正可加以纠正.五、音频信号的压缩编码与标准五、音频信号的压缩编码与标准数字波形文件数据量大,数字音频的编码必须采用高效的数据压缩编码技术。对数字化后的声
12、音信号进行压缩编码,使其成为具有一定字长的二进制数字序列,并以这种形式在计算机内传输和存储.在播放时经解码器恢复成原来的声音信号.输入信号输入信号编码器编码器传输传输/存储存储解码器解码器输出信号输出信号 音频信号能够被压缩编码的依据有两个,一是声音信号存在着数据冗余;二是利用人的听觉特性来降低编码率,人的听觉具有一个强音能抑制一个同时存在的弱音现象,这样就可以抑制与信号同时存在的量化噪声;另外人耳对低频端比较敏感,而对高频端不太敏感,由此引出了“子带编码技术”。音频信号的编码方式可分为波形编码参数编码和混合编码三种。波形编码的算法简单,易于实现,可获得波形编码的算法简单,易于实现,可获得高质
13、量的语音。常见的三种波形编码方法为:高质量的语音。常见的三种波形编码方法为:脉冲编码调制脉冲编码调制(PCM)PCM),实际为直接对声音信号作实际为直接对声音信号作A AD D转换。只要采样频率足够高,量化位数足转换。只要采样频率足够高,量化位数足够多,就能使解码后恢复的声音信号有很高的够多,就能使解码后恢复的声音信号有很高的质量。质量。差分脉冲编码调制差分脉冲编码调制(DPCM)DPCM),即只传输声音预测即只传输声音预测值和样本值的差值以此降低音频数据的编码率。值和样本值的差值以此降低音频数据的编码率。自适应差分编码调制自适应差分编码调制(ADPCM)ADPCM),是是DPCMDPCM方法
14、的进方法的进一步改进,通过调整量化步长,对不同频段设一步改进,通过调整量化步长,对不同频段设置不同的量化字长,使数据得到进一步的压缩。置不同的量化字长,使数据得到进一步的压缩。2).2).参数编码参数编码参数编码方法通过建立起声音信号的产生参数编码方法通过建立起声音信号的产生模型,将声音信号用模型参数来表示,再对参模型,将声音信号用模型参数来表示,再对参数进行编码,在声音播放时根据参数重建声音数进行编码,在声音播放时根据参数重建声音信号。参数编码法算法复杂,计算量大,压缩信号。参数编码法算法复杂,计算量大,压缩率高,但还原声音的质量不高。率高,但还原声音的质量不高。3).3).混合编码混合编码
15、混合编码是把波形编码的高质量和参数编混合编码是把波形编码的高质量和参数编码的低数据率结合在一起,取得了较好效果。码的低数据率结合在一起,取得了较好效果。脉冲编码调制脉冲编码调制(PCM)PCM)PCM PCM编码是对连续语音信号进行空间采样编码是对连续语音信号进行空间采样,幅度值量化及用适当码字将其编码的总称幅度值量化及用适当码字将其编码的总称.PCMPCM方法可以按量化方式的不同方法可以按量化方式的不同,分为均匀量化分为均匀量化PCM,PCM,非均匀量化非均匀量化PCMPCM和自适应量化和自适应量化PCMPCM等三种等三种.均匀量化均匀量化非均匀量化非均匀量化差分脉冲编码调制差分脉冲编码调制
16、(DPCM)DPCM)他编码的不是声音采样样本值他编码的不是声音采样样本值,而是样本值及而是样本值及其预测值的差分。根据过去的样本去估算其预测值的差分。根据过去的样本去估算(estimate)estimate)下一个样本信号的幅度大小,这个值称为预测值,下一个样本信号的幅度大小,这个值称为预测值,然后对实际信号值与预测值之差进行量化编码,然后对实际信号值与预测值之差进行量化编码,从而就减少了表示每个样本信号的位数。从而就减少了表示每个样本信号的位数。自适应差分脉冲编码自适应差分脉冲编码(ADPCM)ADPCM)自适应就是使量化间隔大小的变化自动的去适应输入信号大小的变化.他根据信号分布不均匀的
17、特点,是系统具有随输入信号的变化而改变量化区间的大小,以保证输入量化器的信号基本均匀的能力.标准 比特速度 编码技术 应用 制定日期 G.723 5.3kb/s或6.3kb/s MP-MLQ 视频电话及IP电话等 1996.3 G.722 64kb/s SBC+ADPCM 视听多媒体和会议电话 1988.11 G.711 64kb/s PCM 公共电话网 1972G.728 16kb/s LD-CELP 公共电话网 1992.9G.729 8kb/s CS-ACELP 无线移动网、1996.3 计算机通信系统等ITU-T G系列音频压缩编码标准系列音频压缩编码标准音频编码标准和算法音频编码标准
18、和算法编码类型算法名称数据率标准应用质量波形编码PCM均匀量化公共网ISDN配音4.0-4.5(A)(A)64kbit/s G.711APCM自适应量化DPCM差值量化ADPCM自适应差值量化32kbit/s G.721SB-ADPCM子带一自适应差值量化64kbit/s G.722参数 编码LPC线性预测编码2.4kbit/s 保密电话2.5-3.5混合 编码CELPC码激励LPC4.8kbit/s 移动通信3.7-4.0VSELP矢量和激励LPC8kbit/s 语音邮件 RPE-CELP长时预测规则码激励13.2kbit/s ISDN LD-CELP低延时码激励LPC16kbit/G.72
19、8MPEG多子带感知编码128kbit/sCD 5.0六、数字音频的文件格式六、数字音频的文件格式 WAV文件文件WAV文件又称为波形文件,是Micorsoft公司的文件格式.WAV文件来源于对声音模拟波形的采样,并以不同的量化位数把这些采样点的值转换成二进制数.WAVE声音文件是使用RIFF(资源交换文件)的格式描述的 对于PCM采样得到的波形文件,其声音文件的大小与采样频率采样频率、量化位数量化位数和声道数声道数有关.文件大小文件大小=采样频率采样频率*(量化位数量化位数/8)*声道数声道数*录音时间录音时间如:对于立体声,如果采样频率为44.1Kz,分辨率为 16bit,声道数为2,语音
20、时间为10秒,求录音文件 的大小?VOC文件文件VOC文件是Creative公司所使用的标准音频文件格式。与WAVE格式类似,VOC文件有文件头块和音频数据块组成。文件头包含一个标识、版本号和一个指向数据块起始地址的指针。数据块分成各种类型的子块,如声音数据、静音、标记、重复、重复的结束及终止标记等。mp3文件文件是用一种属于按MPEG标准的声音压缩技术制作的数字音频文件。存储空间小,同样长度的音乐文件,用MP3 存储相当于WAV的1/10。比较好的播放器:winamp、超级解霸、realplayer等,一般都支持。Real Player公司推出的适合于网络播放的媒体格式。高压缩比,存储空间小
21、。适合网络播放。音质不是很好。专用播放器Realplayer、超级解霸2001以上的版本等 RA格式文件格式文件AIF是音频交换文件格式(Audio Interchange File Format)的英文缩写,是苹果计算机公司开发的一种声音文件格式。AIFF格式文件格式文件七、声卡七、声卡 虽然PC声卡是在20世纪90年代才得以普及,但它的问世却是在1984年。英国的ADLIB公司是目前公认的“声卡之父声卡之父”,虽然他们最初开发的产品只能提供简单的声音效果,并且无法处理音频信号,但在当时无疑已经是一个很大的突破。由于技术不够成熟,成本又非常昂贵,因此这类带有试验品性质的早期ADLIB音乐卡,
22、因在当时计算机的运算速度还不足以应付大规模的多媒体处理,所以未能普及。七、声卡七、声卡(一)功能(一)功能o 录制、编辑和回放数字声音文件录制、编辑和回放数字声音文件o 控制各声源的音量并混合在一起控制各声源的音量并混合在一起o 对声波文件进行压缩和解压缩对声波文件进行压缩和解压缩o 语音合成技术语音合成技术o MIDI接口(乐器数字接口)接口(乐器数字接口)(二)声卡的技能指标(二)声卡的技能指标o 音频技术指标音频技术指标 声卡的录音、放音效果应该具有CD唱片的音质。所谓CD音质是指录音采样速度达到44.1kHz,用16位量化指标来记录声音。Sound Blaster 16(即16位声霸卡
23、)系列的声卡都是CD音质的声卡。(二)声卡的技能指标(二)声卡的技能指标o MIDI声频声频 MIDI是计算机产生声音的另一种方法,它是一种电子音乐。计算机播放MIDI文件时,有两种方法合成声音:FM合成和波表合成。我们在考虑声卡的技能指标时要考虑采用的哪种合成方法。(二)声卡的技能指标(二)声卡的技能指标o 声道数声道数 声卡所支持的声道数也是重要指标。单声道是比较原始的声音复制形式,缺乏对声音的位置定位。立体声声音在录制过程中被分配到两个独立的声道,从而达到了很好的声音定位效果。(二)声卡的技能指标(二)声卡的技能指标 随着波表合成技术的出现,由双声道立体声向多声道环绕声的发展显得格外迫切
24、。四声道环绕规定了4个发音点:前左、前右、后左、后右,听众则被包围在这中间,同时还建议增加一个低音音箱,以加强对低频信号的回放处理(这也是如今4.1声道音箱系统广泛流行的原因)。(二)声卡的技能指标(二)声卡的技能指标 5.1声道已广泛运用于各类传统影院和家庭影院中,该声音系统来源于4.1环绕,不同之处在于它增加了一个中置单元,这个中置单元负责传送低于80Hz的声音信号,在欣赏影片时有利于加强人声,把对话集中在整个声场的中部,以增强整体效果。(二)声卡的技能指标(二)声卡的技能指标o 多音频流输出多音频流输出 多音频流输出是指声卡可以在同一时间内支持多个wav、mp3、midi类音频文件的播放
25、。目前大部分中高档的PCI声卡是普遍支持多音频流输出的,(二)声卡的技能指标(二)声卡的技能指标o I/O设备接口设备接口 一般的声卡都设有线性输入、线性输出、音箱输出、MIDI和游戏杆接口等。(二)声卡的技能指标(二)声卡的技能指标o 系统参数的可调性系统参数的可调性 为避免I/O地址、DMA、IRQ对系统的冲突,声卡参数必须是能过设置的。当前是利用软件进行设置才最为方便,早期的声卡有可能需要调整跳线。(二)声卡的技能指标(二)声卡的技能指标o 声卡软件声卡软件 声卡软件很重要,一块声卡的技术指标再高,但缺乏应用软件的支持,都很难发挥其特长。声卡一般都带有应用程序,这些应用程序包括录音软件、
26、WAV、CD及MIDI播放软件、混音器、WAV文件编辑器等。高档的声卡还提供特殊效果播放器、文字阅读软件及语音识别软件等。(二)声卡的技能指标(二)声卡的技能指标o 总线结构总线结构 由于计算机技术突飞猛进的发展,ISA总线已经不能满足音频信号的高吞吐量的需要,于是产生了PCI声卡。(三)声卡的插孔与连接(三)声卡的插孔与连接(四)声卡的安装(四)声卡的安装(1).硬件安装步骤1 关闭计算机电源,拔下供电电源和所有 外接线插头。步骤2 打开机箱外壳,选择一个空闲的16位扩 展槽并将声卡插入扩展槽。步骤3 连接来自CD-ROM驱动器的音频输出线到 声卡的CD IN针形输入线上;步骤4 盖上机箱外
27、壳,并将电源插头插回。步骤5 声卡与其它外设的连接,按下页图进行。LINE INLINE OUTSPK OUTMIDI录音机、CD唱机等线性输入话筒扬声器线性输出立体声放大器MIDI设备MIC IN(2).软件安装对不同的声卡,软件的安装方法不完全相同,需要按照说明书安装。1).安装驱动程序声卡的驱动程序是控制声卡工作的必要程序,不同的声卡驱动程序是不同的。2).安装应用程序安装声卡的应用程序,例如混音器、录音师和MIDI编辑软件等。八、电子乐器数字接口八、电子乐器数字接口MIDIn使用计算机利用声音合成技术生成音乐使用计算机利用声音合成技术生成音乐的技术称为的技术称为电子音乐合成电子音乐合成
28、。nMIDIMIDI是是Musical Instrument Digital Musical Instrument Digital InterfaceInterface的首写字母组合词,可译成的首写字母组合词,可译成“电子乐器数字接口电子乐器数字接口”。用于在音乐合成。用于在音乐合成器器(music synthesizers)music synthesizers)、乐器乐器(musical instruments)musical instruments)和计算机之间交和计算机之间交换音乐信息的一种标准协议。换音乐信息的一种标准协议。(一)有关的(一)有关的MIDI术语术语 MIDI合成器合成器
29、:能产生特定声音的电子装置,其数据 传输符合MIDI通信约定。MIDI信息或指令信息或指令:乐谱的一种记录格式,相当于乐 谱语言。MIDI接口接口:MIDI硬件通信协议。MIDI通道通道:提供了16个通道,每种通道对应一种逻 辑的合成器。MIDI文件文件:是存放MIDI信息的标准文件格式。音序器音序器:用来记录、编辑和播放MIDI文件的软件。(二)(二)MIDI工作过程工作过程 MIDI电子乐器通过MIDI接口与计算机相连,MIDI靠这个接口来传递信息而进行彼此间的通信。MIDI乐器乐器MIDI接口接口合成器合成器音序器音序器MIDI文件文件扬声器扬声器PC机机音频卡音频卡MIDI指令指令模拟
30、音频信号模拟音频信号 MIDIMIDI键盘键盘 MIDI键盘是用于MIDI乐曲演奏的,MIDI键盘本身并不发出声音,当作曲人员触动键盘上的按键时,就发出按键信息,所产生的仅仅是MIDI音乐消息,从而由音序器录制生成MIDI文件。音序器音序器(Sequencer)Sequencer)用于记录、编辑、播放MIDI的声音文件,音序器有以硬件形式提供的,目前大多为软件音序器。音序器可捕捉MIDI消息,将其存入MIDI文件,MIDI文件扩展名为.MID。音序器还可编辑MIDI文件。合成器合成器 MIDI文件的播放是通过MIDI合成器,合成器解释MIDI文件中的指令符号,生成所需要的声音波形,经放大后由扬
31、声器输出,声音的效果比较丰富。MIDI信息实际上是对一段音乐的描述或理解成是乐谱的数字描述。它包括音符、节拍、乐器种类等。MIDI信息包含两个大的部分:状态信息和数据信息。状态信息用于描述音符被演奏还是被加强声音这类信息,而数据信息则侧重描述哪个音符被演奏或被加强的声音的强度如何等可以用量来表示的信息。理解理解MIDIMIDI工作方式的最直接的方法就是看工作方式的最直接的方法就是看MIDIMIDI信息是什么?信息是什么?(三)(三)MIDI合成器合成器 合成器是利用数字信号处理器DSP或其他芯片来产生音乐或声音的电子装置。利用合成器产生MIDI乐音的主要方法是FM合成法和波表合成法。v FMF
32、M合成法合成法 是20世纪80年代初由美国斯坦福大学的研究生发明的,称为“数字式频率调制合成法”,其基本原理是:用数字信号来表示不同乐音的波形,然后把它们组合起来,在通过数模转换器生成乐音播放。FM合成器工作原理合成器工作原理v 波表合成法波表合成法 即乐音样本合成法。与FM合成不同,波表合成是采用真实的声音样本进行回放,声音样本记录了各种真实乐器的采样波形,并保存在ROM或RAM中。硬波表硬波表:音色库存放在声卡的ROM或RAM中。软波表软波表:音色库以文件的形式存放在硬盘里,需要 时再通过CPU进行调用。波表合成器工作原理波表合成器工作原理(四)(四)GMMIDI乐器排序表乐器排序表 以前
33、各生产商在设计MIDI发声工具时并没有一个统一的乐器排序标准。基于这种情况,各生产商达成了共识,共同编制了一份“标准MIDI乐器排序表”,他共收录了16种不同的乐器,每类各选8件,全部总共有128128件乐器。(1).由于MIDI文件只是一系列指令的集合,因此它比数 字波形文件小得多,大大节省了存储空间。(2).使用MIDI文件,其声音卡上必需含有硬件音序器或者配置有软件音序器。(3).MIDI声音适于重现打击乐或一些电子乐器的声音,利用MIDI声音方式可用计算机来进行作曲。(4).对MIDI的编辑很灵活,在音序器的帮助下,用户可自由地改变音调、音色以及乐曲速度等,以达到需要的效果。(五)(五
34、)MIDI文件特点文件特点CakeWalk编辑不同的声音通道编辑不同的声音通道九、语音识别技术九、语音识别技术 早在20世纪70年代,国外就开始致力于语音识别技术的研究。经过近30年的探索,语音识别技术经历了从最初的特定人、小词汇量、非连续的语音识别到今天的非特定人、大词汇量、连续的语音识别的发展历程,识别的速率和准确率都有极大的提高。目前语音识别的主要应用是通过TTS(文本语音转换器)和SR(语音识别器)实现的。(一)文本(一)文本语音转换器语音转换器TTS v 综合综合 就是通过分析单词,由计算机确认单词的发音,然后这些音素就被输入到一个复杂的模拟人声音并发声的算法中进行处理。通过这种方式
35、就能读出任何单词。v 连贯连贯 他分析文本并从预先录好的文库中抽出单词和词组的录音。数字化录音是连贯的,因为声音就是你所录制的,听起来很舒服。但是,如果文本包含有你所没有录的词和短语,就读不出来了。(二)语音识别器(二)语音识别器 每个语音识别器都必须解决下列一些问题。o 连续性与不连续性o 词汇量o 口音识别o 规则句式和自由句式o 识别速度的快慢与准确率的高低(三)语音识别系统的类型(三)语音识别系统的类型 q 特定人语音识别系统特定人语音识别系统 特定人的识别系统精明的足以能了解说话者的语音特点。只有在讲话者用特定单词组形成的词汇表训练系统后,他才能识别。特定人系统的优点是它是可训练的,系统灵活。特定人系统的缺点是有一个用户训练的系统不能被另一用户使用。q 非特定人语音识别系统非特定人语音识别系统 非特定人识别系统可识别任何用户的语音,他不需要任何来自用户的训练。q 孤立词语音识别系统孤立词语音识别系统 孤立词语音识别系统,一次只提供一个单一词的识别,用户必须把输入的每个词用暂停分开。q 连续词语音识别系统连续词语音识别系统q 连续语音识别系统连续语音识别系统
限制150内