异常声音探测系统设计外文文献翻译(共6页).doc
《异常声音探测系统设计外文文献翻译(共6页).doc》由会员分享,可在线阅读,更多相关《异常声音探测系统设计外文文献翻译(共6页).doc(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上语音识别舒维都,罗恩科尔,韦恩沃德麻省理工学院计算机科学实验室,剑桥,马萨诸塞州,美国 俄勒冈科学与技术学院,波特兰,俄勒冈州,美国 卡耐基梅隆大学,匹兹堡,宾夕法尼亚州,美国 一 定义问题语音识别是指音频信号的转换过程,被电话或麦克风的所捕获的一系列的消息。 所 识别的消息作为最后的结果,用于控制应用,如命令与数据录入,以及文件准备。它们也 可以作为处理输入的语言,以便进一步实现语音理解,在第一个主题涵盖。语音识别系统可以用多个参数来描述, 一些更重要参数在图形中显示出来.一个孤立字 语音识别系统要求词与词之间短暂停顿,而连续语音识别系统对那些不自发的,或临时生 成
2、的,言语不流利的语音,比用讲稿读出更难以识别。有些系统要求发言者登记即用 户在使用系统前必须为系统提供演讲样本或发言底稿,而其他系统据说是独立扬声器,因 为没有必要登记。一些参数特征依赖于特定的任务。 当词汇量比较大或有较多象声词的 时候,识别起来一般比较困难。当语音由有序的词语生成时,语言模型或特定语法便会限 制词语的组合。最简单的语言模型可以被指定为一个有限状态网络,每个语音所包含的所有允许的词 语都能顾及到。更普遍的近似自然语言的语言模型在语法方面被指定为上下文相关联。一种普及的任务的难度测量,词汇量和语言模型相结合的语音比较复杂,大量语音的 几何意义可以按照语音模型的应用定义宽泛些(参
3、见文章对语言模型普遍性与复杂性的详 细讨论)。最后,还有一些其他参数,可以影响语音识别系统的性能,包括环境噪声和麦 克风的类型和安置。语音识别是一个困难的问题,主要是因为与信号相关的变异有很多来源。 首先,音 素,作为组成词语的最小的语音单位,它的声学呈现是高度依赖于他们所出现的语境的。 这些语音的变异性正好由音素的声学差异做出了验证。在词语的范围里,语境的变化会相 当富有戏剧性-使得美国英语里的 gas shortage 听起来很像 gash shortage, 而意大利语中的 devo andare 听起来会很像 devandare。其次,声变异可能由环境变化,以及传输介质的位置和特征引起
4、。 第三, 说话人的 不同,演讲者身体和情绪上的差异可能导致演讲速度,质量和话音质量的差异。最后,社 会语言学背景,方言的差异和声道的大小和形状更进一步促进了演讲者的差异性 。 数字图形展示了语音识别系统的主要组成部分。数字化语音信号先转换成一系列有用 的测量值或有特定速率的特征,通常每次间隔10 - 20毫秒(见第11.3章节,分别描述了模 拟信号和数字信号的处理)。然后这些测量被用来寻找最有可能的备选词汇,使用被声学 模型、词汇模型、和语言模型强加的限制因素。 整个过程中,训练数据是用来确定模型 参数值的。 语音识别系统尝试在上述变异的来源的某些方面做模型。在信号描述的层面上,研究 人员已
5、经开发出了感性地强调重要发言者独立语音信号的特征,以及忽略发言者依赖环境 的语音信号特征。在声学语音层面上,说话人差异变化通常是参照使用大量的数据来做模 型。语音改编法则还开发出适应说话人独立声学模型 以适应那些目前在系统中使用的说 话人语音样本(参见文章)。在语言方面语境影响的声学语音处理,通常情况下被不同的 训练模式分隔为单独的音素,这就是所谓的上下文相关声学模型。 字级差异可以由发音网络中可描述的字词的候选发音来处理。对于象声词的替代,考 虑到方言以及口音的影响,通过搜索算法在网络上寻找音素的替代方法。统计语言的模型 基于对字序列的发生频率的估计,常常通过可能的词序来引导搜索。 众所周知
6、在过去的 15 年中占主导地位的识别范例是隐马尔可夫模型(HMM)。基于 HMM 是一种双随机模型,基本音素字符串和框架的生成,表面声波的变现都作为马氏过 程来表述,在本章节中所讨论的和 11.2 节中的神经网络也被用来估算框架的基本性能,然 后将这些性能集成到基于 HMM 的系统架构中,即现在被称为的混合系统所述的,参见第 11.5 节。 基于 HMM 系统框架的一种有趣的特点,就是相比明确的定义而言,语音片段是在搜 索过程中被定义的。另一种方法,是先找出语音片段,然后将这些片段分类并使用片段性 能来识别文字。这种做法已经产生在一些生产任务的竞争识别性能上了。 二 目前发展现状讨论目前的发展
7、状况,需要联系到具体应用的环境,他影响到了任务的制约性。此外, 有时不同的技术适合于不同的任务。 例如,当词汇量小,整个单词可以建模为一个单元。 但这种做法对大词汇量来说是不实际的,如字词模式必须由单一字词单元建立。过去十年目睹识别技术在语音方面取得重大进展。字错误率持续每两年下降 50%。基 础技术已取得了重大的进展,从而降低了说话人独立语音,连续语音及大词汇量语音识别的障碍。有几个因素促成了这种迅速的进展。 首先,HMM 时代即将到来。 HMM 模型 规模强大,以及具有有效地训练数据,可以自动训练出模型的最佳的性能。 第二,很大的努力已经投入到语音系统大量词汇识别的发展、训练和测试上。 语
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 异常 声音 探测 系统 设计 外文 文献 翻译
限制150内