2022年词图搜索算法-模式识别 .pdf
《2022年词图搜索算法-模式识别 .pdf》由会员分享,可在线阅读,更多相关《2022年词图搜索算法-模式识别 .pdf(4页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第六届全国人机语音通讯学术会议,203-206 页,2001 年 11月 20-22 日,深圳一种基于 HTK 的词图搜索算法罗春华,张继勇,郑方,徐明星清华大学计算机系人工智能与系统国家重点实验室语音技术中心 摘要在连续语音识别中,为了能够在搜索的过程中实现更有效的剪枝策略,必须充分应用语言模型提供的信息。对于在一遍搜索过程中同时使用声学模型和语言模型的搜索算法而言,虽然能够获得比较高的识别率,但是耗时比较多。为此,本文实现了一种能够在后续处理过程中有效地利用Trigram 语言模型和更复杂语言模型信息的词图搜索算法。它是基于HTK 平台的。文中对词图的数据结构和词图的生成算法给出了非常详细
2、的论述,基于给定词图的搜索算法也在文中给出。实验表明,词图搜索算法能够充分地利用语言模型提供的信息指导搜索而且速度很快。1.引言在语音识别的过程中,如果我们能够利用一些知识来指导搜索过程,一方面可以有效的提高搜索速度,另一方面可以提高识别率。在HTK中搜索使用的是Token Passing1算法。该算法由一个识别网络进行控制,识别网络的生成充分利用了词典和HMM模型提供的信息。在Token passing 算法中,Token 表示网络中从时刻0 扩展到时刻t的部分路径。时刻0,在每个可能的开始结点上都有一个Token,随着时间的推移,它们沿着识别网络的弧进行传播,直到到达一个HMM的退出状态。
3、如果一个结点有几个出口,则该Token 会被拷贝以保证多条路径能够并行的得到扩展。当Token 沿着弧和结点进行传播时,它的对数似然度 分 数会 加 上 相 应 的 转 移 概 率 和 输 出 概 率。当Token 沿着网络进行传播时,它必须保留它的历史路由的 记录。历史 记录 保留的详细程度取决 于识别输出的需要,通常保留词边界 的信息 就能够 满足 大多数应用的 需要。由于HTK 是一个实验平台,因此它的算法 没有考虑到实 际应用的 需要。为了能够保证该算法的通用性,它的数据结构设计得很复杂。一个典型的例子就 是它的识别网络。对于汉语连续语音识别,通常词表的大小为5 6 万 词,按照 它的
4、算法构造的网络非常庞大,因此要 想在它的上面使用Trigram 语言模型几 乎是不可能的。为了能够建立 一个实用的识别器,我们在 HTK 的基 础上,借鉴 了它的一些 好的思路,实现了自己 的识别 器。通过Trigram 的加 入,取得了比较好的效果。我们算法的基本思路是 首先 在一遍搜索的过程中使用声学模型和Bigram 语言模型来 产生一些可能的词 候选,利用 这些词 候选 来产生词图,然后在后续的过程中利用Trigram 对词图 里的可能路径进行分数重 估,最后输出 具有最大似然度的路径 作 为识别候选。本文 将按照 如下方式组织:在论文的第 二部分,将介绍 利用复杂语言模型的词图搜索算
5、法的框架;基于该框架 结构的词图重估算法 将在第 三部分给出;论文的第 四部分为 采用这种词图搜索算法的实验结果;相关的结论 将在论文的第 五部分给出;论文的 最后给出相关 的参考 文献。2.词图搜索算法的框架采 用词图搜索算法的语音识别系统的框架 结构如 下图所 示:集成搜索语音输入词图重估过程词串输出声学模型Bigram Trigram 图 1.采用词图搜索算法的连续语音识别系统的框架语音输入 后,经 过 特 征 提 取,首先 经 过 集 成搜索(Integrated search)模块,这个过程利用声学模型来产 生声学 候选,同时利用Bigram 语言模型来剪枝,该模 块产 生的词图(W
6、ord graph)被词图重估模块(Word graph rescoring)用来进行后处理,在这个过程中可以充分地利用Trigram 语言模型提供的信息,最 后我们可以得到识别出来的中文词序列。2.1.集成搜索模 块该模 块的主要功能是利用声学模型和Bigram 语言模型提供的信息来产生词 候选,便于词图的生成。为了能够进行上下文相 关建 模,我们 选取 了声 母和 韵母作为语音识别基元,在此基 础上,利用HTK 提供的 训练 工具 HINIT,HREST 和 HEREST 来训练 TriIF 模型(请注意,这里 的 IF 指的是声 母或者韵母)。由于 汉语的常用词大 约有 50000 多个
7、,因此我们 采用树型结构来 组织这 些词,它可以有效的合并具有相同 前缀的词。每个词的模型通过连接 对应的TriIF 模型来获名师资料总结-精品资料欢迎下载-名师精心整理-第 1 页,共 4 页 -得。如词“饱餐”由“b+ao”,“b-ao+c”,“ao-c+an”,“c-an”组 成,当然如果考虑 上下 文相 关(即Cross-word)2,则词的模型要考虑 到它的 前驱词的 具体内容才 能最终确 定。在搜索的过程中,充分利用了目前 比较常用的一些剪枝技术,如声学剪枝、语言模型剪枝和直方图剪枝,同时 还使用了 两种 Look-ahead 技术,分别是语言模型Look-ahead3和 IF L
8、ook-ahead。语言模型Look-ahead技术的 采用是为了能够比较早地使用语言模型提供的信息来指导搜索。为了确保算法能够比较高效地运行,我们利用的是Bigram。至于 IF Look-ahead 技术,它的引 入是为了更 好的进行声学 层的剪枝,从而提高识别的速度。2.2.词图的生成在集成搜索过程中我们会保留一些可能的候选,这些候选 被用来生成词图。在我们的搜索算法中,词图采用六 元组),(eawttswea来表示,其中ea,是词w的逻辑 开始和结 束结点,eatt,为逻辑 开始和结束 结 点 对 应 的 时 间 帧 序 号,ws为 词w在 区 间,eatt上的 HMM分数的对数 值。
9、在图 2 中我们给出一个词图的 例子。图 2.词图的 例子我们可以 看出词图 具有以 下特 点:?在同 样的时间 区间内,能够保留多个候选,如13 之间的“一派”和“离 开”。?同一个词可能有不同的结 束时刻,如34 之间的“港湾”和 35之 间的“港湾”。?同一个词可能有不同的开始时刻,如78 之间的“_SIL”和 68之 间的“_SIL”。在对词图 做具体描述时,我们采用了如 下的数据结构:词图的数据结构为:?Graphnode nodeMAXGRAPHNODE 记录 结点的信息?Grapharc arcMAXGRAPHARC 记录 弧的信息?int linkMAXGRAPHARC 记录
10、每个结点 发出去的弧?int offsetMAXGRAPHNODE+1 记录 每个结点 发出去的弧的 偏移量?int nodeNum 记录 词图中 总的结点数 目?int arcNum 记录 词图中 总的弧数 目其 中 MAXGRAPHARC和 MAXGRAPHNODE为两个预先 定义好 的常 量,分别表示词图所能拥有的弧的 最大数 目和结点的 最大数 目。Graphnode 为记录 词图中结点信息的数据结构,其具体 的表示 形式 为:?int nodeIdx 结点的索引?int timeId 结点的时间 戳,和时间 帧相对应?float maxScore 记录 通过一个结点的所有路径的 最大
11、分数Grapharc 为记录 词图中弧的信息的数据结构,其表示形式 为:?float likeScore 记录 词的似然度得分?int wordIdx 词的索引,该索引是从词典中获得的词的 编号?char wordString20 记录 表示词的中文字符串 的数组构 造词图 所需 要的 所有信息都在 集成搜索模 块 搜索过程中保 存的 Path 数据结构 里。在 HTK 中,Path 数据结构的定 义如下:?path*prev 记录前 一个词的 记录?LogDouble like 记录累 计的似然度得分,注意这里不仅包括 声学模型得分,也包括 语言模型分数?LogFloat lm 记录累 计的
12、词的语言模型得分?DWORD nodeidx 记录 结点在词法 树中对应的结点编号?int frame 记录 词结 束的时刻(用帧数表示)?Boolean used 是否被引用的 标志位?int usage 被下一条路径引用的次数?path*link 链表中的 下一条路径?path*knil 链表中的 前一条路径由该数据结构可以看出,路径信息 组成了一个 双向链表,这样做 的 主要 目的是为了方便地对 链 表进行 插入、删除 和查找等操作。如果我们从 那些能够到达 最后时间 帧的路径开始 回溯,则一 般能够 找出大 约 10条 左右 的路径。在一遍搜索过程中,通常是从这些路径中 挑选 出具有最
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年词图搜索算法-模式识别 2022 年词图 搜索 算法 模式识别
限制150内