语音合成系统的关键技术(共5页).doc
《语音合成系统的关键技术(共5页).doc》由会员分享,可在线阅读,更多相关《语音合成系统的关键技术(共5页).doc(5页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上语音合成系统的关键技术清华大学计算机系智能技术与系统国家重点实验室陶建华 蔡莲红-计 算 机 语 音 合 成 系 统 又 称 文 语 转 换 系 统(TTS 系 统), 它 的 主 要 功 能 是 将 计 算 机 中 任 意 出 现 的 文 字 转 换 成 自 然 流 畅 的 语 音 输 出。 一 般 认 为, 语 音 合 成 系 统 包 括 三 个 主 要 的 组 成 部 分: 文 本 分 析 模 块、 韵 律 生 成 模 块 和 声 学 模 块。文 本 分 析-语 音 合 成 系 统 首 先 处 理 的 是 文 字, 也 就 是 它 要 说 的 内 容。 文 本
2、分 析 的 主 要 功 能 是 使 计 算 机 能 从 这 些 文 本 中 认 识 文 字, 进 而 知 道 要 发 什 么 音、 怎 么 发 音, 并 将 发 音 的 方 式 告 诉 计 算 机。 另 外, 还 要 让 计 算 机 知 道, 在 文 本 中, 哪 些 是 词, 哪 些 是 短 语 或 句 子, 发 音 时 应 该 到 哪 里 停 顿 及 停 顿 多 长 时 间 等。 其 工 作 过 程 可 以 分 为 三 个 主 要 步 骤:-(1) 将 输 入 的 文 本 规 范 化。 在 这 个 过 程 中, 要 查 找 拼 写 错 误, 并 将 文 本 中 出 现 的 一 些 不 规
3、范 或 无 法 发 音 的 字 符 过 滤 掉。-(2) 分 析 文 本 中 词 或 短 语 的 边 界, 确 定 文 字 的 读 音, 同 时 分 析 文 本 中 出 现 的 数 字、 姓 氏、 特 殊 字 符、 专 有 词 语 以 及 各 种 多 音 字 的 读 音 方 式。-(3) 根 据 文 本 的 结 构、 组 成 和 不 同 位 置 上 出 现 的 标 点 符 号, 确 定 发 音 时 语 气 的 变 换 以 及 不 同 音 的 轻 重 方 式。-最 终, 文 本 分 析 模 块 将 输 入 的 文 字 转 换 成 计 算 机 能 够 处 理 的 内 部 参 数, 便 于 后 续
4、模 块 进 一 步 处 理 并 生 成 相 应 的 信 息。-传 统 的 文 本 分 析 主 要 是 基 于 规 则(Rule based) 的 实 现 方 法。 其 主 要 思 路 是 尽 可 能 地 将 文 字 中 的 分 词 规 范、 发 音 方 式 罗 列 起 来, 并 总 结 出 规 则, 依 靠 这 些 规 则 进 行 文 本 处 理, 以 获 得 需 要 的 参 数。 具 有 代 表 性 的 方 法 有: 最 大 匹 配 法、 反 向 最 大 匹 配 法、 逐 词 遍 历 法、 最 佳 匹 配 法、 二 次 扫 描 法 等。 这 些 方 法 的 优 点 在 于 结 构 较 为 简
5、 单、 直 观, 易 于 实 现; 缺 点 是 需 要 大 量 的 时 间 去 总 结 规 则, 且 模 块 性 能 的 好 坏 严 重 依 赖 于 设 计 人 员 的 经 验 以 及 他 们 的 背 景 知 识。 由 于 这 些 方 法 能 取 得 较 好 的 分 析 效 果, 因 此, 直 到 目 前, 它 们 依 然 被 广 泛 使 用。-但 是 近 几 年 来, 随 着 计 算 机 领 域 中 数 据 挖 掘 技 术 的 发 展, 许 多 统 计 学 方 法 以 及 人 工 神 经 网 络 技 术 在 计 算 机 数 据 处 理 领 域 中 获 得 了 成 功 的 应 用, 计 算 机
6、 从 大 量 数 据 中 自 动 提 取 规 律 已 完 全 可 能 并 正 在 实 现。 在 此 背 景 下, 出 现 了 基 于 数 据 驱 动(Data driven) 的 文 本 分 析 方 法, 具 有 代 表 性 的 有: 二 元 文 法 法(Di Grammar Method)、 三 元 文 法 法(Tri Grammar Method)、 隐 马 尔 可 夫 模 型 法(HMM Method) 和 神 经 网 络 法(Neural Network Method) 等。 一 些 比 较 著 名 的 系 统, 如IBM 的 语 音 产 品 就 采 用 了 隐 马 尔 可 夫 模 型
7、 法。 这 类 方 法 的 特 点 是, 设 计 人 员 根 据 统 计 学 或 人 工 神 经 网 络 方 面 的 知 识, 设 计 出 一 种 可 训 练 的 模 型, 并 用 大 量 已 经 存 在 的 数 据 去 训 练, 将 训 练 得 到 的 模 型 用 于 文 本 分 析, 而 系 统 设 计 人 员 并 不 需 要 太 强 的 语 言 学 背 景 知 识。 对 于 工 程 技 术 人 员 来 说, 这 类 方 法 无 疑 减 轻 了 他 们 研 究 语 言 学 的 负 担。 目 前, 这 类 方 法 在 文 本 分 析 精 度 上, 已 达 到 或 部 分 超 过 了 基 于
8、规 则 系 统 的 分 析 结 果, 且 容 易 实 现 多 语 种 的 混 合, 因 而 越 来 越 广 泛 地 被 接 受 并 使 用。 这 类 方 法 的 缺 点 在 于, 尽 管 系 统 容 易 获 得 文 本 信 息 的 共 同 特 征, 但 忽 略 了 一 些 个 性, 而 往 往 这 些 个 别 因 素 对 最 终 的 发 音 方 式 影 响 很 大。 因 此, 有 些 系 统 采 取 了 两 类 方 法 相 结 合 的 方 式。韵 律 生 成-任 何 人 说 话 都 有 韵 律 特 征, 比 如 在 汉 语 中, 音 节 有 不 同 的 声 调、 语 气 和 停 顿 方 式,
9、发 音 长 短 也 各 不 相 同, 这 些 都 属 于 韵 律 特 征。 韵 律 参 数 则 包 括 了 能 影 响 这 些 特 征 的 声 学 参 数, 如 基 频、 时 长、 音 强 等。-文 本 分 析 的 结 果 只 是 告 诉 了 计 算 机 发 什 么 音, 以 及 以 什 么 方 式 发 音, 这 种 发 音 方 式 还 只 是 抽 象 的。 而 要 发 音 的 声 调 是 二 声 还 是 三 声, 是 重 读 还 是 轻 读, 到 哪 里 停 顿, 等 等, 这 些 最 终 系 统 用 来 进 行 声 信 号 合 成 的 具 体 韵 律 参 数 还 要 依 靠 韵 律 生 成
10、 模 块。 与 文 本 分 析 的 实 现 方 法 相 类 似, 韵 律 的 生 成 方 法 也 分 为 基 于 规 则 和 数 据 驱 动 两 种 方 法。-早 期 的 韵 律 生 成 方 法 均 采 用 基 于 规 则 的 方 法。 这 种 方 法 要 求 研 究 人 员 有 大 量 的 音 韵 学 背 景 知 识, 需 要 对 在 各 种 特 定 的 情 况 下, 如 声 音 在 句 子 中 的 不 同 位 置、 不 同 声 调 及 句 子 的 不 同 语 气 甚 至 是 不 同 的 词 性 下, 对 基 频、 时 长 和 音 强 等 各 个 声 学 参 数 变 化 的 详 细 情 况
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音 合成 系统 关键技术
限制150内