统计语言模型综述.pdf
《统计语言模型综述.pdf》由会员分享,可在线阅读,更多相关《统计语言模型综述.pdf(5页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、计 算机 科 学2 0 0 3 Vo 1 3 0 N 9 9 统 计语言模型综述 邢永康马少平(清华大 学计算机 系智 能技术与系统 国家重点实验室 北京1 0 0 0 8 4)A S ur v e y o n S t a t i s t i ca l La ng ua ge M o de l s Xi ng Yong-Kan g M a Sha o-Pi ng (Th e S t a t e Ke y L a b o f I n t e l l i g e n t T e c h a n d S y s t e m Ts i n g h u a Un i v e r s i t y B e
2、i j i n g 1 0 0 0 8 4 Ch i n a)Ab s t r a c t Th e S t a t i s t i c a l La n g u a g e M o d e l(S LM)i s a d i s t r i b u t i o n t O c a p t u r e t h e g e ne r a t i o n r u l e i n n a t u r a l l a n g u a ge S i n c e t h e f i r s t mo de l wa s p r o p o s e d i n 1 9 8 0,t h e S LM wa s
3、u s e d i n m a n y a p p l i c a t i o n s u c h a s s p e e c h r e c o g n i t i o n,o pt i c c h a r a c t e r r e c o g n i t i o nm a c h i n e t r a n s l a t i o n a n d e t c Re c e n t l y t h e i n f o r m a t i o n r e t r i e v a l b a s e d o n S LM i s b e c o m i n g a n e w d i r e
4、c t i o n i n I R c o mm u n i t y I n t h i s p a p e r,we i n t r o d u c e t h e p r i m a r y t h e o r y a n d c u r r e n t m e t h o d a b o u t t h e S LM,and po i nt out s e ve r a l pr omi si ng r e s e a r c h di r e c t i on Key wor d s St a t i s t i c a l l ang ua g e m o de1 Smoo t hi
5、 ng me t ho dn Gr a m m o de l,De c i s i o t r ee mode l,M a xi mum e nt r opy m od el 1 引言 统计语言模型产生于基于统计方法的 自然语言处理 系统 的研 究 中:如语音 识 别 系统、字符 识别 系统 以及机 器 自动翻译 系 统等。对 于一 个语 音识别 系 统 给定语 音 信号 a和语言 的句 子集 合,则 系统 需要解 决 的问题 可 以表示 为:a r g ma x(PI(s I 口)(1),即确定 概率 值 最 大的句 子 s(由单词 构成 的序 列)作 为识 别结 果。根据 B a y e
6、s公式:a r g m l 口)I s)P(s)(口)(2)_a x P(s a r g ma x P(a P 其 中 信 号 波形 的 先验 概 率 P(a)与 s 的 选 择无 关,可 以不计 算;P(a I s)表示 句子 与 信 号 的对应 关 系(如 在英 语 中 每 个 句 子 和 它 的声音 波 形 的对 应 关 系),它 由信号 处理 过 程 决定,称 为采 样模 型;P(s)称为语 言模 型,在这 里它 表示 语言 中句 子的 分 布概率。因此,统计语 言 模型就 是 表示语 言基 本 单位(词、词组、句 子 等,我 们 一般 将 句子 看 作语 言 的基 本 单位)的分 布
7、 函数,它 描述了该语言的基于统计的生成规则。一般来说,任何一个 自 然语 言 的单词 量都 非常 大,而 且句法 复 杂,构成 的句子 数 目也 将 非常 巨大,要 表示 出所有 句 子 的概 率 就空 间 复 杂性来 说 是 不 可能 的。所 以,一 般语 言模 型 的实质 都是 将句 子的概 率分解 为 各个 单词 的条件 概率 的 乘积,即:l-r P(s)一P(t,z,一 l,)一 l lP(,I h,)(3)f l 其 中:n-句子 s的长 度;h,一(t,t)-句 子 中 单词 前 面 一 1 个 单词 构成 的序 列,称为 单词 的上下 文。因 此,我 们设 语言 的 单词 集
8、合 为 一 W 一,W ,所 有上 下文 构成 的集 合 为 一(t,)1,V,则 一个 语 言 模型 M 就 是 要给 出语 言 中的 每 个单 词对 于 各 种上 下 文组 合 的 条件 概 率,即:P(yI z),其 中 z ,yV。本 文 中,我们 称 z为 上下 文变量,Y为预测 变量。评价统计语言模型性能的最直观的指标是在测试语料集 上 计 算 的交 叉 熵函 数:H(PT;P f)=一 厶PT(s)I o g PM(s)(4)其 中:一 测 试 语料 集;()一测 试 语 料 集 的真 实 语 言 模 型;P(s)一从 学 习语料 集上 学 习建立 的语 言模 型 M。交叉熵的值
9、越大,则学习模型与真实模型的差别也越大,表 明模 型 的效 果越 差。由于 测试 语 料 集 的真 实语 言 模 型 实 际 上 无 法获得,因此 也常 采用 以下 的公 式评 价语 言模 型 的性 能:H(P T;P f)=(一 厶 l o g P f(s)I 丁I(5)另 一 个 最 常 用 的评 价 指 标 是 模 型 M 的 分 支 均 值(p e r pl e xi t y):Pe r pl exi t y(PT,P f,丁)一 2H T M(6)该 指标 可 以简 单理 解 为,在模 型 M 所 表 示 的语 言 中,等 概率 出现在 一 个 单词 后 面 的单 词 的平 均 数
10、目。因 此 它 既可 以 用来 评价 语言 模型 的质 量(该值 越 小,模型 越好),也 可 以用 来 表示语言的复杂性(该值越大,该语言越复杂)。本 文介 绍 了应 用 很 广 的 n g r a ms模 型;给 出 了几 种 常 用 的平 滑 化方 法;介绍 了 决策 树 模 型;分 析 了最 大 熵模 型;最 后 指 出了统计 语 言模 型 中几个 有潜 力 的研 究方 向。2 n Gr a m 统计语言模型 n g r a m 模 型于 1 9 8 0 年提 出 来,是 一种 应 用很 广 的统 计 语 言模 型。它 采用 了 Ma r k o v假 设,即认 为每 个 预测 变 量
11、 只与 长 度 为 n 一 1 的上 下文 有关,即:P(1 t,z,一 1)一 P(1 一(一l,一(一 z,1)(7)如果 用 表示 单词 串,一 ,则 上式可 以 简 化表示 为:P(w 1 w7 )一P(1:二 一 1,)(8)*)本 项 目受到 国家重 点 基础研 究(9 7 3)(G1 9 9 8 0 3 0 5 0 9)、自然科 学基 金项 目(6 0 2 2 3 0 0 4)以及 8 6 3 高 科 技项 目(No 2 O O L AA1 1 4 0 8 2)资 助。邢永 康 博 士,主要研 究 领域为机 器 学 习,模 式识 别,网络数 据挖 掘。马 少平博士,教授 博士 导
12、师,主要 研 究领 域为模 式识 别,信息 检索 网络 数据 挖 掘 22 维普资讯 http:/(8)式 中参数 n称 为模 型的 阶数,其取 值 决定 了模 型的精 度 和 复 杂性。试验 表 明,n值越 大,则 对 单词 之 间的依 赖 关 系 的 描 述越准确,即模型的精度越高,但模型的复杂性也越高。因此 合适的 n值是在模型的精度和复杂性之间的一种折衷,一般 为 1 n 7。其 中 n一 1,2,3,分 别 称 为 Un i g r a m、B i g r a m 及 Tr i g r a m 模 型。可 以看 出,n g r a ms模 型描 述 的 语 言 是 一 种有 限状 态
13、 的 正则 文 法 产 生的语 言。它 与灵 活 多变 的 自然语 言 之 间存 在 着 明显 的差 别。然 而该模 型 在实 际应用 中 却取得 了较 大的 成功,原 因就 在 于 它 成 功 地 捕捉 到 了 自然 语 言 中 存 在 的局 部 约 束(Lo c a l c o n s t r a i n t)性质。如对 包 含1 3 9,0 0 0 0 0 0 个单 词 的语 料 库 1】的统 计 中,P(“g a t e s”)一0 0 0 0 0 1,而 P(“g a t e s”I b 4 1 l”)一0 0 0 4,P4“g a t e s”I“c h a i r ma n”,“
14、l l”)一0 4 7。可 以看 出,每 增 加一个 限 定词,其 概率 值就 要提 高两 个数 量级。也 正因 为这 个原 因,该 模 型 无 法 表 示 语 言 中存 在 的 远 程 约 束(R e mo t e c o n s t r a i n t),这 些 约束 大都 源于 句子结 构、语 义关 系等。基 于 训练 语 料 集建 立 n-g r a ms模 型,一 般采 用 最 大似 然 法(Ma x i mi z e L i k e h o o d)。即:P舭(I:二 一1)一f(:二 一1 )f(:二 一1 )(9)4 9)式 中 f(二!一 )表 示 语 料集 中 单词 串=:
15、的 出现 次 数。然而,该方 法存 在 一 个问题,即 可能 存在 某个 n-g r a m(连 续 n个 单词 构成 的 串),它 在 学 习语 料 集 中没有 出现,而 可 能 出现 在 测试 语 料 集 中。如 在文 E z 3 的 实 验 中,对 一 个 包含 2 4 2,0 0 0,0 0 0 单词 的 语 料库,采 用最 大似 然 法建 立了 一 个基 于 6 0,0 0 0 个单 词 的 t r i g r a m 模 型。当 将该 模 型用 于 实际 的 测试 语 料 集 时,发 现 测 试 集 中 只有 6 9 的 一 g r a m 在 学 习集 中 出 现 的 次 数 大
16、于 1 次。该 问题 称 为数据 的 稀疏 问题。而且,阶数 n的值 越 大。该 问题 也越 突出。如 果 简 单地 根据 最 大似 然 法,我 们 会 得 到 该 g r a m 的 概率 值 为 0。这 种 判 定 明 显过 于 武 断。对 模 型 的精 度 影 响 很 大。一 般 来 说,单 纯地 增 加训 练 语 料 集 的 规 模,无 法解 决 该 问题。因此 采 用 各种方 法,对这 些 没 有 出现 在 学 习语 料 中 的 g r a m 估 计 一个 不 为 0 的值。就 成 为 一 g r a m 语 言模 型研 究 中的 一个 主要 问题。5 几种平滑处理方法 处理 数
17、据 稀疏 问题 的技 术 统称 为 平 滑化(S mo o t h i n g)方 法。这些 方法 可 以分 为两 类:一类 是直接 对 最大似 然法 的估 计 结果 进 行 修 整,包括 插 值 法、折 扣法 以及 回退 法等;另一 类 是 通 过 对 单 词 的聚 类减 小 模 型空 间来解 决 数据 的 稀疏 问题,包 括各 种聚 类 算法。G o o d Tu r i n g方法,又称 为折 扣 最 大似然 法,是 一种 应 用 比较 广泛 的折扣 法。它通 过对最 大似 然 法的结 果进 行调 整,可 以在 保 证满 足概 率 归一 性质 的条件 下 估计 出在 训练语 料 中 没有
18、 出现 的 g r a m 的概 率值。它 分 为两个 步骤 来完成。第一 步 是估 计 没 有在 学 习语 料 中 出现 的 一 g r a m 的概 率 值。首 先假 设学 习语 料 的单词 数 目为,且其 中 出现 r 次 的 n g r a m 的数 目为,则 存 在下面 的等 式:r N,一 N 4 1 0)对于 没有 出现 在 学 习语料 中 的 一 g r a m,采用 如 下的公 式 估计它们的概率值:,厶 Pc r()一 l 4 1 1)-1 t -:一 该 估 计 的基 本 思 想是:在 所有 一 g r a m 的 中,存 在 一 个 由 大 量 的 特 殊 的 一 g
19、r a m 构 成 的 集 合。该 集 合 中 的 每 一 个 n g r a m在 学 习集 中要 么不 出现,要 么 只出现 一 次。因此,可 以用 学 习集 中 出现的 这 部分 一 g r a m 占有 的 比例 来估 计 该特 殊集 合在 所有 一 g r a m 中的 比例。根 据 最 大 似 然 估 计 法,对 于 所 有 出 现 次 数 为 r的 n g r a m,它们 的概 率和 为:w r+r”+一(1 2)因 此,对 于 所有 的 一 g r a m(包 括 出现 次 数 r 一0),其 概率 和 为:P()+P ()+P )一。嵋 一1 q:r 嵋 一 r 4 w?)
20、+4 1 3)将 式 4 l 1)和 4 1 2)代 入 4 1 3)得:一+一+一1+等4 1 4)这 明显违 背 了 概率 的 归一 化 性 质。产生 的 原 因是 我 们 为 那些 没有 出现 的 一 g r a m 估 计 出 了一 个 不 为0 的 概 率值(见 公 式 4 1 1)。要 解 决该 问题,只 有 减 少 那 些 出 现 了 的 n-g r a m 的 概率值,即:P()一a PM L 4 w?)0 o :r 嵋)o :“:o 攀 -。(r-k-1,)-+1lr+ln N :(f()+1)L f)c(n)f()一 o r r,(r+1)r+l,一-l 一 Go o d
21、Tu r i n g方 法 的优 点 是 它可 以对 训 练语 料 中 没 有 出 现 的 m g r a m 直 接估 计 出一 个 概 率 值。因此 在 平 滑 化 处理 中 被 广泛 使 用。可 以看 出 随 着模 型 阶 数 n的 增 加,数 据 稀 疏 问 题 会越 来越严 重。因 此,利 用低 阶的模 型 来近 似计 算高 阶 模型 也 是一类 经常 使 用且 比较 直观 的平滑 化 方 法。插 值 法 就 是通 过 插 值 技 术,将一 个 g r a ms 模 型表 示 为 由1 阶直 到 n阶模 型 的线性 组合,即:PJ w()一 q P 4 )+口 2 P r 工4 )+
22、一 l P(一 1)+P()4 1 8)其 中,参 数 嘶满 足条 件 25 嘶一 1。关 于 参 数值 的确 定,一 种是 理 论计 算。做 法是 在 测 试语 料 集 上 计 算模 型 的分 支 均 值 P e r p l e x i t y 4 M)并取使该值最小的参效值;另外一种方法是试验 调 整,对 于具 体 的 应 用 系统(如 语 音 识别 系 统、字 符 识 别 系统 等),可以通过对测试集的反复测试,确定使错误率最小的参 维普资讯 http:/ 数 值。Ka z e的回退 法(B a c k o f f)L 也 是一 种 常用 的平 滑化 方 法。与 插值 法不 同,它 将每
23、一 个 n g r a m模 型表 示 为 m g r a m 的非 线性 组 合 其 中 m一 1,2,n。对 于每 一个 m g r a m 模 型。由 一个 回 退概 率 p 表 示 由 m g r a m 模 型 回 退到(m一 1)一 g r a m 模 型 的概率,也可 以理 解 为 在 学 习语 料 集 中,给 定上 下 文(m 一1)-g r a m,m g r a m 不 出现 的概 率。因 此 存 在 如 下 的 递推 公 式:P K(。1 wT )一P (1 wl )+p PK(l 硼 )P =(1;)一P (Wn l t )+p 一 l P K(1;)(1 9)其 中
24、P ()的 表示 采 用 Go o d Tu r i n g法 确 定 的 概 率值,给 定 学习语料库,它可以被预先计算出来。因此,确定 回退概率是 该方 法 的主 要任务。根 据 对 回退概 率的理 解,包 含两种 情况:1 如 果 一 个 m g r a m 出现 在 学 习 语 料库 中 即 c(w7)0,则 回退概率 应该 为 一0;2 如 果一 个 m g r a m 没 有 出现 在 学 习语料 库 中 即 c(wT)一0。则 需要按 照 下式计 算 回退概率:p =o(wT)l E 1 一()(2 O)其 中:v(wT)一 2 5 Pe r(1);吖:r,-7)。、()一2 5
25、 P T(W 1)吖:r,-7)o 4决策树 语言模型(De c i s i o n T r e e Mo d e l i n g)分 析 可 以看 出,n g r a m 模 型 中 存 在 两 个 相 互 矛 盾 的 问 题:一方 面 由于模 型复 杂性 的制 约,实际 中一般 只采 用很短 的 上 下文,长 度 n的值 一般 为 2 7 因此 用于 预测 的上 下文 信息 太 少,我们 可 以称 其为 上下 文 有限 问题。另一方 面 在 n g r a m 模 型 中 对 于一 个 预 测变 量,需 要 考 虑 长度 为 n 一1 的 所有 上 下文 的组合。然 而 在实 际应 用中,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计 语言 模型 综述
限制150内