概率图模型研究进展综述.pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《概率图模型研究进展综述.pdf》由会员分享,可在线阅读,更多相关《概率图模型研究进展综述.pdf(23页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 软件学报 ISSN 1000-9825,CODEN RUXUEW E-mail: Journal of Software,2013,24(11):24762497 doi:10.3724/SP.J.1001.2013.04486 http:/ 中国科学院软件研究所版权所有.Tel/Fax:+86-10-62562563 概率图模型研究进展综述 张宏毅1,2,王立威1,2,陈瑜希1,2 1(机器感知与智能教育部重点实验室(北京大学),北京 100871)2(北京大学 信息科学技术学院 智能科学系,北京 100871)通讯作者:张宏毅,E-mail: 摘 要:概率图模型作为一类有力的工具,能够简
2、洁地表示复杂的概率分布,有效地(近似)计算边缘分布和条件分布,方便地学习概率模型中的参数和超参数.因此,它作为一种处理不确定性的形式化方法,被广泛应用于需要进行自动的概率推理的场合,例如计算机视觉、自然语言处理.回顾了有关概率图模型的表示、推理和学习的基本概念和主要结果,并详细介绍了这些方法在两种重要的概率模型中的应用.还回顾了在加速经典近似推理算法方面的新进展.最后讨论了相关方向的研究前景.关键词:概率图模型;概率推理;机器学习 中图法分类号:TP181 文献标识码:A 中文引用格式:张宏毅,王立威,陈瑜希.概率图模型研究进展综述.软件学报,2013,24(11):24762497.http
3、:/ 英文引用格式:Zhang HY,Wang LW,Chen YX.Research progress of probabilistic graphical models:A survey.Ruan Jian Xue Bao/Journal of Software,2013,24(11):24762497(in Chinese).http:/ Research Progress of Probabilistic Graphical Models:A Survey ZHANG Hong-Yi1,2,WANG Li-Wei1,2,CHEN Yu-Xi1,2 1(Key Laboratory of
4、 Machine Perception(Peking University),Ministry of Education,Beijing 100871,China)2(Department of Machine Intelligence,School of Electronics Engineering and Computer Science,Peking University,Beijing 100871,China)Corresponding author:ZHANG Hong-Yi,E-mail: Abstract:Probabilistic graphical models are
5、powerful tools for compactly representing complex probability distributions,efficiently computing(approximate)marginal and conditional distributions,and conveniently learning parameters and hyperparameters in probabilistic models.As a result,they have been widely used in applications that require so
6、me sort of automated probabilistic reasoning,such as computer vision and natural language processing,as a formal approach to deal with uncertainty.This paper surveys the basic concepts and key results of representation,inference and learning in probabilistic graphical models,and demonstrates their u
7、ses in two important probabilistic models.It also reviews some recent advances in speeding up classic approximate inference algorithms,followed by a discussion of promising research directions.Key words:probabilistic graphical model;probabilistic reasoning;machine learning 我们工作和生活中的许多问题都需要通过推理来解决.通过
8、推理,我们综合已有的信息,对我们感兴趣的未知量做出估计,或者决定采取某种行动.例如,程序员通过观察程序在测试中的输出判断程序是否有错误以及需要进一步调试的代码位置,医生通过患者的自我报告、患者体征、医学检测结果和流行病爆发的状态判断患者可能罹患的疾病.一直以来,计算机科学都在努力将推理自动化,例如,编写能够自动对程序进行测试并且诊断 基金项目:国家自然科学基金(61222307,61075003)收稿时间:2013-07-17;修改时间:2013-08-02;定稿时间:2013-08-27 张宏毅 等:概率图模型研究进展综述 2477 错误位置的调试工具、能够辅助医生诊断患者病情的医疗诊断专家
9、系统、理解英语文本的含义并将其转换为汉语的自动翻译系统、从机场监控视频中发现可疑人员的安全监控系统等等.人们设计出多种多样的方法来实现这些应用,其中,将知识陈述式地表示为概率模型,通过计算我们所关心变量的概率分布实现推理的途径具有独特优势:首先,它提供了一个描述框架,使我们能够将不同领域的知识抽象为概率模型,将各种应用中的问题都归结为计算概率模型里某些变量的概率分布,从而将知识表示和推理分离开来1.模型的设计主要关心如何根据领域知识设计出反映问题本质的概率模型,同时兼顾有效推理的可行性,而推理算法的设计只需关心如何有效地在一般的或者特定的概率模型中进行推理.这种一定程度上的正交性极大地扩展了概
10、率模型的应用,也加快了它的发展速度.其次,它能够评估未知量取值的可能性,对不同取值的概率给出量化的估计.这在涉及风险的决策系统中非常重要.另外,它常常具有良好的复用性.例如,我们不需要为预测父亲和儿子患上某种家族遗传病的概率分别设计算法,只需一个关于基因和表现型的家族遗传路径的概率模型,就能处理关于遗传病风险的各种推理问题.概率图模型就是一类描述这种陈述式表示的概率模型的建模和推理框架,它为简洁地表示、有效地推理和学习各种类型的概率模型提供了可能.在历史上,曾经有来自不同学科的尝试使用图的形式表示高维分布的变量间的相关关系的例子2,3.在人工智能领域,概率方法始于构造专家系统的早期尝试4,5.
11、到 20 世纪 80 年代末,由于在贝叶斯网络和一般的概率图模型中进行推理的一系列重要进展6,7,以及大规模专家系统的成功应用8,以概率图模型为代表的概率方法重新受到了重视.如今,经过 20 余年的发展,概率图模型的推断和学习已广泛应用于机器学习、计算机视觉、自然语言处理、语音识别、专家系统、用户推荐、社交网络挖掘、生物信息学等研究领域的最新成果中,成为人工智能相关研究中不可或缺的一门技术.概率图模型的研究方兴未艾,而且应用范围和研究热度仍在继续增长.本文首先介绍概率模型中的推断和学习问题的相关背景,并引入条件独立性这一重要概念;然后,根据研究主题依次综述概率图模型的表示、推理和学习问题核心内
12、容的研究进展;我们还将介绍两种近年来有较大影响的概率图模型条件随机场和主题模型,以说明概率图模型的表示、推理和学习这 3 个环节的联系;最后,讨论关于大规模图模型的一些延伸主题,包括效率更高的推理算法、并行和分布式推理以及针对查询的推理 问题.在本文中,我们将统一使用大写字母(例如 A,X)表示随机变量,如未指明变量类型,则默认为离散变量;使用小写字母(例如 x,y)表示随机变量的赋值;使用大写字母表示集合(例如 A,X)或者某种数据结构(例如 F,H).推断问题 多数与人工智能相关的应用所解决的问题都可以形式化地表述为概率模型中的推断问题.在推断问题中,目标是推断我们感兴趣的随机变量集合 S
13、 中变量的取值分布,而我们采用生成式模型或判别式模型为问题建模,并运用一般的或针对具体模型的推断算法来计算这一分布.在生成式模型中,我们已知包含感兴趣变量集合在内的一些相互联系的变量的联合分布,以及其中可观测变量的观测值(或真实值),目标是以可观测变量为条件计算目标变量的条件概率.在判别式模型中,我们已知包含感兴趣变量集合 S 在内的一些相互联系的变量与另一些可观测变量之间的联系,即以可观测变量为条件的条件分布,以及可观测变量的观测值,目标同样是计算感兴趣变量集合 S 中的变量的条件概率.例如,在计算机视觉应用中,人们可能感兴趣一个图像区域所表示的物体类别;在自然语言处理应用中,人们可能感兴趣
14、一句汉语文本的语法分析结果;而在用户推荐应用中,人们可能感兴趣某用户对某产品的喜好程度.这些来自不同领域的问题都可以表示成概率模型中的推断问题,并得到统一的处理.在以上描述中,要计算感兴趣变量的条件概率,需要知道感兴趣变量及其相关变量包含可观测变量的联合分布或以可观测变量为条件的条件分布.一般情况下,设全体随机变量的集合为 S,感兴趣的变量集合为X1,X2,Xn=XS,可观测变量集合为O1,O2,Om=OS,其他变量的集合记为 Y=S(XO),则生成式模型确定了 2478 Journal of Software 软件学报 Vol.24,No.11,November 2013 联合分布P(X,Y
15、,O),而判别式模型确定了条件分布P(X,Y|O).给定观测值,即O的一个赋值o1,o2,om,在生成式模型中,我们需要使用概率求和规则消去 Y 中的变量,并重新归一化,得到条件概率分布 P(X|O),在判别式模型中,我们只需求和消去 Y 中的变量即可.然而在实际的推断问题中,我们还要考虑到数据结构的表示开销和运算开销(时间和空间复杂度).假设在某模型中,每个变量可以有两种取值,如果我们简单地定义以上概率分布,并使用求和规则推断目标分布,容易验证时间开销和空间开销都至少是(2|Y|).因此,我们必须寻找更紧凑的表示概率分布的数据结构以及能够在其中有效运行的推断算法.学习问题 推断问题研究如何在
16、已有的模型基础上,根据观测计算目标变量的分布,并没有考虑如何构建模型的问题.一方面,模型可以由领域专家构建,模型的结构以及参数可以由专家根据经验来指定;另一方面,实际应用中可能需要对人类尚不了解的问题建立模型,或建立参数众多的大规模模型,或历史经验以数据的形式而不是人类知识存储等等,在这些情况下,模型的结构和参数并不适合人工指定,因此,我们希望设计算法从已往的数据中学习得到模型的参数和结构.从更一般的角度来讲,学习问题可以看作是推断问题的一类特例:我们感兴趣的随机变量是模型的参数或结构.因此,对学习问题的简单处理将会遇到与推断问题相同的困难,即表示和计算的时间和空间复杂度关于模型的变量数目都是
17、指数级的,而我们需要能够处理实际应用数据规模的有效的学习算法.学习问题特有的困难在于:用于学习的训练样本通常是有限的,并且算法允许的训练时间也是有限的.当我们允许复杂的模型尝试从数据中估计联合分布的每一项概率时,我们将面对所谓的维数灾难.相对于呈指数增长的参数,样本量往往太少,以至于我们对真实分布的估计几乎必定有很大的误差.条件独立 考虑变量集 A,B,C,如果 P(A,B|C=c)=P(A|C=c)=P(B|C=c),c 成立,我们就称以 C 为条件,变量集 A,B 相互独立.此时容易验证,P(A|B,C)=P(A|C),P(B|A,C)=P(B|C).模型中的条件独立性是对推断问题和学习问
18、题进行有效计算的基础.例如,考虑对式 P(A,B,C)求和以消去 B,C,利用上述条件独立性,我们可以写出:(),(,)(|)(|)()(|)()(|).B CBCCBP A B CP A C P B C P CP A C P CP B C=经过变换,在模型的表示上,需要指定的项从O(|A|B|C|)个减少到O(|A|+|B|)|C|)个,运算次数从O(|B|C|)减少到 O(|B|+|C|).注意到,我们可利用集合 A(或 B,C)内的条件独立性进一步简化问题的表示和计算.事实上,如果一个概率分布能够分解为一些包含不超过 d 个变量的项的乘积,且每个变量的可取值不超过 m,则表示和推断的复杂
19、度有上界O(md).其中,d表示一个复杂的概率分布分解为若干较简单分布的乘积性质的强弱,或者说表示变量之间的条件独立性的强弱.条件独立性是概率图模型里非常基本的核心概念,贯穿模型的表示、推理和学习等各方面.概率图模型将概率论与图论结合,提供了直观地表示随机变量间条件独立性质的工具,便于人们分析模型的性质,同时使得有关图论的结论和算法可以用于处理概率模型的推断和学习问题1.1 概率图模型的表示 概率图模型的表示刻画了模型的随机变量在变量层面的依赖关系,反映出问题的概率结构以及推理的难易程度,也为推理算法提供了可以操作的数据结构.概率图模型的表示方法有多种,我们主要介绍最常见的贝叶斯网络、马尔可夫
20、网络、因子图等表示,以及一些简化表示的记法.1.1 贝叶斯网络 对应于有向无环图的概率模型称为贝叶斯网络(如图1所示).图的每个顶点代表随机变量或随机向量,边代表变量间的条件相关关系,常常也被用于表示因果关系.对于任意一条边和它所连接的两个顶点 AB,A 称为 B的父节点,B 称为 A 的子节点.贝叶斯网络中每个顶点 X 和它的父节点 U(X)表示一个条件分布 P(X|U(X),称为一 张宏毅 等:概率图模型研究进展综述 2479 个因子.整个概率分布由所有因子的乘积表示:()(|().P XP X U X=Fig.1 Bayesian network of five variables an
21、d its union distribution 图1 含有5个变量的贝叶斯网络及其表示的联合分布 1.1.1 贝叶斯网络中的独立性 在贝叶斯网络中,条件独立性可以直接根据图的结构判定.我们首先考虑3个变量之间的相互关系.由X,Y,Z这3个变量构成的X,Y不直接相关的贝叶斯网络,X,Y之间的关系有以下几种形式:1)X到Y是成因路径(XZY).当且仅当Z未被观测时,X,Y不相互影响(即X的取值不影响Y的条件分布,反之亦然).因此,X,Y不相互独立,但给定Z时,X,Y条件独立.2)X到Y是证据路径(XZY).当且仅当Z未被观测时,X,Y不相互影响.因此,X,Y不相互独立,但给定Z时,X,Y条件独立
22、.3)X,Y有共同原因(XZY).当且仅当Z未被观测时,X,Y不相互影响.因此,X,Y不相互独立,但给定Z时,X,Y条件独立.4)X,Y有共同效果(XZY).当且仅当Z或Z的一个子代节点被观测时,X,Y相互影响.因此,X,Y相互独立,但给定Z或其子代节点时,X,Y不相互独立.对于贝叶斯网络中的一条路径X1?Xn和观测变量的子集 Z,当X1和Xn的取值能够相互影响时,我们称路径X1?Xn是有效的.在一般情况下,我们有以下结论:给定 Z 时,X1?Xn是有效的当且仅当:1)对该路径上的每个V字结构Xi1XiXi+1,存在Xi或其子代在 Z 中;2)路径上的其他任何节点都不在 Z 中.1.2 马尔可
23、夫网络 注意到除了用若干条件概率分布的乘积构造联合分布以外,还有更一般的构造概率分布的方法.考虑定义 在随机变量集合X的子集变量值域上的非负实值函数,若对任意i,i(i)0,iiX=且()iiXiZ=0,则1()iiiZ 定义了一个有效的分布.其中,Z称为归一化常数,由模型参数确定而与观测值无关.对应于无向图的概率模型称为马尔可夫网络,图的每个顶点代表随机变量或随机向量,边代表变量间的相关关系.对任意一条边,其所在的最大的团(全连通子图)称为一个因子.每一条边都唯一地属于一个因子,由于有了上述构造概率分布的方法,只需为每个因子指定一个非负函数(),并对所有因子的乘积归一化,我们就可以构造出由马
24、尔可夫网络表示的概率模型.归一化常数是马尔可夫网络与贝叶斯网络的重要区别之一.在许多模型中,直接计算归一化常数的复杂度是指数级的,因此必须寻找其他替代方法解决推断或学习问题.1.2.1 马尔可夫网络中的独立性 马尔可夫网络中的独立性情况比贝叶斯网络要简单.与之前定义类似,对马尔可夫网络中的一条路径X1-Xn和观测变量的子集 Z,当X1和Xn的取值能够相互影响时,我们称路径X1-Xn是有效的.在一般情况下,我们有以下结论:给定 Z 时,X1-Xn是有效的,当且仅当路径上的其他任何节点都不在 Z 中.P(A,B,C,D,E)=P(A)P(B|A)P(C|B)P(D|B)P(E|C,D)B A C
25、E D 2480 Journal of Software 软件学报 Vol.24,No.11,November 2013 1.3 因子图 图模型的另一种常见表示是因子图9.在因子图G=(X,F)中,我们规定存在两种顶点:随机变量和因子.边是无向的,连接因子和它所包含的随机变量.因此,每个随机变量的邻居顶点是包含它的各个因子,而每个因子的邻居顶点是它的辖域内的各个随机变量.因子图是一种比马尔可夫网络更精细的模型表示,例如在图2所示的因子图中,我们可以区分不同的分布究竟是定义为因子AB,BC,AC的乘积还是一个辖域为A,B,C的大因子ABC;而在马尔可夫网络中,它们有相同的表示而无法从图结构上进行
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 概率 模型 研究进展 综述
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内