(本科)第8章统计方法与贝叶斯网络教学ppt课件.ppt
(本科)第8章统计方法与贝叶斯网络教学ppt课件第八章 贝叶斯(Bayes)分类东北财经大学电子商务学院主要内容主要内容 贝叶斯贝叶斯(Bayes)(Bayes)定理定理1朴素贝叶斯分类朴素贝叶斯分类2贝叶斯信念网络贝叶斯信念网络38.1 贝叶斯定理贝叶斯定理v 贝叶斯学派奠基性的工作是贝叶斯的论文“关于几率问题求解的评论”。20世纪50年代,以罗宾斯为代表,提出了经验贝叶斯方法和经典方法相结合,引起统计界的广泛注意,这一方法很快就显示出它的优点,成为很活跃的一个方向。v 统计学中有两个主要学派:频率学派和贝叶斯学派,他们之间既有共同点,又有不同点。v 贝叶斯学派是数理统计学中的一大流派,贝叶斯概率与传统概率之间最大的区别在于他们对某个事件概率的定义是不一样的v 经典概率定义一个事件的概率是确定的,并且是客观的,而贝叶斯概率认为,一个事件的概率是确定这个概率的人的主观判断,即传统概率是客观认识,而贝叶斯概率是主观判断。8.1 贝叶斯定理贝叶斯定理v 贝叶斯概率简单地说,某一事件x的贝叶斯概率是观测者对该事件发生的相信程度,观测者根据先验知识和现有的统计数据,用概率的方法来预测未知事件发生的可能性。v 贝叶斯概率不同于普通意义上的事件的客观概率,客观概率是在多次反复实验中事件发生的频率的近似值,而贝叶斯概率则是利用已有的知识对未知事件出现频率的预测(比如你会相信硬币落地出现正面的概率),不需要反复做实验。v 在许多应用中,属性集和类变量之间的关系是不确定的 (尽管测试记录的属性集和某些训练样本相同) 无法确定地预测其类标号 (可能是由于噪声,或者出现了某些影响分类的因素,却没有包含在分析中)8.1 贝叶斯定理贝叶斯定理【例】考虑一个人的饮食和锻炼的频率来预测他是否患有心脏病 由于遗传、吸烟过量、酗酒等影响因素 没有考虑进去。 所以,不能确定地给出其是否患有心脏病(类标号)的判断结论:给出某一测试记录属于某一分类的概率是必要的。贝叶斯分类器贝叶斯分类器 【例】考虑两个队之间的足球比赛:队0和队1。假设65%的比赛队0胜出,剩余的比赛队1获胜。队0获胜的比赛中只有30%是在队1的主场,而队1获胜的比赛中75%是主场获胜,如果下一场比赛在队1的主场进行,哪一支球队最有可能胜出?8.1 贝叶斯定理贝叶斯定理【例】两个球队比赛队0: 胜率 65% ,客场获胜率 30% 队1: 胜率 35% ,主场获胜率 75%问题:如果下一场比赛在队1 的主场进行,哪一支球队最有可能获胜?基本概念: X 、Y 是两个随机变量,则 联合概率 P(X=x , Y=y) 条件概率 P(X=x l Y=y)二者之间有关系: P(X,Y) = P(Y l X) P(X) = P(X l Y) P(Y)即:即:)()()()(XPYPYXPXYP这就是 贝叶斯定理贝叶斯定理8.1 贝叶斯定理贝叶斯定理我们现在来解决前面提出的问题:设:设:变量:东道主球队变量:获胜球队、可以在,中取值则:则:队取胜的概率解:解:P(Y=1X=1) =)1()1()11(XPYPYXP)0, 1()1, 1()1()11(YXPYXPYPYXP)0()01()1()11()1()11(YPYXPYPYXPYPYXP6 . 03 . 035. 075. 035. 075. 0= 0.5738队取胜的概率队取胜时队1作为东道主的概率队作为东道主时取胜的概率P(X=1,Y=1)=0.75P(X=1,Y=0)=0.3P(Y=1)=1- P(Y=0)=0.35P(Y=0)=0.658.1 贝叶斯定理贝叶斯定理v 假设X和Y是一对随机变量,X表示属性集,Y表示类变量。P(X,Y)表示他们的联合概率P(Y)称为Y的先验概率P(X)是X的先验概率P(Y|X)是后验概率,或在条件X下,Y的后验概率。P(X|Y)是条件Y下,X的后验概率v 对于分类问题,希望确定P(Y|X)给定观测数据元组X,假设X属于某特定类Y成立的概率。换言之,给定X的属性描述,找出元组X属于类Y的概率。v 贝叶斯定理:贝叶斯定理:)()()|()|(XPYPYXPXYP8.1 贝叶斯定理贝叶斯定理v 例例 预测一个贷款者是否会拖欠还款。图8.4中的训练集中有如下属性:有房、婚姻状况和年收入。若前还款的贷款者属于类Yes,还清贷款的贷款者属于类No。v 假设给定一测试记录有如下属性集:X=(有房=否,婚姻状况=已婚,年收入=$120K)。v 要分类该记录,我们需要利用训练数据中的可用信息计算后验概率P(Yes|X)和P(No|X)。v 如果P(Yes|X)P(No|X),那么记录分类为Yes,反之,分类为No。 Ti Tid d 有有房房 婚姻状婚姻状况况 年收年收入入 拖欠贷拖欠贷款款 1是单身125K否2否已婚100K否3否单身70K否4是已婚120K否5否离异95 K是6否已婚60 K否7是离异220 K否8否单身85 K是9否已婚75 K否10否单身90 K是8.2 朴素贝叶斯分类朴素贝叶斯分类v 朴素贝叶斯(naive Bayes):基于条件概率的贝叶斯定理提出的。通过分析每个“独立的”属性所起的作用,可以确定一个条件概率。将不同的属性对预测所起的作用组合起来就可以用于分类。 v 这种方法之所以被称为“朴素的”是因为它假设各种属性值之间是独立的。 v 对于属性集 ,因为 之间相互独立,即 nXXXX,21nXXX,21niiYXPYXP1)|()|(8.2 朴素贝叶斯分类朴素贝叶斯分类v 分类测试记录时,朴素贝叶斯分类器对每个类Y计算后验概率:v 其中P(X)是固定的常数,先验概率P(Y)可以通过训练集中每类样本所占的比例估计。只要找出使 最大的类别y即可。 v 分类法预测X的类标号为,当且仅当v 换言之,预测的类标号是使 最大的类 。)()|()()|(1XPYXPYPXYPniiniiYXPYP1)|()()()|()()|(jjiiYPYXPYPYXPijmj,1)()|(iiYPYXPiY8.2 朴素贝叶斯分类朴素贝叶斯分类v 的计算视属性的性质有所不同,下面我们描述几种估计分类属性和连续属性的条件概率的方法。 v 对于分类属性 ,可以用类Y中属性值等于 的样本比例来估计条件概率 。例如,在图8.4给出的训练集中v 还清贷款的7个人中3个人有房,条件概率P(有房=是|No)等于3/7。v 拖欠还款的人中单身的条件概率P(婚姻状况=单身Yes)=2/3。 )|(YXPi(1 1)估计分类属性的条件概率)估计分类属性的条件概率iXiX)|(YXPi8.2 朴素贝叶斯分类朴素贝叶斯分类v 朴素贝叶斯分类法使用两种方法估计连续属性的类条件概率:v 1、可以先把 离散化,然后计算属于类Y的训练样本落在 对应离散区间的比例估计 。离散化的方法在数据挖掘概论一章中讨论过了。估计误差由离散化方法和离散区间的数目决定。v 如果离散区间的数目太大,则就会因为每一个区间中训练记录太少而不能对 做出可靠的估计。相反,如果区间数目太小,有些区间就会含有来自不同类的记录,因此失去了正确的决策边界。(2 2)估计连续属性的条件概率)估计连续属性的条件概率iXiX)|(YXPi)|(YXPi8.2 朴素贝叶斯分类朴素贝叶斯分类v 2、也可以假设 服从某种概率分布,然后用训练样本估计其中的参数。正态分布通常被用来表示连续属性的类条件概率分布。如果某个数值属性是正态分布,我们使用下式计算对每个类Y,属性X的类条件概率:(2 2)估计连续属性的条件概率)估计连续属性的条件概率)|(YXPi222)(21)|(ijijixijiiiieyYxXP其中, 是所给数值属性的均值,可以用类Y的所有训练记录关于X的样本均值 来估计。是属性的方差,可以用这些训练记录的样本方差 来估计。 x22s8.2 朴素贝叶斯分类朴素贝叶斯分类v 例例 考虑图8.4中年收入这一属性。该属性关于类No的样本均值和方差如下:(2 2)估计连续属性的条件概率)估计连续属性的条件概率54.542975297517)11075()110100()110125(110775701001252222ssx给定一测试记录,应征税的收入等于120K美元,其拖欠贷款为否的类条件概率计算如下:0072. 054.5421)|120(29752)110120(2eNoKP)(收入8.2 朴素贝叶斯分类朴素贝叶斯分类v 例例 还是以图8.4中的数据集为例,预测测试记录X=(有房=否,婚姻状况=已婚,年收入=$120K)的类标号。我们可以计算每个分类属性的类条件概率,同时利用前面介绍的方法计算连续属性的样本均值和方差,然后利用这些数据计算后验概率P(No|X)和P(Yes|X)。v 数据元组有三个属性:是否有房、婚姻状况和年收入。v 类标号属性拖贷款有两个不同值(即是,否)。v 希望分类的元组为X=(有房=否,婚姻状况=已婚,年收入=$120K)v 每个类的先验概率P(Y)可以根据训练元组中属于该类的记录所占的比例来估计:P(Yes)=3/10=0.3 P(No)=7/10=0.78.2 朴素贝叶斯分类朴素贝叶斯分类v 贷款分类问题的朴素贝叶斯分类器贷款分类问题的朴素贝叶斯分类器T Tidid有房有房婚姻状况婚姻状况年收入年收入拖欠贷款拖欠贷款 1 2 3 4 5 6 7 8 910 是 否 否 是 否 否 是 否 否 否 单身 已婚 单身 已婚 离异 已婚 离异 单身 已婚 单身 125K 100K 70K 120K 95K 60K 220K 85K 75K 90K 否 否 否 否 是 否 否 是 否 是P(有房=是|No)=3/7P(有房=否|No)=4/7P(有房=是|Yes)=0P(有房=否|Yes)=1P(婚姻状况=单身|No)=2/7P(婚姻状况=离异|No)=1/7P(婚姻状况=已婚|No)=4/7P(婚姻状况=单身|Yes)=2/3P(婚姻状况=离异|Yes)=1/3P(婚姻状况=已婚|Yes)=0年收入:如果类=No: 样本均值=110 样本方差=2975如果类=Yes: 样本均值=90 样本方差=258.2 朴素贝叶斯分类朴素贝叶斯分类v 使用上面的概率,类条件概率计算如下:P(X|No)=P(有房=否|No)P(婚姻状况=已婚|No)P(年收入=$120K|No) =4/74/70.0072=0.0024P(X|Yes)=P(有房=否| Yes)P(婚姻状况=已婚| Yes)P(年收入=$120K|Yes) =101.210-9=0v 可得到No类的后验概率 ,其中 是个常量。同理,可以得到类Yes的后验概率等于0,因为它的类条件概率等于0。因为 ,所以对于元组X,朴素贝叶斯分类器预测元组X的类为No。0016. 00024. 07 . 0)|(XNoP)(/1XP)|()|(XYesPXNoP8.2 朴素贝叶斯分类朴素贝叶斯分类v 贝叶斯技术的一个重要问题是某个属性值的计数为0。例如前面的例子,拖欠贷款的值为Yes的已婚客户的数目为0。这种情况下,这个属性的类条件概率等于0,则整个类的后验概率就等于0。v 简单地使用记录比例来估计类条件概率的方法显得太脆弱了,尤其是当训练样本很少而属性数目很大时。一种更极端的情况是,当训练集不能覆盖那么多的属性时,我们可能就无法分类某些测试记录。属性值的计数为属性值的计数为0 0问题问题8.2 朴素贝叶斯分类朴素贝叶斯分类v 拉普拉斯校准或拉普拉斯估计法:以法国数学家Pierre Laplace(17491827)的名字命名,假定训练数据库D很大,使得需要的每个计数加上一个小常数k造成的估计概率的变化可以忽略不计,但可以方便地避免概率值为零。计算概率的对应条件概率变成: 属性值计数为属性值计数为0 0问题的解决问题的解决kdkpnYXPii)|(其中,k是称为等价样本大小的参数,p为属性可能值总数的等分。如果属性有两个可能值,则p为0.5。8.2 朴素贝叶斯分类朴素贝叶斯分类v 例例 在8.4例子中,条件概率P(婚姻状况=已婚| Yes)0,因为类中没有训练样例含有该属性值。使用拉普拉斯估计法,因为属性婚姻状况有3种可能值,所以k=,p=1/3,则条件概率不再是: P(婚姻状况=已婚| Yes)=(0+31/3)/(3+3)=1/6v 如果假设对类Yes的所有属性p=1/3对类No的所有属性p=2/3,则P(X|No)=P(有房=否|No)P(婚姻状况=已婚|No)P(年收入=$120K|No) =6/106/100.0072=0.0026P(X|Yes)=P(有房=否| Yes)P(婚姻状况=已婚| Yes)P(年收入=$120K|Yes) =4/61/61.210-9=1.310-10类No的后验概率,而类Yes的后验概率,尽管分类结果不变,但是避免了零概率值。属性值计数为属性值计数为0 0问题的解决问题的解决0018. 00026. 07 . 0)|(XNoP1110100 . 4103 . 13 . 0)|(XYesP8.2 朴素贝叶斯分类朴素贝叶斯分类v 首先它易于使用。当变量之间的关系很简单时,这种技术通常会产生很好的效果。该分类与决策树和神经网络分类法的各种比较实验表明,在某些领域,贝叶斯分类法足以它们相媲美。理论上讲,与其他所有分类算法相比,贝叶斯分类具有最小的错误率。v 贝叶斯分类器的健壮的。因为在从数据中估计条件概率时,孤立的噪声点被平均。通过在建模和分类时忽略样例,朴素贝叶斯分类器也可以处理属性值遗漏问题。如果是 无关属性,那么 几乎变成了均匀分布。 的类条件概率不会对总的后验概率的计算产生影响。朴素贝叶斯分类器的优点朴素贝叶斯分类器的优点iXiX)|(YXPi8.3 贝叶斯信念网络贝叶斯信念网络v 朴素贝叶斯分类法假定类条件独立,即给定元组的类标号,假定属性的值可以有条件地相互独立。这一假定简化了计算,但似乎太严格了,在实践中,变量之间的依赖可能存在。贝叶斯信念网络说明联合条件概率分布,该方法不要求给定类的所有属性都条件独立,而是允许在变量的子集间定义类条件独立性。提供一种因果关系的图形模型,可以对其进行学习。训练后的贝叶斯信念网络可以用于分类。v 贝叶斯网络最初是由R.Howard和J.Matheson于1981年提出来的.早期的贝叶斯网络主要在专家系统中用来表述不确定的专家知识。90年代以来,贝叶斯学习一直是机器学习研究的重要方向。由于概率统计与数据挖掘的天然联系,数据挖掘兴起后,贝叶斯网络日益受到重视,再次成为引人注目的热点。近两年研究者们进一步研究了直接从数据中学习并生成贝叶斯网络的方法,包括贝叶斯方法、类贝叶斯方法和非贝叶斯方法,为贝叶斯网络用于数据挖掘和知识发现开辟了道路。这些新的方法和技术还在发展之中,但是己经在一些数据建模问题中显示出令人瞩目的效果。8.3 贝叶斯信念网络贝叶斯信念网络v 贝叶斯信念网络(Bayesian Belief Networks, BBN)也称作信念网络、贝叶斯网络和概率网络,用图形表示一组随机变量之间的概率关系。贝叶斯网络主要由两个部分组成:一、贝叶斯网络的概念一、贝叶斯网络的概念v 有向无环图有向无环图 其中的每一个结点代表一个随机变量;每一条弧(两个结点间连线)代表一个概率依赖。 若一条弧从结点Y到结点Z,那么Y就是Z的一个父结点,Z就是Y的一个子结点。给定父结点,每个变量有条件地独立于图中非子结点。 变量既可取离散值,也可取连续值。它们既可对应数据集中实际的变量,也可对应数据集中的“隐含变量”,以构成一个关系。(1)一个有向无环图(dag),表示变量之间的依赖关系;(2)一个条件概率表(cpt),把各结点和其直接父结点关联起来。8.3 贝叶斯信念网络贝叶斯信念网络一、贝叶斯网络的概念一、贝叶斯网络的概念性质:条件独立性质:条件独立 贝叶斯网络中的一个结点,如果它的父母结点已知,则该结点条件独立于它的所有非后代结点。ABCCADByx1x2x3x4xd(a)(c)(b)图 使用有向无环图表示概率关系v 包含所有变量的条件概率表(包含所有变量的条件概率表(Conditional Probability Table, CPTConditional Probability Table, CPT) 对于一个变量Z,CPT定义了一个条件分布P ( Z|parent (Z) );其中,parent(Z)表示Z的父结点。 除了网络拓扑结构要求的条件独立性外,每个结点还关联一个概率表: (1)如果结点X没有父母结点,则表中只包含先验概率P(X); (2)如果结点X只有一个父母结点Y,则表中包含条件概率P(XY) (3)如果结点X有多个父母结点Y1,Y2,,YK,则表中包含条件概率P(XY1,Y2,Yk)8.3 贝叶斯信念网络贝叶斯信念网络v 例例 贝叶斯网络的一个例子,对心脏病或心口痛患者建模。假设图中每个变量都是二值的。v 心脏病节点(HD)的父节点对应于影响该疾病的危险因素,例如锻炼(E)和饮食(D)等。v 心脏病节点的子节点对应于该病的症状,如胸痛(CP)和高血压(BP)等。v 心口痛(Hb)可能源于不健康的饮食,同时又可能导致胸痛。 一、贝叶斯网络的概念一、贝叶斯网络的概念锻炼心口痛饮食心脏病血压胸痛HD=YesE=YesD=健康 0.25E=YesD=不健康 0.45E=NoD=健康 0.55E=NoD=不健康 0.75CP=YesHD=YesHb=Yes 0.8HD=YesHb=No 0.6HD=NoHb=Yes 0.4HD=NoHb=No 0.1Hb=YesD=健康 0.2D=不健康 0.85BP=高HD=Yes 0.85HD=No 0.2 E=Yes 0.7D=健康 0.25图图 发现心脏病和心口痛病人的贝叶斯网络发现心脏病和心口痛病人的贝叶斯网络8.3 贝叶斯信念网络贝叶斯信念网络v 锻炼、饮食等影响疾病的因素对应的节点只包含先验概率,而心脏病、心口痛以及它们的相应症状所对应的节点都包含条件概率。因为空间有限,图中并没有将全部的概率都列举出来,其中 , 中的 表示和x相反的结果。因些,省略的概率可以很容易求得。例如:P(心脏病=No锻炼=No,饮食=健康) =1P(心脏病=Yes锻炼=No,饮食=健康) =10.55=0.45一、贝叶斯网络的概念一、贝叶斯网络的概念)(1)(xXPxXP)|(1)|(YxXPYxXPx8.3 贝叶斯信念网络贝叶斯信念网络v 贝叶斯网的构造方法有两种:v 本节只讨论如何手工构造贝叶斯网,这包括确定网络结构和评估条件概率两个子任务。v 构造贝叶斯网络(先验贝叶斯网络)一般分为三个步骤二、构造贝叶斯网络二、构造贝叶斯网络通过咨询专家手工构造通过数据分析来获得确定变量集和变量域确定网络结构确定局部概率分布(或局部密度函数)8.3 贝叶斯信念网络贝叶斯信念网络v 这里以信用卡欺骗问题为例说明如何构造贝叶斯网络。二、构造贝叶斯网络二、构造贝叶斯网络1 1)确定变量集和变量域)确定变量集和变量域考虑如何发现信用卡使用中的骗局问题。首先决定模型的变量,假定取5个变量变量名意义F(fraud)是否当前的一笔买卖是骗局G(gas)是否在24小时中有一笔汽油买卖J(jewelry)是否在24小时中有一笔珠宝买卖A(age)信用卡持有者的年龄S(sex)信用卡持有者的性别8.3 贝叶斯信念网络贝叶斯信念网络v 网络拓扑结构可以通过对主观的领域专家知识编码获得,确定网络结构的方法如下:(1)选定一组刻画问题的随机变量 ;(2)选择一个变量顺序 ;(3)从一个空图出发,按照顺序T逐个将变量加入网络结构中;(4)在加入变量 时,网络结构中的变量包括 利用问题的背景知识,从 中去掉对 没有影响的变量;(5)从 中剩余的每一个变量节点添加一条指向 的有向边。二、构造贝叶斯网络二、构造贝叶斯网络2 2)创建网络结构)创建网络结构nXXX,21nXXXT,21iX,)(121iiXXXXpa)(iXpa)(iXpaiXiX8.3 贝叶斯信念网络贝叶斯信念网络v 信用卡的问题涉及5个随机变量,利用关于变量因果关系的先验知识分析有关数据和变量之间的关系后,决定变量的顺序为:(F,A,S,J,G),并决定变量之间的条件独立关系:v P(A|F)=P(A)v P(S|F,A)=P(S)v P(J|F,A,S,G)=P(J|F,A,S)v P(G|F,A,S)=P(G|F)二、构造贝叶斯网络二、构造贝叶斯网络2 2)创建网络结构)创建网络结构FA AG GS SJ J构造贝叶斯网结构的过程 :首先把F加入空图; 接着加入A:假设A和F相互独立, ,因此无需加边; )(Apa然后加入S,还是假设S与A和F都相互独立,也无需加边; 之后加入J:假设J同时依赖于F、A和S,所以 ,于是分别从F、A和S画一条到J的边; ,)(SAFJpa最后加入G:假设给定F,G与A、S和J相互条件独立,所以 ,于是从F画一条到G的边. FGpa)(8.3 贝叶斯信念网络贝叶斯信念网络v 上面的算法保证生成的拓扑结构不包含环。如果存在环,那到至少有一条弧从低序节点指向高序节点,并且至少存在另一条弧从高序节点指向低序节点。由于算法不允许符合低序节点到高序节点的弧存在,因此拓扑结构中不存在环。v 显然,以上各步可能交叉进行,而不是简单的顺序进行可以完成的。因为网络的结构和参数都是根据背景知识和经验确定的,这样建立的网络又称为先验贝叶斯网络。v 从不现的变量顺序出发,可能得到不同的网络结构。某些拓扑结构可能质量很差,因为它在不同的节点对之间产生了很多条弧。v 从理论上讲,可能需要检查所有d!种可能的排序才能确定最佳的拓扑结构,这是一项计算开销很大的任务。在实际应用中,人们往往利用因果关系确定贝叶斯网的结构。在利用因果关系建立起来的贝叶斯网中,变量间的边表示的是因果关系,而非简单的概率依赖关联。二、构造贝叶斯网络二、构造贝叶斯网络2 2)创建网络结构)创建网络结构8.3 贝叶斯信念网络贝叶斯信念网络v 一旦找到了合适的拓扑结构,与各结点关联的概率表就确定了。对这些概率的估计比较容易,与朴素贝叶斯分类器中所用的方法类似。 二、构造贝叶斯网络二、构造贝叶斯网络3 3)估计每一个节点的概率表中的概率值)估计每一个节点的概率表中的概率值用先验数据的统计频率和用户的知识确定局部概率 用户通过测试和观察确定局部概率 根据专家的知识确定局部概率 8.3 贝叶斯信念网络贝叶斯信念网络v 例例 假设我们对使用图8.7中的BBN来诊断一个人是否患有心脏病感兴趣。下面阐释在不同的情况下如何做出诊断。二、构造贝叶斯网络二、构造贝叶斯网络锻炼心口痛饮食心脏病血压胸痛HD=YesE=YesD=健康 0.25E=YesD=不健康 0.45E=NoD=健康 0.55E=NoD=不健康 0.75CP=YesHD=YesHb=Yes 0.8HD=YesHb=No 0.6HD=NoHb=Yes 0.4HD=NoHb=No 0.1Hb=YesD=健康 0.2D=不健康 0.85BP=高HD=Yes 0.85HD=No 0.2 E=Yes 0.7D=健康 0.25图图 发现心脏病和心口痛病人的贝叶斯网络发现心脏病和心口痛病人的贝叶斯网络8.3 贝叶斯信念网络贝叶斯信念网络v 在没有任何先验信息的情况下,可以通过计算先验概率P(HD=Yes)和P(HD=No)来确定一个人是否可能患心脏病。为了表述方便,设 表示锻炼的两个值, 健康,不健康表示饮食的两个值。二、构造贝叶斯网络二、构造贝叶斯网络情况一:没有先验信息情况一:没有先验信息NoYes,49. 075. 03 . 075. 025. 03 . 055. 075. 07 . 045. 025. 07 . 025. 0)()(),|(),(),|()(DPEPDEYesHDPDEPDEYesHDPYesHDP因为 ,所以,此人不得心脏病的机率略微大一点。51. 0)(1)(YesHDPNoHDP8.3 贝叶斯信念网络贝叶斯信念网络v 如果一个人有高血压,可以通过比较后验概率 和 来诊断他是否患有心脏病。为此,我们必须先计算 :二、构造贝叶斯网络二、构造贝叶斯网络情况二:高血压情况二:高血压)|(高BPYesHDP)|(高BPoHDPN)(高BPP5185. 051. 02 . 049. 085. 0)()|()(HDPHDBPPBPP高高其中 。因此,此人患心脏病的后验概率是: NoYes,8033. 05185. 049. 085. 0)()()|()|(高高高BPPYesHDPYesHDBPPBPYesHDP同理, 。因此,当一个人有高血压时,他患心脏病的危险就增加了。1967. 08033. 01)|(高BPNoHDP8.3 贝叶斯信念网络贝叶斯信念网络v 假设得知此人经常锻炼身体并且饮食健康。加上这些新信息,此人患心脏病的后验概率:二、构造贝叶斯网络二、构造贝叶斯网络情况三:高血压、饮食健康、经常锻炼身体情况三:高血压、饮食健康、经常锻炼身体5862. 075. 02 . 025. 085. 025. 085. 0),|()|(),|()|(),|(),|(),|(),|(YesEDHDPHDBPPYesEDYesHDPYesHDBPPYesEDYesHDPYesEDBPPYesEDYesHDBPPYesEDBPYesHDP健康高健康高健康健康高健康高健康高而此人不患心脏病的概率是:4138. 05862. 01),|(YesEDBPNoHDP健康高因此模型暗示健康的饮食和有规律的体育锻炼可以降低患心脏病的危险。8.3 贝叶斯信念网络贝叶斯信念网络v 贝叶斯网络本身并没有输入和输出的概念,各结点的计算是独立的,因此,贝叶斯网络的学习既可以由上级结点向下级结点推理,也可以是由下级结点向上级结点的推理。v 用于数据挖掘的贝叶斯网络方法主要有以下几个特点:(1)贝叶斯网络可以处理不完整和带有噪声的数据集。贝叶斯网络学习模型描述了变量之间的因果联系,这种联系的确定以概率的形式表达。从而解决了数据间的不一致,甚至是相互独立的问题。概率化使得贝叶斯网路学习模型允许样本不完整和噪声的存在。(2)贝叶斯网络学习模型结合了先验信息,并用图形的形式描述数据的相互关系,语义清晰,可理解性强,这将有助于利用数据间的因果关系来进行预测分析。二、构造贝叶斯网络二、构造贝叶斯网络8.3 贝叶斯信念网络贝叶斯信念网络v (3)由于贝叶斯网络具有因果和概率性语义,有良好可理解性和逻辑性。它自然地将先验信息与概率推理相结合,从而贴近现实问题,有助于优化人们的决策。所以该方法对模型的过分拟合问题是非常鲁棒的。v (4)可以综合先验信息和样本数据,既可避免只使用先验信息可能带来的主观偏见和缺乏样本数据时的盲目搜索与冗杂计算,也可以避免只使用后验信息带来的噪音的影响。构造网络可能既费时又费力。然而,一旦网络结构确定下来,添加新变量就十分容易。二、构造贝叶斯网络二、构造贝叶斯网络8.3 贝叶斯信念网络贝叶斯信念网络v 我们把根据用户的先验知识构造的贝叶斯网络称为先验贝叶斯网络,把先验贝叶斯网络和数据相结合而得到的贝叶斯网络称为后验贝叶斯网络。v 由先验贝叶斯网络到后验贝叶斯网络的过程称为贝叶斯网络学习。或者说,把先验贝叶斯网络和数据相结合而得到后验贝叶斯网络的过程称为贝叶斯网络学习。v 贝叶斯网络学习是用数据对先验知识的修正(贝叶斯网络是一种知识表示形式),贝叶斯网络能够持续学习,上次学习得到的后验贝叶斯网络变成下一次学习的先验贝叶斯网络.三、贝叶斯网的学习三、贝叶斯网的学习8.3 贝叶斯信念网络贝叶斯信念网络v 为了建立贝叶斯学习网络模型,首先必须确定建立模型的有关变量及其解释。为此,需要确定模型的目标,即确定相关的解释;其次需要建立一个条件独立断言的有向无环图;然后指派局部概率分布。在离散的情况下,需要为每一个变量的父节点集的各个状态指派一个分布。v 贝叶斯网络学习模型包括结构学习和参数学习,即寻找一个合适的有向无环结构图以及获得每个节点相关的条件概率表两方面。v 贝叶斯网络学习模型就是一个网络优化过程,其目的就是要找出一个最能真实反映数据变量之间的依赖关系的贝叶斯网络模型。三、贝叶斯网的学习三、贝叶斯网的学习8.3 贝叶斯信念网络贝叶斯信念网络v 贝叶斯网络参数学习有几种不同的情形,包括完全观测、结构已知的参数学习,完全观测、结构未知的参数学习,不完全观测、结构已知的参数学习以及不完全观测、结构未知的参数学习。其中以完全观测、结构已知的参数学习最为简单,下面我们介绍这种参数估计的方法。v 用贝叶斯网来分析一组数据D D,就是要从这组数据出发,找出一个相对于数据在某种意义下最优的贝叶斯网。所得的结果是关于数据D D的一个统计模型,称为贝叶斯网模型。三、贝叶斯网的学习三、贝叶斯网的学习1 1、参数学习、参数学习8.3 贝叶斯信念网络贝叶斯信念网络v 贝叶斯网络模型为G=(S,p),其中S为变量集X的网络结构,p为各变量的概率分布。如果该网络表示一个多项分布变量集合的网络,则p可以用条件分布参数化,所有的参数用表示。贝叶斯网络模型表示为v 变量 的参数用 表示,则v X的任何取值的联合分布可以分解为三、贝叶斯网的学习三、贝叶斯网的学习1 1、参数学习、参数学习),(SG iXin,1niiiipaXPXP1),|()|(8.3 贝叶斯信念网络贝叶斯信念网络v 如果变量 有 个取值,分别以 表示;并且 的父节点集合有 个取值,分别以 表示,则 的参数为v 在 下的条件概率为v 则v 设数据D D由样本 组成。给定,数据D D的条件概率 称为似然度,记为v 如果固定D而让在其定义域上变动,那么 就是的一个函数,称为的似然函数。 三、贝叶斯网的学习三、贝叶斯网的学习1 1、参数学习、参数学习iXiririiXX,1iXiqiqiipapa,1iXiqii,1kXijipa0),|)(ijkiiijpakXPiijrijij,1),(21mDDD)(|DP)|()|(DDPL)|(DL8.3 贝叶斯信念网络贝叶斯信念网络v 为了计算上的方便,需要做两个假设。v 第一个假设是,D D中各样本在给定参数时相互独立,即v 第二个假设是,每个样本 的条件概率 分布相同。v 这两个假设是统计学中的基本假设,统称为独立同分布假设,简称i.i.d.假设。三、贝叶斯网的学习三、贝叶斯网的学习1 1、参数学习、参数学习mmiiDPPL)|()()|(|DDiD)|(iDP8.3 贝叶斯信念网络贝叶斯信念网络v 在贝叶斯估计的框架中,参数被视为随机变量,对它进行估计就是计算其后验概率分布 ,以及下一个样本 的概率分布 。为此,首先要选用一个概率分布 来总结关于的先验知识,然后把观测到i.i.d.完整数据 的影响用似然函数 来归纳,最后使用贝叶斯公式将先验分布和似然函数结合,得到的后验分布,即v 这就是的贝叶斯估计。贝叶斯估计的结果是一个概率分布,它也可以用来进行预测。v 上式称为 的完全贝叶斯估计。还有其他的估计方法,这里就不多做详解了。三、贝叶斯网的学习三、贝叶斯网的学习1 1、参数学习、参数学习)|(DP1mD)|(1DmDP)(P),(21mDDDD)()|(|DDPL)|()()|(DDLPPdPdPhDPdhDPhDPmmm)|()|(),|()|,()|(111DDDDD)|(1DhDPm8.3 贝叶斯信念网络贝叶斯信念网络v 的似然函数为v 根据贝叶斯公式,有v 这里 是充分统计量,表示数据中满足 和 的样本数量。下面引入两个新的记号,以方便能更加直观地理解后面的内容。如前所述,是所有参数组成的向量; v 用 记由 所组成的子向量,它表示所有关于分布 的参数;v 用 记由 所组成的子向量,包括所有关于变量 的条件概率分布 的参数。三、贝叶斯网的学习三、贝叶斯网的学习1 1、参数学习、参数学习niqjrkmijkiiijkL111)|(DniqjrkmijkiiijkPP111)()|(DijkmkXijXpai)(iiijkrkqjni, 1;, 1;, 1|ijiijrijij,21)(|(jXpaXPii iiiqii,21iX)(|(iiXpaXP8.3 贝叶斯信念网络贝叶斯信念网络v 为了计算方便,需要对先验概率分布 做如下3个假设:v 全局独立假设。关于不同变量 的参数相互独立,即v 局部独立假设。给定一个变量 ,对应于 的不同取值的参数相互独立,即三、贝叶斯网的学习三、贝叶斯网的学习1 1、参数学习、参数学习)(PiXniiPP1)()(iX)(iXpaiqjijiPP1)()(8.3 贝叶斯信念网络贝叶斯信念网络v 可以用下图所示的贝叶斯网络来表达独立假设。v 其中,图(a)为一个三节点的贝叶斯网络,图(b)为包含参数变量的贝叶斯网络。每个节点都对应一组参数,并且参数之间相互独立。三、贝叶斯网的学习三、贝叶斯网的学习1 1、参数学习、参数学习(a)一个三节点的贝叶斯网络 (b)包含参数变量的贝叶斯网络 8.3 贝叶斯信念网络贝叶斯信念网络v 假设 的先验分布 服从Dirichlet分布 ,即v 其中()是函数, 是分布的参数,有时称为超参数。当r=2时,Dirichlet分布 就是分布 。假设 为Dirichlet分布 就等于假设关于的先验知识相当于 个虚拟数据样本,其中满足 的样本数为 ,所以, 称为等价样本量。三、贝叶斯网的学习三、贝叶斯网的学习1 1、参数学习、参数学习ij)(P,21iijrijijD111111)()()()(rrrrPr,1,21D,21B)(P,21iijrijijDrii1iXX irii18.3 贝叶斯信念网络贝叶斯信念网络v 在上述3个假设下,有上式定义的 称为乘积Dirichlet分布。把它代入 得v 也就是说,的后验分布 也是一个乘积Dirichlet分布, 也具有全局和局部独立性,并且 是Dirichlet分布三、贝叶斯网的学习三、贝叶斯网的学习1 1、参数学习、参数学习niqjrkijkniqjijniiiiijkiPPP1111111)()()()(PniqjrkmijkiiijkPP111)()D|(niqjrkmijkiiijkijkP1111)|(D)|(DP)|(DP)|(DijP,2211iiijrijrijijijijmmmD8.3 贝叶斯信念网络贝叶斯信念网络v 接下来考虑下一个数据样本 的概率分布 首先有v 而三、贝叶斯网的学习三、贝叶斯网的学习1 1、参数学习、参数学习),(211nmXXXD)|(1DmDPdPDPDPmm)|()|()|(11DDniiiiniiinmXpaXPXpaXPXXXPDP11211),(|(),(|()|,()|(另一方面,由于 具有全局独立性,有)|(DPniiPP1)|()|(DD所以 niiiiniiiimXpaXPdPXpaXPDP111),(|()|(),(|()|(DDD这个公式说的是, 是S-可分解的,因此可以表示为一个以S为结构的贝叶斯网。 )|(1DmDP8.3 贝叶斯信念网络贝叶斯信念网络v 用 表示这个贝叶斯网的参数:v 注意, 与贝叶斯网 的参数 不同: 是一个固定的取值,而 则是一个随机变量。v 参数 可以按如下公式计算:三、贝叶斯网的学习三、贝叶斯网的学习1 1、参数学习、参数学习iiijkrkqjni, 1;, 1;, 1|ijk),(SG ijkijkijkijkijkijkijkijkijkijkiiiiijkdPdPjXpakXPjXpakXP)|()|(),)(|(),)(|(DDD8.3 贝叶斯信念网络贝叶斯信念网络v 由于 是Dirichlet分布 ,因此有v 所以,三、贝叶斯网的学习三、贝叶斯网的学习1 1、参数学习、参数学习)|(DijP,2211iiijrijrijijijijmmmDirkijkijkijkijkijkmm1)(niqjrkrkijkijkijkijkmmiiimmDkjiDP111111)():,()|(D8.3 贝叶斯信念网络贝叶斯信念网络v 例例 下图所示贝叶斯网S,其中所有变