(本科)第8章统计方法与贝叶斯网络教学ppt课件.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《(本科)第8章统计方法与贝叶斯网络教学ppt课件.ppt》由会员分享,可在线阅读,更多相关《(本科)第8章统计方法与贝叶斯网络教学ppt课件.ppt(82页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、(本科)第8章统计方法与贝叶斯网络教学ppt课件第八章 贝叶斯(Bayes)分类东北财经大学电子商务学院主要内容主要内容 贝叶斯贝叶斯(Bayes)(Bayes)定理定理1朴素贝叶斯分类朴素贝叶斯分类2贝叶斯信念网络贝叶斯信念网络38.1 贝叶斯定理贝叶斯定理v 贝叶斯学派奠基性的工作是贝叶斯的论文“关于几率问题求解的评论”。20世纪50年代,以罗宾斯为代表,提出了经验贝叶斯方法和经典方法相结合,引起统计界的广泛注意,这一方法很快就显示出它的优点,成为很活跃的一个方向。v 统计学中有两个主要学派:频率学派和贝叶斯学派,他们之间既有共同点,又有不同点。v 贝叶斯学派是数理统计学中的一大流派,贝叶
2、斯概率与传统概率之间最大的区别在于他们对某个事件概率的定义是不一样的v 经典概率定义一个事件的概率是确定的,并且是客观的,而贝叶斯概率认为,一个事件的概率是确定这个概率的人的主观判断,即传统概率是客观认识,而贝叶斯概率是主观判断。8.1 贝叶斯定理贝叶斯定理v 贝叶斯概率简单地说,某一事件x的贝叶斯概率是观测者对该事件发生的相信程度,观测者根据先验知识和现有的统计数据,用概率的方法来预测未知事件发生的可能性。v 贝叶斯概率不同于普通意义上的事件的客观概率,客观概率是在多次反复实验中事件发生的频率的近似值,而贝叶斯概率则是利用已有的知识对未知事件出现频率的预测(比如你会相信硬币落地出现正面的概率
3、),不需要反复做实验。v 在许多应用中,属性集和类变量之间的关系是不确定的 (尽管测试记录的属性集和某些训练样本相同) 无法确定地预测其类标号 (可能是由于噪声,或者出现了某些影响分类的因素,却没有包含在分析中)8.1 贝叶斯定理贝叶斯定理【例】考虑一个人的饮食和锻炼的频率来预测他是否患有心脏病 由于遗传、吸烟过量、酗酒等影响因素 没有考虑进去。 所以,不能确定地给出其是否患有心脏病(类标号)的判断结论:给出某一测试记录属于某一分类的概率是必要的。贝叶斯分类器贝叶斯分类器 【例】考虑两个队之间的足球比赛:队0和队1。假设65%的比赛队0胜出,剩余的比赛队1获胜。队0获胜的比赛中只有30%是在队
4、1的主场,而队1获胜的比赛中75%是主场获胜,如果下一场比赛在队1的主场进行,哪一支球队最有可能胜出?8.1 贝叶斯定理贝叶斯定理【例】两个球队比赛队0: 胜率 65% ,客场获胜率 30% 队1: 胜率 35% ,主场获胜率 75%问题:如果下一场比赛在队1 的主场进行,哪一支球队最有可能获胜?基本概念: X 、Y 是两个随机变量,则 联合概率 P(X=x , Y=y) 条件概率 P(X=x l Y=y)二者之间有关系: P(X,Y) = P(Y l X) P(X) = P(X l Y) P(Y)即:即:)()()()(XPYPYXPXYP这就是 贝叶斯定理贝叶斯定理8.1 贝叶斯定理贝叶斯
5、定理我们现在来解决前面提出的问题:设:设:变量:东道主球队变量:获胜球队、可以在,中取值则:则:队取胜的概率解:解:P(Y=1X=1) =)1()1()11(XPYPYXP)0, 1()1, 1()1()11(YXPYXPYPYXP)0()01()1()11()1()11(YPYXPYPYXPYPYXP6 . 03 . 035. 075. 035. 075. 0= 0.5738队取胜的概率队取胜时队1作为东道主的概率队作为东道主时取胜的概率P(X=1,Y=1)=0.75P(X=1,Y=0)=0.3P(Y=1)=1- P(Y=0)=0.35P(Y=0)=0.658.1 贝叶斯定理贝叶斯定理v 假
6、设X和Y是一对随机变量,X表示属性集,Y表示类变量。P(X,Y)表示他们的联合概率P(Y)称为Y的先验概率P(X)是X的先验概率P(Y|X)是后验概率,或在条件X下,Y的后验概率。P(X|Y)是条件Y下,X的后验概率v 对于分类问题,希望确定P(Y|X)给定观测数据元组X,假设X属于某特定类Y成立的概率。换言之,给定X的属性描述,找出元组X属于类Y的概率。v 贝叶斯定理:贝叶斯定理:)()()|()|(XPYPYXPXYP8.1 贝叶斯定理贝叶斯定理v 例例 预测一个贷款者是否会拖欠还款。图8.4中的训练集中有如下属性:有房、婚姻状况和年收入。若前还款的贷款者属于类Yes,还清贷款的贷款者属于
7、类No。v 假设给定一测试记录有如下属性集:X=(有房=否,婚姻状况=已婚,年收入=$120K)。v 要分类该记录,我们需要利用训练数据中的可用信息计算后验概率P(Yes|X)和P(No|X)。v 如果P(Yes|X)P(No|X),那么记录分类为Yes,反之,分类为No。 Ti Tid d 有有房房 婚姻状婚姻状况况 年收年收入入 拖欠贷拖欠贷款款 1是单身125K否2否已婚100K否3否单身70K否4是已婚120K否5否离异95 K是6否已婚60 K否7是离异220 K否8否单身85 K是9否已婚75 K否10否单身90 K是8.2 朴素贝叶斯分类朴素贝叶斯分类v 朴素贝叶斯(naive
8、Bayes):基于条件概率的贝叶斯定理提出的。通过分析每个“独立的”属性所起的作用,可以确定一个条件概率。将不同的属性对预测所起的作用组合起来就可以用于分类。 v 这种方法之所以被称为“朴素的”是因为它假设各种属性值之间是独立的。 v 对于属性集 ,因为 之间相互独立,即 nXXXX,21nXXX,21niiYXPYXP1)|()|(8.2 朴素贝叶斯分类朴素贝叶斯分类v 分类测试记录时,朴素贝叶斯分类器对每个类Y计算后验概率:v 其中P(X)是固定的常数,先验概率P(Y)可以通过训练集中每类样本所占的比例估计。只要找出使 最大的类别y即可。 v 分类法预测X的类标号为,当且仅当v 换言之,预
9、测的类标号是使 最大的类 。)()|()()|(1XPYXPYPXYPniiniiYXPYP1)|()()()|()()|(jjiiYPYXPYPYXPijmj,1)()|(iiYPYXPiY8.2 朴素贝叶斯分类朴素贝叶斯分类v 的计算视属性的性质有所不同,下面我们描述几种估计分类属性和连续属性的条件概率的方法。 v 对于分类属性 ,可以用类Y中属性值等于 的样本比例来估计条件概率 。例如,在图8.4给出的训练集中v 还清贷款的7个人中3个人有房,条件概率P(有房=是|No)等于3/7。v 拖欠还款的人中单身的条件概率P(婚姻状况=单身Yes)=2/3。 )|(YXPi(1 1)估计分类属性
10、的条件概率)估计分类属性的条件概率iXiX)|(YXPi8.2 朴素贝叶斯分类朴素贝叶斯分类v 朴素贝叶斯分类法使用两种方法估计连续属性的类条件概率:v 1、可以先把 离散化,然后计算属于类Y的训练样本落在 对应离散区间的比例估计 。离散化的方法在数据挖掘概论一章中讨论过了。估计误差由离散化方法和离散区间的数目决定。v 如果离散区间的数目太大,则就会因为每一个区间中训练记录太少而不能对 做出可靠的估计。相反,如果区间数目太小,有些区间就会含有来自不同类的记录,因此失去了正确的决策边界。(2 2)估计连续属性的条件概率)估计连续属性的条件概率iXiX)|(YXPi)|(YXPi8.2 朴素贝叶斯
11、分类朴素贝叶斯分类v 2、也可以假设 服从某种概率分布,然后用训练样本估计其中的参数。正态分布通常被用来表示连续属性的类条件概率分布。如果某个数值属性是正态分布,我们使用下式计算对每个类Y,属性X的类条件概率:(2 2)估计连续属性的条件概率)估计连续属性的条件概率)|(YXPi222)(21)|(ijijixijiiiieyYxXP其中, 是所给数值属性的均值,可以用类Y的所有训练记录关于X的样本均值 来估计。是属性的方差,可以用这些训练记录的样本方差 来估计。 x22s8.2 朴素贝叶斯分类朴素贝叶斯分类v 例例 考虑图8.4中年收入这一属性。该属性关于类No的样本均值和方差如下:(2 2
12、)估计连续属性的条件概率)估计连续属性的条件概率54.542975297517)11075()110100()110125(110775701001252222ssx给定一测试记录,应征税的收入等于120K美元,其拖欠贷款为否的类条件概率计算如下:0072. 054.5421)|120(29752)110120(2eNoKP)(收入8.2 朴素贝叶斯分类朴素贝叶斯分类v 例例 还是以图8.4中的数据集为例,预测测试记录X=(有房=否,婚姻状况=已婚,年收入=$120K)的类标号。我们可以计算每个分类属性的类条件概率,同时利用前面介绍的方法计算连续属性的样本均值和方差,然后利用这些数据计算后验概
13、率P(No|X)和P(Yes|X)。v 数据元组有三个属性:是否有房、婚姻状况和年收入。v 类标号属性拖贷款有两个不同值(即是,否)。v 希望分类的元组为X=(有房=否,婚姻状况=已婚,年收入=$120K)v 每个类的先验概率P(Y)可以根据训练元组中属于该类的记录所占的比例来估计:P(Yes)=3/10=0.3 P(No)=7/10=0.78.2 朴素贝叶斯分类朴素贝叶斯分类v 贷款分类问题的朴素贝叶斯分类器贷款分类问题的朴素贝叶斯分类器T Tidid有房有房婚姻状况婚姻状况年收入年收入拖欠贷款拖欠贷款 1 2 3 4 5 6 7 8 910 是 否 否 是 否 否 是 否 否 否 单身 已
14、婚 单身 已婚 离异 已婚 离异 单身 已婚 单身 125K 100K 70K 120K 95K 60K 220K 85K 75K 90K 否 否 否 否 是 否 否 是 否 是P(有房=是|No)=3/7P(有房=否|No)=4/7P(有房=是|Yes)=0P(有房=否|Yes)=1P(婚姻状况=单身|No)=2/7P(婚姻状况=离异|No)=1/7P(婚姻状况=已婚|No)=4/7P(婚姻状况=单身|Yes)=2/3P(婚姻状况=离异|Yes)=1/3P(婚姻状况=已婚|Yes)=0年收入:如果类=No: 样本均值=110 样本方差=2975如果类=Yes: 样本均值=90 样本方差=25
15、8.2 朴素贝叶斯分类朴素贝叶斯分类v 使用上面的概率,类条件概率计算如下:P(X|No)=P(有房=否|No)P(婚姻状况=已婚|No)P(年收入=$120K|No) =4/74/70.0072=0.0024P(X|Yes)=P(有房=否| Yes)P(婚姻状况=已婚| Yes)P(年收入=$120K|Yes) =101.210-9=0v 可得到No类的后验概率 ,其中 是个常量。同理,可以得到类Yes的后验概率等于0,因为它的类条件概率等于0。因为 ,所以对于元组X,朴素贝叶斯分类器预测元组X的类为No。0016. 00024. 07 . 0)|(XNoP)(/1XP)|()|(XYesP
16、XNoP8.2 朴素贝叶斯分类朴素贝叶斯分类v 贝叶斯技术的一个重要问题是某个属性值的计数为0。例如前面的例子,拖欠贷款的值为Yes的已婚客户的数目为0。这种情况下,这个属性的类条件概率等于0,则整个类的后验概率就等于0。v 简单地使用记录比例来估计类条件概率的方法显得太脆弱了,尤其是当训练样本很少而属性数目很大时。一种更极端的情况是,当训练集不能覆盖那么多的属性时,我们可能就无法分类某些测试记录。属性值的计数为属性值的计数为0 0问题问题8.2 朴素贝叶斯分类朴素贝叶斯分类v 拉普拉斯校准或拉普拉斯估计法:以法国数学家Pierre Laplace(17491827)的名字命名,假定训练数据库
17、D很大,使得需要的每个计数加上一个小常数k造成的估计概率的变化可以忽略不计,但可以方便地避免概率值为零。计算概率的对应条件概率变成: 属性值计数为属性值计数为0 0问题的解决问题的解决kdkpnYXPii)|(其中,k是称为等价样本大小的参数,p为属性可能值总数的等分。如果属性有两个可能值,则p为0.5。8.2 朴素贝叶斯分类朴素贝叶斯分类v 例例 在8.4例子中,条件概率P(婚姻状况=已婚| Yes)0,因为类中没有训练样例含有该属性值。使用拉普拉斯估计法,因为属性婚姻状况有3种可能值,所以k=,p=1/3,则条件概率不再是: P(婚姻状况=已婚| Yes)=(0+31/3)/(3+3)=1
18、/6v 如果假设对类Yes的所有属性p=1/3对类No的所有属性p=2/3,则P(X|No)=P(有房=否|No)P(婚姻状况=已婚|No)P(年收入=$120K|No) =6/106/100.0072=0.0026P(X|Yes)=P(有房=否| Yes)P(婚姻状况=已婚| Yes)P(年收入=$120K|Yes) =4/61/61.210-9=1.310-10类No的后验概率,而类Yes的后验概率,尽管分类结果不变,但是避免了零概率值。属性值计数为属性值计数为0 0问题的解决问题的解决0018. 00026. 07 . 0)|(XNoP1110100 . 4103 . 13 . 0)|(
19、XYesP8.2 朴素贝叶斯分类朴素贝叶斯分类v 首先它易于使用。当变量之间的关系很简单时,这种技术通常会产生很好的效果。该分类与决策树和神经网络分类法的各种比较实验表明,在某些领域,贝叶斯分类法足以它们相媲美。理论上讲,与其他所有分类算法相比,贝叶斯分类具有最小的错误率。v 贝叶斯分类器的健壮的。因为在从数据中估计条件概率时,孤立的噪声点被平均。通过在建模和分类时忽略样例,朴素贝叶斯分类器也可以处理属性值遗漏问题。如果是 无关属性,那么 几乎变成了均匀分布。 的类条件概率不会对总的后验概率的计算产生影响。朴素贝叶斯分类器的优点朴素贝叶斯分类器的优点iXiX)|(YXPi8.3 贝叶斯信念网络
20、贝叶斯信念网络v 朴素贝叶斯分类法假定类条件独立,即给定元组的类标号,假定属性的值可以有条件地相互独立。这一假定简化了计算,但似乎太严格了,在实践中,变量之间的依赖可能存在。贝叶斯信念网络说明联合条件概率分布,该方法不要求给定类的所有属性都条件独立,而是允许在变量的子集间定义类条件独立性。提供一种因果关系的图形模型,可以对其进行学习。训练后的贝叶斯信念网络可以用于分类。v 贝叶斯网络最初是由R.Howard和J.Matheson于1981年提出来的.早期的贝叶斯网络主要在专家系统中用来表述不确定的专家知识。90年代以来,贝叶斯学习一直是机器学习研究的重要方向。由于概率统计与数据挖掘的天然联系,
21、数据挖掘兴起后,贝叶斯网络日益受到重视,再次成为引人注目的热点。近两年研究者们进一步研究了直接从数据中学习并生成贝叶斯网络的方法,包括贝叶斯方法、类贝叶斯方法和非贝叶斯方法,为贝叶斯网络用于数据挖掘和知识发现开辟了道路。这些新的方法和技术还在发展之中,但是己经在一些数据建模问题中显示出令人瞩目的效果。8.3 贝叶斯信念网络贝叶斯信念网络v 贝叶斯信念网络(Bayesian Belief Networks, BBN)也称作信念网络、贝叶斯网络和概率网络,用图形表示一组随机变量之间的概率关系。贝叶斯网络主要由两个部分组成:一、贝叶斯网络的概念一、贝叶斯网络的概念v 有向无环图有向无环图 其中的每一
22、个结点代表一个随机变量;每一条弧(两个结点间连线)代表一个概率依赖。 若一条弧从结点Y到结点Z,那么Y就是Z的一个父结点,Z就是Y的一个子结点。给定父结点,每个变量有条件地独立于图中非子结点。 变量既可取离散值,也可取连续值。它们既可对应数据集中实际的变量,也可对应数据集中的“隐含变量”,以构成一个关系。(1)一个有向无环图(dag),表示变量之间的依赖关系;(2)一个条件概率表(cpt),把各结点和其直接父结点关联起来。8.3 贝叶斯信念网络贝叶斯信念网络一、贝叶斯网络的概念一、贝叶斯网络的概念性质:条件独立性质:条件独立 贝叶斯网络中的一个结点,如果它的父母结点已知,则该结点条件独立于它的
23、所有非后代结点。ABCCADByx1x2x3x4xd(a)(c)(b)图 使用有向无环图表示概率关系v 包含所有变量的条件概率表(包含所有变量的条件概率表(Conditional Probability Table, CPTConditional Probability Table, CPT) 对于一个变量Z,CPT定义了一个条件分布P ( Z|parent (Z) );其中,parent(Z)表示Z的父结点。 除了网络拓扑结构要求的条件独立性外,每个结点还关联一个概率表: (1)如果结点X没有父母结点,则表中只包含先验概率P(X); (2)如果结点X只有一个父母结点Y,则表中包含条件概率P(
24、XY) (3)如果结点X有多个父母结点Y1,Y2,,YK,则表中包含条件概率P(XY1,Y2,Yk)8.3 贝叶斯信念网络贝叶斯信念网络v 例例 贝叶斯网络的一个例子,对心脏病或心口痛患者建模。假设图中每个变量都是二值的。v 心脏病节点(HD)的父节点对应于影响该疾病的危险因素,例如锻炼(E)和饮食(D)等。v 心脏病节点的子节点对应于该病的症状,如胸痛(CP)和高血压(BP)等。v 心口痛(Hb)可能源于不健康的饮食,同时又可能导致胸痛。 一、贝叶斯网络的概念一、贝叶斯网络的概念锻炼心口痛饮食心脏病血压胸痛HD=YesE=YesD=健康 0.25E=YesD=不健康 0.45E=NoD=健康
25、 0.55E=NoD=不健康 0.75CP=YesHD=YesHb=Yes 0.8HD=YesHb=No 0.6HD=NoHb=Yes 0.4HD=NoHb=No 0.1Hb=YesD=健康 0.2D=不健康 0.85BP=高HD=Yes 0.85HD=No 0.2 E=Yes 0.7D=健康 0.25图图 发现心脏病和心口痛病人的贝叶斯网络发现心脏病和心口痛病人的贝叶斯网络8.3 贝叶斯信念网络贝叶斯信念网络v 锻炼、饮食等影响疾病的因素对应的节点只包含先验概率,而心脏病、心口痛以及它们的相应症状所对应的节点都包含条件概率。因为空间有限,图中并没有将全部的概率都列举出来,其中 , 中的 表示
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 本科 统计 方法 贝叶斯 网络 教学 ppt 课件
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内