(6.1)--第四章贝叶斯分类器.pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《(6.1)--第四章贝叶斯分类器.pdf》由会员分享,可在线阅读,更多相关《(6.1)--第四章贝叶斯分类器.pdf(79页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第四章:贝叶斯分类器 问题的提出 KNN?决策树?概率方法?贝叶斯 贝叶斯(约1701-1761)Thomas Bayes,英国数学家。约1701年出生于伦敦,做过神甫。1742年成为英国皇家学会会员。1761年4月7日逝世。贝叶斯在数学方面主要研究概率论。他首先将归纳推理法用于概率论基础理论,并创立了贝叶斯统计理论,对于统计决策函数、统计推断、统计的估算等做出了贡献。他死后,理查德 普莱斯(Richard Price)于1763年将他的著作机会问题的解法(An essay towards solving a problem in the doctrine of chances)寄给了英国皇家
2、学会,对于现代概率论和数理统计产生了重要的影响 贝叶斯决策就是在不完全情报下,对部分未知的状态用主观概率估计,然后用贝叶斯公式对发生概率进行修正,最后再利用期望值和修正概率做出最优决策。贝叶斯决策理论方法是统计模型决策中的一个基本方法,其基本思想是:1、已知类条件概率密度参数表达式和先验概率。2、利用贝叶斯公式转换成后验概率。3、根据后验概率大小进行决策分类。贝叶斯 最早的PathFinder系统,该系统是淋巴疾病诊断的医学系统,它可以诊断60多种疾病,涉及100多种症状;后来发展起来的Internist I系统,也是一种医学诊断系统,但它可以诊断多达600多种常见的疾病。1995年,微软推出
3、了第一个基于贝叶斯网的专家系统,一个用于幼儿保健的网站OnParent(),使父母们可以自行诊断。贝叶斯网络的应用 (1)故障诊断(diagnose)(2)专家系统(expert system)(3)规划(planning)(4)学习(learning)(5)分类(classifying)贝叶斯网络的应用 分划个一的间空本样为称则若件事组一的为间空本样的验试为设义定LUUL ULL B BBBBBB Bi jnEEB BBnnijn,.2,1,1,2,;,12120012样本空间的划分样本空间的划分 B1B2B3BnLBn 1概率(回顾)全概率公式 则且分划个一的为件事的为间空本样的验试为 设
4、义定LLLP B P A BP A B P BP AP A B P BP A B P BinB BBP BEAEiinnnni()(|)(|)()()(|)()(|)()(1,2,),()0,1112212概率(回顾)训练数据集:由X和Y的联合概率分布P(X,Y)独立同分布产生 朴素贝叶斯通过训练数据集学习联合概率分布P(X,Y),即先验概率分布:及条件概率分布:注意:条件概率为指数级别的参数:基本方法 条件独立性假设:“朴素”贝叶斯名字由来,牺牲分类准确性。贝叶斯定理:代入上式:基本方法 贝叶斯分类器:分母对所有ck都相同:基本方法 朴素贝叶斯法将实例分到后验概率最大的类中,等价于期望风险最
5、小化,假设选择0-1损失函数:f(X)为决策函数 期望风险函数:取条件期望:后验概率最大化的含义:只需对X=x逐个极小化,得:推导出后验概率最大化准则:后验概率最大化的含义:应用极大似然估计法估计相应的概率:先验概率P(Y=ck)的极大似然估计是:设第j个特征x(j)可能取值的集合为:条件概率的极大似然估计:朴素贝叶斯法的参数估 学习与分类算法Na ve Bayes Algorithm:输入:训练数据集 第i个样本的第j个特征 第j个特征可能取的第l个值 输出:x的分类 朴素贝叶斯法的参数估 步骤 1、计算先验概率和条件概率 朴素贝叶斯法的参数估 步骤 2、对于给定的实例 计算 3、确定x的类
6、别 朴素贝叶斯法的参数估 例子 测试 例子 例子 考虑:用极大似然估计可能会出现所要估计的概率值为0的情况,这时会影响到后 验概率的计算结果,使分类产生偏差.解决这一问题的方法是采用贝叶斯估计。条件概率的贝叶斯估计:先验概率的贝叶斯估计:贝叶斯估计 考虑几个问题:1、如果属性之间不相互独立?2、如果属性A和属性B都很重要,但是相关?3、如果属性A,属性B之间独立,但是在属性C下有关?4、属性之间的条件概率究竟有多少个?5、条件概率谬论?朴素贝叶斯网络的缺陷 条件概率的谬论 假设 P(A|B)大致等于 P(B|A)例子:P(disease)=1%=0.01 P(well)=99%=0.99 P(
7、negative|disease)=1%P(positive|disease)=99%P(positive|well)=1%P(negative|well)=99%?P(disease|positive)=?Problem:if P(d)=0.1%,P(d|P)=?贝叶斯分类器 阻塞:一条路径被结点集 F 阻塞,是指在路径上存在一个结点 Z 满足下面三种情形之一:(1)Z F,并且路径中有一条有向弧指向 Z,另一条有向弧源自 Z;(2)Z F,并且路径中有两条有向弧源自 Z;(3)Z 及 Z 的所有后继结点都不在 F 中,并且路径中有两条有向弧指Z。信息论相关概念 阻塞:X=X2和Y=X3被Z
8、=X1所分割。路径X2X1 X3被X1 Z阻塞;同时路径X2 X4 X3也被阻塞,因为X4及它的所有子孙都不在Z中。因此成立d(X2,X1,X3)。然而,X和Y没有被Z=X1,X5所d分割,因为路径X2 X4 X3由于X5的作用而成为活跃,X5在Z 中,是X4的子孙 信息论相关概念 d-separation:令 X,Y 和 Z 是一个有向无环图 G 中三个不相交节点的子集,如果在集合 X 和 Y 中所有节点间的所有路径都被集合 Z 所阻塞,则称集合 X 和 Y 被 Z 集合 d-separation,表示为G,也称 Z为 A 和 B 的切割集。否则,称在给定集合 Z 下集合 X 和 Y 图形依
9、赖。I-map:假设 G 是以随机变量 Y1,Y2,Yn 为节点的一个有向无环图,P 是随机变量 Y1,Y2,Yn的联合概率函数,如果从图 G 中得到的每一个独立性假设(Yi在给定其父母节点变量的情况下独立于它的非后代节点)在联合概率 P 的计算中都成立,则称 G 是该概率分布 P 的一个独立映射(Independence-map,I-map)。信息论相关概念 朴素贝叶斯网络分类器 半朴素贝叶斯分类器(SNBC:Semi-Naive Bayesian Classifier)选择贝叶斯分类器(SBC:Selective Bayesian Classifier)树增广朴素贝叶斯网络分类器(TAN:
10、Tree Augmented Naive Bayes)平均一依赖估测器(AODE:averaged one dependence estimators)学习算法 加权平均的一依赖估测器(WAODE:weightily averaged one dependence estimators)学习算法 无约束贝叶斯网络分类器(GBN:General Baynes Network)隐藏扩展的朴素贝叶斯分类算法(HANB)朴素贝叶斯网络分类器的改进算法 SNBC:Semi-Naive Bayesian Classifier),SNBC在模型构建过程中,依照一定的标准将关联程度较大的特征属性合并在一起组合
11、成新属性。SNBC的各个组合属性之间相对于类别属性也是相互独立。SNBC除了结构上的差别之外,计算推导过程与朴素贝叶斯相同。半朴素贝叶斯网络分类器 SBC:Selective Bayesian Classifier)SBC设计目标是为了提高朴素贝叶斯在属性冗余情况下的分类精度。SBC只使用属性集的子集作为决策过程中的属性结点,即选择贝叶斯分类器选择初始特征的子集作为属性结点。SBC通过搜索特征空间,去掉特征间具有较强依赖关系的属性。前向(空集到全集),后向(全集到空集)可能的搜索子集2m 选择贝叶斯分类器 属性的相互独立性?如何测量?信息论相关概念 设有随机变量(X,Y),其联合概率分布为:条
12、件熵H(Y|X):表示在己知随机变量X的条件下随机变量Y的不确定性,定义为X给定条件下Y的条件概率分布的熵对X的数学期望:信息增益(回顾)定义(信息增益):特征A对训练数据集D的信息增益,g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差,即 g(D,A)=H(D)-H(D|A)(Information gain)表示得知特征X的信息而使得类Y的信息的不确定性减少的程度.般地,熵H(Y)与条件熵H(Y|X)之差称为互信息(mutual information)决策树学习中的信息增益等价于训练数据集中类与特征的互信息.信息增益(回顾)设信源X为离散随机变量
13、,则用来度量X的不确定性的信息熵H(X)为 设(X,Y)均为离散随机变量,用来度量二元随机变量的不确定性联合信息熵H(X,Y)为 信息论相关概念 条件信息熵H(X|Y)用来度量在收到随机变量Y 提供的信息后,随机变量X仍然存在的不确定性 互信息I(X;Y)用来描述随机变量Y 提供的关于X的信息量的大小。信息论相关概念 在已知Y 的前提下,随机变量X和Z之间的条件互信息定义为 信息论相关概念 条件独立:对概率模式 M,A,B 和 C 是 U 的三个互不相交的变量子集,如果对 x A,y B和 z C都有 p(x|y,z)=p(x|z),其中 p(y,z)0,称给定 C 时 A 和 B 条件独立,
14、记为 I(A,C,B)M。或:p(x,y|z)=p(x|z)p(y|z)信息论相关概念 贝叶斯网络是由图论和概率论结合而成的描述多元统计关系的模型,它为多个变量之间复杂依赖关系的表示提供了统一的框架,具有紧凑有效、简洁直观的特点。由于贝叶斯网络对大规模复杂系统简约而紧凑的表示能力,使得其成为人工智能、专家系统、模式识别、数据挖掘和软件测试等领域的研究热点。贝叶斯网络基本模型 父节点pa(Vi)子节点ch(Vi)邻居节点nb(Vi)祖先an(vi)有向环 有向无环(directed acyclic Graph)BN二元组 贝叶斯网络基本模型 贝叶斯网络基本模型 N个变量的BN,变量xi有ri个取
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 6.1 第四 章贝叶斯 分类
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内