贝叶斯分类(数据挖掘)知识分享.ppt
《贝叶斯分类(数据挖掘)知识分享.ppt》由会员分享,可在线阅读,更多相关《贝叶斯分类(数据挖掘)知识分享.ppt(14页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、贝叶斯分类(数据挖掘)Bayesian Theorem:Basicsn设 X是类标号未知的数据样本。n设H为某种假设,如数据样本X属于某特定的类C。n对于分类问题,我们希望确定P(X|H),即给定观测数据样本X,假定H成立的概率。贝叶斯定理给出了如下计算P(X|H)的简单有效的方法:nP(H):先验概率,或称H的先验概率。nP(X/H):代表假设H成立情况下,观察到X的概率。nP(H/X):后验概率,或称条件X下H的后验概率。贝叶斯基本理论的例子:假设数据样本由水果组成,用它们的颜色和形状来描述。并做如下假设:X:表示假设红色和圆形的。H:表示假设X是苹果。则:P(H/X)反映当我们看到X是红
2、色并且是圆形的时候,我们对X是苹果的确信程度。从直观上看,P(H/X)随着P(H)和 P(H/X)的增长而增长,同时也可以看出P(H/X)随P(X)的增加而减小。这是很合理的,因为如果X独立于H时被观察到的可能性越大,那么X对H的支持度越小。理论上讲,与其所有分类算法相比,贝叶斯分类具有最小的出错率。然而,实践中并非如此。这是由于对其应用的假设的不准确,以及缺乏可用的概率数据造成的。研究结果表明,贝叶斯分类器对两种数据具有较好的分类效果:1.完全独立的数据。2.函数依赖的数据。Nave Bayes Classificationn朴素贝叶斯分类的工作过程如下:(1).每个数据样本用一个n维的特征
3、向量 表示,分别描述对n个属性 样本的n个度量。(2).假定m个类 ,给定一个未知的数据样本X,分类器将预测X属于具有最高后验概率的类。也就是说,朴素贝叶斯分类将未知的样本分配给类 ,当且仅当:,其中 这样,最大化 ,其 最大的类 称为最大后验假定。根据贝叶斯定理:(3).由于P(X)对于所有类为常数,只需要 最大即可。如果 类的先验概率未知,则通常假定这些类是等概率的,即 。因此问题就转换为对 的最大化。(常被称为给定 时数据X的似然度,而使 最大的假设 称为最大似然假设)。否则,需要最大化 。注意:类的先验概率可以用 计算,其中 是类 中的训练样本数,而s是训练样本总数。(4).给定具有许
4、多属性的数据集,计算 的开销可能非常大。为降低计算 的开销,可以做类条件独立的朴素假定。给定样本的类标号,假定属性值相互独立,即在属性间,不存在依赖关系。这样:其中概率 可以由训练样本估值。如果 是离散属性,则 ,其中 是在属性 上的具有值 的类 的训练样本数,而 是 中的训练样本数。如果 是连续值属性,则通常假定该属性服从高斯分布,因而:是高斯分布函数。分别为平均值和标准差。(5).对于未知样本 X 分类,也就是对每个类 ,计算 。样本 X 被指派到类 ,当且仅当:换言之,X被指派到其 最大的类。上面的五部就是朴素贝叶斯方法的主要思想,下面用一个具体的例子来说明具体的只用过程。RIDagei
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 贝叶斯 分类 数据 挖掘 知识 分享
限制150内