贝叶斯分类ppt课件.pptx
《贝叶斯分类ppt课件.pptx》由会员分享,可在线阅读,更多相关《贝叶斯分类ppt课件.pptx(70页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据挖掘分类之贝叶斯分类目录贝叶斯网络贝叶斯网络 2贝叶斯分类贝叶斯分类 1总结总结 4基于基于weka的贝叶斯仿真的贝叶斯仿真 3致谢致谢 51.1分类的基本概念1.2贝叶斯分类概述1.贝叶斯分类1.1分类的基本概念 近几十年来,Internet互联网的普及使得人们获得和存储数据的能力得到逐步的提高,数据规模不断壮大。面对“数据丰富而知识匮乏”的挑战,数据挖掘技术应运而生。数据挖掘是一门多学科的交叉领域,涉及统计学,机器学习、神经网络、模式识别、知识库系统、信息检索、高性能计算和可视化等学科。而数据挖掘中的分类技术是一项非常重要的技术。Q1 什么是分类 超市中的物品分类 生活中的垃圾分类Q1
2、 什么是分类 生活信息的分类由此可见,分类是跟我们的生活息息相关的东西,分类让生活更加有条理,更加精彩.Q1 什么是分类 分类就是把一些新的数据项映射到给定类别的中的某一个类别,比如说当我们发表一篇文章的时候,就可以自动的把这篇文章划分到某一个文章类别。 分类也称为有监督学习(supervised learning),与之相对于的是无监督学习(unsupervised learning),比如聚类。 分类与聚类的最大区别在于,分类数据中的一部分的类别是已知的,而聚类数据的类别未知。 Q2 分类问题名称胎生 会飞水中生活有腿类别Human是否否是哺乳动物python否否否否非哺乳动物salmon
3、否否是否非哺乳动物whale是否是否哺乳动物frog否否有时是非哺乳动物komodo否否否是非哺乳动物bat是是否是哺乳动物pigeon否是否是非哺乳动物cat是否否是哺乳动物leopard_shark 是否是否非哺乳动物turtle否否有时是非哺乳动物penguin否否有时是非哺乳动物porcupine是否否是哺乳动物eel否否是否非哺乳动物salamander否否有时是非哺乳动物gila_monster否否否是非哺乳动物platypus否否否是哺乳动物owl否是否是非哺乳动物dolphin是否是否哺乳动物eagle否是否是非哺乳动物胎生会飞水中生活有腿类别是否是否?Q2 分类问题税号去年退
4、税婚姻状况可征税收入逃税1是单身125k否2否婚姻中100k否3否单身70k否4是婚姻中120k否5否离婚95k是6否婚姻中60k否7是离婚220k否8否单身85k是9否婚姻中75k否10否单身90k是(,120K)X 对于去年退税否 婚姻状况婚姻中可征税收入Q2 分类的流程 动物种动物种类类体型体型翅膀数翅膀数量量脚的只数脚的只数是否产是否产蛋蛋是否有毛是否有毛类别类别狗中04否是哺乳动物猪大04否是哺乳动物牛大04否是哺乳动物麻雀小22是是鸟类天鹅中22是是鸟类大雁中22是是鸟类动物A大02是无?动物B中22否是?根据现有的知识,我们得到了一些根据现有的知识,我们得到了一些关于关于哺乳哺乳
5、动物动物和鸟类的信息,和鸟类的信息,我们能否对新发现的物种,比如动物我们能否对新发现的物种,比如动物A,动物,动物B进行分类?进行分类?动物种动物种类类体型体型翅膀数量翅膀数量脚的只数脚的只数是否产是否产蛋蛋是否有毛是否有毛类别类别狗中04否是哺乳动物猪大04否是哺乳动物牛大04否是哺乳动物麻雀小22是是鸟类天鹅中22是是鸟类大雁中22是是鸟类 步骤一:将样本转化为等维的数据特征(特征提取)。 所有样本必须具有相同数量的特征 兼顾特征的全面性和独立性Q2 分类的流程动物种动物种类类体型体型翅膀数量翅膀数量脚的只数脚的只数是否产是否产蛋蛋是否有毛是否有毛类别类别狗中0 04 4否否是哺乳动物猪大
6、0 04 4否否是哺乳动物牛大0 04 4否否是哺乳动物麻雀小2 22 2是是是鸟类天鹅中2 22 2是是是鸟类大雁中2 22 2是是是鸟类 步骤二:选择与类别相关的特征(特征选择)。 比如,绿色代表与类别非常相关,黑色代表部分相关,浅蓝色代表完全无关Q2 分类的流程 步骤三:建立分类模型或分类器(分类)。 分类器通常可以看作一个函数,它把特征映射到类的空间上iiniiiyxxxxf),.,(321Q2 分类的流程Q3 分类的方法 对数据挖掘中心的可信技术分类算法的内容及其研究现状进行综述。认为分类算法大体可以分为传统分类算法传统分类算法和基于软件计算基于软件计算的分类法两类,主要包括相似函数
7、,关联规则分类算法,K近邻分类算法,决策树分类算法,贝叶斯分类算法和基于模糊逻辑,遗传算法,粗糙集和神经网络的分类算法。 分类的算法有很多种,他们都有各自的优缺点和应用范围,本次我就贝叶斯分类算法展开我的演讲。1.2 贝叶斯分类概述 贝叶斯分类基于贝叶斯定理,贝叶斯定理是由18世纪概率论和决策论的早起研究者Thomas Bayes发明的,故用其名字命名为贝叶斯定理。 分类算法的比较研究发现,一种称为朴素贝叶斯分类法的简单贝叶斯分类法可以与决策树和经过挑选的神经网络分类器相媲美。用于大型数据库,贝叶斯分类法也已表现出高准确率和高速度。 目前研究较多的贝叶斯分类器主要有四种,分别是:Naive B
8、ayes、TAN、BAN和GBN。Thomas Bayes贝叶斯定理 贝叶斯定理贝叶斯定理(Bayes theorem)是概率论中的一个结果,它跟随机变量的条件概率以及边缘概率分布有关。在有些关于概率的解说中,贝叶斯定理能够告知我们如何利用新证据修改已有的看法。 通常,事件A在事件B(发生)的条件下的概率,与事件B在事件A的条件下的概率是不一样的;然而,这两者是有确定的关系,贝叶斯定理就是这种关系的陈述。 贝叶斯公式提供了从先验概率P(A)、P(B)和P(B|A)计算后验概率P(A|B)的方法:P(A|B)=P(B|A)*P(A)/P(B) ,P(A|B)随着P(A)和P(B|A)的增长而增长
9、,随着P(B)的增长而减少,即如果B独立于A时被观察到的可能性越大,那么B对A的支持度越小。 贝叶斯公式贝叶斯法则 机器学习的任务:在给定训练数据D时,确定假设空间H中的最佳假设。 最佳假设:一种方法是把它定义为在给定数据D以及H中不同假设的先验概率的有关知识下的最可能假设最可能假设。贝叶斯理论提供了一种计算假设概率的方法,基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身。贝叶斯分类的原理 贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。也就是说,贝叶斯分类器是最小错误率意
10、义上的优化。根据贝叶斯定理:根据贝叶斯定理: 由于由于P(X)对于所有类为对于所有类为常数常数,只需要,只需要P(X|H)*P(H)最大即可。最大即可。)()()|()()()|(XPHPHXPXPXHPXHP 朴素贝叶斯 朴素贝叶斯分类是一种十分简单的分类算法,叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素,朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。 通俗来说,就好比这么个道理,你在街上看到一个黑人,我问你你猜这哥们哪里来的,你十有八九猜非洲。为什么呢?因为黑人中非洲人的比率最高,当然人家也可能是美洲
11、人或亚洲人,但在没有其它可用信息下,我们会选择条件概率最大的类别,这就是朴素贝叶斯的思想基础。 概率最大 第一阶段第一阶段准备工作阶段准备工作阶段,这个阶段的任务是为朴素贝叶斯分类做必要的准备,主要工作是根据具体情况确定特征属性,并对每个特征属性进行适当划分,然后由人工对一部分待分类项进行分类,形成训练样本集合。这一阶段的输入是所有待分类数据,输出是特征属性和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段,其质量对整个过程将有重要影响,分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。 第二阶段第二阶段分类器训练阶段分类器训练阶段,这个阶段的任务就是生成分类器,
12、主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计,并将结果记录。其输入是特征属性和训练样本,输出是分类器。这一阶段是机械性阶段,根据前面讨论的公式可以由程序自动计算完成。 第三阶段第三阶段应用阶段应用阶段。这个阶段的任务是使用分类器对待分类项进行分类,其输入是分类器和待分类项,输出是待分类项与类别的映射关系。这一阶段也是机械性阶段,由程序完成。 朴素贝叶斯分类实例检测检测SNS社区中不真实账号社区中不真实账号 下面讨论一个使用朴素贝叶斯分类解决实际问题的例子。 这个问题是这样的,对于SNS社区来说,不真实账号(使用虚假身份或用户的小号)是一个普遍存在的问题
13、,作为SNS社区的运营商,希望可以检测出这些不真实账号,从而在一些运营分析报告中避免这些账号的干扰,亦可以加强对SNS社区的了解与监管。 如果通过纯人工检测,需要耗费大量的人力,效率也十分低下,如能引入自动检测机制,必将大大提升工作效率。这个问题说白了,就是要将社区中所有账号在真实账号和不真实账号两个类别上进行分类。 下面我们一步一步实现这个过程。 首先设C=0表示真实账号,C=1表示不真实账号。 1、确定特征属性及划分、确定特征属性及划分 这一步要找出可以帮助我们区分真实账号与不真实账号的特征属性,在实际应用中,特征属性的数量是很多的,划分也会比较细致,但这里为了简单起见,我们用少量的特征属
14、性以及较粗的划分,并对数据做了修改。 我们选择三个特征属性:a1:日志数量/注册天数 a2:好友数量/注册天数 a3:是否使用真实头像 在SNS社区中这三项都是可以直接从数据库里得到或计算出来的。 下面给出划分:a1:a=0.05, 0.05a=0.2 a2:a=0.1, 0.1a=0.8 a3:a=0(不是),a=1(是) 2、获取训练样本、获取训练样本 这里使用运维人员曾经人工检测过的1万个账号作为训练样本。 3、计算训练样本中每个类别的频率、计算训练样本中每个类别的频率 用训练样本中真实账号和不真实账号数量分别除以一万,得到: P(C = 0) = 8900/10000 = 0.89P(
15、C = 1) = 1100/10000 = 0.11 4、计算每个类别条件下各个特征属性划分的频率、计算每个类别条件下各个特征属性划分的频率P(a1=0.05| C = 0) = 0.3 P(a1=0.05| C = 1) = 0.8 P(0.05a10.2|C = 0) = 0.5 P(0.05a10.2| C = 0) = 0.2 P(a10.2| C = 1) = 0.1P(a2=0.1| C = 0) = 0.1 P(a2=0.1| C = 1) = 0.7P(0.1a20.8 | C=0) = 0.7 P(0.1a20.8| C = 0) = 0.2 P(a20.8| C = 0)
16、= 0.1P(a3 = 0|C = 0) = 0.2 P(a3 = 1|C = 0) = 0.8 P(a3 = 0|C = 1) = 0.9 P(a3 = 1|C = 1) = 0.1 5、使用分类器进行鉴别、使用分类器进行鉴别 下面我们使用上面训练得到的分类器鉴别一个账号,属性如下 a1:日志数量与注册天数的比率为0.1 a2 :好友数与注册天数的比率为 0.2 a3:不使用真实头像 (a = 0) P(C = 0)P( x|C = 0)= P(C = 0) P(0.05a10.2|C = 0)P(0.1a20.8|C = 0)P(a3=0|C = 0)= 0.89*0.5*0.7*0.2=
17、 0.0623 P(C = 1)P( x|C = 1)= P(C = 1) P(0.05a10.2|C = 1)P(0.1a20.8|C = 1)P(a3=0|C = 1)= 0.11*0.1*0.2*0.9= 0.00198 可以看到,虽然这个用户没有使用真实头像,但是通过分类器的鉴别,可以看到,虽然这个用户没有使用真实头像,但是通过分类器的鉴别,更倾向于将此账号归入真实账号类别。更倾向于将此账号归入真实账号类别。 朴素贝叶斯模型朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以 及稳定的分类效率。同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。理论上,NBC模
18、型与其他分类方法相比具有最小的误差率。但是朴素贝叶斯分类有一个限制条件,就是特征属性必须有条件独立或基本独立(实际上在现实应用中几乎不可能做到完全独立)。当这个条件成立时,朴素贝叶斯分类法的准确率是最高的,但不幸的是,现实中各个特征属性间往往并不条件独立,而是具有较强的相关性,这样就限制了朴素贝叶斯分类的能力。于是诞生了一种更高级、应用范围更广的贝叶斯网络贝叶斯网络。2.1贝叶斯网络概述2.2贝叶斯网络学习2.贝叶斯网络2.3贝叶斯网络应用 在上一篇文章中我们讨论了朴素贝叶斯分类。 这一篇文章中,我们接着上一篇文章的例子,讨论贝叶斯分类中更高级、应用范围更广的一种算法贝叶斯网络(又称贝叶斯信念
19、网络或信念网络)。复杂的网络2.1贝叶斯网络概述 上一篇文章我们使用朴素贝叶斯分类实现了SNS社区中不真实账号的检测。在那个解决方案中,我做了如下假设: i、真实账号比非真实账号平均具有更大的日志密度、各大的好友密度以及更多的使用真实头像。 ii、日志密度、好友密度和是否使用真实头像在账号真实性给定的条件下是独立的。 但是,上述第二条假设很可能并不成立。一般来说,好友密度除了与账号是否真实有关,还与是否有真实头像有关,因为真实的头像会吸引更多人加其为好友。因此,我们为了获取更准确的分类,可以将假设修改如下: i、真实账号比非真实账号平均具有更大的日志密度、各大的好友密度以及更多的使用真实头像。
20、 ii、日志密度与好友密度、日志密度与是否使用真实头像在账号真实性给定的条件下是独立的。 iii、使用真实头像的用户比使用非真实头像的用户平均有更大的好友密度。上述假设更接近实际情况,但问题随之也来了,由于特征属性间存在依赖关系,使得朴素贝叶斯分类不适用了。既然这样,我去寻找另外的解决方案。 下图表示特征属性之间的关联:左图是一个有向无环图,其中每个节点代表一个随机变量,而弧则表示两个随机变量之间的联系,表示指向结点影响被指向结点。不过仅有这个图的话,只能定性给出随机变量间的关系,如果要定量,还需要一些数据,这些数据就是每个节点对其直接前驱节点的条件概率,而没有前驱节点的节点则使用先验概率表示
21、。 例如,通过对训练数据集的统计,得到下表(R表示账号真实性,H表示头像真实性): 纵向表头表示条件变量,横向表头表示随机变量。第一张表为真实账号和非真实账号的概率,而第二张表为头像真实性对于账号真实性的概率。这两张表分别为“账号是否真实”和“头像是否真实”的条件概率表。有了这些数据,不但能顺向推断,还能通过贝叶斯定理进行逆向推断。例如,现随机抽取一个账户,已知其头像为假,求其账号也为假的概率: 也就是说,在仅知道头像为假的情况下,有大约35.7%的概率此账户也为假。 如果给出所有节点的条件概率表,则可以在观察值不完备的情况下对任意随机变量进行统计推断。上述方法就是使用了贝叶斯网络。贝叶斯网络
22、的简介简介 贝叶斯网络是一种概率网络,它是基于概率推理的图形化网络,而贝叶斯公式则是这个概率网络的基础。贝叶斯网络是基于概率推理的数学模型,所谓概率推理就是通过一些变量的信息来获取其他的概率信息的过程,基于概率推理的贝叶斯网络(Bayesian network)是为了解决不定性和不完整性问题而提出的,它对于解决复杂设备不确定性和关联性引起的故障有很的优势,在多个领域中获得广泛应用。 贝叶斯网络又称信度网络,是Bayes方法的扩展,目前不确定知识表达和推理领域最有效的理论模型之一。从1988年提出后,已经成为近几年来研究的热点.。贝叶斯网络的定义贝叶斯网络是一个二元组,即BN=(G,P), G=
23、(V,E),为有向无圈图(Directed Acyclic Graph) ,其中V为节点集合,与领域的随机变量一一对应,E为有向边集,反映节点变量之间的因果依赖关系;P为节点的概率分布,表示节点之间因果影响强度从定性和定量两个角度来理解在定性层面:贝叶斯网络是一个有向无圈图,其中的节点代表随机变量,节点之间的边代表变量之间的直接依赖关系;在定量层面:每个节点都有一个条件概率表(Conditional Probability Table) P(Xi|Parents(Xi) ,刻画了父变量对子变量的影响程度。12(,)nXXXX=K 贝叶斯网络示例(1)贝叶斯网络示例(2)贝叶斯网络又名:信念网(
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 贝叶斯 分类 ppt 课件
限制150内