《5 贝叶斯分类.ppt》由会员分享,可在线阅读,更多相关《5 贝叶斯分类.ppt(55页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、5 贝叶斯分类贝叶斯分类确定事件:概念是确定的,发生也是确定的;随机事件:概念是确定的,发生是随机事件:概念是确定的,发生是不确定的;不确定的;模糊事件:概念本身就不确定。5 贝叶斯分类贝叶斯分类随机变量:随机事件的数量表示;离散随机变量:取值为离散的随离散随机变量:取值为离散的随机变量机变量;连续随机变量:取值为连续的随机变量;5 贝叶斯分类贝叶斯分类频率:试验在相同的条件下重复N次,其中M次事件A发生,则A发生的频率为:fN(A)=M/N;概率:当N很大时,频率会趋向一个稳定值,称为A的概率:5 贝叶斯分类贝叶斯分类联合概率联合概率:设A,B是两个随机事件,A和B同时发生的概率称为联合概率
2、,记为:P(A B);条件概率条件概率:在B事件发生的条件下,A事件发生的概率称为条件概率,记为:P(A|B);乘法定理乘法定理:P(A|B)=P(AB)/P(B)。5 贝叶斯分类贝叶斯分类概率分布函数概率分布函数:设X为连续型随机变量,定义分布函数;F(x)=P(Xx);概率密度函数:概率密度函数:给定X是随机变量,如果存在一个非负函数f(x),使得对任意实数a,b(a P(C2|X),则实例X属于C1,否则属于C2。简单的说,就是去计算在X出现的情况下,X属于哪种类别的概率更高属于哪种类别的概率更高。如何计算P(Ci|X)?5 贝叶斯分类贝叶斯分类假设有n个类别C1,C2.Cn,给定一个实
3、例的特征向量w,则此实例属于类Ci的概率为P(Ci)的计算:将训练样本中属于类Ci的实例数量除以训练样本数量即P(Ci),例如动物图片识别中,假设有100个训练实例,其中有15张为猫,则P(猫)=15/100=0.15P(w)的计算:因为利用贝叶斯进行分类时,我们只要比较概率的大小即可,而P(w)对于所有的类别都是一样的,因此无须计算5 贝叶斯分类贝叶斯分类假设有n个类别C1,C2.Cn,给定一个实例的特征向量w,则此实例属于类Ci的概率为P(w|Ci)的计算:w是特征向量,若将其展开,则可将P(w|Ci)写作P(w0,w1,w2.wn|Ci)朴素贝叶斯假设实例的各个属性互相独立,互不影响,朴
4、素贝叶斯假设实例的各个属性互相独立,互不影响,因此,上式等价于P(w0|Ci)P(w1|Ci)P(w2|Ci).P(wn|Ci)5 贝叶斯分类贝叶斯分类假设有n个类别C1,C2.Cn,给定一个实例的特征向量w,则此实例属于类Ci的概率为P(w|Ci)的计算:P(w|Ci)=P(w0|Ci)P(w1|Ci)P(w2|Ci).P(wn|Ci)假设一个实例的特征向量为(有四条腿,会飞),即w0=有四条腿,w1为会飞,共有三个类别分别是鸟、狗、鱼,则P(w0|C0)=P(有四条腿|鸟)=训练样本中有四条腿的鸟(实例)的数量,除以样本中鸟(实例)的数量P(w1|C0)=P(会飞|鸟)=训练样本中会飞的鸟
5、(实例)的数量,除以样本中鸟(实例)的数量P(w0,w1|C0)=P(w0|C0)*P(w1|C0)P(有四条腿,会飞|鸟)=P(有四条腿|鸟)*P(会飞|鸟)5 贝叶斯分类贝叶斯分类朴素贝叶斯假设所所有有属属性性之之间间都是互互相相独独立立的的,这也正是算法名称中“朴素(naive)”一词的由来但现实中属属性性之之间间往往往往存存在在依依赖赖,但有意思的是,即使是在朴素贝叶斯算法的独立性假设明显不成立的情况下,它也仍然能得到非常好的分类结果C4.5k-MeansSVMAprioriEMPageRankAdaBoostkNNNave BayesCART十大数据挖掘算法之一5 贝叶斯分类贝叶斯分
6、类年龄年龄收入收入学生学生信用信用买了电脑买了电脑30高否一般否40中等否一般是40低是一般是40低是好否30-40低是好是30中否一般否40中是一般是40中否好否共14个训练实例。共两个类别,“会买电脑”和不会买电脑。每个训练实例有4个属性。待分类实例:待分类实例:(年龄年龄30,收入中等,是学生,信用一般收入中等,是学生,信用一般)他会买电脑吗?5 贝叶斯分类贝叶斯分类年龄年龄收入收入学生学生信用信用买了电脑买了电脑30高否一般否40中等否一般是40低是一般是40低是好否30-40低是好是30中否一般否40中是一般是40中否好否计算P(Ci)本例中C0为未买电脑,C1为买了电脑P(未买电脑
7、)=P(买了电脑)=5/14=0.3579/14=0.643P(w)不用算5 贝叶斯分类贝叶斯分类年龄年龄收入收入学生学生信用信用买了电脑买了电脑30高否一般否40中等否一般是40低是一般是40低是好否30-40低是好是30中否一般否40中是一般是40中否好否计算P(w|未买电脑)w=(年龄年龄30,收入中等,是学生,信用一般收入中等,是学生,信用一般)P(w|Ci)=P(w0|Ci)*P(w1|Ci)*P(w2|Ci)*P(w3|Ci)P(年龄30|未买电脑)=3/5=0.600P(收入中等|未买电脑)=2/5=0.400P(是学生|未买电脑)=1/5=0.200P(信用一般|未买电脑)=2
8、/5=0.400 P(w|未买电脑)=P(w|C0)P(C0)=P(w|未买电脑)*P(未买电脑)=0.019*0.357=0.0070.6*0.4*0.2*0.4=0.0195 贝叶斯分类贝叶斯分类年龄年龄收入收入学生学生信用信用买了电脑买了电脑30高否一般否40中等否一般是40低是一般是40低是好否30-40低是好是30中否一般否40中是一般是40中否好否计算P(w|买了电脑)w=(年龄年龄30,收入中等,是学生,信用一般收入中等,是学生,信用一般)P(w|Ci)=P(w0|Ci)*P(w1|Ci)*P(w2|Ci)*P(w3|Ci)P(年龄30|买了电脑)=2/9=0.222P(收入中等
9、|买了电脑)=4/9=0.444P(是学生|买了电脑)=6/9=0.667P(信用一般|买了电脑)=6/9=0.667 P(w|买了电脑)=P(w|C1)*P(C1)=P(w|买了电脑)*P(买了电脑)=0.044*0.643=0.0280.222*0.444*0.667*0.667=0.0445 贝叶斯分类贝叶斯分类年龄年龄收入收入学生学生信用信用买了电脑买了电脑30高否一般否40中等否一般是40低是一般是40低是好否30-40低是好是30中否一般否40中是一般是40中否好否 P(w|C0)*P(C0)=P(w|未买电脑)*P(未买电脑)=0.019*0.357=0.007 P(w|C1)*
10、P(C1)=P(w|买了电脑)*P(买了电脑)=0.044*0.643=0.028 P(不买电脑|w)=P(C0|w)=P(w|(C0)P(C0)/P(w)=0.007/P(w)P(会买电脑|w)=P(C1|w)=P(w|C1)*P(C1)/P(w)=0.028/P(w)w=(年龄年龄30,收入中等,是学生,信用一般收入中等,是学生,信用一般)5 贝叶斯分类贝叶斯分类年龄年龄收入收入学生学生信用信用买了电脑买了电脑30高否一般否40中等否一般是40低是一般是40低否好否30-40低是好是30中否一般否40中是一般是40中否好否计算P(w|未买电脑)w=(年龄年龄30,收入中等,是学生,信用一般
11、收入中等,是学生,信用一般)P(年龄30|未买电脑)=3/5=0.600P(收入中等|未买电脑)=2/5=0.400P(是学生|未买电脑)=0/5=0P(信用一般|未买电脑)=2/5=0.400 P(w|未买电脑)=P(w|C0)P(C0)=P(w|未买电脑)*P(未买电脑)=00.6*0.4*0*0.4=05 贝叶斯分类贝叶斯分类校准前,概率可能为0校准后,概率接近原概率,但不会变成0其中N为属性值个数5 贝叶斯分类贝叶斯分类年龄年龄收入收入学生学生信用信用买了电脑买了电脑30高否一般否40中等否一般是40低是一般是40低否好否30-40低是好是30中否一般否40中是一般是40中否好否计算P
12、(w|未买电脑)w=(年龄年龄30,收入中等,是学生,信用一般收入中等,是学生,信用一般)P(年龄30|未买电脑)=3/5=0.600 P(收入中等|未买电脑)=2/5=0.400 P(是学生|未买电脑)=0/5=0 P(信用一般|未买电脑)=2/5=0.400P(年龄30|未买电脑)=(3+1)/(5+4)=0.444P(收入中等|未买电脑)=(2+1)/(5+4)=0.333 P(是学生|未买电脑)=(0+1)/(5+4)=0.222P(信用一般|未买电脑)=(2+1)/(5+4)=0.333 拉普拉斯校准5 贝叶斯分类贝叶斯分类 P(w|Ci)=P(w0|Ci)*P(w1|Ci)*P(w
13、2|Ci)*P(w3|Ci)等式右边分子中各概率的值可能很小,而很小的数再相乘可能会导致浮点数溢出对等式右边的分子求对数,进而将概率相乘转换为相加:注:log(a*b)=log(a)+log(b)你这样乱改公式,贝叶斯知道吗?5 贝叶斯分类贝叶斯分类如果不指明底数,我们默认底数为2。y=log(x)为增函数若 P(a)P(b),则 log(P(a)p(w1|x)时决策为w2,对观测值x有 p(w1|x)概率的错误率R1:做出w1决策的所有观测值区域,条件错误概率为p(w2|x)R2:条件错误概率为p(w1|x)。因此平均错误率p(e)可表示成在R1内任一个x值都有p(w2|x)p(w1|x),
14、在R2区内任一个x值都有p(w1|x)p(w2|x)错误率在每个x值处都取小者,因而平均错误率p(e)也必然达到最小,这就证明了按(2-2)式作出的决策,其平均错误率为最小。p(e)也可以(2-8)式写成错误率为图中两个划线部分之和,对应的错误率区域面积为最小。5 贝叶斯分类贝叶斯分类但是错误率最小并不一定是一个普遍适用的最佳选择一个与损失有关联的,更为广泛的概念风险观测样本x实属类别j,而被判为状态i时所造成的损失,Ri则表示了观测值x被判为i类时损失的均值分类则依据Ri,(i=1,.,c)中的最小值,即最小风险来定。5 贝叶斯分类贝叶斯分类w1表示病理切片正常w2表示病例切片异常p(w1|
15、x)与p(w2|x)分别表示了两种可能性的大小5 贝叶斯分类贝叶斯分类自然状态:指待识别对象的类别状态空间:由所有自然状态所组成的空间决策:不仅包括根据观测值将样本划归为哪一类别(状态),还可包括其他决策,如拒绝等决策空间:有所有决策组成的空间5 贝叶斯分类贝叶斯分类根据贝叶斯公式计算出后验概率:利用计算出的后验概率及决策表,计算出采取a1,i=1,.,a的条件风险找出使条件风险最小的决策ak,即5 贝叶斯分类贝叶斯分类5 贝叶斯分类贝叶斯分类5 贝叶斯分类贝叶斯分类基于最小错误率的决策是基于最小风险决策的一个特例设损失函数为式中假定对c类只有c个决策,既不考虑“拒绝”等其他情况,(2-17)表明,当作出正确决策(即i=j)时没有损失,而对于任何错误决策,其损失均为1。这样定义的损失函数成为01损失函数。5 贝叶斯分类贝叶斯分类根据(2-14)式条件风险为最小错误率贝叶斯决策就是0-1损失函数条件下的最小风险贝叶斯决策5 贝叶斯分类贝叶斯分类5 贝叶斯分类贝叶斯分类5 贝叶斯分类贝叶斯分类条件概率贝叶斯公式朴素贝叶斯分类算法防止零概率:拉普拉斯校准浮点数溢出:对概率求对数决策风险:最小风险贝叶斯分类器最小风险贝叶斯分类器5 贝叶斯分类贝叶斯分类谢谢!
限制150内