朴素贝叶斯方法处理缺失值.pptx
会计学1朴素贝叶斯方法处理缺失值朴素贝叶斯方法处理缺失值结 构u贝叶斯理论u贝叶斯分类器第1页/共20页 =A1A2.Am,是由所有未知类别的可能样,是由所有未知类别的可能样本组成的集合;本组成的集合;c=A1A2.AmC是由所有已知是由所有已知类别的样本组成的集合。类别的样本组成的集合。D c是训练样例集合。是训练样例集合。中的元素中的元素x表示为表示为x=ax=。c中的中的元素元素x表示为表示为x=ax=。其中。其中a ai i表示第表示第i i个个属性的某个取值。属性的某个取值。描述用到的符号描述用到的符号 我们用我们用A Ai i表示第表示第i i个属性,个属性,C C表示决策属性;表示决策属性;a aikik表示表示第第i i个属性的第个属性的第k k个取值,个取值,c cj j表示第表示第j j类;加上绝对值则类;加上绝对值则表示相应的个数,如表示相应的个数,如|A|Ai i|表示第表示第i i个属性的取值个数,个属性的取值个数,|c|cj j|表示第表示第j j类样例个数。类样例个数。第2页/共20页贝叶斯定理贝叶斯定理 设设xx是一个类别未知的数据样本,是一个类别未知的数据样本,c cj j为某个类别,若数据为某个类别,若数据样本样本x x属于一个特定的类别属于一个特定的类别c cj j,那么分类问题就是决定,那么分类问题就是决定P(cP(cj j|x)|x),即在获得数据样本即在获得数据样本x x时,确定时,确定x x的最佳分类。所谓最佳分类,一种的最佳分类。所谓最佳分类,一种办法是把它定义为在给定数据集办法是把它定义为在给定数据集D D中不同类别中不同类别c cj j先验概率的条件下先验概率的条件下最可能(最可能(most probablemost probable)分类。贝叶斯理论提供了计算这种可)分类。贝叶斯理论提供了计算这种可能性的一种直接方法能性的一种直接方法 更精确地讲,贝叶斯法则基于假设的先验概率、给定假设下更精确地讲,贝叶斯法则基于假设的先验概率、给定假设下观察到不同数据的概率,提供了一种计算假设概率的方法观察到不同数据的概率,提供了一种计算假设概率的方法第3页/共20页贝叶斯公式贝叶斯公式u 先验概率P(cj)P(cj|x)=P(x|cj)P(cj)P(x)u 联合概率P(x|cj)u 后验概率P(cj|x)第4页/共20页 如果没有这一先验知识,那么可以简单地将每如果没有这一先验知识,那么可以简单地将每一候选类别赋予相同的先验概率。不过通常我们可一候选类别赋予相同的先验概率。不过通常我们可以用样例中属于以用样例中属于c cj j的样例数的样例数|c|cj j|比上总样例数比上总样例数|D|D|来来近似,即近似,即先验概率先验概率P(cP(cj j)P(cj)代表还没有训练数据前,代表还没有训练数据前,c cj j拥有的初始概率。拥有的初始概率。P(cj)常被称为常被称为c cj j的先验概率的先验概率(prior probability),它反映,它反映了我们所拥有的关于了我们所拥有的关于c cj j是正确分类机会的背景知识是正确分类机会的背景知识,它它应该是独立于样本的。应该是独立于样本的。第5页/共20页 联合概率是指当已知类别为联合概率是指当已知类别为c cj j的条件下,看到的条件下,看到样本样本x x出现的概率。出现的概率。联合概率联合概率P(x|cP(x|cj j)若设若设x=ax=则则P(x|cP(x|cj j)=P(a)=P(a1 1,a,a2 2a am m|c cj j)第6页/共20页后验概率后验概率P(cP(cj j|x)|x)即给定数据样本即给定数据样本x x时时c cj j成立的概率成立的概率,而这正是我们而这正是我们所感兴趣的所感兴趣的 P P(c(cj j|x|x )被称为被称为C C的后验概率(的后验概率(posterior posterior probabilityprobability),因为它反映了在看到数据样本),因为它反映了在看到数据样本x x后后c cj j成立的置信度成立的置信度第7页/共20页贝叶斯分类贝叶斯分类我们现在计算我们现在计算我们现在计算我们现在计算P(cP(cP(cP(cMAPMAPMAPMAP|x)=max P(c|x)=max P(c|x)=max P(c|x)=max P(cj j j j|x)j(1,|C|)|x)j(1,|C|)|x)j(1,|C|)|x)j(1,|C|)则则则则P(cP(cP(cP(cMAPMAPMAPMAP|x)|x)|x)|x)称为最大后验概率称为最大后验概率称为最大后验概率称为最大后验概率然后我们就把然后我们就把然后我们就把然后我们就把x x x x分到分到分到分到c c c cMAPMAPMAPMAP类中类中类中类中第8页/共20页朴素贝叶斯分类器一朴素贝叶斯分类器一朴素贝叶斯分类器一朴素贝叶斯分类器一设设x=ax=,为一个有,为一个有m m个属性的样例个属性的样例=max=max P(aP(a1 1,a,a2 2a am m|c|cj j)P(c)P(cj j)P(P(a a1 1,a a2 2a am m)=max=max P(aP(a1 1,a,a2 2a am m|c|cj j)P(c)P(cj j)(1)(1)P(cP(cMAPMAP|x)=max P(c|x)=max P(cj j|x)|x)j(1,|C|)j(1,|C|)j(1,|C|)j(1,|C|)=maxmax P(cP(cj j|a|a1 1,a,a2 2a am m)第9页/共20页 朴素贝叶斯分类器基于一个简单的假定:朴素贝叶斯分类器基于一个简单的假定:在给在给定目标值时属性值之间相互条件独立定目标值时属性值之间相互条件独立。换言之,该。换言之,该假定说明给定实例的目标值情况下,观察到联合的假定说明给定实例的目标值情况下,观察到联合的a a1 1,a,a2 2a am m的概率正好是对每个单独属性的概率乘积的概率正好是对每个单独属性的概率乘积 朴素贝叶斯分类器二朴素贝叶斯分类器二朴素贝叶斯分类器二朴素贝叶斯分类器二(2)(2)将将(2)(2)式其代入式其代入(1)(1)式中,可得到朴素贝叶斯式中,可得到朴素贝叶斯分类器,如下分类器,如下第10页/共20页朴素贝叶斯分类器三朴素贝叶斯分类器三朴素贝叶斯分类器三朴素贝叶斯分类器三 概括地讲,朴素贝叶斯学习方法需要估计不同的概括地讲,朴素贝叶斯学习方法需要估计不同的P(cP(cj j)和和P(aP(ai i|c|cj j)项,也就是它们在训练数据上的频率。然后使用公式项,也就是它们在训练数据上的频率。然后使用公式(3)(3)来来分类新实例。分类新实例。C CNBNB=argmax=argmax P(cP(cj j)(3 3)其中其中C CNBNB表示朴素贝叶斯分类器输出的目标值。注意在朴素贝表示朴素贝叶斯分类器输出的目标值。注意在朴素贝叶斯分类器中,须从训练数据中估计的不同叶斯分类器中,须从训练数据中估计的不同P(aP(ai i|c|cj j)项的数量只是项的数量只是不同的属性值数量乘以不同目标值数量不同的属性值数量乘以不同目标值数量这比要估计这比要估计P(aP(a1 1,a,a2 2a am m|c|cj j)项所需的量小得多项所需的量小得多第11页/共20页举例说明举例说明举例说明举例说明目标概念目标概念PlayTennis的训练样例的训练样例 DayOutlookTemperatureHumidityWindPlayTennisD1SunnyHotHighWeakNoD2SunnyHotHighStrongNoD3OvercastHotHighWeakYesD4RainMildHighWeakYesD5RainCoolNormalWeakYesD6RainCoolNormalStrongNoD7OvercastCoolNormalStrongYesD8SunnyMildHighWeakNoD9SunnyCoolNormalWeakYesD10RainMildNormalWeakYesD11SunnyMildNormalStrongYesD12OvercastMildHighStrongYesD13OvercastHotNormalWeakYesD14RainMildHighStrongNo现在假设有一个样例现在假设有一个样例x xx=Sunny,Hot,High,Weak第12页/共20页第一步统计个数第一步统计个数第一步统计个数第一步统计个数表表1 1 类别为类别为c cj j及在及在c cj j条件下条件下A Ai i取取ai的样例数的样例数OutlookTemperatureHumidityWindPlayTennisSunnyOvercastRainHotMildCoolHighNormalWeakStrong2432433663Yes93022214123No5第13页/共20页估计先验概率和条件概率估计先验概率和条件概率表2 先验概率P(cj)和条件概率P(ai|cj)OutlookTemperatureHumidityWindPlayTennisSunnyOvercastRainHotMildCoolHighNormalWeakStrong2/94/93/92/94/93/93/96/96/93/9Yes9/143/502/52/52/51/54/51/52/53/5No5/14OutlookTemperatureHumidityWindPlayTennisSunnyOvercastRainHotMildCoolHighNormalWeakStrong2432433663Yes93022214123No5第14页/共20页样例判别样例判别样例判别样例判别现在假设有一个样例现在假设有一个样例x xx=Sunny,Hot,High,Weak等于等于yes的概率的概率 P(Yes|x)=p(Yes)*p(Sunny|Yes)*p(Hot|Yes)*p(High|Yes)*p(Weak|Yes)*=9/14*2/9*2/9*3/9*6/9=0.007039等于等于No的概率的概率 P(No|x)=p(No)*p(Sunny|No)*p(Hot|No)*p(High|No)*p(Weak|No)*=5/14*3/5*2/5*4/5*2/5=0.027418max(max(P(Yes|x),P(No|x)=)=P(No|x),所以我们把所以我们把x分类为分类为No第15页/共20页概率为零概率为零 在大多数情况下,观察到的比例在大多数情况下,观察到的比例P(aP(ai i|c|cj j)是对其真实概率的一个良好估计,但当是对其真实概率的一个良好估计,但当|A|Ai i=a=ai iC=cC=cj j|很小时估计较差。特别是当很小时估计较差。特别是当|A|Ai i=a=ai iC=cC=cj j|等于等于0 0时,时,P(aP(ai i|c|cj j)也等于也等于0 0,如果,如果将来的待估样例中,包含第将来的待估样例中,包含第i i个属性的取值个属性的取值a ai i时,此概率项会在分类器中占统治地位。时,此概率项会在分类器中占统治地位。第16页/共20页概率为零之概率为零之概率为零之概率为零之m-m-估计估计估计估计 一般采用一般采用m-m-估计来解决这个问题。估计来解决这个问题。m-m-估计定义如下:估计定义如下:pi是将要确定的概率是将要确定的概率P(aP(ai i|c|cj j)的先验概率,而的先验概率,而m m是等是等效样本大小的常量,它确定了对于观察到的数据如何衡效样本大小的常量,它确定了对于观察到的数据如何衡量量pi的作用。在缺少其他信息是选择的作用。在缺少其他信息是选择p p的一种典型方法的一种典型方法是假定是假定pi=1/|A=1/|Ai i|。也就是将。也就是将n nj j个实际观察扩大,加上个实际观察扩大,加上m m个按个按pi分布的虚拟样本。分布的虚拟样本。第17页/共20页概率为零之个数比较概率为零之个数比较概率为零之个数比较概率为零之个数比较在本次实现中我们采用的不是在本次实现中我们采用的不是m-m-估计,而是下面一种简单的估计,而是下面一种简单的0 0个个数比较法。即下面的几条规则。在公式(数比较法。即下面的几条规则。在公式(3 3)中,对每一个类别)中,对每一个类别j j,统计,统计P(aP(ai i|c|cj j)=0)=0的个数,记为的个数,记为z zj j。然后按以下然后按以下3 3条规则得到条规则得到C CNBNB。1.1.如果对任意的如果对任意的j j,z zj j都为都为0 0,则直接按公式(,则直接按公式(3 3)得到)得到C CNBNB3.3.如果对任意的如果对任意的j j,z zj j不为不为0 0且不相等,则取且不相等,则取z zj j最小者对应的类别作最小者对应的类别作为为C CNBNB。若。若z zj j最小者不唯一,则对这些最小值对应的最小者不唯一,则对这些最小值对应的j j采用第二条规采用第二条规则进行判别。则进行判别。2.2.如果对任意的如果对任意的j j,z zj j不为不为0 0且相等,则按公式(且相等,则按公式(3 3)计算时只计)计算时只计算算P(aP(ai i|c|cj j)为非零的项为非零的项,然后得到然后得到C CNBNB第18页/共20页结果分析结果分析结果分析结果分析朴素贝叶斯分类器的以下几个特点朴素贝叶斯分类器的以下几个特点:训练精度训练精度测试精度测试精度 意义明确意义明确,便于理解便于理解 时间复杂度低时间复杂度低,可以应用大型数据库可以应用大型数据库 易于实现增量易于实现增量第19页/共20页