贝叶斯决策理论课件(PPT 88页).pptx
第2章 贝叶斯决策理论n n2.1 引言n n2.2 几种常用的决策规则n2.2.1 基于最小错误率的贝叶斯决策n2.2.2 基于最小风险的贝叶斯决策n2.2.3 限定一类错误率,使另一类错误率最小n2.2.4 最小最大决策n2.2.5 分类器、判别函数及决策面n2.3 正态分布时的统计决策2.1 引言n模式识别的目的就是要确定某一个给定的模式样本属于哪一类n可以通过对被识别对象的多次观察和测量,构成特征向量特征向量,并将其作为某一个判决规则的输入,按此规则来对样本进行分类作为统计判别问题的模式分类n在获取模式的观测值时,有些事物具有确定的因果关系,即在一定的条件下,它必然会发生或必然不发生n例如识别一块模板是不是直角三角形,只要凭“三条直线边闭合连线和一个直角”这个特征,测量它是否有三条直线边的闭合连线并有一个直角,就完全可以确定它是不是直角三角形n这种现象是确定性的现象n但在现实世界中,由许多客观现象的发生,就每一次观察和测量来说,即使在基本条件保持不变的情况下也具有不确定性n只有在大量重复的观察下,其结果才能呈现出某种规律性,即对它们观察到的特征具有统计特性n特征值不是一个确定的向量,而是一个随机向量n此时,只能利用模式集的统计特性来分类,以使分类器发生错误的概率最小作为统计判别问题的模式分类统计识别的基本方法贝叶斯决策n应用贝叶斯决策的前提条件n已知各类别总体的概率分布n已知决策分类的类别数n在已知相关概率(类别先验概率和类条件概率分布)的情况下,特征空间中一个观察量的类别归属问题2.2 几种常用的决策规则n主要学习最小错误率Bayes错误和最小风险决策;了解在更复杂情况下的几种决策规则n讨论决策规则用于模式识别的几个问题2.2.1 基于最小错误率的贝叶斯决策n从尽量减少错误的角度出发,利用贝叶斯公式得出使错误最小的分类原则n以癌细胞识别的例子引出贝叶斯决策贝叶斯决策的出发点n癌细胞识别,两类别问题细胞正常与异常n若仅利用先验概率进行分类n统计的角度得出的两类细胞的出现概率n无法实现正常与异常细胞的分类目的n先验概率提供的信息太少,要结合样本观测信息,为此需要利用类条件概率贝叶斯公式p各类样本的分布情况贝叶斯决策的几种表达形式n两类模式集分类问题n对一大批人进行癌症普查,患癌者以1类代表,正常人以2类代表n设被试验的人中患有癌症的概率为0.005,即P(1)=0.005,当然P(2)=1-0.005=0.995n现任意抽取一人,要判断他是否患有癌症。显然,因为P(2)P(1),只能说是正常的可能性大。如要进行判断,只能通过化验来实现应用实例n设有一种诊断癌症的试验,其结果为“阳性”和“阴性”两种反应n若用这种试验来对一个病人进行诊断,提供的化验结果以模式x代表,这里x为一维特征,且只有x=“阳”和x=“阴”两种结果寻找样本观测量n假设根据临床记录,发现这种方法有以下统计结果n患有癌症的人试验反应为阳性的概率=0.95,即p(x=阳|1)=0.95n患有癌症的人试验反应为阴性的概率=0.05,即p(x=阴|1)=0.05n正常人试验反应为阳性的概率=0.01,即p(x=阳|2)=0.01n正常人试验反应为阴性的概率=0.99,即p(x=阴|2)=0.99观测量的类条件概率应用贝叶斯决策n问题n若被化验的人具有阳性反应,他患癌症的概率为多少,即求P(1|x=阳)=?n这里P(1)是根据以往的统计资料得到的,为患癌症的先验概率。现在经过化验,要求出P(1|x=阳),即经过化验后为阳性反应的人中患癌症的概率,称为后验概率n计算0.323最小错误率的证明n以一维情况为例证明贝叶斯决策确实对应最小错误率n统计意义上的错误率,即平均错误率,用P(e)表示最小错误率的证明错误率图示n以t为界确实使错误率最小,因为P(e/x)始终取最小n这个图在哪见过?n与图像分割中最优阈值对应的错误分割结果类似,最优阈值同样是基于最小错误概率n图像分割蕴含了与模式识别类似的思想,即判定给定像素属于目标还是背景多类问题的贝叶斯决策2.2.2 基于最小风险的贝叶斯决策n问题的提出:风险的概念n风险与损失紧密相连,如病情诊断、商品销售等问题n日常生活中的风险选择,所谓是否去冒险n最小风险贝叶斯决策考虑各种错误造成损失不同而提出的一种决策规则n“宁可错杀一千,也不放走一个”以决策论的观点n决策空间:所以可能决策组成的集合n每个决策都将带来一定的损失,可表示为决策和自然状态的函数一般决策表相关的数学表示条件期望损失n引入损失的概念,制定决策不能仅考虑最小错误率,而是要考虑采取的决策相应的损失是否最小n损失的数学表示,跟决策相关条件期望损失,条件风险对于特定的x采取决策i 的期望损失期望风险最小风险贝叶斯决策最小风险贝叶斯决策步骤对两类问题对两类问题最小风险贝叶斯决策示例最小风险贝叶斯决策示例上一节的例子n检验呈阳性者患病概率是0.323n若按最小错误率决策:正常2n采用最小风险决策,需要用到损失函数n损失的评估是个关键问题宁可虚惊一百不可漏诊一人最小风险贝叶斯决策的讨论n除了知道最小错误贝叶斯决策也需要的先验概率和类条件概率外,损失函数的确定往往也是一个难题n与最小错误贝叶斯决策的关系n差别在于是否考虑风险,即错误损失n最小风险决策可看作加权形式的最小错误决策,加权值即损失函数取特定形式时二者可能等价,如损失函数取0-1形式定义损失函数定义损失函数2.2.3 限定一类错误率,使另一类错误率最小限定一类错误率,使另一类错误率最小条件极值问题n利用拉格朗日乘子法将条件极值转化为无条件极值条件极值问题似然比决策规则比较n最终结果的似然比表示形式n最小错误率Bayes决策的表示形式n最小风险Bayes决策的表示形式似然的含义n似然likelihoodn表明在其他条件都相等的情况下,使得 较大的 更有可能是真实的类别2.2.4 最小最大决策以两类情况下的最小风险以两类情况下的最小风险BayesBayes决策为例进行讨论决策为例进行讨论总风险公式总风险公式总风险公式总风险公式假定决策域已经确定,我们以假定决策域已经确定,我们以 表示分类器判为表示分类器判为 时的特征空间时的特征空间中的区域,同样有中的区域,同样有 和和 ,于是总风险用条件风险的形式表示为,于是总风险用条件风险的形式表示为一旦一旦 和和 确定,风险确定,风险 就是先验概率就是先验概率 的线性函数,可表的线性函数,可表示为示为由于由于)(1P在在 0 0 和和 1 1 之间取值,所以期望风险有之间取值,所以期望风险有baRa+由上式可见,当类条件概率密度、损失函数ij、类域Ri 取定后,R是P(1)的线性函数。考虑P(1)的各种可能取值情况,为此在区间(0,1)中取若干个不同的P(1)值,并分别按最小损失准则确定相应的最佳决策类域R1、R2,然后计算出其相应的最小平均损失R*,从而可得最小平均损失R*与先验概率P(1)的关系曲线。最小最大决策图示最小风险R*与先验概率的关系曲线先验概率取固定值的最小风险先验概率为 的最小风险分类结果对应各种先验概率的风险变化为何为何为切为切线?线?尽管对应 的最小风险相对其他先验概率最大,但不管先验概率如何变化,此种分类风险恒定,从而使所有可能的最大风险最小化小结:各种情况下的方法选择在某些实际问题中,可能存在以下几种情况:在某些实际问题中,可能存在以下几种情况:不知道各类的先验概率不知道各类的先验概率)(iP 难于确定误判的代价难于确定误判的代价ijl 某一种错误较另一种错误更为重要某一种错误较另一种错误更为重要针对针对,可以采用最小最大损失准则或简单令各可以采用最小最大损失准则或简单令各类先验概类先验概率相等率相等针对针对,N-PN-P准则准则针对针对,如果允许的话,可,如果允许的话,可以避开使用损失函数以避开使用损失函数 而采用最小误判概率准则而采用最小误判概率准则2.2.5 分类器、判别函数及决策面n应用前述Bayes决策规则,设计分类器分类器对观察量实施分类n用于表达决策规则的某些函数称为判别判别函数函数;是直接用来对模式样本进行分类的准则函数n对于c类问题,按照决策规则把d维特征空间分成c个决策域,划分决策域的边界面称为决策面决策面多类问题最小错误率决策规则多类问题判别函数多类问题决策面多类问题分类器两类情况决策规则两类问题判别函数两类问题决策面两类问题分类器例题:教材23页,套公式2.3 正态分布时的统计决策n贝叶斯分类器的结构可由条件概率密度和先验概率来决定n最受青睐的密度函数正态分布,也称高斯分布n合理性:中心极限定理表明,在相当一般的条件下,当独立随机变量的个数增加时,其和的分布趋于正态分布n简易性2.3.1 正态分布的定义及性质n单变量正态分布由两个参数完全确定,即均值和方差正态分布概率密度函数n在整个定义域上积分为1n服从正态分布的样本聚集在均值附近,其散布程度与标准差(方差)有关多元正态分布均值向量协方差矩阵多元正态分布的概率密度函数定义协方差矩阵的计算计算公式,计算协方差矩阵。已知协方差矩阵的性质n对称非负定阵n元素正负?n元素含义:对角线和非对角线n协方差:用来度量变量之间“协同变异”大小的总体参数,即二者相互影响大小的参数;绝对值越大,相互影响越大n对角阵情形;去相关多元正态分布的性质n均值向量和协方差矩阵共同决定分布n均值向量有d个分量n协方差矩阵独立元素个数为d(d+1)/2n多元正态分布由d+d(d+1)/2个参数完全决定,常表示为多元正态分布的性质n等密度点的轨迹是超椭球面多元正态分布的性质n马氏距离:到 的Mahalanobis距离n等密度点轨迹是到均值向量的马氏距离为常数的超椭球面n样本离散度由 决定;同单变量正态分布类似,方差影响样本分布的疏密程度椭圆主轴的确定为简单处理,将椭球中心移至原点来求椭球长短轴设设设设 在超椭球上,在超椭球上,在超椭球上,在超椭球上,到超椭球中心的距离为到超椭球中心的距离为到超椭球中心的距离为到超椭球中心的距离为 ,求,求,求,求主轴长度即是求其条件极值,构造主轴长度即是求其条件极值,构造主轴长度即是求其条件极值,构造主轴长度即是求其条件极值,构造LagrangeLagrange函数函数函数函数对 的椭圆第第 i 个主轴的长度与个主轴的长度与的第的第 i 个特征值的平方根个特征值的平方根成正比,方向由对应特征向量的方向决定成正比,方向由对应特征向量的方向决定多元正态分布的性质n不相关性等价于独立性n边缘分布和条件分布的正态性n线形变换的正态不变性n通过变换,能使本来相关的随机变量在新的坐标系中独立;便于处理多元正态分布的性质多元正态分布的性质n线形组合的正态不变性n线性变换的特例2.3.2 多元正态下的最小错误率决策下面根据上式对以下三种情况进行讨论。下面根据上式对以下三种情况进行讨论。决策面方程决策面方程(1 1),即每类的协方差矩阵都相等,而且类内各特即每类的协方差矩阵都相等,而且类内各特即每类的协方差矩阵都相等,而且类内各特即每类的协方差矩阵都相等,而且类内各特征间相互独立,具有相等的方差征间相互独立,具有相等的方差征间相互独立,具有相等的方差征间相互独立,具有相等的方差 如果先验概率不等,那么平方距离(欧氏距离)必须通过方差如果先验概率不等,那么平方距离(欧氏距离)必须通过方差进行归一化,并通过增加进行归一化,并通过增加 进行修正。进行修正。如果先验概率相等如果先验概率相等称其为最小距离分类器。称其为最小距离分类器。可看作线性分类器可看作线性分类器对其,我们用一个二维二类模式例子,对其,我们用一个二维二类模式例子,对其,我们用一个二维二类模式例子,对其,我们用一个二维二类模式例子,设先验概率相等设先验概率相等设先验概率相等设先验概率相等,从几,从几,从几,从几何上表示其关系(不相等的情况请参照教材何上表示其关系(不相等的情况请参照教材何上表示其关系(不相等的情况请参照教材何上表示其关系(不相等的情况请参照教材P32P32)(2 2),即各类的协方差矩阵都相等即各类的协方差矩阵都相等即各类的协方差矩阵都相等即各类的协方差矩阵都相等如果先验概率相等,如果先验概率相等,只要计算只要计算 到各类的均值点到各类的均值点 的马氏距离平方,然后把的马氏距离平方,然后把 归于归于 距离平方最小的类别。距离平方最小的类别。对以上两类情况进行化简对以上两类情况进行化简决策面方程决策面方程只要协方差矩阵相等,先验概率相等,就对应最小距离分类器,包括欧式距离和马氏距离对其,我们用一个二维二类模式例子,对其,我们用一个二维二类模式例子,对其,我们用一个二维二类模式例子,对其,我们用一个二维二类模式例子,设先验概率相等设先验概率相等设先验概率相等设先验概率相等,从几,从几,从几,从几何上表示其关系何上表示其关系何上表示其关系何上表示其关系(2 2)各类的协方差矩阵不相等各类的协方差矩阵不相等各类的协方差矩阵不相等各类的协方差矩阵不相等二维模式,12的几种情况R1R2(a)圆,圆,2类的方差小类的方差小R1R2(b)椭圆,椭圆,2类的方差小类的方差小R1R2(c)抛物线,抛物线,2类的方差小类的方差小R1R2(d)双曲线双曲线(e)直线,两类的分布关于一直线是对称直线,两类的分布关于一直线是对称R1R2例:模式分布如图所示,两类均值向量和协方差矩阵例:模式分布如图所示,两类均值向量和协方差矩阵可用下式估计。可用下式估计。(0,1,1)(1,1,1)(1,0,0)(1,0,1)(0,0,1)(0,0,0)12x2x1x321两类均作为正态分布,并假设先验概率相等,求两类均作为正态分布,并假设先验概率相等,求故判别函数和决策面。故判别函数和决策面。(0,1,1)(1,1,1)(1,0,0)(1,0,1)(0,0,1)(0,0,0)12x2x1x321两类均作为正态分布,并假设两类均作为正态分布,并假设 ,故判别函数为故判别函数为