模式识别-贝叶斯决策.ppt
模式识别原理华中科技大学图像识别与人工智能研究所华中科技大学图像识别与人工智能研究所贝叶斯决策贝叶斯决策课程内容连续特征的贝叶斯决策分类器设计正态分布的贝叶斯决策分类器的错误率问题离散特征的贝叶斯决策贝叶斯置信网2023/4/82连续特征的贝叶斯决策 贝叶斯决策理论是统计模式识别的一个基本方法,其应用前提:决策问题可用概率的形式来描述,且有关的概率结构已知分类的类别数是一定的2023/4/83鲈鱼和鲑鱼的分类鲈鱼的先验概率:P(1)鲑鱼的先验概率:P(2)P(1)+P(2)=12023/4/842023/4/85只有先验信息下的决策只有先验信息下的决策:Decide 1 if P(1)P(2)otherwise decide 2若P(1)P(2),决策结果总是 1 信息太少class-conditional information类条件概率密度类条件概率密度p(x|1)and p(x|2)p(x|1)and p(x|2)描述了同一特征在不同描述了同一特征在不同类别上的分布差异类别上的分布差异2023/4/862023/4/872023/4/88贝叶斯公式贝叶斯公式:P(j|x)=p(x|j).P(j)/p(x)两类情况两类情况 2023/4/892023/4/810已知后验概率下的判决准则已知后验概率下的判决准则:若若 P(1|x)P(2|x)则则 x 1否则否则:x 2 基于最小错误率的贝叶斯决策决策规则2023/4/811n等价形式:2023/4/812多类情况下的决策规则:2023/4/813对于特定观测值对于特定观测值 x,判决时的错误概率为判决时的错误概率为:P(error|x)=P(1|x)若 P(1|x)P(2|x)或 P(2|x)若 P(2|x)gj(x),则x i2023/4/842分类器就是一个计算c个判别函数并选取最大判别值对应的类别的网络2023/4/843贝叶斯决策对应的判别函数2023/4/844两类情况(二分分类器)采用更简单的判别函数g(x)g1(x)-g2(x)判别规则:若g(x)0,则x 1 否则,x 2判别规则转化为根据判别函数的正负号来判断2023/4/845决策域、决策面 特征空间中所有满足 的点的集合为第i类的决策域 如果第i类决策域Ri与第j类决策域相邻,则它们之间有边界。在边界上有gi(X)=gj(X),该式是一个方程式,称为决策面方程 决策域的分布由判别函数决定,即使是二类判别问题,其决策域也常常是复杂的,不连通的(正态分布的概率密度)2023/4/846正态分布的贝叶斯决策正态分布(高斯分布)物理上的合理性正态分布在数学上比较简便,数学的简便性便于人们对统计识别方法进行数学分析 2023/4/847单变量正态分布2023/4/848多变量正态分布2023/4/849最小错误率下正态分布的判别函数判别函数:多变量正态分布2023/4/8502023/4/851情况情况1:各特征统计独立,且具有相同的方差各特征统计独立,且具有相同的方差 i=2I I 2023/4/852)(Pln)()(giiiii+-=tttxxxx22122023/4/853可见判别函数为一线性函数,对应的分类器为线性分类器,线性分类器的判定面是一些超平面根据决策面方程gi(X)-gi(X)0 有:2023/4/854利用代入并整理可得:决策面是一个通过点x0,且与向量w正交的超平面,垂直均值间的连线jiw-=当先验概率相同时,判别函数为:2023/4/855此时,最小错误贝叶斯判决规则转化为:将每个样本归类到类样本均值与其最近的那一类 先验概率相同,i i=2 2I I 时正态分布最小错误率贝叶斯决策等同于最小距离分类器该条件下,最小距离分类器为最小错误率分类器2023/4/856在二维特征空间中两类别问题示意图,图中两类分布为两个相同的同心园,图中1与2为其圆心。两类别情况下1与2连线的垂直平分线是其决策面 多类别的情况,它们分别是相邻区域的垂直平分线组合而成 2023/4/857情况2:所有类的协方差矩阵相同,各特征存在相关性,i i=2023/4/858从几何上看,这相当于各类样本具有同样概率密度函数的点的轨迹是同样大小和形状的超椭球面。但不同类样本的超椭球面的中心由类均值i决定 判别函数2023/4/859为线性判别函数,判决边界同样为超平面决策面方程2023/4/860)(t=-00 xxw2023/4/861先验概率相等时的决策面先验概率不等时的决策面,向小的方向移动情况3:i i 为任意2023/4/862判别函数在一般情况下为x的二次型 决策面2023/4/863在一般情况下,决策面为二次超曲面,随着i及P(i)的不同而呈现不同形式的超二次曲面,如超球面、超椭球面、超抛物面、超双曲面,也可能是超平面。在正态分布条件下,基于最小错误率贝叶斯决策只要能做到两类协方差矩阵是一样的,那么无论先验概率相等不相等,都可以用线性分界面实现。最小欧氏距离分类器则要求正态分布协方差矩阵为单位阵,先验概率相等。如果希望用线性分类器实现错分率少的分类,则两类用正态分布近似时,应要求其协方差矩阵相似,先验概率相近才行。协方差矩阵不相等时,为了实现错分率小,分界面类型就要比线性函数类型复杂了,在正态分布条件下,一般是超二次曲面 2023/4/864分类器的错误率计算最小错误率贝叶斯决策的错误率计算公式2023/4/865x为多维向量时,要进行多重积分,当概率密度表达式复杂式,难于计算,并且,积分范围中判决区域的不连续也导致直接的计算困难错误率计算途径:(1)理论计算(2)计算错误率上界(3)实验估计最小错误率贝叶斯决策可保证决策的错误率在统计意义上是最小的,但分类器性能比较需知道大小?理论计算只能在某些特殊情况下才能实现错误率的理论计算正态分布且等协方差阵(i j=)随机变量各分量独立,且维数足够大 2023/4/866正态分布且等协方差阵(i j=)总体思路就是通过函数变换,将多维正态分布下的积分计算转化为一维正态分布下的积分计算通过等价的负对数似然比决策规则,实现变换2023/4/8672023/4/8682023/4/8692023/4/870独立随机变量由于x各分量独立,其概率密度为各分量的边缘概率密度的乘积,通过采用负对数似然比决策,使得似然比h(x)为各随机变量h(xi)之和,当维数足够大数,由中心极限定理,随机变量h(x)服从正态分布,从而错误率计算转化为对一维正态分布随机变量h(x)的的积分计算2023/4/8712023/4/872错误率的上界Chernoff界限2023/4/873不等式不等式:证明:不失一般性,假定证明:不失一般性,假定 a b,则则mina,b=b.a b(1-)=(a/b)b,由假设,由假设,(a/b)1.因此因此,b (a/b)b 故有故有 mina,b a b(1-).2023/4/874上述的积分在整个特征空间上进行若条件概率为正态分布,则可得上界的解析解2023/4/8752023/4/876Bhattacharyya界2023/4/877离散特征的贝叶斯决策前面的讨论中,特征向量x是n维欧氏空间的一个点,但在离散情况下,只能是m个离散值V1,Vm中的一个,概率密度函数p(x|wi)的积分形式应变为求和形式2023/4/8782023/4/879概率密度函数由相应的求和形式替代:概率密度函数由相应的求和形式替代:类别为wj的情况下x等于某值的条件概率贝叶斯公式中的概率密度函数由概率分布函数代替:贝叶斯公式中的概率密度函数由概率分布函数代替:贝叶斯决策规则不变:贝叶斯决策规则不变:独立的二值特征:独立的二值特征:假定条件独立假定条件独立:似然比为似然比为:判别函数为判别函数为:贝叶斯置信网贝叶斯置信网一种应用概率理论处理知识系统中不确定性推理所发展起来的方法贝叶斯决策需要知道特征向量的参数化的分布形式2023/4/881定义2023/4/882有向图定性了描述了变量之间的因果关系,条件概率则对该因果关系定量化Bayesian Belief Networks无环有向图(acyclic directed graph)每一个节点代表一个系统变量,节点之间的条件概率可由对应不同取值条件下的条件概率表来表示置信网的联合概率计算2023/4/885Bayesian Belief NetworksBayesian Belief Networks给定证据,计算命题的置信度(概率推断)Pearl算法2023/4/888Pearl算法2023/4/889置信度的计算表达为依赖于父节点的置信度与依赖于子节点的置信度乘积Bayesian Belief NetworksBayesian Belief NetworksBayesian Belief NetworksBayesian Belief NetworksBayesian Belief NetworksBayesian Belief NetworksP47,例4