模式识别-Bayes决策方法.pptx
模模式识别式识别Pattern Classification第三章第三章:Bayes决策方法决策方法Bayes决策方法决策方法原理根据Bayes决策理论,由先验知识来推断后验概率保证错误概率最小或风险最小3Applied Pattern Recognition CSE616Bayes决策方法决策方法先验知识先验概率P(i)类概率密度P(X/i)4Applied Pattern Recognition CSE616Bayes决策方法决策方法根据考虑问题的角度Bayes决策法最小错误概率的Bayes决策法最小风险的Bayes决策法5Applied Pattern Recognition CSE616最小错误概率的最小错误概率的Bayes决策决策一维二类情况设两类模式分别1 和2,其类概率密度分别为P(x/1)和 P(x/2),先验概率为P(1)和 P(2)P(x/1)P(x/2)x 6Applied Pattern Recognition CSE616最小错误概率的Bayes决策一维二类情况显然:由Bayes公式(联合概率密度知):7Applied Pattern Recognition CSE616一维二类情况则后验概率同理可得 其中最小错误概率的Bayes决策8Applied Pattern Recognition CSE616最小错误概率的Bayes决策一维二类情况合理的决策为:对待识样本x 若P(1/x)P(2/x),则判x1类若P(2/x)P(1/x),则判x类9Applied Pattern Recognition CSE616最小错误概率的Bayes决策一维二类情况上述决策等价于:对待识样本x 若P(x/1)P(1)P(x/2)P(),则判x1类若P(x/2)P(2)P(x/1)P(1),则判x类即由先验知识推断后验概率10Applied Pattern Recognition CSE616最小错误概率的Bayes决策一维二类情况或:,则判 x1 类上述分类准则称为Bayes决策准则似然比似然比11Applied Pattern Recognition CSE616最小错误概率的Bayes决策特殊情况下,若P(1)=P(),则分类决策完全由类概率密度函数决定。即:若P(x/1)P(x/2),则判x1类 若P(x/2)P(x/1),则判x类12Applied Pattern Recognition CSE616最小错误概率的Bayes决策以鱼自动分类为例,假设仅选取鱼的长度作为特征,则两类鱼的类概率密度函数P(x/1)和 P(x/2)如下:13Applied Pattern Recognition CSE616最小错误概率的Bayes决策类概率密度来源来统计直方图类概率密度来源来统计直方图鲈鲈 鱼鱼鲑鲑 鱼鱼14Applied Pattern Recognition CSE616最小错误概率的Bayes决策两条曲线描述了两类鱼的长度区别概率密度函数已归一化,因此每条曲线下的面积为,即:15Applied Pattern Recognition CSE616最小错误概率的Bayes决策若先验概率P(1)=2/3,P()=1/3,则其后验概率P(1/x)和 P(2/x)如下图所示特征值特征值x=14的的模式如何分类模式如何分类?0.920.0816Applied Pattern Recognition CSE616最小错误概率的Bayes决策错误概率最小?错误概率P(x/1)P(1)P(x/2)P(2)x R1R217Applied Pattern Recognition CSE616最小错误概率的Bayes决策错误概率最小?无论判别从哪个方向调整,均导致错误概率的增加!P(x/1)P(1)P(x/2)P(2)x R1R218Applied Pattern Recognition CSE616最小错误概率的Bayes决策多类多维情况 设=1,2,c 是 C 个类别状态的有限集合,X=x1,x2,xd T 是 d 维特征向量,P(x/i)为第 i 类的类概率密度函数,P(i)为第 i 类的先验概率,则有:其中19Applied Pattern Recognition CSE616最小错误概率的Bayes决策多类多维情况Bayes决策准则为:20Applied Pattern Recognition CSE616最小错误概率的Bayes决策举例 设某地区细胞识别中正常(1)和异常(2)两类的先验概率分别为:P(1)=0.9 P(2)=0.1 且知1和2 两类的类概率密度函数为P(x/1)和P(x/2)现有一待识细胞其特征值为x,从概率密度函数曲线查得:P(x/1)=0.2 P(x/2)=0.4 试用Bayes决策准则对待识样本进行分类。21Applied Pattern Recognition CSE616最小错误概率的Bayes决策解:P(x/1)P(1)=0.20.9=0.18P(x/2)P(2)=0.10.4=0.04可见:P(x/1)P(1 P(x/2)P(2)由Bayes决策准则得:x 1 类,为正常细胞22Applied Pattern Recognition CSE616最小风险(损失)的Bayes决策损失的概念基于最小错误概率的Bayes决策,仅考虑如何保证错误概率最小,而未考虑决策所带来的损失。例如:自动灭火系统,乙肝诊断,鱼的分类等,则应考虑错判造成的损失。可利用决策论的理论和方法来解决上述问题。23Applied Pattern Recognition CSE616最小风险(损失)的Bayes决策损失的概念设=1,2,c 表示 c 个有限的类别状态的集合,A=a1,a2,ak 表示 k 个有限的决策(行为)的集合则定义 为模式自然状态为j 时,采取决策 ai 所造成的损失24Applied Pattern Recognition CSE616最小风险(损失)的Bayes决策损失的概念例如,对于细胞正常或异常的分类问题,可得如下损失表1(正常)2(异常)a1(正常)11=0 12=10a2(异常)21=222 =0自然状态自然状态损失损失决策决策25Applied Pattern Recognition CSE616最小风险(损失)的Bayes决策风险函数(损失函数)设P(j)是自然状态为j的先验概率,X为d维特征向量,则由Bayes决策理论知,后验概率:由于每一类后验概率P(X)均相同,可将其视为一标量因子26Applied Pattern Recognition CSE616最小风险(损失)的Bayes决策风险函数(损失函数)假定我们观测某个特定模式 X 并且采取行为 ai,如果真实的类别状态为j,通过定义我们将有损失 (ai/j)显然,与行为 ai 相关的总的损失为27Applied Pattern Recognition CSE616最小风险(损失)的Bayes决策风险函数(损失函数)上式称为作出决策ai 的风险函数,简记为:28Applied Pattern Recognition CSE616最小风险(损失)的Bayes决策决策过程当待识样本 X 到来时,将其判为各类所带来的风险分别为R1(X),R2(X),Rc(X)则基于最小风险的Bayes决策准则为:29Applied Pattern Recognition CSE616最小风险(损失)的Bayes决策问题:如何合理、科学、准确地定义ij?带有主观因素30Applied Pattern Recognition CSE616最小风险(损失)的Bayes决策特殊情况:两类问题 则基于最小风险(损失)的Bayes决策为:若R1(X)R2(X),则 判 X 1 类31Applied Pattern Recognition CSE616最小风险(损失)的Bayes决策特殊情况:两类问题上述决策等价于:对待识样本x若:,则判 x1 类 似然比似然比32Applied Pattern Recognition CSE616最小风险(损失)的Bayes决策33Applied Pattern Recognition CSE616最小风险(损失)的Bayes决策特殊情况:两类问题 若:12-22=21-11,即对称损失,则最小风险Bayes决策与最小错误概率Bayes决策是等价的。34Applied Pattern Recognition CSE616最小风险(损失)的Bayes决策例:1(乙肝)2(健康)P(1)=0.05 P(2)=0.95 P(x/1)=0.5 P(x/2)=0.2 11=22=0,12=1,21=10 试分别用最小风险和最小错误概率Bayes决策对模式X分类35Applied Pattern Recognition CSE616最小风险(损失)的Bayes决策解:最小错误概率Bayes决策 P(x/1)P(1)=0.050.5=0.025 P(x/2)P(2)=0.20.95=0.19 可见:P(x/1)P(1)gj(x)j i则判待识样本 x 属于 i类42Applied Pattern Recognition CSE616分类器、判别函数与判别界对最小错误概率Bayes决策 gi(x)=P(i/x)或 gi(x)=P(x/i)P(i)gi(x)=ln P(x/i)+ln P(i)对最小风险Bayes决策 gi(x)=-R(i/x)43Applied Pattern Recognition CSE616分类器、判别函数与判别界基于判别函数的分类器基于判别函数的分类器44Applied Pattern Recognition CSE616分类器、判别函数与判别界上述判别函数将特征空间划分为c 个判别区域 R1,R2,Rc 各个判别区域满足:如果 gi(x)gj(x)j i 则 x 位于判别区域 Ri 45Applied Pattern Recognition CSE616分类器、判别函数与判别界R1R2R3R4g1(X)g4(X)g3(X)g2(X)46Applied Pattern Recognition CSE616分类器、判别函数与判别界两类情况分类器仅需考虑两个判别函数g1(x)和 g2(x)定义:g(x)g1(x)g2(x)=P(x/1)P(1)-P(x/2)P(2)基于判别函数的决策为:如果 g(x)0,则 x 属于 1 类;若 g(x)0,则 x 属于 2 类 47Applied Pattern Recognition CSE616分类器、判别函数与判别界两类情况g(X)0g(X)048Applied Pattern Recognition CSE616正态分布条件下的Bayes决策 一维正态分布 均值:方差:一维正态分布可以简写为:49Applied Pattern Recognition CSE616正态分布条件下的Bayes决策一维正态分布的统计特性 95%的样本落在 2 范围内99%的样本落在 3 范围内越小,样本分布越集中,反之越发散50Applied Pattern Recognition CSE616正态分布条件下的Bayes决策一维正态分布一维正态分布51Applied Pattern Recognition CSE616正态分布条件下的Bayes决策多维正态分布 设 d 维特征向量 则 d 维正态分布定义为:简记为:52Applied Pattern Recognition CSE616正态分布条件下的Bayes决策多维正态分布其中:称为均值向量,反映了样本在d维特征空间的重心位置。53Applied Pattern Recognition CSE616正态分布条件下的Bayes决策多维正态分布 i 反映了样本在特征空间第 i 个方向的重心位置边缘概率分布边缘概率分布54Applied Pattern Recognition CSE616正态分布条件下的Bayes决策多维正态分布 称为协方差矩阵。55Applied Pattern Recognition CSE616正态分布条件下的Bayes决策多维正态分布 当i=j时,ij反映样本在d维特征空间各方向的发散程度;当ij时,ij反映各特征间的统计相关性。56Applied Pattern Recognition CSE616正态分布条件下的Bayes决策设各类样本的类概率密度均满足正态分布,即根据最小错误概率Bayes决策准则有:若判别函数 则判 x i 57Applied Pattern Recognition CSE616正态分布条件下的Bayes决策 为了分析方便,现取判别函数的自然对数(单调增函数),即令:下面分三种情况进行讨论58Applied Pattern Recognition CSE616正态分布条件下的Bayes决策情况一各类协方差矩阵相同,i j 各特征统计独立,即:,ij且,i=j 即59Applied Pattern Recognition CSE616正态分布条件下的Bayes决策情况一此时,且其中:单位矩阵单位矩阵60Applied Pattern Recognition CSE616正态分布条件下的Bayes决策情况一则判别函数:此时的Bayes决策等价为:若要将待识样本X进行分类,则只需计算X到各类样本均值向量i 的欧氏距离,再将X归类到距离最近的类别,此时的分类器称为最小距离分类器。欧氏距离欧氏距离61Applied Pattern Recognition CSE616正态分布条件下的Bayes决策情况一均值向量均值向量 均值向量均值向量 2 待识样本待识样本 最小距离分类器最小距离分类器62Applied Pattern Recognition CSE616正态分布条件下的Bayes决策情况一由于:与类别与类别无关,无关,可不考可不考虑虑63Applied Pattern Recognition CSE616正态分布条件下的Bayes决策情况一故:称gi(x)为线性判别函数,相应的分类器为线性分类器。64Applied Pattern Recognition CSE616正态分布条件下的Bayes决策情况一65Applied Pattern Recognition CSE616情况一66Applied Pattern Recognition CSE616正态分布条件下的Bayes决策情况二各类方差相同,即 则 其中 称为样本X与正态分布模式类的马氏距离(Mahalanobis距离)。当待识别的样本X到来时,分别计算样本X与各个模式类的马氏距离,并将X分类到马氏距离最近的模式类中。67Applied Pattern Recognition CSE616正态分布条件下的Bayes决策情况二可以证明,此时判别函数仍满足线性关系,即:分类器仍为线性分类器68Applied Pattern Recognition CSE616正态分布条件下的Bayes决策情况三各类协方差矩阵各不相同,即:分类器为非线性分类器(二次型分类器)69Applied Pattern Recognition CSE616影响模式识别的关键因素 模式的紧致性问题若将模式类视为集合,则集合中的点可分为两类:内点和临界点 内点:与该点相邻的点(距离最近的点)仍然属于该点所在的集合 临界点:与该点相邻的点属于另外的集合(模式类)。70Applied Pattern Recognition CSE616影响模式识别的关键因素模式的紧致性问题若将模式类视为集合,则集合中的点可分为两类:内点和临界点 内点:与该点相邻的点(距离最近的点)仍然属于该点所在的集合 临界点:与该点相邻的点属于另外的集合(模式类)。71Applied Pattern Recognition CSE616影响模式识别的关键因素模式的紧致性问题无临界点无临界点临界点较少临界点较少临界点多得无法临界点多得无法进行分类进行分类72Applied Pattern Recognition CSE616影响模式识别的关键因素模式的紧致性问题紧致集:指满足下列条件的模式类临界点的数量与总的样本点数相比很少每个内点对都有足够大的邻域,使得该邻域内的点都在同一集合 假若每一模式类都满足紧致集的假设,则模式识别并不存在多大困难,但对于许多识别问题,该假设并不成立。73Applied Pattern Recognition CSE616影响模式识别的关键因素解决问题的途径通过空间变换或映射来解决,不满足紧致性假设的模式类映射到另外的几何空间可能就满足紧致性。如何进行特征空间变换或映射?74Applied Pattern Recognition CSE616影响模式识别的关键因素解决问题的途径选择更为有效的特征。如何有效选择有效特征?尽量选择反映共性,突出异性的特征,即类间距离越大越好,类内距离越小越好。尽量选择统计无关的特征,减少信息冗余。在相同错误概率条件下,选择维数较小的特征。根据识别对象的特点,选择反映事物本质特性的参数作为特征(例,语音的音调周期,声道参数等)75Applied Pattern Recognition CSE616