《模式识别导论精选PPT.ppt》由会员分享,可在线阅读,更多相关《模式识别导论精选PPT.ppt(52页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第二章 贝叶斯决策理论1模式识别导论第1页,此课件共52页哦Table of Contents电子信息学院第2页,此课件共52页哦2.1 引言数据获取预处理特征提取与选择分类决策分类器设计信号空间特征空间第3页,此课件共52页哦基本概念u模式分类:根据识别对象的观测值确定其类别u样本与样本空间表示:u类别与类别空间:c个类别(类别数已知)引言第4页,此课件共52页哦决策u把样本x x分到哪一类分到哪一类最合理最合理?解决该问题?解决该问题的的理论基础之一是统计决策理论u决策:是从样本空间S,到决策空间的一个映射,表示为 D D:S -:S -引言第5页,此课件共52页哦决策准则u评价决策有多种
2、标准,对于同一个问题,采用不同的标准会得到不同意义下“最优”的决策。uBayes决策常用的准则:最小错误率准则最小风险准则在限定一类错误率条件下使另一类错误率为最小的准则最小最大决策准则引言第6页,此课件共52页哦2.2 基于判别函数的分类器设计u判别函数(discriminant function):相应于每一类定义一个函数,得到一组判别函数:gi(x),i=1,2,cu决策区域与决策面(decision region/surface):第7页,此课件共52页哦判别函数第8页,此课件共52页哦决策规则(decision rule)规则表达1规则表达2判别函数第9页,此课件共52页哦分类器设计
3、u分类器是某种由硬件或软件组成的“机器”:计算c个判别函数gi(x)最大值选择ARGMAXg1.g2gc.x1x2xna(x)u多类识别问题的Bayes最小错误率决策:gi(x)=P(i|x)判别函数第10页,此课件共52页哦2.3 Bayes最小错误率决策u以两类分类问题为例:已知先验分布P(i)和观测值的类条件分布p(x|i),i=1,2问题问题:对某个样本x,抉择x 1?x 2?u该决策使得在观测值x下的条件错误率P(e|x)最小。Bayes决策理论是最优的。u以后验概率为判决函数:u决策规则:即选择P(1|x),P(2|x)中最大值对应的类作为决策结果第11页,此课件共52页哦后验概率
4、P(i|x)的计算uBayes公式:假设已知先验概率P(i)和观测值的类条件概率密度函数p(x|i),i=1,2。最小错误率决策第12页,此课件共52页哦公式简化u比较大小不需要计算p(x):最小错误率决策第13页,此课件共52页哦公式简化u对数域中计算,变乘为加:判别函数中与类别i无关的项,对于类别的决策没有影响,可以忽略。最小错误率决策第14页,此课件共52页哦Bayes最小错误率决策例解u两类细胞识别问题:正常(1)和异常(2)u根据已有知识和经验,两类的先验概率为:正常(1):P(1)=0.9异常(2):P(2)=0.1对某一样本观察值x,通过计算或查表得到:p(x|1)=0.2,p(
5、x|2)=0.4u如何对细胞x进行分类?最小错误率决策第15页,此课件共52页哦Bayes最小错误率决策例解(2)u利用贝叶斯公式计算两类的后验概率:决策结果最小错误率决策第16页,此课件共52页哦图解p(x|1)p(x|2)p(1|x)p(2|x)类条件概率密度函数后验概率最小错误率决策第17页,此课件共52页哦决策的错误率u条件错误率:(平均)错误率是条件错误率的数学期望u(平均)错误率:最小错误率决策第18页,此课件共52页哦决策的错误率(2)u条件错误率P(e|x)的计算:以两类问题为例,当获得观测值x后,有两种决策可能:判定 x1,或者x2。u条件错误率为:最小错误率决策第19页,此
6、课件共52页哦决策的错误率(3)uBayes最小错误率决策使得每个观测值下的条件错误率最小,因而保证了(平均)错误率最小。uBayes决策是一致最优决策。最小错误率决策第20页,此课件共52页哦决策的错误率(4)u设t为两类的分界面,则在特征向量x是一维时,t为x轴上的一点。形成两个决策区域:R1(-,t)和R2(t,+)最小错误率决策第21页,此课件共52页哦最小错误率决策第22页,此课件共52页哦2.4 基于最小风险的Bayes决策u决策的风险:risk,cost做决策要考虑决策可能引起的损失。以医生根据白细胞浓度判断一个人是否患血液病为例:没病(1)被判为有病(2),还可以做进一步检查,
7、损失不大;有病(2)被判为无病(1),错过诊治时机,损失严重。第23页,此课件共52页哦损失矩阵u损失的定义:(N类问题)做出决策D(x)=i,但实际上 x j,受到的损失定义为:损失矩阵或决策表:最小风险决策第24页,此课件共52页哦条件风险与期望风险u条件风险:获得观测值x后,决策D(x)造成的损失对x实际所属类别的各种可能的平均,称为条件风险R(D(x)|x)u期望风险:条件风险对观测值x的数学期望最小风险决策第25页,此课件共52页哦基于最小风险的Bayes决策u基于最小风险的Bayes决策:决策有代价,选择(条件)风险最小的决策。uBayes最小风险决策通过保证每个观测值下的条件风险
8、最小,使得它的期望风险最小,是一致最优决策。决策规则:最小风险决策第26页,此课件共52页哦最小风险决策的计算u根据Bayes公式计算后验概率P(j|x)u根据后验概率及给定的损失矩阵,算出每个决策的条件风险R(i|x)u按最小的条件风险进行决策。u损失矩阵在某些特殊问题,存在简单的解析表达式。u实际问题中得到合适的损失矩阵不容易。最小风险决策第27页,此课件共52页哦两类问题最小风险Bayes决策u用Bayes公式展开,最小风险Bayes决策得到:最小风险决策第28页,此课件共52页哦Bayes最小风险决策例解u两类细胞识别问题:正常(1)和异常(2)u根据已有知识和经验,两类的先验概率为:
9、正常(1):P(1)=0.9异常(2):P(2)=0.1对某一样本观察值x,通过计算或查表得到:p(x|1)=0.2,p(x|2)=0.411=0,12=6,21=1,22=0u按最小风险决策如何对细胞x进行分类?最小风险决策第29页,此课件共52页哦Bayes最小风险决策例解(2)u后验概率:P(1|x)=0.818,P(2|x)=0.182决策结果最小风险决策第30页,此课件共52页哦最小风险决策的一般性u基于最小错误率的Bayes决策可作为最小风险Bayes决策的一种特殊情形。u只需要定义损失为:决策正确时,损失为0决策错误时,损失为1最小风险决策第31页,此课件共52页哦2.5 正态分
10、布的最小错误率Bayes决策uBayes决策的三个前提:类别数确定各类的先验概率P(i)已知各类的条件概率密度函数p(x|i)已知uBayes决策中,类条件概率密度的选择要求:模型合理性计算可行性u最常用概率密度模型:正态分布观测值通常是很多种因素共同作用的结果,根据中心极限定理,它们(近似)服从正态分布。计算、分析最为简单的模型。第32页,此课件共52页哦一元正态分布正态分布Bayes决策u一元正态分布及其两个重要参数:均值(中心)方差(分散度)第33页,此课件共52页哦多元正态分布u观测向量x:实际应用中,可以同时观测多个值,用向量表示。多元正态分布:正态分布Bayes决策协方差矩阵均值向
11、量第34页,此课件共52页哦多元正态分布的性质u参数和完全决定分布u等概率密度轨迹为超椭球面u不相关性等价于独立性u边缘分布和条件分布的正态性u线性变换的正态性u线性组合的正态性正态分布Bayes决策第35页,此课件共52页哦参数和完全决定分布u协方差矩阵是对称矩阵u多元正态分布由n+n(n+1)/2个参数所完全决定正态分布Bayes决策第36页,此课件共52页哦等概率密度轨迹为超椭球面u等概率密度轨迹为超椭球面uMahalanobis距离正态分布Bayes决策第37页,此课件共52页哦不相关性等价于独立性u多元正态分布的任意两个分量互不相关,则它们一定独立不相关独立正态分布Bayes决策第3
12、8页,此课件共52页哦线性变换的正态性u多元正态随机向量xu对x进行线性变换得到多元正态随机向量y正态分布Bayes决策第39页,此课件共52页哦线性组合的正态性u多元正态随机向量xu对x的分量进行线性组合得到随机标量y正态分布Bayes决策第40页,此课件共52页哦正态分布的最小错误率Bayes决策u观测向量的类条件分布服从正态分布:u判别函数的定义与计算:判别函数中与类别i无关的项,对于类别的决策没有影响,可以忽略正态分布Bayes决策第41页,此课件共52页哦最小距离分类器与线性分类器u第一种特例:u判别函数的简化计算:最小距离分类器线性分类器正态分布Bayes决策第42页,此课件共52
13、页哦最小距离分类器与线性分类器u第二种特例:u判别函数的简化计算:Mahalanobis距离线性分类器正态分布Bayes决策第43页,此课件共52页哦正态模型的Bayes决策面u两类问题正态模型的决策面:决策面方程:g1(x)=g2(x)两类的协方差矩阵相等,决策面是超平面。两类的协方差矩阵不等,决策面是超二次曲面。正态分布Bayes决策第44页,此课件共52页哦正态模型的Bayes决策面正态分布Bayes决策第45页,此课件共52页哦正态分布下的几种决策面的形式正态分布Bayes决策第46页,此课件共52页哦正态分布的Bayes决策例解u两类的识别问题:医生要根据病人血液中白细胞的浓度来判断
14、病人是否患血液病。u根据医学知识和以往的经验,医生知道:患病的人,白细胞的浓度服从均值2000,标准差1000的正态分布;未患病的人,白细胞的浓度服从均值7000,标准差3000的正态分布;一般人群中,患病的人数比例为0.5%。一个人的白细胞浓度是3100,医生应该做出怎样的判断?正态分布Bayes决策第47页,此课件共52页哦u数学表示:用表示“类别”这一随机变量,1表示患病,2表示正常;x表示“白细胞浓度”这个随机变量。u本例医生掌握的知识非常充分,他知道:1)类别的先验分布:P(1)=0.5%P(2)=99.5%先验分布:没有获得观测数据(病人白细胞浓度)之前类别的分布正态分布的Baye
15、s决策例解正态分布Bayes决策第48页,此课件共52页哦2)观测数据白细胞浓度分别在两种情况下的类条件分布:P(x|1)N(2000,10002)P(x|2)N(7000,30002)uP(3100|1)=2.1785e-004P(3100|2)=5.7123e-005u计算后验概率P(1|3100)=1.9%P(2|3100)=98.1%u医生的判断:正常正态分布的Bayes决策例解正态分布Bayes决策第49页,此课件共52页哦2.6 讨论u基于Bayes决策的最优分类器Bayes决策的三个前提:类别数确定各类的先验概率P(i)已知各类的条件概率密度函数p(x|i)已知问题的转换:基于样
16、本估计概率密度基于样本直接确定判别函数第50页,此课件共52页哦习题1.试简述先验概率,类条件概率密度函数和后验概率等概念间的关系:2.试写出利用先验概率和分布密度函数计算后验概率的公式3.EX2.54.EX2.155.写出最小错误率和最小风险决策规则相应的判别函数(两类问题)。6.用Matlab计算两类识别问题:根据血液中白细胞的浓度来判断病人是否患血液病。第51页,此课件共52页哦先验概率、类条件概率密度函数和后验概率1.试简述先验概率,类条件概率密度函数和后验概率等概念间的关系:u先验概率先验概率:根据大量统计确定某类事物出现的比例,如在我国大学中,一个学生是男生的先验概率为0.7,而为
17、女生的概率是0.3,这两类概率是互相制约的,因为这两个概率之和应满足总和为1的约束。u类条件概率密度函数类条件概率密度函数:同一类事物的各个属性都有一定的变化范围,在这些变化范围内的分布概率用一种函数形式表示,则称为类条件概率密度函数。这种分布密度只对同一类事物而言,与其它类事物没有关系。为了强调是同一类事物内部,因此这种分布密度函数往往表示成条件概率的形式。例如x表示某一个学生的特征向量,则,男生的概率密度表示成P(x|男生),女生的表示成P(x|女生),这两者之间没有任何关系,即一般的情况下P(x|w1)+P(x|w2)1,可为从0,2之间的任意值。u后验概率后验概率:一个具体事物属于某种类别的概率,例如一个学生用特征向量x表示,它是男性或女性的概率表示成P(男生|x)和P(女生|x),这就是后验概率。由于一个学生只可能为两个性别之一,因此有P(男生|x)+P(女生|x)=1的约束,这一点是与类分布密度函数不同的。后验概率与先验概率也不同,后验概率涉及一个具体事物,而先验概率是泛指一类事物,因此P(男生|x)和P(男生)是两个不同的概念。第52页,此课件共52页哦
限制150内