《模式识别统计决策理论.ppt》由会员分享,可在线阅读,更多相关《模式识别统计决策理论.ppt(64页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1第二章第二章 统计决策理论统计决策理论 2 这一章要讨论:最小错误率贝叶斯决策最小风险贝叶斯决策 NeymanPearson决策(在限定一类错误率的条件下,使另一类错误率最小的两类决策问题)最小最大决策 序贯决策(Sequential Decision)3关于统计学的一个笑话:有一个从没带过小孩的统计学家,因为妻子出门勉强答应照看三个年幼好动的孩子。妻子回家时,他交出一张纸条,写的是:“擦眼泪11次;系鞋带15次;给每个孩子吹玩具气球各5次,累计15次;每个气球的平均寿命10秒钟;警告孩子不要横穿马路26次;孩子坚持要穿马路26次;我还要再过这样的星期六0次”。统计学真的这样呆板吗?仅仅收集
2、数据,整理分析,累加平均 4统计学以数据为研究内容,但仅仅收集数据,决不构成统计学研究的全部。统计学是面对不确定情况寻求决策、制定方法的一门科学人力、财力、时间等的限制,只有部分或少量数据,要推断所有数据的的特征不同于叙述统计,要推断统计抽样、试验设计、估计、假设检验、回归分析.等推断方法52.1 引言 统计理论要解决的是从数据中做出一些 推断、它为解决随机观测事件的决策过程 提供了理论基础。PR中的分类问题是根据识别对象特征的观测值,将其分到相应的类别中去。而统计决策理论是模式分类的主要理论和工具之一。下面我们介绍几种最常用、也是最基本的统计决策方法。这些方法是以后各种模式分类方法的基础。6
3、2.2 几种常用的决策方法 2.2.1 贝叶斯决策贝叶斯决策问题:假定要识别的物理对象x有d个特征,x1,x2,xd,记作x=x1,x2,xdT,所有的特征向量构成了d维特征空间。假定这些待识别的对象来自c个类别,i,i=1,2,c,并且每个类别出现的先验概率Pi和类条件概率密度p(x|i),i=1,2,c已知。7如果观察到一个样本 ,那么把 分到哪一类去才是合理的呢?这是这一章要解决的问题。下面先介绍基于 的贝叶斯决策。8一.最小错误率贝叶斯决策 在模式分类问题中,人们希望尽量减小分类的错误。不可能不犯错误,因为样本是随机的我们希望所使用的分类规则,能使错误率达到最小。9以细胞识别为例:细胞
4、切片的显微图像经过一定的预处理后,抽取出d个特征。每一细胞可用一个d维的特征向量x表示。希望根据x的值分到正常类1或异常类2中去。假定可以得到Pr1、Pr2(Pr 1+Pr 2=1),和p(x|1)、p(x|2)。如果只有先验概率,那么合理的选择是把x分到Pr1、Pr2大的一类中去。一般由于Pr1Pr2,这样就把所有的细胞分到了正常的一类。失去了意义。10如果有细胞的观测信息,那么可以改进决策的方法。为了简单起见,假定x是一维的特征(如胞核的总光强度)。p(x|1)和p(x|2)已知:利用贝叶斯公式:11得到的Pri|x 称为状态(正常、异常)的后验概率。上述的贝叶斯公式,通过观测到的x,把先
5、验概率转换为后验概率。这时,基于错误率最小的贝叶斯决策规则为:后面要证明这个决策规则是错误率最小的。12上面的贝叶斯决策规则还可以表示成以下几种形式:1)若 ,则 2)若 ,则 13 似然比 似然函数 阈值 是假设检验 3)若 ,则 则:4)取 的负对数,有 14例例1 1:某一地区的统计资料,Pr1=0.9(正常),Pr2=0.1(异常),有一待识别细胞,其观测值为x,从类条件概率密度曲线上查出,p(x|1)=0.2,p(x|2)=0.4。解:解:利用贝叶斯公式(2),有 应把x归为1类,不是完全正确,但错误率最小。15解:解:例例2:假定一维测量(特征)值y的类条件密度函数为:而且Pr1=
6、Pr2。画出两类的概率密度曲线并求分类规则。16上式两边取对数,再乘以2,有 似然比检验 原因是Pr1=Pr2,且分布形式相同,又对称,只是均值有区别 分界点在两均值的中点 y=7,可以由 确定。,构成一个判别函数。17下面证明上述基于最小错误率的贝叶斯规则是错误率最小的。证明:证明:错误率是对所有x的平均错误率Pre 两类时的条件错误概率为:令t是两类的分界面,当x是一维时,即x轴上的一点。1819 要使Pre是最小的,可从两个思路看:1.要使 最小,使对每个x,Pre|x都要最小。所以取后验概率最大的。2.假如将分界面移到t点 t应是错误率最小的分界点,相应的规则也是错误率最小。20对于多
7、类情况,最小错误率决策规则为:若 ,则 或若 则 21二.最小风险贝叶斯决策 地震预报在实际工作中,有时仅考虑错误率最小是不够的。要引入比错误率更广泛的概念风险、损失。细胞识别 22 要考虑行动的后果、行动的风险。宁可一千,也不漏掉一个。下面从决策论的观点来讨论:采取的决定称为决策或行动,所有可能采取的行动的集合称为行动空间或决策空间A (分到哪一类)23损失函数 表示真实状态为 ,采取行动为 时的损失。这里下标m和c不同是因为除了有c种分类法外,还可能有其它的决策,如“拒绝”等,这时,m=c+1。假定:状态空间 决策空间 每个决策或行动都有一定的代价或损失。它是状态和决策的函数。状态空间:物
8、体或事物所有状态的集合24对于给定的x,采取决策 时的条件损失或条件风险为:对所有的x,采取决策 的风险的期望值为:称为平均风险或期望风险如果在采取每一决策时,其条件风险都最小,则对所有的x作决策时,其平均(期望风险)也最小。称为最小风险的贝叶斯决策。25 最小风险的贝叶斯决策规则:若 ,则采取 。26对于实际问题,最小风险的贝叶斯决策可按如下步骤进行:1.根据Prj,p(x|j),j=1,2,c,以及给出的x,计算后验概率 2.计算条件风险 即 若 ,则采用决策 。3.从得到的m个条件风险中,选最小的。27解:由例1的计算,有而 例3:仍以例1中的细胞为例,Pr1=0.9,Pr2=0.1,p
9、(x|1)=0.2,p(x|2)=0.4,,28和例1正好相反。因为考虑到了损失。损失函数 的确定要针对具体情况,具体领域,由专家来定。x被划分为异常。29三.最小错误率决策和最小风险决策间的关系 前者是后者的特例。如果损失函数 (不考虑“拒绝”),这样定义的损失函数称为0-1损失函数。30这时的条件风险,即对x采取 决策时的条件错误率。所以使 的最小风险决策等价于最小 即 应最大。在0-1损失函数下的最小风险贝叶斯决策就是最小错误率的贝叶斯决策。31四.两类时的最小风险贝叶斯决策 对于两类问题,记损失函数则期望风险:32上式可以写为 由于 代入上式,化为只在R1上的积分,期望风险化为:33问
10、题是选择决策规则,即确定R1(R2)从而使R 最小。由于前两项不是R1的函数,最小期望风险R等价于使积分项最小。即 记 ,如何使 形式的积分最小呢?34为了使 最小,只要使R1是包括且仅包括使 的点就行了。即:即 35这样,最小风险贝叶斯决策(两类时)仍然导致了似然比检验。在0-1损失函数时,上面的公式和最小错误率贝叶斯决策相同。362.2.2 NeymanPearson决策(在限定一类错误率的条件下使另一类错误率最小的两类决策问题)在两类的问题中,错误率Pre为 限定 (是一很小的常数),希望 尽可能地小。例如把异常判为正常更危险,限定这类的错误率错误率为某一个要求的值,同时使p1(e)尽可
11、能的小。这种决策是求条件极值的问题。37采用求条件极值的拉格朗日(Lagrange)乘子法 38R1+R2=R代入后,有()39上式分别对 和 求导,并令 有 对()式,为使r最小,则应最小被积函数应为负:这样得出决策规则:40和最小错误率贝叶斯决策的形式是一样的,都是以似然比检验为基础的,但阈值不同。在高维时,求解决策边界要复杂些,这时可以采用下面的方法。似然比 是随机变量x的函数,也是随机变量,可以确定它的密度函数,如 。这样,和 间的一个隐含关系 41当用解析法求 困难时,由于 是 的单调增函数,可以用试探法找到满足条件的 值。用实验的方法,改变 值,可以得出 的一条曲线。422.2.3
12、 最小最大决策 在前面的最小错误率和最小风险决策中,都是用似然比和一个阈值相比较。这个阈值是Pri的函数。因此要事先知道Pri。此时可得最小错误率或最小风险决策 当按固定的Pri设计好分类器后,若Pri有了变化,则可能得不到最小错误率或最小风险决策。这节要解决的问题是,考虑在Pri变化的情况下,如何使最大可能的风险最小,即在最不利的情况下争取最好的结果。43由期望风险 目标是要分析R 和Pr1间的关系,利用 44则风险 上式表明,一旦R1和R2确定,则风险R是Pr1的线性函数(下式记为():其中:45当Pr1固定,R1和R2按贝叶斯规则确定时,最小风险和Pr1间关系如下图:当Pr10.3时,最
13、小风险R 对应A点。R1R2确定后,当Pr1变化时,风险值按直线方程()变化(a,ab)。可能要比预计的大得多。为了防止这种情况,我们可以选择R1和R2,使得()式中Pr1的系数为0,使()式的直线与曲线在最高点C相切,且平行水平轴。46按使最小贝叶斯风险最大的 设计分类器,即要 在特殊情况下,若有 ,则上式变为 即决策边界仍由似然比确定,但阈值的选择要满足 。472.2.4 序贯决策(Sequential Decision)问题:前面讲的方法都认为d个特征同时给出,而且没获取特征时的代价。但在实际问题中,特征的获取是要花费代价的。这时除了错分类要产生的损失外,还要考虑获取特征时所花的代价。特
14、征多,花的代价也大。另外,有时观测是顺序的,例如,机器的振动波,飞行物体的雷达波。有时用k d个特征所花的总代价要小。特征少时,虽然错分率可能大些,但获取特征的代价小。48解决上述问题的方法是用序贯决策、序贯假设检验的方法。两种情况 序贯检验(决策)的方法有很多研究。下面介绍一种Wald序贯检验的方法(讨论当维数变化时,对分类器的影响):令 表示m维的测量向量,决策规则为:49上面的决策规则称为SPRT(Sequential Probability Ratio Test)、或Wald序贯假设检验。SPRT有如下几个性质:1)以概率1终止;2)中,对上面的A、B表达式,不要求是独立和同分布的;3
15、)为了达到规定的错误率 、,Wald检验使维数、测量数最少。50下面我们推导A、B和 、间的关系并分析Wald检验性质。由于在SPRT中不断增加特征的维数,所以似然比的计算最好是递推的。尽管SPRT不要求每个测量是独立的,但如果独立的话,则会有很大方便。假定:,这样 的计算就是递推的。在不独立时,可以考虑采用适当的线性变换,如LU变换,这时不影响SPRT的方式。51两边取对数:对数似然比。假定观测到的测量来自第i类,上式中的每一项也是随机变量。记它的均值和方差分别为 和 ,。52由统计独立性的假定,有:证明:利用不等式 ln x=x-1 53 的均值和方差都是m的单调增函数。54相应的性质如下
16、图:对2 有相似的性质。但此时的对数似然比的均值是m的单调减函数。55下面把A、B和 、联系起来(如何由 、规定A、B),设在决策过程的某一步m0时,有(:大于但近似等于)条件 在m0维决策空间中定义了一个决策区域R1,这个区域属于1类。由决策规则(似然比检验),在R1上积分,有:56 同样有:上面两式把A、B和 、联系起来了。不像NeymanPearson决策,这里的阈值A、B和 、间有简单的代数关系。作为SPRT的性能,下面估计m0的期望值(需要多少特征)。假定测量向量的各个分量是同分布的。57则由 (m固定时)假定在m0时,对数似然比超过阈值。显然m0也是一个随机变量,它的期望为 。由上
17、式有()在决策的m0阶段,对数似然比的近似值为lnA或lnB。58对于第一类有:(测量来自一类)同样,对于第二类,有:59每类的对数似然比的期望值为:代入()式后有:60上式给出了m0的定量分析,当 增大时,减小,因为每个分量的对数似然比越大,则需要的维数越少。当测量的各分量不是同分布时,上面的关系不成立。但测量维数的平均值可以从实验中得到,和错误率一起,作为性能指标。Wald检验的一般推导(Fukunaga,1990,P115)决策规则:61因此 62小结小结 这一小节讨论了简单的统计决策方法:最小错误率的贝叶斯决策 最小风险贝叶斯决策 63这些决策方法都导致了似然比检验NeymanPearson决策,只是阈值不同。在NeymanPearson决策中,介绍了通过实验画出特征曲线后,确定 值的方法。64在序贯决策中,特征值不断加入似然比检验中,阈值A、B和 、有关。最小最大决策。以上关于两类问题的决策方法可以很容易推广到多类问题。
限制150内