模式识别_二章贝叶斯决策理论.pdf
模式识别 第二讲:贝叶斯决策理论 2 新闻一则 在中国,知道Autonomy公司及其技术的人不多。但实际上,Autonomy及其CEO迈可林奇(Mike Lynch)在知识管理界的知名度很高。迈可林奇1991年毕业于剑桥大学,主修神经网络。他受模式识别所用的概率算法的启发,创立了Neurodynamics公司,以概率论中的贝叶斯公式和香农的信息论作为其技术的理论基础,开发出文本挖掘产品。1998年,Autonomy公司看中林奇的技术,以400万美元并购了林奇的公司,林奇也成为Autonomy公司的CEO。3 Autonomy最核心的产品是Concept Agents。在经过训练以后,它能自动地从文本中抽取概念。在林奇看来,按照香农的信息论,文档中除有效概念外,还有大量的冗余信息。而词或短语是否为冗余可根据它在文档中的随机度(概率)来判定。如果能滤去冗余,就可从文档中自动抽取出表达文档主题的概念。新闻一则 4 在林奇的方案中,先要对系统进行训练,处理一些文档,由使用者对非冗余概念做出认定和识别。按照贝叶斯概率理论,这一步实际上是让系统获得关于概念的先验概率。系统在随后的自动处理中根据这些概念在文档中出现的实际情况,按贝叶斯公式求出后验概率,以此作为冗余过滤的依据。这一方法与语种无关,由于每个用户都要对系统进行个别训练,因而系统的文本挖掘天然就具有高度个性化的特点。新闻一则 5 新闻一则 到目前为止,包括报业巨头默多克的新闻集团在内的一批知名公司已经成为Autonomy的客户,Compaq公司也已经将Autonomy的技术和产品纳入其知识管理解决方案并在客户中推广。6 贝叶斯决策理论 BAYES DECISION THEORYBAYES DECISION THEORY 7 2.1 引 言 贝叶斯决策:统计模式识别的一个基本方法;理论上理论上的最优性能;分类错误率与风险最小分类错误率与风险最小 衡量其它分类器设计方法的标准衡量其它分类器设计方法的标准 贝叶斯决策的要求:要决策分类的类别数是一定的 各类别总体的概率分布是已知的 8 数学家贝叶斯(Bayes,Thomas)(17021761)贝叶斯是英国数学家.1702年生于伦敦;1761年4月17日卒于坦布里奇韦尔斯.贝叶斯是一位自学成才的数学家.曾助理宗教事务,后来长期担任坦布里奇韦尔斯地方教堂的牧师.1742年,贝叶斯被选为英国皇家学会会员.9 贝叶斯定理贝叶斯定理 1763年,贝叶斯逝后发表的论机会学说论机会学说问题的求解问题的求解中,提出了一种归纳推理归纳推理的理论,其中的“贝叶斯定理(或贝叶斯公贝叶斯定理(或贝叶斯公式)式)”给出了在已知结果E后,对所有原因C计算其条件概率(后验概率)的公式,可以看作最早的一种统计推断统计推断程序,以后被一些统计学者发展为一种系统的统计推断方法,称为贝叶斯方法贝叶斯方法.采用这种方法作为统计推断所得的全部结果,构成贝叶斯贝叶斯统计方法统计方法的内容.10 贝叶斯统计方法贝叶斯统计方法 贝叶斯统计贝叶斯统计在理论上的进展以及它在应用上的方便和效益,使其观点为许多的人所了解,并对一些统计学者产生吸引力.而认为贝叶斯方法是唯一合理的统计推断方法的统计学者,形成数理统计学中的贝叶斯学派贝叶斯学派.如今在概率、数理统计学中以贝叶斯姓氏命名的有贝叶斯公式、贝叶斯风险、贝叶斯决策函数、贝叶斯决策规则、贝叶斯估计量、贝叶斯方法、贝叶斯统计等等.11 Thomas BayesThomas Bayes,一位伟大的数学大师,他,一位伟大的数学大师,他的理论照亮了今天的计算领域,和他的同的理论照亮了今天的计算领域,和他的同事们不同:他认为上帝的存在可以通过方事们不同:他认为上帝的存在可以通过方程式证明,他最重要的作品被别人发行,程式证明,他最重要的作品被别人发行,而他已经去世而他已经去世241241年了。年了。搜索巨人搜索巨人GoogleGoogle使用了贝叶斯定理为数据搜使用了贝叶斯定理为数据搜索提供近似的(但是技术上不确切)结果。索提供近似的(但是技术上不确切)结果。12 贝叶斯理论的一个出名的倡导者就是微软。该公司把概率用于它的Notification Platform。该技术将会被内置到微软未来的软件中,而且让计算机和蜂窝电话能够自动地过滤信息,不需要用户帮助,自动计划会议并且和其他人联系。如果成功的话,该技术将会导致“context server”-一种电子管家的出现,它能够解释人的日常生活习惯并在不断变换的环境中组织他们的生活。13 全概率公式全概率公式 14 贝叶斯定理贝叶斯定理 Bayes Rule 15 事件A发生的可能原因是事件B(B1BN),B为一个完备事件集 如果原因B值已经给定,很显然能确定事件A发生的概率;如果已经产生了(观测到)结果A,那么我们无法确定导致结果A的原因是哪个Bi,然而我们可以根据贝叶斯公式可知,只要知道先验概率P(Bi)及条件概率条件概率P(A|Bi)此结果A是由某个原因Bi所导致的概率。模式分类问题:模式类别“原因”,观测到的特征值“结果”看作“原因”如果把),(21NBBBB看作“结果”把A16 模式识别中的贝叶斯公式模式识别中的贝叶斯公式 17 evidencepriorlikelihoodposterior证据因子先验概率似然函数后验概率18 计算实例1 原因模式类:原因模式类:加工加工A零件零件/加工加工B零件零件 结果特征值:结果特征值:观测到停机观测到停机/正常正常 19 计算实例1答案 20 计算实例2 原因模式类:原因模式类:第一台车床生产第一台车床生产/第二台车床生产第二台车床生产 结果特征值:结果特征值:观测到零件合格品观测到零件合格品/废品废品 21 计算实例2答案 22 计算实例3 原因模式类:原因模式类:火车火车/轮船轮船/汽车汽车/飞机飞机 结果特征值:结果特征值:迟到迟到/正常正常 23 计算实例3答案 24 问题 Clinical Problem 25 2.2几种常用的决策规则 最小错误率贝叶斯决策最小错误率贝叶斯决策 最小风险贝叶斯决策最小风险贝叶斯决策 在限定一类错误率条件下使另一类错误率为最小的两类别决策 最大最小决策 序贯分类方法 分类器设计 26 统计模式识别的基本模型(黑箱模型)Black Box Decision 3x27 Black Box xcicxxxxxxdiTdd,2,1,2121表示,个类别,各类别状态用在数学上表示为个特征参数x1,.,21212121caUnknowncapPPdcciiiac,类条件概率密度函数先验概率,维欧氏空间的点是xx)(Xf28 海鱼分类例子 sea bass/salmon 自然分布状态 prior 自然分布是一个随机 如实际捕到的 salmon和bass数目相等,则可假定 P(1)=P(2)(相等的先验概率)P(1)+P(2)=1(两类问题)29 仅根据先验概率信息作出判断 Decide 1 if P(1)P(2)otherwise decide 2 如仅做一次判断尚可,如需进行多次判断,感到困惑:P(1)=P(2)增加判断的依据信息!30 使用鱼的光泽度指标信息x来提高分类器性能 不同的鱼产生不同的光泽度,其分布取决于鱼的种类,可使用使用“类条件概率密度”函数表示(class conditional probability density)P(x|1)and P(x|2)sea bass 和 salmon 两类鱼间的光泽度的区别。31 32 根据贝叶斯公式:后验概率Posterior,似然likelihood,证据evidence P(j|x)=P(x|j).P(j)/P(x)其中对于两类问题 Posterior=(LikelihoodPrior)/Evidence 2j1jjj)(P)|x(P)x(P 33 34 根据后验概率进行决策判断 X 为观测值特征:if P(1|x)P(2|x)判为 1 if P(1|x)P(2|x),判别为1;否则,判别为2 因此,方法的判别错误率:P(error|x)=min P(1|x),P(2|x)(贝叶斯决策)36 不同的准则要求,导致不同的决策规则 Black Box Decision x2.2.1 基于最小错误率的贝叶斯决策 “模式识别结果的错误率最小”“模式识别结果的错误率最小”作为分类决策规则 37 细胞切片识别,用x表示每个切片的参数(特征(特征模式)模式)用表示模式的状态(模模式类式类)=1表示正常 =2表示异常(癌细胞)P(1),P(2)先验概率 假设P(1)=0.95,P(2)=0.05。在没得到x 之前,因P(1)P(2),所以决策=1,犯错的概率小。P(1)+P(2)=1 例:38 p(x|1)正常状态下观测x的类条件概率密度 p(x|2)异常状态下观测x的类条件概率密度 状态先验概率P(i),i=1,2 类条件概率p(x|i),i=1,2 后验概率:(根据贝叶斯公式)x p(x|1)x p(x|2)39 1,2)(i 21jjjiiiPxpPxpxPx P(1|x)1.0 P(2|x)ab40 最小错误率的贝叶斯决策规则:称为似然比阈值。否则则若似然比否则则若则如果则如果122121122112212,12,1 lnlnln)(maxmaxPPxxPPxpxpxhxxPPxpxpxlxPxpPxpxxPxPijjjiiijji 似然比阈值 41 平均错误概率 7)-(2 ,6)-(2 ,212121xPxPxPxPxPxPxePdxxpxePdxxePeP当当 ePP11 ePP2211Pxp22Pxpt 1R2Rx)x(i的条件错误概率时,作出决策42 页最小?书为什么决策规则使)得)代入(是两类的分界面,将(设12)(,627211221122112221122111221221ePePPePPdxxpPdxxpPPRxPPRxPRxPRxPePdxPxpdxPxpdxxpxPdxxpxPePtRRtttt43 基于最小错误率的贝叶斯决策规则,对于每个x,都使条件错误概率最小,因此使平均错误率P(e)的积分计算式(26)积分项值达到最小,因此使平均错误率最小。推广到多类决策过程。44 举例 45 举例 46 如果先如果先验概验概率不相等的情率不相等的情况况下,分下,分类类决决策策 47 2.2.2 基于最小风险贝叶斯决策 xxxx,2,1,x,x1dpRRaiPERcjjjijiiClassifierixjz(条件风险)期望风险,平均风险 导致的代价为我们选择了决策,并得到观测当产生了ijx,48 最小风险贝叶斯决策规则:kiaikRR则,xminx,.,2,1 kiaikcjjjiijjjRRPRPcjpP则计算后验概率和及已知,xminx)4(x,x)3(x)2(Mx,.,2,1,x,)1(,.,2,11 采取某决策的条件期望损失 最小风险贝叶斯决策 49 Two-category classification 1:deciding 1 2 :deciding 2 ij =(i|j)loss incurred for deciding i when the true state of nature is j Conditional risk:R(1|x)=11P(1|x)+12P(2|x)R(2|x)=21P(1|x)+22P(2|x)两类问题 50 Our rule is the following:if R(1|x)(12-22)P(x|2)P(2)and decide 2 otherwise 分类决策 51 Likelihood ratio:The preceding rule is equivalent to the following rule:Then take action 1(decide 1)Otherwise take action 2(decide 2)(P)(P.)|x(P)|x(P if121121221221 似然比决策准则 52 两种决策的比较 最小错误率的贝叶斯决策规则最小错误率的贝叶斯决策规则 (2 24 4)最小风险贝叶斯决策规则最小风险贝叶斯决策规则 53 2.2.3 在限定一类错误率条件下使另一类错在限定一类错误率条件下使另一类错误率为最小的两类别决策误率为最小的两类别决策 问题描述问题描述 癌细胞模式识别处理中,把异常细胞判断为正常的损失更为严重,所以我们希望这种误判的错误率P2(e)很小,即使P2(e)=0,0是一个很小的常数,在此条件下,再要求P1(e)尽可能小。在鱼厂模式识别处理的例子中,可能会规定,我们将鲈鱼误判为鲑鱼的误差率不得超过1%,那么就必须寻找一种判断方式以减少在此条件约束下,将鲑鱼误判成鲈鱼的可能性。54 Neyman-Pearson决策规则 条件极值的Lagrange乘子法建模求解 式(228),N-P决策规则与最小错误率贝叶斯决策规则都是以似然比为基础,前者是先验概率之比,后者使用Lagrange乘子作为阈值 应用 调节判决边界的数值来满足N-P决策规则 高斯分布及某些其它分布形式解析方法求得 高维时,求解边界面不易,利用似然比密度函数试探法,显式解不容易。55 2.2.4 最小最大决策 在整个先验概率范围上都能很好的进行操作的分类器 先验概率可能变化范围较大,并且以一种不确定方式出现;或事先对先验概率毫无所知;设计思想:使先验概率取任何一种值时所引起的总风险的最坏的情况尽可能小,即最小化最最小化最大可能的总风险大可能的总风险。在博弈论(game theory)中的作用比在模式识别中更大 对手以对你最不利方式与你竞争 决策行为:使你付出代价最小化 平衡 56 博弈论博弈论 博弈论是研究决策主体的行为发生直接相互作用时的决策以及这种决策的均衡问题。一般认为,1944年冯 诺依曼和摩根斯坦合作出版的博弈论和经济行为,标志着系统的博弈理论的形成。现代博弈论是在20世纪5060年代发展起来的,到20世纪70年代,博弈论正式成为主流经济学。1994年诺贝尔经济学奖授给了三位博弈论专家:纳什、泽尔藤和海萨尼。57 2.2.5 序贯分类方法 特征获取代价 错分损失 序贯分类思想 逐步加入特征以减少分类损失;衡量:加入新特征的代价与所降低分类损失。次优序贯方法:降低计算量与存储容量。58 2.2.6 2.2.6 分类器设计分类器设计 123按照决策规则可以把 n 维特征空间分成 c 个决策域。决策面:决策面:分割整个空间成c个区域的边界面。决策函数:决策函数:用于表达决策规则的函数。59 两类情况 最小错误率贝叶斯决策规则 2121,xTdxxx 2122112112212122112121 lnlnlnln xPxpPxpxPPxpxpxlxPxpPxpxxPxP60 多类情况最小错误率贝叶斯决策规则 cTdxxx,x2121 ijjiiiijjiijijjiiijijicjPpPpjicjPPppljicjPpPpjicjPPxxxxxxxxxxxxx且且且且,2,1 ,lnlnlnln,2,1,2,1,2,1,61(1)多类情况判别函数 。归类于成立,则将对一切如果使:用于表示多类决策规则定义一组函数ijiiijggcigxxxx,2,1,是单增函数其中 fhPfgPpgPpgPgiiiiiiiiii)()()(lnln)()()(xxxxxxxxx62(2)多类情况决策面方程 图2.5(a):一维向量,3个分类,4个区间 图2.5(b):二维向量,2个分类,2个区间 63 决策 DFG DFG DFG DFG x xa(3)多类情况分类器设计 DFG-Decision function generator 64 分类器 65(1)两类情况判别函数 一个判别函数所以两类情况可以只用则有定义221221 else 0 else xxxxxxxxxx11gggggg2121221121)()()(PPppgPpPpgPPgxxxxxxxxx 66(2)两类情况决策面方程 x(3)两类情况分类器设计 02211PpPpxxg 判别计算 阈值单元 2111P23 例2.3对例2.1,例2.2分别写出其判别函数和决策面方程 2.3 正态分布时的统计决策正态分布时的统计决策 物理上的合理性物理上的合理性 数学上的方便性数学上的方便性 2.3.1 正态分布概率密度函数的定义及性质正态分布概率密度函数的定义及性质 22222,)()()()(21exp21)(NxpdxxpxxEdxxxpxExxp)(xpx1.单变量正态分布 期望、方差、标准差 69 高斯分布 221111212 21211-21212,exp21dxxxpxpdxdxdxdxdxpxpxpdxxpxdpxxEEEEdxxxpdiiiiiiiEiiiddijTTdTdTddxxxxxxxxxxx为边缘分布其中是协方差矩阵的均值向量是维的列向量。2.多元正态分布多元正态分布均值向量、协方差矩阵 222,ijjiiiijijijjiijjiiijxxixdxdxxxpxxxxE是的协方差和而个元素线上的第的方差就是对角是对称非负定阵,71 多元正态分布的性质 P26P29 参数 和 对分布的决定性。等密度点的轨迹是一个超椭球面。不相关性等价于独立性 边缘分布和条件分布的正态性 线性变换的正态性 线性组合的正态性 常数-1xxT jijijijixpxpxxpxExExxE,72 多元正态分布 73 2.3.2 多元正态概率型下的 最小错误率贝叶斯判别函数和决策面 iTdiiiiPgPpglnln2121lnlni1-ii21i2xxxxx令ijjjiiPpPpxxx则如果 max2,1 ikdkiggxxx则如果 max,1 )x()x(21exp)2(1)x(P1t2/12/d 多元正态分布的概率密度函数(248)P30 错!75 ci,2,1,.12iI 002i21i1-ii21lnln2iTiiTiTiiiiTiwgwgPPgxwxxxxwxxxxxjiPP)2(jiPP)1(iTdiPglnln2121lni1-ii21i2xxx 2ii1-iixxxxxiTigg最小距离分类器 线性分类器 76 77 78 A classifier that uses linear discriminant functions is called“a linear machine”The decision surfaces for a linear machine are pieces of hyperplanes defined by:gi(x)=gj(x)79 The hyperplane separating Ri and Rj always orthogonal to the line linking the means!)()(P)(Pln)(21xjiji2ji2ji0 )(21x then )(P)(P ifji0ji 80 81 0i1-Ti211-Ti1-21i1-i21lnlniTiiiTiTiwgPPgxwxxxxxxx iTdiPglnln2121lni1-ii21i2xxx线性分类器 i .2 82 Case i=(covariance of all classes are identical but arbitrary!)Hyperplane separating Ri and Rj (the hyperplane separating Ri and Rj is generally not orthogonal to the line between the means!).()()()(P/)(Pln)(21xjiji1tjijiji0 83 84 85 不相等i.3 )(lnln21000i1-ii21ijiTjijiTjiiTiiTiiTiwwggdwgPgxwwxWWxxxxxwxWxxxxx 决策面决策面-超二次曲面超二次曲面 86 Case i=arbitrary The covariance matrices are different for each category (Hyperquadrics which are:hyperplanes,pairs of hyperplanes,hyperspheres,hyperellipsoids,hyperparaboloids,hyperhyperboloids)(Plnln2121 w w21W :wherewxwxWx)x(g iii1iti0ii1ii1ii0itiiti 87 88 89 90 91 结论 P26 92 2.4 关于分类器的错误率问题 决策规则错误率 类条件概率密度及先验概率已知错误率固定 错误率分类问题固有复杂性度量 衡量分类器性能优劣 计算困难、重要 理论公式 错误率上界 实验估计 93 94 2.5 讨论 P42P43 95 实例分析 从贝叶斯理论 看非典型肺炎的确诊问题 96 97 问题模型 98 先验概率 99 贝叶斯公式 100 计算后验概率 101 检验的确诊率低 102 大量疑似病例 103 分析原因 104 分析问题 105 分析问题 106 分析问题 107 事实证明 108 109 结论 110 结论 111 结论 112 结论 113 思考 不平衡样本(发病/正常)统计学习过程用采样数据改进 114 115 116 117 118 119 120 结论 2 121 用贝叶斯公式用贝叶斯公式 分析风险决策与信息价值分析风险决策与信息价值 122 123 124 125 126 127 128 129 130 131 132 133 134