《贝叶斯决策论.pptx》由会员分享,可在线阅读,更多相关《贝叶斯决策论.pptx(50页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第7讲 贝叶斯决策论文志强文志强计算机与通信学院计算机与通信学院1主要内容n引言引言n贝叶斯决策论贝叶斯决策论-连续特征连续特征n最小误差率分类最小误差率分类n分类器、判别函数及判定面分类器、判别函数及判定面n正态密度正态密度资料来自:资料来自:Richard O.Duda,李宏东等译李宏东等译.模式分类模式分类,机械工业出版机械工业出版社社.2003.27.1引言1)贝叶斯决策论的概念)贝叶斯决策论的概念n贝叶斯决策论:利用概率的不同分类决策贝叶斯决策论:利用概率的不同分类决策与相应的决策代价之间的定量折中。与相应的决策代价之间的定量折中。n假设:决策问题可以用概率的形式来描述,假设:决策问
2、题可以用概率的形式来描述,并假设所有有关的概率结构均已知。并假设所有有关的概率结构均已知。2)鱼类分类的例子:鲈鱼,鲑鱼(续)鱼类分类的例子:鲈鱼,鲑鱼(续)3(鲑鱼)(鲈鱼)4使用长度作为特征使用长度作为特征(鲑鱼)(鲈鱼)5使用光泽度作为特征使用光泽度作为特征(鲑鱼)(鲈鱼)6判别边界判别边界决策理论的任务是:使总体代价函数最小。决策理论的任务是:使总体代价函数最小。(鲈鱼)(鲑鱼)7使用光泽度和宽度特征的散布图使用光泽度和宽度特征的散布图(鲈鱼)(鲑鱼)8复杂模型复杂模型9最优折中最优折中Center problem in pattern recognition103)几个概念)几个概念
3、n如果用如果用w表示类别状态,那么当表示类别状态,那么当w=w1时是鲈鱼,时是鲈鱼,当当w=w2时是鲑鱼,可由概率来描述特性的随机时是鲑鱼,可由概率来描述特性的随机变量。变量。n先验概率:先验概率:P(w1)表示鲈鱼的先验概率,表示鲈鱼的先验概率,P(w2)表表示鲑鱼的先验概率,满足示鲑鱼的先验概率,满足P(w1)+P(w2)=1。n类条件概率密度:假设类条件概率密度:假设x是一连续随机变量,其是一连续随机变量,其分布取决于类别的状态,表示成分布取决于类别的状态,表示成p(x|w)的形式,的形式,也称状态条件密度。也称状态条件密度。11图图7-1假定的类条件概率密度函数图,显示了模式处于类别假
4、定的类条件概率密度函数图,显示了模式处于类别wi时的时的观测某个特定特征值观测某个特定特征值x的概率密度。如果的概率密度。如果x代表鱼的长度,那么这代表鱼的长度,那么这两条曲线可描述两种鱼的长度区别。概率函数已归一化。因此每两条曲线可描述两种鱼的长度区别。概率函数已归一化。因此每条曲线下的面积为条曲线下的面积为1。12n假设已知先验概率假设已知先验概率P(wj),也知道条件概率密度,也知道条件概率密度p(x|wj),且,且j=1,2。通过观察和测量,发现某个特征(一条鱼。通过观察和测量,发现某个特征(一条鱼的光泽度)为的光泽度)为x。则联合概率密度可写成。则联合概率密度可写成 p(wj,x)=
5、P(wj|x)p(x)=p(x|wj)P(wj)于是可得贝叶斯公式:于是可得贝叶斯公式:P(wj|x)=p(x|wj)P(wj)/p(x)在两类问题下:在两类问题下:贝叶斯公式可用非正式的英语表示成贝叶斯公式可用非正式的英语表示成其中,其中,p(x|wj)称为称为wj关于关于x的似然函数。证据因子的似然函数。证据因子p(x)可可看成一个标量因子。看成一个标量因子。13图图7-2 在先验概率在先验概率P(w1)=2/3,P(w2)=1/3及图及图7-1给出的类条件概率给出的类条件概率密度的条件下的后验概率图密度的条件下的后验概率图.144)决策规则)决策规则-最小化误差概率条件下的贝叶斯决策规则
6、最小化误差概率条件下的贝叶斯决策规则决策规则决策规则:如果某个观测值:如果某个观测值x使得使得P(w1|x)比比P(w2|x)大,大,则判断类别是则判断类别是w1,反之,则判断,反之,则判断w2。n误差概率:误差概率:(4)n平均误差平均误差(4)式可写成:式可写成:可得到完全等价的判断规则可得到完全等价的判断规则157.2贝叶斯决策论-连续特征推广:推广:n允许使用多于一个特征允许使用多于一个特征n允许多于两种类别状态的情形允许多于两种类别状态的情形n允许有其他行为而不是仅仅判断类别允许有其他行为而不是仅仅判断类别n通过引入一个更一般的损失函数来替代误差概率通过引入一个更一般的损失函数来替代
7、误差概率注:注:损失函数:精确地阐述了每种行为所付出的代价损失函数:精确地阐述了每种行为所付出的代价大小,并且用于将概率转换为一种判决。大小,并且用于将概率转换为一种判决。16n令令w1,wc表示有限个表示有限个c个类别集,个类别集,1,a表示有限的表示有限的a种可能采取的行为集,风险函数种可能采取的行为集,风险函数(i|wj)描述类别状态为描述类别状态为wj时采取行动时采取行动i的风险。的风险。特征向量特征向量x表示一个表示一个d维随机变量。令维随机变量。令p(x|wj)表表示示x的状态条件概率密度函数,则后验概率可表的状态条件概率密度函数,则后验概率可表示成:示成:证据因子已知证据因子已知
8、17n如果观测到某个特定模式如果观测到某个特定模式x并且采取行为并且采取行为i,如果真实,如果真实的类别为的类别为wj,通过定义将有损失,通过定义将有损失(i|wj),则相应损失,则相应损失为为称为条件风险称为条件风险n 可以通过选择最小化条件风险的行为来使预期的损失可以通过选择最小化条件风险的行为来使预期的损失最小化。最小化。n 贝叶斯决策过程实际上提供了一个总风险的优化过程。贝叶斯决策过程实际上提供了一个总风险的优化过程。总风险为:总风险为:18两类分类问题ij=(i|wj)表示当前实际类别为表示当前实际类别为wj时误判为时误判为wi所所引起的损失。引起的损失。n条件风险为:条件风险为:n
9、如果如果也表述为:如果也表述为:如果则判定则判定为为w119n利用贝叶斯规则,则等价于利用贝叶斯规则,则等价于如果如果则判定则判定为为w1。另一种表达方式为:如果下式成立,则判定为另一种表达方式为:如果下式成立,则判定为w1。似然比似然比称为207.3最小误差率分类n如果采取行为如果采取行为i,而实际类别为,而实际类别为wj,那么在,那么在i=j的情况下的情况下判定是正确的,如果判定是正确的,如果ij,则产生误判。如果要避免误判,则产生误判。如果要避免误判,自然要寻找一种判决规则使误判概率最小化。自然要寻找一种判决规则使误判概率最小化。n对称损失函数或对称损失函数或0-1损失函数损失函数条件风
10、险:相当于平均误差概率条件风险:相当于平均误差概率n为了最小化平均误差概率,需要选取为了最小化平均误差概率,需要选取i使得后验使得后验概率概率P(wi|x)最大,也即基于最小误差概率,有最大,也即基于最小误差概率,有21图图7-3 图图7-1所示的分布的似然函数比所示的分布的似然函数比p(x|w1)/p(x|w2)。如果引入一。如果引入一个个0-1损失或分类损失,那么判决边界将由损失或分类损失,那么判决边界将由a决定决定227.4分类器、判别函数及判定面7.4.1多类情况多类情况 常用的判别函数为常用的判别函数为gi(x),i=1,c的形式,如果的形式,如果对于所有的对于所有的ji,有,有 g
11、i(x)gj(x)则此分类器将这个特征向量则此分类器将这个特征向量x判为判为wi 分类器可视为一个网络或机器(图分类器可视为一个网络或机器(图7-5)。)。23图图7-5 一个包含一个包含d个输入个输入c个判决函数个判决函数gi(x)的一般的统计模式分类的一般的统计模式分类器的体系结构。接下来的步骤是确定哪个判别函数值最大,并相器的体系结构。接下来的步骤是确定哪个判别函数值最大,并相应的对输入作分类。箭头表示信息流的方向。应的对输入作分类。箭头表示信息流的方向。24n具有一般风险的情况下,让具有一般风险的情况下,让gi(x)=-R(i|x)n在最小误差概率情况下,让在最小误差概率情况下,让gi
12、(x)=P(wi|x)n在最小误差概率情况下,一些常用选择:在最小误差概率情况下,一些常用选择:25 图图7-6在这个二维的两类问题在这个二维的两类问题的分类器中,概率密度为高斯的分类器中,概率密度为高斯分布,判决边界由两个双曲线分布,判决边界由两个双曲线构成,因此判决区域构成,因此判决区域R2并非是并非是简单的连通的。椭圆轮廓线标简单的连通的。椭圆轮廓线标记出记出1/e乘以概率密度的峰值。乘以概率密度的峰值。267.4.2两类情况:二类分类器两类情况:二类分类器判别函数判别函数 如果如果 则判为则判为w1,否则判为,否则判为w2。常用的个常用的个g(x)函数如下:函数如下:277.5正态密度
13、nf(x)的数学期望的数学期望287.5.1单变量密度函数n单变量正态密度函数单变量正态密度函数期望值:期望值:方差:方差:记为:记为:29图图7-7单变量正态分布大约有单变量正态分布大约有95%的区域在的区域在|x-|2范围内,范围内,如图所示。此分布的峰值为如图所示。此分布的峰值为307.5.2多元密度函数nd维多元正态密度的形式维多元正态密度的形式其中其中记为记为协方差协方差矩阵:矩阵:31图图7-8 特征空间中的特征空间中的一个线性变换将一个一个线性变换将一个任意正态分布变换成任意正态分布变换成另一个正态分布。另一个正态分布。正态分布的性质:正态分布的性质:服从正态分布的随机变服从正态
14、分布的随机变量的线性组合还是一个量的线性组合还是一个正态分布。正态分布。白化变换直线投影32图图7-9从一个以均值从一个以均值为中心为中心的云团内的二维高斯分布中取的云团内的二维高斯分布中取出的样本。椭圆显示了等概率出的样本。椭圆显示了等概率密度的高斯分布轨迹。密度的高斯分布轨迹。多元正态密度完全由多元正态密度完全由d+d(d+1)/2个参数确定。从一正态分个参数确定。从一正态分布中所抽取的样本点趋向于落在一个单一的云团或聚类布中所抽取的样本点趋向于落在一个单一的云团或聚类中。等密度点的轨迹为一超椭圆体,这些椭圆体的主轴中。等密度点的轨迹为一超椭圆体,这些椭圆体的主轴由由的本征向量给出,本征值
15、决定这些长轴的长度。的本征向量给出,本征值决定这些长轴的长度。33称为从称为从x到到的的Mahalanobis距离或马氏距离。距离或马氏距离。等密度分布的边界是一些到等密度分布的边界是一些到 的恒定马氏距离的超椭的恒定马氏距离的超椭圆体,且这些超椭圆体的体积决定了均值附近的样本圆体,且这些超椭圆体的体积决定了均值附近的样本的离散程度。的离散程度。与与Mahalanobis距离距离r对应的超椭圆体的体积为对应的超椭圆体的体积为其中其中Vd是一个是一个d维单位超球体的体积维单位超球体的体积347.6正态分布的判别函数可获得:可获得:下面分几种特殊情况来讨论下面分几种特殊情况来讨论最小误差概率分类可
16、通过使用判决函数获得最小误差概率分类可通过使用判决函数获得35情况1n省略无关常数后,可得简单的判别函数省略无关常数后,可得简单的判别函数表示欧几里德范数表示欧几里德范数二次型展开可得:二次型展开可得:,和和36n可得等价的线性判别函数可得等价的线性判别函数wi0称为第称为第i个方向的阈值或偏置。个方向的阈值或偏置。37n超平面此方程可写成超平面此方程可写成图图7-10 如果两种分布的协方差矩阵相等并且与单位阵成比例,那么它们成如果两种分布的协方差矩阵相等并且与单位阵成比例,那么它们成d维球状分布,其判决边界是一个维球状分布,其判决边界是一个d-1维归一化超平面,垂直于两个中心的维归一化超平面
17、,垂直于两个中心的连线。在这些一维,二维,三维的例子中,是假设在连线。在这些一维,二维,三维的例子中,是假设在P(w1)=P(w2)的情况下的情况下来显示来显示p(x|wi)和判决边界的。和判决边界的。其中其中38情况2n可简化为可简化为将二次型展开,可得线性判别函数:将二次型展开,可得线性判别函数:39n边界面方程为边界面方程为判决边界是超平面判决边界是超平面40图图7-11随着先验概率的改随着先验概率的改变,判决边界也随之改变;变,判决边界也随之改变;对于差别较大的离散先验概对于差别较大的离散先验概率而言,判决边界不会落于率而言,判决边界不会落于这些一维,二维及三维球状这些一维,二维及三维
18、球状高斯分布的中心点之间高斯分布的中心点之间41图图7-12相等但非相等但非对称的高斯分布对称的高斯分布的概率密度及判的概率密度及判决区域。判决超决区域。判决超平面未必和均值平面未必和均值连线垂直正交连线垂直正交42情况3n去掉常量后,判别函数为二次型:去掉常量后,判别函数为二次型:其中其中在两类问题中,对应的判定面是超二次曲面。在两类问题中,对应的判定面是超二次曲面。43图图7-13在方差不相等的一维高斯分布情况下,可能产生并非在方差不相等的一维高斯分布情况下,可能产生并非单连通的判决区域,如单连通的判决区域,如P(w1)=P(w2)时这里所示的情况时这里所示的情况判决区域不连通的情形判决区
19、域不连通的情形44图图7-14任意高斯分布导致任意高斯分布导致一般超二次曲面的贝叶斯一般超二次曲面的贝叶斯判决边界。反之,给定任判决边界。反之,给定任意超二次曲面,就能求出意超二次曲面,就能求出两个高斯分布,其贝叶斯两个高斯分布,其贝叶斯判决边界就是超二次曲面。判决边界就是超二次曲面。它们的方差由常概率密度它们的方差由常概率密度的围线表示的围线表示二维的例子二维的例子45图图7-15任意的三维高斯任意的三维高斯分布产生二维的超二次曲分布产生二维的超二次曲面的贝叶斯判决边界,甚面的贝叶斯判决边界,甚至还有退化为单一直线的至还有退化为单一直线的判决边界判决边界三维的例子三维的例子46图图7-16 4个正态的判决区个正态的判决区域。尽管对于类别数这么域。尽管对于类别数这么少的情况,其判决区域的少的情况,其判决区域的形状也是相当复杂的形状也是相当复杂的多类判决边界的情形多类判决边界的情形47例1 二维高斯分布数据的判决区域数据集如左图所示:数据集如左图所示:w1表示表示4个黑点的集合个黑点的集合w2表示红点的集合表示红点的集合48n可求得相应参数为可求得相应参数为假设先验概率相等:假设先验概率相等:P(w1)=P(w2),判别边界函数为:,判别边界函数为:49谢谢!50
限制150内