《《模式识别》第二章-概率密度函数估计.ppt》由会员分享,可在线阅读,更多相关《《模式识别》第二章-概率密度函数估计.ppt(59页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、模式识别模式识别模式识别模式识别 Pattern Recognition Pattern Recognition Pattern Recognition Pattern Recognition概率密度函数估计概率密度函数估计概率密度函数估计概率密度函数估计佘勇佘勇佘勇佘勇课件密码课件密码课件密码课件密码 :kys2006kys2006kys2006kys2006Tel:13980905197Tel:13980905197Tel:13980905197Tel:13980905197Email:Email:Email:Email:办公室:科教楼办公室:科教楼办公室:科教楼办公室:科教楼110110
2、110110贝叶斯分类器设计的关键要求贝叶斯分类器设计的关键要求贝叶斯分类器是基于样本的概率分布的分类器,设计贝叶斯分类器的关键是:决策类别数已知(c类)先验概率P(i)已知类条件概率密度p(x|i)已知设计贝叶斯分类器时可能的已知条件设计贝叶斯分类器时可能的已知条件关于样本1、已知类别的训练样本2、样本类别未知,但有其它可用信息关于类别的概率分布1、已知先验概率P(i),类条件概率密度p(x|i)的形式已知,但部分分布参数未知2、已知先验概率P(i),类条件概率密度p(x|i)完全未知3、先验概率P(i),类条件概率密度p(x|i)完全未知贝叶斯分类器设计步骤贝叶斯分类器设计步骤1、利用已知
3、或未知类别的样本信息估计先验概率P(i),类条件概率密度p(x|i)(分别表示为 )2、利用估计量 设计决策函数,完成分类器设计我们希望:当样本数目N时,收敛于P(i),p(x|i)利用样本集估计利用样本集估计概率密度函数估计概率密度函数估计参数估计参数估计非参数估计非参数估计监督参数估计监督参数估计非监督参数估计非监督参数估计最大似然估计最大似然估计贝叶斯估计与学习贝叶斯估计与学习已知概率密度已知概率密度函数形式,未函数形式,未知其某些参数知其某些参数概率密度函数概率密度函数形式未知形式未知样本类别样本类别已知已知样本类别样本类别未知未知估计参数确估计参数确定而未知定而未知估计参数是随估计参
4、数是随机量,其先验机量,其先验分布已知分布已知最大似然估计最大似然估计最大似然估计基于以下假设:待估参数是确定的未知量按类别把样本分成c类X1,X2,X3,XC,其中第i类Xi的样本共N个 Xi=(x1,x2,,xN)T,并且是从概率密度为p(x|i)总体中独立抽取的Xi中的样本不包含j(ij)的信息,所以可以对每一类样本独立进行处理条件概率密度p(x|i)具有确定的函数形式,其参数i未知,可以表示为p(x|i)根据假定,可以只利用第i类训练样本来估计第i类的概率密度函数的参数,设i=(1,2,,P)T。似然函数似然函数设第i类样本集Xi的样本共N个 Xi=(x1,x2,,xN)T,是从概率密
5、度为p(x|i)总体中独立抽取的,则联合密度:我们把N个随机变量的联合密度称为似然函数l(i)求求i i的最大似然估计的最大似然估计如果参数空间中的某个 能够使l(i)极大化,则 即为i的最大似然估计量如果i仅有一个分量(i为标量),则i的最大似然估计量为下列方程的解:有时为了计算方便,可对似然函数取对数:如果i=(1,2,,P)T,则定义梯度算子 :对于对数似然函数H(i)=lnl(i),下述方程其中的一个解为i的最大似然估计:对i求导,并令它为0:有时上式是多解的,上图有5个解,只有一个解最大即.P(Xi/i)一维正态分布的最大似然估计一维正态分布的最大似然估计设Xi=(x1,x2,,xN
6、)T,为N个一维样本,是从一维正态分布概率密度函数p(x|i)总体中独立抽取的,i=(1,2)T,1=,2=2则:i最大似然估计量 为下述方程的解由上述方程组解得1=,2=2的最大似然估计量:多维正态分布的最大似然估计多维正态分布的最大似然估计设Xi=(x1,x2,,xN)T,为N个d维样本,是从d维正态分布概率密度函数p(x|i)总体中独立抽取的,i=(1,2)T,1=,2=则:i最大似然估计量 为下述方程的解由上述方程组解得1=,2=的最大似然估计量:结论:正态总体均值的最大似然估计即为训练样本的算术平均协方差的最大似然估计是N个矩阵的算术平均最小风险率贝叶斯决策最小风险率贝叶斯决策设:待
7、识别样本:x=(x1,x2,,xd)T类别状态空间:=w1,w2,wC决策空间:=a1,a2,,aa(ai,wj)表示样本x为类别wj而采取决策ai所造成损失则,样本x采取决策ai造成的条件期望损失(条件风险):对特征空间Ed中的任意样本x采取决策ai造成的条件风险的期望:使R最小的决策ak称为最小风险贝叶斯决策贝叶斯估计贝叶斯估计设第i类样本集Xi的样本共N个 Xi=(x1,x2,,xN)T,是从概率密度为p(x|i)总体中独立抽取的,i为随机量,其先验分布p(i)已知,试通过样本集Xi估计i(找出估计量 )使贝叶斯风险最小与最大似然估计的区别与最大似然估计的区别最大似然估计是把待估的参数看
8、作固定的未知量贝叶斯估计则是把待估的参数作为具有某种先验分布的随机变量通过对第i类学习样本Xi的观察,使概率密度分布P(Xi|)转化为后验P(|Xi),再求贝叶斯估计参数估计的贝叶斯风险计算参数估计的贝叶斯风险计算参照最小风险贝叶斯决策公式,参数估计的贝叶斯风险R:根据贝叶斯公式:为给定x条件下估计量的期望损失,即条件风险贝叶斯估计的本质贝叶斯估计的本质使条件风险 极小的估计量 一定使贝叶斯风险最小如果i的估计量 使条件风险 最小,则称 是关于i的贝叶斯估计量二次损失函数下的贝叶斯估计量二次损失函数下的贝叶斯估计量如果损失函数为二次函数:则i的贝叶斯估计量 是给定x时的条件期望:可以证明上式得
9、到的i的贝叶斯估计量 可使条件风险最小贝叶斯估计步骤贝叶斯估计步骤 确定i的先验分布P(i),待估参数为随机变量。用第i类Xi的样本集 Xi=(x1,x2,,xN)T,求出样本的联合概率密度分布P(Xi|i),它是i的函数。利用贝叶斯公式,求i的后验概率 求贝叶斯估计量一维正态分布下的贝叶斯估计一维正态分布下的贝叶斯估计设一维正态分布且总体方差已知(未知):总体分布密度p(x|)N(,2)的先验概率P()已知P()N(0,02)样本集 Xi=(x1,x2,,xN)T是取自N(,2)的样本集求:的贝叶斯估计量在二次损失函数下:利用贝叶斯公式,得:由于:p(x|)N(,2)P()N(0,02)所以
10、P(|X)为正态分布:比较上述2个公式,利用待定系数法,得:解上式得:代入估计量公式:如果令P()为标准正态分布 P()N(0,02)=N(0,1)则:与最大似然估计相似,只是分母不同贝叶斯学习贝叶斯学习在贝叶斯估计中,当求出的后验概率之后,直接去推导总体分布即根据贝叶斯公式:设用XN表示N个样本的样本集:XN=(x1,x2,,xN)T,有:综合上述两式得:参数估计的递推贝叶斯方法:设p()已知,利用上式,可以得到一个密度函数系列:p(),p(|x1),p(|x1,x2),。如果此密度系列收敛于一个真实参数为中心的函数,此种性质称为贝叶斯学习一维正态分布下的贝叶斯学习一维正态分布下的贝叶斯学习
11、在贝叶斯估计中,当求出的后验概率之后,直接去推导总体分布即当观察一个样本时,N=1就会有一个的估计值的修正值当观察N=4时,对进行修正,向真正的靠近当观察N=9时,对进行修正,向真正的靠的更近当N,N就反映了观察到N个样本后对的最好推测,而N2反映了这种推测的不确定性N,N2,N2 随观察样本增加而单调减小,且当N,N2 0 当N,P(|xi)越来越尖峰突起N,P(|xi)函数,这个过程成为贝叶斯学习类概率密度的估计 在求出u的后验概率P(|X)后,可以直接利用式推断类条件概率密度。即P(x|X)P(x|i,X)一维正态:已知2,未知的后验概率为结论:把第i类的先验概率P(i)与第i类概率密度
12、P(x|xi)相乘可以 得到第i类的后验概率P(i/x),根据后验概率可以分类。对于正态分布P(x|xi),用样本估计出来的N代替原来的 用 代替原来的方差 即可。把估计值N作为的实际值,那么使方差由原来的 变 为 ,使方差增大参数估计的缺点参数估计的缺点参数估计要求密度函数的形式已知,但这种假定有时并不成立,我们不知道总体分布的函数形式经典的密度函数都是单峰的,而在许多实际情况中却是多峰的,很难拟合实际的概率密度上述2种情况下,将不能使用参数估计,因此用非参数估计非参数估计非参数估计直接用已知类别样本去估计总体密度分布,方法有:用样本直接去估计类概率密度p(x/i)以此来设计分类器,如窗口估
13、计用学习样本直接估计后验概率p(i/x)作为分类准则来设计分类器,如k近邻法.非参数估计原理非参数估计原理设样本x落入区域R的概率Pp(x)为x的总体概率密度函数,若从概率密度函数为p(x)的总体中独立抽取N个样本x1,x2,xN,其中k个样本落入区域R的概率符合二项分布:可以证明,下式是P的一个较好的估计设区域R足够小,其体积为V,为概率密度函数p(x)的估计,p(x)连续且在R上无变化,则:与样本数N、区域R的体积V、落入V中的样本数k有关,它是的一个空间平均估计 当V固定的时候N增加,k也增加,当N时,N,此时P=k/N1,只反映了P(x)的空间平均估计,而反映不出空间的变化 N固定,体
14、积变小,当V0时 k0时:k0时:所以起伏比较大,噪声比较大,需要对V进行改进.对体积对体积V V的改进的改进为了估计x点的密度,我们构造一串包括X的区域序列R1,R2,.RN,对R1采用一个样本进行估计,对R2采用二个样本进行估计。设VN是RN的体积,KN是N个样本落入VN的样本数则密度的第N次估计:若若p pN N(x(x)收敛于收敛于p(xp(x)应满足三个条件:应满足三个条件:,当N时,VN,N,VN0 这时虽然样本数多,但由于VN,落入VN内的样本KN 也减小,所以空间变化才反映出来 ,N ,kN ,N与KN同相变化 ,KN的变化远小于N的变化。因此尽管在R内落入了很多的样本,但同总
15、数N比较,仍然是很小的一部分。两种非参数估计方法两种非参数估计方法如何选择VN满足以上条件:Parzen窗口法:使体积VN以N的某个函数减小,(h为常数)KN近邻法:使KN作为N的某个函数,例 VN的选择使RN正好包含KN个近邻 ParzenParzen窗口估计窗口估计假设RN为一个d维的超立方体,hN为超立方体的长度超立方体体积为:,d=1,窗口为一线段 d=2,窗口为一平面 d=3,窗口为一立方体 d3,窗口为一超立方体窗口的选择:方窗函数指数窗函数正态窗函数(u)(u)(u)hN 正态窗函数(u)是以原点x为中心的超立方体。在xi落入方窗时,则有 在VN内为1 不在VN内为0落入VN的样
16、本数为所有为1者之和 密度估计讨论:每个样本对估计所起的作用依赖于它到x的距离,即|x-xi|hN/2时,xi在VN内为1,否则为0。称为 的窗函数,取0,1两种值,但有 时可以取0,0.1,0.2多种数值,例如随xi离x接近的程 度,取值由0,0.1,0.2到1。要求估计的PN(x)应满足:为满足这两个条件,要求窗函数满足:窗长度hN对PN(x)的影响若hN太大,PN(x)是P(x)的一个平坦,分辨率低的估计,有平均误差若hN太小,PN(x)是P(x)的一个不稳定的起伏大的估计,有噪声误差为了使这些误差不严重,hN应很好选择例1:对于一个二类(1,2)识别问题,随机抽取1类的6个样本X=(x
17、1,x2,.x6)1=(x1,x2,.x6)=(x1=3.2,x2=3.6,x3=3,x4=6,x5=2.5,x6=1.1)估计P(x|1)即PN(x)解:选正态窗函数0123456x6x5x3x1x2x4xx是一维的上式用图形表示是6个分别以3.2,3.6,3,6,2.5,1.1为中心的丘形曲线(正态曲线),而PN(x)则是这些曲线之和。由图看出,每个样本对估计的贡献与样本间的距离有关,样本越多,PN(x)越准确。例2:设待估计的P(x)是个均值为0,方差为1的一维正态密度函数。若随机地抽取X样本中的1个、16个、256个作为学习样本xi,试用窗口法估计PN(x)。解:设窗口函数为正态的,1
18、,0hN:窗长度,N为样本数,h1为选定可调节的参数。v用 窗法估计单一正态分布的实验N=N=256N=16N=1讨论:由图看出,PN(x)随N,h1的变化情况 当N1时,PN(x)是一个以第一个样本为中心的正态形状的小丘,与窗函数差不多。当N16及N=256时 h10.25 曲线起伏很大,噪声大 h11 起伏减小 h14 曲线平坦,平均误差 当N时,PN(x)收敛于一平滑的正态曲线,估计曲线较好。关于关于ParzenParzen窗口法的结论窗口法的结论结论:由上例知窗口法的优点是应用的普遍性。对规则分布,非规则分布,单锋或多峰分布都可用此法进行密度估计。要求样本足够多,才能有较好的估计。因此
19、使计算量,存储量增大。在窗口法中存在一个问题是对hN的选择问题。若hN选太小,则大部分体积将是空的(即不包含样本),从而使PN(x)估计不稳定。若hN选太大,则PN(x)估计较平坦,反映不出总体分布的变化k kN N-近邻估计近邻估计KN近邻法的思想是以x为中心建立空胞,使v,直到捕捉到KN个样本为止,称KN-近邻估计v的改进,样本密度大,VN;样本密度小,VN;P(x)的估计为:使使P PN N(x)(x)收敛于收敛于P(x)P(x)的充分必要条件:的充分必要条件:,N与KN同相变化 ,KN的变化远小于N的变化 V1为N=1时的VN值KN近邻估计对KN和VN都作了限制K KN N近邻法作后验概率的估计近邻法作后验概率的估计由KN近邻估计知N个已知类别样本落入VN内为KN个样本的概率密度估计为:N N个样本落入个样本落入V VN N内有内有K KN N个,个,K KN N个样本内有个样本内有K Ki i个样本属于个样本属于i i类类则联合概率密度:根据Bayes公式可求出后验概率:类别为i的后验概率就是落在VN内属于i的样本ki与VN内总样本数KN的比值
限制150内