《第3章-概率密度函数估计ppt课件.ppt》由会员分享,可在线阅读,更多相关《第3章-概率密度函数估计ppt课件.ppt(69页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、软件工程专业第三章第三章 概率密度函数估计概率密度函数估计 计算机与通信工程学院计算机与通信工程学院计算机与通信工程学院计算机与通信工程学院模式识别模式识别软件工程专业课前思考课前思考 为什么需要概率密度函数的估计? 贝叶斯决策需要的已知信息 贝叶斯分类器中只要知道先验概率,条件概率P(i),P(x|i),就可以设计分类器了 存在问题: 未知概率密度函数 未知类条件概率密度 未知先验概率密度 有一些训练数据2022-7-29软件工程专业概率密度估计基本知识2参数估计理论3概率论基本知识1第二章第二章 概率密度函数估计概率密度函数估计32022-7-29非参数估计理论4软件工程专业概率论基本知识
2、1 142022-7-29软件工程专业概率论基本知识概率论基本知识 确定事件:概念是确定的,发生也是确定的; 随机事件:概念是确定的,发生是不确定的; 模糊事件:概念本身就不确定。 随机变量:随机事件的数量表示; 离散随机变量:取值为离散的随机变量 ; 连续随机变量:取值为连续的随机变量 ;52022-7-29软件工程专业频率和概率频率和概率 频率:试验在相同的条件下重复N次,其中M次事件A发生,则A发生的频率为:fN(A) = M / N; 概率:当N很大时,频率会趋向一个稳定值,称为A的概率:软件工程专业联合概率和条件概率联合概率和条件概率 联合概率:设A,B是两个随机事件,A和B同时发生
3、的概率称为联合概率,记为:P(A,B); 条件概率:在B事件发生的条件下,A事件发生的概率称为条件概率,记为:P(A|B); 乘法定理: P(AB)=P(A|B)P(B) P(AB)=P(B|A)P(A) 推广到三个事件:P(ABC)=P(A)P(B|A)P(C|AB)P(AB|C)=P(A|BC)P(B|C)?软件工程专业P(AB|C)=P(A|BC)P(B|C)? 证明: 等式左边: 等式右边:软件工程专业概率密度函数概率密度函数 概率分布函数:设X为连续型随机变量,定义分布函数: F(x) = P(Xx) 概率密度函数:如果存在一个非负函数p(x)使得下式成立,则p(x)称为的概率密度函
4、数:软件工程专业全概率公式全概率公式 互不相容事件:如果试验时,若干个随机事件中任何两个事件都不可能同时发生,则称它们是互不相容的。 全概率公式:若事件只能与两两不相容的事件A1, A2, AN之一同时发生,则有:软件工程专业贝叶斯公式贝叶斯公式 离散形式:A, B为离散随机变量: 连续形式:A为离散随机变量,B为连续随机变量:软件工程专业概率密度估计基础知识2 2122022-7-29软件工程专业 设计贝叶斯分类器的方法:.x1x2xna(x)分类器功能结构训练样本集样本分布的统计特征:概率密度函数决策规则:判别函数决策面方程软件工程专业 贝叶斯分类器中只要知道先验概率、条件概率或后验概概率
5、 P(i),P(x/i), P(i /x)就可以设计分类器了。现在来研究如何用已知训练样本的信息去估计P(i),P(x/i), P(i /x)。即给定一定数量的样本,去实现这些函数的估计软件工程专业一参数估计与非参数估计参数估计:先假定研究的问题具有某种数学模型,如正态分布,二项分布,再用已知类别的学习样本估计里面的参数。(监督和非监督)非参数估计:不假定数学模型,直接用已知类别的学习样本的先验知识直接估计数学模型。软件工程专业二监督参数估计与非监督参数估计监督参数估计:样本所属的类别及类条件总体概率概率密度函数的形式已知,而表征概率密度函数的某些参数是未知的。目的在于:由已知类别的样本集对总
6、体分布的某些参数进行统计推断,此种情况下的估计问题称为监督参数估计。非监督参数估计:已知总体概率密度函数形式但未知样本所属类别,要求推断出概率密度函数的某些参数,称这种推断方法为非监督情况下的参数估计。注:监督与非监督是针对样本所属类别是已知还是未知而言的。软件工程专业三. 参数估计的基本概念1. 统计量:样本中包含着总体的信息,总希望通过样本集把有关信息抽取出来。也就是说,针对不同要求构造出样本的某种函数,该函数称为统计量。2. 参数空间:在参数估计中,总假设总体概率密度函数的形式已知,而未知的仅是分布中的参数,将未知参数记为 ,于是将总体分布未知参数 的全部可容许值组成的集合称为参数空间,
7、记为 。3. 点估计、估计量和估计值:点估计问题就是构造一个统计量 作为参数 的估计 ,在统计学中称 为 的估计量。若 是属于类别 的几个样本观察值,代入统计量d就得到对于第i类的 的具体数值,该数值就称为 的估计值。1,Nd xx 1,iiNxxi软件工程专业4. 区间估计:除点估计外,还有另一类估计问题,要求用区间 作为 可能取值范围得一种估计 ,此区间称为置信区间,该类估计问题称为区间估计。5. 参数估计方法:参数估计是统计学的经典问题,解决方法很多,在此只考虑两种常用方法:一种是最大似然估计方法,另一种是贝叶斯估计方法。 (1) 最大似然估计:把参数看作是确定而未知的,最好的估计值是在
8、获得实际观察样本的最大的条件下得到的。 (2)贝叶斯估计:把未知的参数当作具有某种分布的随机变量,样本的观察结果使先验分布转化为后验分布,再根据后验分布修正原先对参数的估计。6. 参数估计的评价:评价一个估计的“好坏”,不能按一次抽样结果得到的估计值与参数真值 的偏差大小来确定,而必须从平均和方差的角度出发进行分析,即关于估计量性质的定义。21,dd软件工程专业参数估计理论3 3192022-7-29软件工程专业问题假定: 待估参数是确定的未知量 按类别把样本分成M类X1,X2,X3, XM 其中第i类的样本共N个 Xi = (X1,X2, XN)T 并且是独立从总体中抽取的 Xi中的样本不包
9、含 (ij)的信息,所以可以对每一 类样本独立进行处理。 第i类的待估参数根据以上四条假定,我们下边就可以只利用第i类学习样本来估计第i类的概率密度,其它类的概率密度由其它类的学习样本来估计。12(,.)Tip j一、最大似然一、最大似然软件工程专业1.一般原则: 第i类样本的类条件概率密度: P(Xi|i)= P(Xi|ii) = P(Xi|i)原属于i类的学习样本为Xi=(X1 , X2 ,XN,)T i=1,2,M求i的极大似然估计就是把P(Xi|i)看成i的函数,求出使它极大时的i值。学习样本独立从总体样本集中抽取的 N个学习样本出现概率的乘积取对数 :NkiXkPiXPiiXPii1
10、)|()|().|(NkikikNkXPXP11)|(log)|(log软件工程专业对i求导,并令它为0:有时上式是多解的, 上图有5个解,只有一个解最大即. 0)|(log.11NkikpXP0)|(log.0)|(log111ikNkpikNkXPXPP(Xi/i),即为的估值利用上式求出ii软件工程专业最大似然估计示意图最大似然估计示意图上图显示了一维情况下的一些训练样本,服从一个方差已知,均值未知中间图显示了似然函数关于均值的函数图像,如果有非常多的训练样本,那么函数波形非常窄下图显示对数似然函数取得最大的点软件工程专业 已知, 未知,估计 服从正态分布所以在正态分布时)|(iiXP0
11、)|(log1XPkNk111log (|)log 2|22nTkkkPXXX NkkX110NkkX1101i待估参数为代入上式得 110)(NkkNXNkkXN11所以,有这说明未知均值的极大似然估计正好是训练样本的算术平均。多维正态分布情况多维正态分布情况软件工程专业 , 均未知 A. 一维情况:n=1对于每个学习样本只有一个特征的简单情况: (n=1)由上式得 即学习样本的算术平均 样本方差21211,1222212log21)|(logXXPkik0)(1)|(log11211XXPkNkikNk代入02)(21)|(log12212212NkkikNkXXPNkkXN1111NkX
12、kN122121软件工程专业v 讨论: 1.正态总体均值的极大似然估计即为学习样本的算术平均 2.正态总体方差的极大似然估计与样本的方差不同,当N较大的时候,二者的差别不大。B多维情况:n个特征(推导过程,作为练习)估计值: 结论:的估计即为学习样本的算术平均 估计的协方差矩阵是矩阵 的算术 平均(nn阵列, nn个值)NkkXN111XTXNkNkk121XXkTk软件工程专业 极大似然估计是把待估的参数看作固定的未知量,而贝叶斯估计则是把待估的参数作为具有某种先验分布的随机变量,通过对第i类学习样本Xi的观察,通过贝叶斯准则将概率密度分布P(Xi|)转化为后验概率P(|Xi) ,进而求使得
13、后验概率分布最大的参数估计,也称最大后验估计。估计步骤: 确定的先验分布P(),待估参数为随机变量。 用第i类样本xi=(x1, x2,. xN)T求出样本的联合概率密度分布P(xi|),它是的函数。 利用贝叶斯公式,求的后验概率 dPXPPXPXPiii)()|()().|()|((证明略)求贝叶斯估计dXPi)|(二、贝叶斯估计二、贝叶斯估计软件工程专业 下面以正态分布的均值估计为例说明贝叶斯估计的过程: 一维正态分布:已知2,估计 假设概率密度服从正态分布 P(X|)=N(,2), P()=N(0,02) 第i类学习样本xi=(x1, x2,. xN)T, i=1,2,M 第i类概率密度
14、P(x|i,xi)=P(x|xi) 所以由贝叶斯公式,则可得后验概率: dPXPPXPXPiii)()|()().|()|(软件工程专业因为N个样本是独立抽取的,所以上式可以写成 其中 为比例因子,只与x有关,与无关 P(Xk| )=N(,2),P(u)=N(0,02) 其中a,a包含了所有与无关的因子1( |)(| ). ( )NikkPaP XPXdPXPai)()|(12200101111( |)expexp2222NkikXPaX 21exp10022NkkXa)1(2)1(21exp 200122202NkkXNa软件工程专业P(| Xi)是u的二次函数的指数函数P(| Xi)仍然是
15、一个正态函数, P(|Xi)=N(N,N2) 另外后验概率可以直接写成正态形式:比较以上两个式子,对应的系数应该相等 211(|)exp22NiNNPX2220022210111NNNkkNNX软件工程专业 解以上两式得 将N, 代入P(|Xi)可以得到后验概率,再用公式 22002222100NNkkXNN2220220NN( |), iPdX求 的估计。2N软件工程专业 对的估计为 若令P()=N(0, 02 )=N(0,1),即为标准正态分布 ,且总体分布的方差 也为1,则 此时估计 与极大似然估计相似,只是分母不同。 02202222001NNkNkXNN111NNkkXNNidXP)
16、|( 2软件工程专业1.贝叶斯学习的概念:通过已有的概率分布和观测数据推理求出的后验概率之后,直接去推导总体分布(形式已知),即当观察一个样本时,N=1就会有一个的估计值的修正值;当观察N=4时,对进行修正,向真正的靠近;当观察N=9时,对进行修正,向真正的靠的更近;当观察N个样本后,N就反映了观察到N个样本后对的最好推测,而N2反映了这种推测的不确定性。N, N2,N2 随观察样本增加而单调减小,且当N, N2 0 ;当N,P(|xi)越来越尖峰突起,于是 N, P(|xi) 函数,即收敛于一个以真实参数为中心的 函数,这个过程成为贝叶斯学习。 (|)(| ) ( |)(| ) ( |)ii
17、iP X XP XPX dP XPX d三、贝叶斯学习三、贝叶斯学习软件工程专业软件工程专业2类概率密度的估计 在求出u的后验概率P(|xi)后,可以直接利用式 推断类条件概率密度。即P(x|xi) P(x|i ,xi)一维正态:已知2,未知的后验概率为( |)( | )( |)iiP x xP xPx d2211( |)(|)exp2211( |)exp22iiNNNPPxxxP x服从正态分布软件工程专业( |)( | )( |)( |)(|)iiiP xP xPdP xPdxxx代入221111expexp2222NNNxd222222222222111expexp222NNNNNNNN
18、xxd 21exp2122222NNNx为正态函数),(22NNN软件工程专业v结论: 把第i类的先验概率P(i)与第i类概率密度P(x|xi)相乘可以得到第i类的后验概率P(i|x) ,根据后验概率可以分类。 对于正态分布P(x|xi),用样本估计出来的N代替原来的,用 代替原来的方差即可。 把估计值N作为的实际值,那么使方差由原来的 变为 ,使方差增大;也就是说:用的估计值N代替真实值,将引起不确定性增加。22N222N软件工程专业非参数估计理论4 4382022-7-29软件工程专业 前面的方法 密度函数的形式已知 存在问题 密度函数的形式常常未知 一些函数形式很难拟合实际的概率密度 经
19、典的密度函数都是单峰的,而在许多实际情况中却是多峰的2022-7-29软件工程专业非参数估计:直接用已知类别样本去估计总体密度分布,方法有: 用样本直接去估计类概率密度p(x|i)以此来设计分类器, 如窗口估计 用学习样本直接估计后验概率p(i|x)作为分类准则来设计分类器,如KN近邻法。2022-7-29软件工程专业密度估计原理密度估计原理 一个随机变量X落在区域R的概率为P p(X)为P(X)在R内的变化值,p(X)就是要求的总体概率密度 概率P是p(x)在区域R上平滑或平均后得到的概率2022-7-29RP(x)RxPdxxpPRr)(软件工程专业 估计概率P 假设有N个样本X=(x1,
20、 x2, xN)T都是独立同分布的,概率密度函数是p(x)。 N个样本中有k个落入在R内的概率符合二项分布,即: 其中P是样本x落入R内的概率 Pk是k个样本落入R内的概率2022-7-29PpCPkNkkNk1软件工程专业 估计概率P则随机变量k的数学期望:E(k)=NPk可以直接从训练样本估计得到 根据N个训练样本中落入区域R的样本数k,可得到概率P的一种估计,为: 2022-7-29NkP 软件工程专业 估计概率p(x)设p(x)在R内连续变化当R逐渐减小的时候,小到使p(x)在其上 几乎没有变化时,则:2022-7-29RVxpdxxpP)()(包围的体积是RRdxVRVxpdxxpP
21、)( )( Nk软件工程专业 估计概率p(x) 密度p(x)的估计:上式就是对x点概率密度p(x)的估计值2022-7-29VNkxp)(V足够小)软件工程专业讨论讨论 当V固定的时候N增加, k也增加,当 时 只反映了P(x)的空间平均估计 N固定,体积变小 当 时,k=0时 时 起伏比较大,噪声比较大,需要对V进行改进2022-7-29Nk1NkPVVNkxP1)(0V0)(VNkxP0kVNkxP)(软件工程专业对体积V V进行改进: 为了估计X点的密度,我们构造一串包括X的区域序列: R1,R2,.RN。 对R1采用一个样本进行估计, 对R2采用二个样本进行估计, . 设VN是RN的体
22、积,KN是N个样本落入VN的样本数,则:密度的第N次估计: 其中:VN是RN的体积,KN是N个样本落入VN的样本数PN(x)是P(x)的第N次估计NNNKN(x)PV软件工程专业若PN(x)收敛于P(x)应满足三个条件: ,当N时,VN,N,VN0 这时虽然样本数多,但由于VN,落入VN内的样本KN 也减小,所以空间变化才反映出来; ,N ,KN ,N与KN同向变化; ,KN的变化远小于N的变化。 因此尽管在R内落入了很多的样本,但同总数N比较, 仍然是很小的一部分。0limVNNKNNlim0limNKNN软件工程专业如何选择VN满足以上条件: 使体积VN以N的某个函数减小,如 (h为常数)
23、,窗口法。 使KN作为N的某个函数,例 VN的选择使RN正好包含KN个近邻 V1K1,V2K2,VRKR KN近邻法NhVNNKN软件工程专业 两种非参数估计方法 Parzen窗口估计 使得序列VN以N的某个函数的关系不断缩小 并对随机变量kN和kN / N加上必要的限制条件,确保估计值的收敛 例如: kN近邻估计 让kN为N的某个函数,而VN的选取是使相应的RN正好包含x的kN个邻域 例如:2022-7-29NVN/1NkN软件工程专业Parzen窗口估计假设RN为一个d维的超立方体,hN为超立方体的长度超立方体体积为: , d=1,窗口为一线段 d=2,窗口为一平面 d=3,窗口为一立方体
24、 d3,窗口为一超立方体窗口的选择: hVdNN其他.021| , 1)(uu|exp)(uu 方窗函数指数窗函数21exp21)(2uu正态窗函数(u) (u)(u)hN 正态窗函数软件工程专业 (u) 是以原点x为中心的超立方体。在xi落入方窗时,则有 在VN内为1 不在VN内为0落入VN的样本数为所有为1者之和 密度估计22hxxhxxNiNi1212|hhhxxNNNiNiNiNhxxK1)|(NiNiNNNNhxxVNVNKxP1)|(11)(软件工程专业讨论: 每个样本对估计所起的作用依赖于它到x的距离,即 | x-xi|hN/2时, xi在VN内为1,否则为0。 称为 的窗函数,
25、取0,1两种值,但有 时可以取0, 0.1, 0.2,多种数值,例如随xi离x接近的程度, 取值由0, 0.1, 0.2,到1。)|(hxxNihxxNi|)|(hxxNi软件工程专业 要求估计的PN(x)应满足:为满足这两个条件,要求窗函数满足: 窗长度hN对PN(x)的影响若hN太大, PN(x)是P(x)的一个平坦, 分辨率低的估计, 有平均误差若hN太小, PN(x)是P(x)的一个不稳定的起伏大的估计,有噪声误差为了使这些误差不严重, hN应很好选择。|()0|() ()0iNiNiixNNxxhxxxxdxhhh1)(0)(dxxPxPNN软件工程专业例1:对于一个二类( 1 ,2
26、 )识别问题,随机抽取1类的6个样本X=(x1,x2,. x6)1=(x1,x2,. x6) =(x1=3.2,x2=3.6,x3=3,x4=6,x5=2.5,x6=1.1)估计P(x|1)即PN(x)解:选正态窗函数0123456x6x5x3x1x2x4x)21exp(21)(2uu)|(21exp21)|()(2hxxhxxuNiNi软件工程专业x是一维的上式用图形表示是6个分别以3.2,3.6,3,6,2.5,1.1为中心的丘形曲线(正态曲线),而PN(x)则是这些曲线之和。5 . 0665 . 0VN665 . 0h,NhhV11NNN,其中选 2121113.20.134exp20.
27、511.1 0.134exp20.5NiNiNNxxxPxNVhx软件工程专业由图看出,每个样本对估计的贡献与样本间的距离有关,样本越多, PN(x) 越准确。软件工程专业例2:设待估计的P(x)是个均值为0,方差为1的正态密度函数。若随机地抽取X样本中的1个、 16个、 256个作为学习样本xi,试用窗口法估计PN(x)。解:设窗口函数为正态的, 1,0hN:窗长度,N为样本数,h1为选定可调节的参数。)|(21exp21)|(2hxxhxxNiNiNhh1N设2111111|111 |( )()exp22NNiiNiiNNxxNxxPxNNhhhh软件工程专业v用 窗法估计单一正态分布的实
28、验Parzen001.001.01.00.10.10001.001.01.00.10.10001.001.01.00.10.1025.01h202202202001.001.01.00.10.1011h41hN=N=256N=16N=1软件工程专业讨论:由图看出, PN(x)随N, h1的变化情况 当N1时, PN(x)是一个以第一个样本为中心的正态形状的小丘,与窗函数差不多。 当N16及N=256时 h10.25 曲线起伏很大,噪声大 h11 起伏减小 h14 曲线平坦,平均误差 当N时, PN(x)收敛于一平滑的正态曲线, 估计曲线较好。软件工程专业例3:待估的密度函数为两个均匀分布密度的
29、混合密度解:此为多峰情况的估计设窗函数为正态025. 01)(xP-2.5x-20 x2其它NhhuuN12,21exp21)(x-2.5-210.2502P(x)软件工程专业001.001.01.00.10.10001.001.01.00.10.10001.001.01.00.10.1025.01h202202202001.001.01.00.10.1011h41hN=N=256N=16N=1v用 窗法估计两个均匀分布的实验Parzen软件工程专业当N=1、16、256、 时的PN(x)估计如图所示 当N1时, PN(x) 实际是窗函数。 当N16及N=256时 h10.25 曲线起伏大;h
30、11 曲线起伏减小 h14 曲线平坦 当N时,曲线较好。结论:结论: 由上例知窗口法的优点是应用的普遍性。对规则分布,非规则分布,单锋或多峰分布都可用此法进行密度估计。 要求样本足够多,才能有较好的估计。因此使计算量,存储量增大。软件工程专业KN近邻估计: 在窗口法中存在一个问题是对hN的选择问题。若hN选太小,则大部分体积将是空的(即不包含样本),从而使PN(x)估计不稳定。若hN选太大,则PN(x)估计较平坦,反映不出总体分布的变化,而KN近邻法的思想是以x为中心建立空包,使V,直到捕捉到KN个样本为止,因此称其为KN-近邻估计。 V的改进体现为:样本密度大,VN ; 样本密度小,VN ;
31、 P(x)的估计为:NkN取,VNk(x)PNNN软件工程专业使PN(x)收敛于P(x)的充分必要条件: ,N与KN同相变化 ,KN的变化远小于N的变化 KNNlim0limNKNN)(11)()(111|VxPVVNKxPxPNNNN,所以因为V1为N=1时的VN值NVNxPxPNNxPNKxPNKVNKNNNNN1)(1)()()(时,当软件工程专业KN近邻估计对KN和VN都作了限制KN近邻法作后验概率的估计由KN近邻估计知N个已知类别样本落入VN内为KN个样本的概率密度估计为: N个样本落入VN内有KN个,KN个样本内有Ki个样本属于i类则联合概率密度: NVVNKNN1VNkxPNNN)( ,)( |) ()iNiiiNkNxP xPPV软件工程专业根据Bayes公式可求出后验概率:类别为i的后验概率就是落在VN内属于i的样本ki与VN内总样本数KN的比值MjiNiNNiiiiiiNxPxPPxPPxPxP11),(),()()|()()|()|(1( )( ,)NMNjNjNkNP xP xVVNkxPNiiN),(kkxPNiiN)|(后验概率的估计: 软件工程专业K近邻分类准则:对于待分样本x,找出它的k个近邻,检查 它的类别,把x归于样本最多的那个类别。K近邻分类的错误率随K,Pk,最低的错误率为Bayes分类。P*PK 软件工程专业
限制150内