3 第三章 参数估计与非参数估计.pdf
11第三章 参数估计与非参数估计第三章 参数估计与非参数估计 参数估计与监督学习 参数估计理论 非参数估计理论2基于样本的Bayes分类器基于样本的Bayes分类器:通过估计类条件:通过估计类条件概率密度函数,概率密度函数,设计相应的判别函数设计相应的判别函数分类器功能结构基于样本直接确定判别函数方法基于样本直接确定判别函数方法3基于样本的基于样本的BayesBayes分类器分类器设计设计 Bayes决策需要已知两种知识:决策需要已知两种知识:各类的先验概率各类的先验概率P(i)各类的条件各类的条件概率密度函数概率密度函数p(x|i)(|)()(|)(|)()iiijjjpPPpP=xxx?知识的来源:对问题的一般性认识或一些知识的来源:对问题的一般性认识或一些训练数据?基于样本两步基于样本两步Bayes分类器设计分类器设计?利用样本集估计利用样本集估计P(i)和和p(x|i)?基于上述估计值设计判别函数及分类器基于上述估计值设计判别函数及分类器?面临的问题:面临的问题:?如何利用样本集进行估计如何利用样本集进行估计?估计量的评价估计量的评价?利用样本集估计错误率利用样本集估计错误率4基于样本的Bayes分类器训练样本集训练样本集样本分布的统计特征:样本分布的统计特征:概率密度函数概率密度函数决策规则:决策规则:判别函数判别函数决策面方程决策面方程 最一般情况下适用的“最优”分类器:最一般情况下适用的“最优”分类器:错误率最小错误率最小,对分类器设计在理论上有指导意义。,对分类器设计在理论上有指导意义。获取统计分布及其参数很困难,实际问题中并不一定具备获取准确统计分布的条件。获取统计分布及其参数很困难,实际问题中并不一定具备获取准确统计分布的条件。5直接确定判别函数直接确定判别函数 基于样本基于样本直接确定判别函数方法直接确定判别函数方法:针对各种不同的情况,使用不同的准则函数,设计出满足这些不同准则要求的分类器。针对各种不同的情况,使用不同的准则函数,设计出满足这些不同准则要求的分类器。这些准则的这些准则的“最优最优”并不一定与错误率最小相一致:次优分类器。并不一定与错误率最小相一致:次优分类器。实例:正态分布最小错误率贝叶斯分类器在特殊情况下,是线性判别函数实例:正态分布最小错误率贝叶斯分类器在特殊情况下,是线性判别函数g(x)=wTx(决策面是超平面),能否基于样本直接确定决策面是超平面),能否基于样本直接确定w?训练样本集训练样本集决策规则决策规则:判别函数判别函数决策面方程决策面方程选择最佳准则选择最佳准则6一参数估计与非参数估计一参数估计与非参数估计参数估计参数估计:先假定研究问题具有某种数学模型,如正态分布,二项分布,再用已知类别的学习样本估计里面的参数。非参数估计非参数估计:不假定数学模型,直接用已知类别的学习样本先验知识估计数学模型。3-1 参数估计与监督学习参数估计与监督学习27二监督学习与无监督学习二监督学习与无监督学习监督学习:在已知类别样本指导下进行学习和训练,可以统计出各类训练样本不同的描述量,如其概率分布,或在特征空间分布的区域等,利用这些参数进行分类器设计,称为有监督学习。参数估计和非参数估计都属于监督学习。无监督学习:不知道样本类别(也就是说没有训练样本),只知道样本的某些信息,然后利用这些信息进行估计,如:聚类分析。参数估计也属于无监督学习。3-1 参数估计与监督学习参数估计与监督学习(续(续1)83-1 参数估计与监督学习参数估计与监督学习(续(续2)?下图表示对一幅道路图像按路面与非路面分类可用两种不同做法,其中左图左图是在图像中路面区与非路面中各找一个窗口窗口,将其中每个象素分别作为这两类的训练样本集每个象素分别作为这两类的训练样本集,用这两个样本集在特征空间的分布参数进行设计。?而无监督学习方法无监督学习方法则不同,它不预先选择样本类别的样本集,而是将整幅图的像素都作为待分类样本集,通过它们在特征空间中表现出来的聚类现象,把不同类别划分开。?图中有监督学习有监督学习,样本集分布呈现交迭情况,而无监督学习无监督学习方法由于没有类别样本指导,无法确定它们的交迭情况,只能按分布的聚类情况进行划分。93-1 参数估计与监督学习参数估计与监督学习(续(续3)?非监督学习与有监督学习方法的区别:非监督学习与有监督学习方法的区别:1 有监督学习方法监督学习方法必须要有训练集与测试样本。在训练集中找规律,而对测试样本使用这种规律;而非监督学习非监督学习没有训练集这一说,只有一组数据,在该组数据集内寻找规律。2 有监督学习方法有监督学习方法的目的就是识别事物,识别的结果表现在给待识别数据加上了标号。因此训练样本集必须由带标号的样本组成。而非监督学习方法非监督学习方法只有要分析的数据集本身,预先没有什么标号。如果发现数据集呈现某种聚集性,则可按自然的聚集性分类,但不以与某种预先的分类标号对上号不以与某种预先的分类标号对上号为目的。例如上图的道路图像,有监督学习方法的目的是找到“道路”,而非监督学习方法则只是将中间一条带状区域区分开来,本质上讲与“道路”这个标号没有关系。103-1 参数估计与监督学习参数估计与监督学习(续(续4)3 非监督学习方法非监督学习方法寻找数据集中的规律性,这种规律性并不一定要达到划分数据集的目的,也就是说不一定要“分类”。这一点比有监督学习方法的用途要广泛。譬如分析一堆数据的主分量,或分析数据集有什么特点都可以归于非监督学习方法的范畴。4 用非监督学习方法非监督学习方法分析数据集的主分量,与用K-L变换计算数据集的主分量又有区别主分量,与用K-L变换计算数据集的主分量又有区别。应该说后者从方法上讲不是一种学习方法。因此用K-L变换找主分量不属于非监督学习方法。通过学习逐渐找到规律性通过学习逐渐找到规律性是学习方法的特点。在人工神经元网络中寻找主分量的方法属于非监督学习方法。11贝叶斯分类器中只要知道先验概率P(i),类条件概率P(x/i)或后验概率 P(i/x)就可以设计分类器了。现在研究,如何用已知训练样本信息估计P(i),P(x/i),P(i/x)概率密度估计方法概率密度估计方法?类先验概率P(i)的估计:用训练数据中各类出现的频率来估计 依靠经验12?类条件概率密度函数类条件概率密度函数估计:两大类方法 参数估计:概率密度函数形式已知,而表征函数参数未知,需通过训练数据来估计 最大似然估计 Bayes估计 非参数估计:概率密度函数形式未知,也不作假设,利用训练数据直接对概率密度进行估计 Parzen窗法和kn-近邻法 神经网络方法313?估计量:样本集的某种函数f(X),X=X1,X2,XN?参数空间:总体分布未知参数所有可能取值组成的集合()12(,.,)Nd=x xx的()是样本集的函数,它对样本集的一次实现估计称计量点估为估计值?点估计的估计量和估计值点估计的估计量和估计值3-2 参数估计理论14?估计量评价标准估计量评价标准:无偏性,有效性,一致性无偏性,有效性,一致性 无偏性无偏性:E E()=()=有效性有效性:D D()()小,估计更有效小,估计更有效 一致性一致性:样本数趋于无穷时,样本数趋于无穷时,依概率趋于依概率趋于:lim()0NP=15最大似然估计计算方法最大似然估计计算方法 Maximum Likelihood(ML)估计估计参数参数 是确定而未知的是确定而未知的,Bayes估计方法则视为随机变量。样本集可按类别分开样本集可按类别分开,不同类别密度函数的参数,分别用各类的样本集来训练。概率密度函数形式已知,参数未知,为了描述概率密度函数p(x|i)与参数的依赖关系,用p(x|i,)表示。独立地按概率密度p(x|)抽取样本集X=X1,X2,XN,用X 估计未知参数16 似然函数:似然函数:121()(|)(,.,|)(|)NNkklpXpp=xxxx 对数似然函数:对数似然函数:1()l n(|)NkkHp=x 最大似然估计最大似然估计1argmax()argmaxln(|)MLnkklp=x17 最大似然估计计算方法使似然函数梯度梯度为01()|ln(|)|0MLMLNkkHp x=1.Ts=18一类概率密度最大似然估计一类概率密度最大似然估计(P48)假定:待估参数是确定的未知量按类别把样本分成假定:待估参数是确定的未知量按类别把样本分成M类类X1,X2,X3,,Xi,XM其中第其中第i类的样本共类的样本共N个:个:Xi =(X1,X2,XN)T 并且是独立从总体中抽取的并且是独立从总体中抽取的 Xi中的样本不包含中的样本不包含(ij)的信息,所以可以对每一类样本独立进行处理。第的信息,所以可以对每一类样本独立进行处理。第i类的待估参数根据以上四条假定,我们下边就可以只利用第类的待估参数根据以上四条假定,我们下边就可以只利用第i类学习样本来估计第类学习样本来估计第i类的概率密度,其它类的概率密度由其它类的学习样本来估计。类的概率密度,其它类的概率密度由其它类的学习样本来估计。),.,(21nTi=j4191.一般原则:一般原则:第i类样本的类条件概率密度:P(Xi|i)=P(Xi|i,i)=P(Xi|i)原属于i类的学习样本为Xi=(X1,X2,XN,)Ti=1,2,M求求i的最大似然估计就是把的最大似然估计就是把P(Xi|i)看成看成i的函数,求出使它最大时的的函数,求出使它最大时的i值。值。学习样本是从总体样本集中独立抽取的N个学习样本出现概率的乘积,将P(Xi|i)称作相对于样本集Xi的参数的似然函数似然函数。在N个样本独立抽出条件下,上式取对数可写为:(|,)(|)(|)1iiikiNiiiPPP XXXk=11log(|)log(|)NNiiiikkkkP XP X=20最大似然估计量为下面方程的解:有时上式是多解的,上图有5个解,只有一个解才使似然函数最大。11().lo g(|)0NiikkpHPX=111log(|)0.log(|)0NiikkNiikkpP XP X=P(Xi/i),即为的估值利用上式求出ii212.多维正态分布情况多维正态分布情况()()已知已知,未知未知,估计估计服从正态分布所以在正态分布时)|(iiXP0)|(log1=XPkNk()()()=121|2log21)|(logXXXPkkTnk=1i待估参数为对对数似然函数求导,求其极大值有时不一定行得通。例如,随机变量X服从均匀分布,但参数1,2未知,若对其对数似然函数求导,则方程组中解出的参数1和2至少有一个为无穷大,为无意义结果。需用其它方法求解。(见书本50页)22所以这说明未知均值的最大似然估计正好是训练样本的算术平均。()=NkkX110=110)(NkkNX=NkkXN11代入上式得:()=NkkX11023,均未知均未知A.一维情况:一维情况:n=1对于每个学习样本只有一个特征的简单情况:对于每个学习样本只有一个特征的简单情况:21211,=()122221)2log(21)|(log=XXPkik0)(1)|(log11211=XXPkNkikNk02)(21)|(log12212212=+=NkkikNkXXP=NkkXN1111()222111NkkXN=即学习样本的算术平均样本方差的最大似然估计24 讨论讨论:1.正态总体均值的最大似然估计即为学习样本的算术平均2.正态总体方差的最大似然估计与样本的方差不同,当N较大的时候,二者的差别不大。B多维情况:n个特征(学生可以自行推出下式)B多维情况:n个特征(学生可以自行推出下式)估计值:结论:的估计即为学习样本的算术平均估计的协方差矩阵是矩阵的算术平均(nn阵列,nn个值)=NkkXN111()()=XTXNkNkk121()()XXkTk525二.贝叶斯估计(P50)二.贝叶斯估计(P50)最大似然估计是把待估的参数看作固定的未知量固定的未知量,而贝叶斯估计则是把待估的参数作为具有某种先验分布的随机变量某种先验分布的随机变量,通过对第 i 类学习样本 Xi 的观察,使概率密度分布 P(Xi|)转化为后验概率 P(|Xi),再求贝叶斯估计。贝叶斯估计和贝叶斯决策完全可以统一。26?贝叶斯决策问题与贝叶斯估计问题变量对应关系贝叶斯决策问题与贝叶斯估计问题变量对应关系 贝叶斯决策问题:样本x决策ai真实状态j状态空间A是离散空间先验概率P(j)贝叶斯参数估计问题:样本集 X估计量真实参数参数空间是连续空间参数的先验分布p()27?贝叶斯估计贝叶斯估计-最大后验概率最大后验概率用一组样本集X=X1,X2,XN估计未知参数未知参数视为随机变量,先验分布为p(),而在已知样本集X 出现的条件下的后验概率为p(|X)最大后验概率估计-Maximum a posteriori(MAP)MAPargmax(|)(|)()argmax()argmax(|)()pXp Xpp Xp Xp=28?贝叶斯(最小风险)估计?参数估计的条件风险:给定X条件下,估计量的期望损失(,)(|)(|)RXpXd=?参数估计的期望风险:估计量条件风险的期望参数估计的期望风险:估计量条件风险的期望(|)()dERRXp Xd=x?贝叶斯估计:使风险最小的估计贝叶斯估计:使风险最小的估计BEarg min(|)RX=BE称是关于的贝叶斯估计量29?求解贝叶斯估计量求解贝叶斯估计量定义损失函数,即平方误差函数定义损失函数,即平方误差函数2(,)()=定理定理 3.13.1:如果定义损失函数为误差平方函数,则有:如果定义损失函数为误差平方函数,则有:BE|(|)Epd=xx22(|)(,)(|)(|)(|)(|)(|)RXpX dEXpX dEXpX d =+达到最小证明思路:使条件风险使条件风险P5230?贝叶斯估计步骤:P52贝叶斯估计步骤:P52 确定的先验分布P(),待估参数为随机变量。用第i类样本xi=(x1,x2,.xN)T求出样本的联合概率密度分布P(xi|),它是的函数。利用贝叶斯公式,求的后验概率=dPXPPXPXPiii)()|()().|()|(|)iPdX=求贝 叶 斯估 计(证 明略)631下面以正态分布的均值估计为例说明贝叶斯估计过程(P55-57)一维正态分布一维正态分布:已知总体方差2,估计假设概率密度服从正态分布:P(X|)=N(,2),参数未知。假定的先验知识用一个已知的先验密度P()表示,并假定服从均值0,方差为的正态分布,即:P()=N(0,02)第i类学习样本:xi=(x1,x2,.xN)T,i=1,2,M第i类概率密度:P(x|i,xi)=P(x|xi)所以后验概率(贝叶斯公式)=dPXPPXPXPiii)()|()().|()|(2032因为N个样本是独立抽取的,所以上式可以写成其中为比例因子,只与Xi有关,与无关 P(Xik|)=N(,2),P()=N(0,02)其中a,a包含了所有与无关的因子1(|)(|)()NiikkPaP XPX=dPXPai)()|(1()()21exp2121exp21)|(002021=kNkiXaXP()()21exp10022=+=NkkXa)1(2)1(21exp 201222020+=NkkXNa(3-1)33P(|xi)是的二次函数的指数函数P(|xi)仍然是一个正态函数,即:P(|Xi)=N(N,N2)另外后验概率可以直接写成正态形式:比较以上(3-1)、(3-2)两个式子,对应的系数应该相等()21exp21)|(2NNNiXP=0222022101112NNNikkNNX=+=+(3-2)34解以上两式得:将N,N2代入P(|Xi)可以得到后验概率,再用贝叶斯估计公式求的贝叶斯估计02022120202+=NXNNkkN2022022+=NN=dXPi)|(3-3)(3-4)35对的估计为若令P()=N(0,02)=N(0,1),而且总体分布的方差2也为1与最大似然估计相似,只是分母不同02200222210NiNkkXNN=+111BNikkXN=+=NNNNiddXP)(21exp21)|(211NikkXN=则有36三贝叶斯学习(P53,P57-59)三贝叶斯学习(P53,P57-59)1.贝叶斯学习的概念贝叶斯学习的概念:求出的后验概率P(|Xi)之后,直接去推导总体分布即:我们先从先验密度P()的总体中抽取一个值,一旦它抽出,就变成的真实值,完全决定了X的密度。而当我们观察了N个样本后,样本中的信息将对先验分布P()做出修正。例如:当观察一个样本时,N=1就会有一个的估计值的修正值;当观察N=4时,对进行修正,向真正的靠近;当观察N=9时,对进行修正,向真正的靠的更近;dXPXPdXPXPXXPiii)|()|()|()|()|(=737当N,N就反映了观察到N个样本后对的最好推测,而N2反映了这种推测的不确定性。N,N2,N2随观察样本增加而单调减小,且当N,N2 0。当N,P(|xi)越来越尖峰突起;N,P(|xi)函数,这个过程成为贝叶斯学习。382类概率密度的估计在求出的后验概率P(|Xi)后,可以直接利用式推断类条件概率密度。即P(x|Xi)P(x|i,Xi)一维正态:已知一维正态:已知2 2,未知,未知的后验概率为(|)(|)(|)iiPxPxPdXX=()()2211(|)(|)exp2211(|)exp22iNNNiPPXXxP x=服从正态分布39(|)(|)(|)(|)(|)iiiP xP xPdP xPdXXX=代入()()=dxNNN21exp2121exp2122()()+=dxxNNNNNNNN21exp21exp2122222222222221exp2122222+=NNNx为正态函数),(22+=NNN40 结论:把第i类的先验概率P(i)与第i类概率密度P(x|Xi)(通过贝叶斯学习求出)相乘可以得到第i类的后验概率P(i|x),根据后验概率可以分类。对于正态分布P(x|Xi),用样本估计出来的N代替原来的用代替原来的方差即可。把估计值N作为的实际值,那么使方差由原来的变为,使方差增大,引起了不确定性增加。22+N2222+N41多维正态(已知,估计)多维正态(已知,估计)设P(x|)=N(,)P()=N(0,0).根据Bayes公式,仿上面步骤可以得到:N,N有以下关系()()21exp)|(1=NNNTiaXP).(.1011ANN+=111001().()NkNNkBX=+其中a与无关42+=NNN10011:(A)式得由11000111101NkNk()()XNNNN=+xx=iiN将 代入P(|X)P(|)P(|X)d就可以设计Bayes分类器代入(B)式得:这就是在多维情况下,对的估计843四、最大似然估计、贝叶斯估计、贝叶斯学习之间的关系(P54)?最大似然估计最大似然估计是把参数看成为确定的未知参数确定的未知参数。然后求似似然函数P(Xi|)为最大的作为最大似然估计量。?贝叶斯估计贝叶斯估计是把参数看成为随机的未知参数随机的未知参数,一般具有先验分布P()。样本通过似然函数P(Xi|)和贝叶斯公式将的先验分布P()转化为后验分布P(|Xi)。利用公式求出贝叶斯估计量?贝叶斯学习贝叶斯学习是利用的先验分布及样本提供的信息求出的后验分布P(|Xi),然后直接求总体分布=dXPi)|(|)(|)(|)iiP xP xPdXX=44五、最大似然法和贝叶斯方法选择标准标准一:方法的计算复杂度。此标准下选择最大似然法,因为ML仅涉及一些微分运算或梯度搜索技术,而Bayesian要计算非常复杂的多重积分。标准二:可理解性。ML比Bayesian更易理解和掌握,因为ML结果是基于设计者所提供的训练样本的一个最佳答案,而Bayesian得到的结果则是许多可行解的加权平均,反映出对各种可行解的不确定程度。标准三:对初始先验知识的信任程度,比如对概率密度函数p(x|)的形式。45总之,通过使用全部p(|Xi)中的信息,Bayesian方法比ML法能够利用更多有用的 信息。如果这些信息可靠,有理由认为Bayesian比ML能够得到更准确的结果。在没有特别先验知识(如均匀分布)情况下,二种方法比较相似。若有非常多的训练样本,使p(|Xi)形成一个非常显著的尖峰,而先验概率p()又是均匀分布,从本质上来说,ML和Bayesian相同。若p(|Xi)波形比较宽,或者在 附近是不对称的(此不对称由问题本身决定),ML和Bayesian产生的结果就不相同。非常明显的不对称性显然表示了分布本身的某些特点。Bayesian能够利用这些特点,而ML却忽略这些特点。46参数估计要求密度函数的形式已知,但这种假定有时并不成立,常见的一些函数形式很难拟合实际的概率密度,经典的密度函数都是单峰的,而在许多实际情况中却是多峰的,因此要采用非参数估计。?非参数估计非参数估计:密度函数的形式未知,也不作假设,利用训练数据直接密度函数的形式未知,也不作假设,利用训练数据直接对概率密度进行估计。又称作对概率密度进行估计。又称作模型无关方法模型无关方法。?参数估计参数估计需要事先假定一种分布函数,利用样本数据估计其参需要事先假定一种分布函数,利用样本数据估计其参数。又称作数。又称作基于模型的方法基于模型的方法。3-3 非参数估计(P65)47 两种主要两种主要两种主要非参数估计两种主要非参数估计方法方法方法方法 核函数方法核函数方法 ParzenParzen窗法窗法用样本直接去估计类概率密度p(x|i)以此来设计分类器 k kN N-近邻法近邻法用学习样本直接估计后验概率p(i|x)作为分类准则来设计分类器 神经网络方法神经网络方法48 核函数方法估计的目的从样本集从样本集X=X=x x1 1,x x2 2,x xN N 出发,估出发,估计样本空间计样本空间中任何一点的中任何一点的概率密度p(x)基本方法用某种核函数表示用某种核函数表示某一样本对待估计密度函数待估计密度函数待估计密度函数待估计密度函数的的贡献,贡献,所有样本所作贡献的线性组合所有样本所作贡献的线性组合所有样本所作贡献的线性组合所有样本所作贡献的线性组合视作对某点视作对某点概率密度概率密度p p(x x)的估计的估计1()()NNiip=xxx949核函数方法图解核函数方法图解501.密度估计:一个随机变量x落在区域R的概率为P(x)为P(x)在R内的变化值,P(x)就是要求的总体概率密度RxPdxxPPRr=)(RP(x)51假设有N个样本x1,x2,xN都是从密度为P(x)的总体中独立抽取的。则N个样本中有k个落入在区域R内的概率Pk符合二项分布k的数学期望:E(k)=k=NP 对概率P的估计:,是P的一个比较好的估计我们要估计的不是这一,而是总体密度P(x)的估计设P(x)在R内连续变化,当R逐渐减小的时候,小到使P(x)在其上几乎没有变化时,则其中是R包围的体积)(xP()PpCPkNkkNk=1NkP NkNkVxPdxxPPR=)()(=RdxV其中P是样本x落入R内的概率,Pk是k个样本落入R内的概率。(根据二项分布性质可证)P52 概率密度的估计:(V足够小)讨论:当V固定的时候N增加,k也增加,当时只反映了P(x)的空间平均估计而反映不出空间的变化N固定,体积变小当时,k=0时时所以起伏比较大,噪声比较大,需要对V进行改进.NkPVxP=)(VNkxP=)(Nk1=NkPVVNkxP1)(=0V0)(=VNkxP0k=VNkxP)(53对体积V进行改进对体积V进行改进:为了估计x点的密度,我们构造一串包括x的区域序列R1,R2,.RN.对R1采用一个样本进行估计,对R2采用二个样本进行估计。设VN是RN的体积,KN是N个样本落入VN的样本数,则则密度的第N次估计:VN是RN的体积,KN是N个样本落入VN的样本数,是P(x)的第N次估计VNk(x)PNNN=(x)PN54若收敛于P(若收敛于P(x x)应满足三个条件:)应满足三个条件:当N时,VN,N,VN0。这时虽然样本数多,但由于VN,落入VN内的样本KN 也减小,所以空间变化才反映出来。N ,kN,N与KN同相变化。KN的变化远小于N的变化。因此尽管在R内落入了很多的样本,但同总数N比较,仍然是很小的一部分。0lim=VNN=KNNlim0lim=NKNN)(xpN1055满足上述三个条件的区域序列一般有两种选择方法,从而得到两种非参数估计方法:Parzen窗法窗法:使体积VN以N的某个函数(如,h为常数)的关系不断缩小。但这时对kN和kN/N都要加些限制条件以使收敛于p(x)。kN近邻估计近邻估计让使kN为N的某个函数(例),而VN的选择使相应的RN正好包含x的KN个近邻。V1K1,V2K2,.VNKNKN近邻法NhVN=NKN=)(xpN562.Parzen窗口估计窗口估计P67假设RN为一个d维的超立方体,hN为超立方体的长度超立方体体积为:,d=1,窗口为一线段d=2,窗口为一平面d=3,窗口为一立方体d3,窗口为一超立方体窗口的选择:hVdNN=其他.021|,1)(uu|exp)(uu=方窗函数指数窗函数21exp21)(2uu=正态窗函数(u)(u)(u)hN正态窗函数57是以原点x为中心为中心的超立方体。在xi落入方窗时,则有在VN内为1不在VN内为0落入VN的样本数为 密度估计窗函数并不限于超立方体函数,还可其它的形式。22hxxhxxNiNi1212|=hhhxxNNNi=NiNiNhxxK1)|(=NiNiNNNNhxxVNVNKxP1)|(11)()(u58讨论:每个样本对估计所起的作用依赖于它到x的距离,即|x-xi|hN/2时,xi落在以x 为中心、体积为VN的超立方体时,为1,否则为0。称为的窗函数,取0,1两种值,但有时可以取0,0.1,0.2,等多种数值,例如随xi离x接近的程度,可取值由0,0.1,0.2到1。)|(hxxNihxxNi|)|(hxxNi)(u59 要求估计的应满足:为满足这两个条件,要求窗函数满足:窗长度hN对的影响若hN太大太大,是P(x)的一个平坦、分辨率低的估计,有平均误差平均误差;若hN太小太小,是P(x)的一个不稳定的、起伏大的估计,有噪声误差。噪声误差。可见hN的选取,对有重要的影响。因此实际中选取 hN需要一定的经验。)(xPN|()0|()()1iNiNiixNNxxhxxxxdxhhh=1)(0)(dxxPxPNN)(xPN)(xPN)(xPN)(xPN60例1:对于一个二类(1,2)识别问题,随机抽取1类的6个样本X=(x1,x2,.x6)1=(x1,x2,.x6)=(x1=3.2,x2=3.6,x3=3,x4=6,x5=2.5,x6=1.1)估计P(x|1)即PN(x)解:选正态窗函数)21exp(21)(2uu=)|(21exp21)|()(2hxxhxxuNiNi=0123456x6x5x3x1x2x4x1161x是一维的上式用图形表示是6个分别以3.2,3.6,3,6,2.5,1.1为中心的丘形曲线(正态曲线),而PN(x)则是这些曲线之和。5.0665.0=VN665.0h,NhhV11NN=N,其中选)65.0|1.1|(21exp134.0)65.0|2.3|(21exp134.0)|(11)(221+=xxhxxVNxPNiNiNNL由图看出,每个样本对估计的贡献与样本间的距离有关,样本越多,PN(x)越准确。62例2:设待估计的P(x)是个均值为0,方差为1的正态密度函数。若随机地抽取x样本中的1个、16个、256个作为学习样本xi,试用窗口法估计PN(x)。解:设窗口函数为正态的,1,0hN:窗长度,N为样本数,h1为选定可调节的参数。)|(21exp21)|(2hxxhxxNiNi=Nhh1N=设()=NiiNiNiNhNxxNhhxxhNNxP112111|21exp211)|(1)(63?用窗法估计单一正态分布的实验Parzen001.001.01.00.10.10001.001.01.00.10.10001.001.01.00.10.1025.01=h202202202001.001.01.00.10.1011=h41=hN=N=256N=16N=164讨论:由图看出,PN(x)随N,h1的变化情况当N1时,PN(x)是一个以第一个样本为中心的正态形状的小丘,与窗函数差不多。当N16及N=256时h10.25 曲线起伏很大,噪声大;h11 起伏减小;h14 曲线平坦,平均误差;当N时,PN(x)收敛于一平滑的正态曲线,估计曲线较好。65例3 假定未知密度是二个均匀分布的密度混合密度解:此为多峰情况的估计设窗函数为正态x-2.5-210.2502P(x)=025.01)(xP-2.5x-20 x2x为其它NhhuuN12,21exp21)(=()=NiiNiNiNhNxxNhhxxhNNxP112111|21exp211)|(1)(用Parzen窗法估计两个均匀分布的实验结果见下页图66001.001.01.00.10.10001.001.01.00.10.10001.001.01.00.10.1025.01=h202202202001.001.01.00.10.1011=h41=hN=N=256N=16N=1?用窗法估计两个均匀分布的实验Parzen1267当N=1、16、256、时的PN(x)估计如图所示当N1时,PN(x)实际是窗函数。当N16及N=256时h10.25 曲线起伏大h11 曲线起伏减小h14 曲线平坦当N时,曲线较好,与真实分布接近。68结论:由上例知:窗口法的优点优点是应用的普遍性。对规则分布,非规则分布,单峰或多峰分布都可用此法进行密度估计。不足不足:要想得到较满意的结果,要求样本足够多,才能有较好的估计。因此使计算量,存储量增大。693.KN近邻估计近邻估计(P71)在窗口法中存在一个问题是对hN的选择问题:若hN选太小,则大部分体积将是空的(即不包含样本),从而使PN(x)估计不稳定。若hN选太大,则PN(x)估计较平坦,反映不出总体分布的变化。KN近邻法的思想近邻法的思想:以x为中心建立空胞,使空胞不断增长,直到捕捉到KN个样本为止,这些样本为x的kN个近邻,故 称KN-近邻估计70如x点附近的样本密度较大,则包含KN个样本的体积就相对较小,从而可以提高分辨力;如x点附近的样本密度较低,体积就较大,但进入高密度区就会停止增大。P(x)的kN-近邻估计为:NkxN=取,VNk)(PNNN71但使但使PN(x)收敛于收敛于P(x)的充分必要条件:的充分必要条件:,N与KN同相变化,KN的变化远小于N的变化=KNNlim0lim=NKNN)(11)()(111|VxPVVNKxPxPNNNN=,所以因为V1为N=1时的VN值NVNxPxPNNxPNKxPNKVNKNNNNN1)(1)()()(=时,当72KN近邻估计对KN和VN都作了限制KN近邻法作后验概率的估计近邻法作后验概率的估计由KN近邻估计可知N个已知类别样本落入VN内为KN个样本的概率密度估计为:N个样本落入个样本落入VN内有内有KN个,个,KN个样本内有个样本内有Ki个样本属于个样本属于i类类则联合概率密度:=NVVNKNN1VNkxPNNN=)()()|(),(iiNiiNPxPvNkxP=1373根据Bayes公式可求出后验概率:类别为i的后验概率的后验概率就是落在VN内属于i的样本ki与VN内总样本数KN的比值=MjjNiNMjjjiiiNxPxPPxPPxPxP11),(),()()|()()|()|(VNkxPxPNNMjjN=1),()(VNkxPNiiN=),(kkxPNiiN=)|(后验概率的估计:74K近邻分类准则近邻分类准则:对于待分样本x,找出它的k个近邻,检查它的类别,把x归于样本最多的那个类别最多的那个类别。K近邻分类的错误率随k,Pk,最低的错误率为Bayes分类。P*Pkk-近邻法错误率上下界与贝叶斯错误率的关系课本第六章近邻法P13675最近邻分类准则:最近邻分类准则:待分样本x,找一个离它最近的样本,把x归于最近的样本一类最近的样本一类。错误率:M为类别数,P(e)为Bayes估计的错误率。最近邻分类法则的错误率P比K近邻错误率还大,但最大不会超过贝叶斯分类器错误率的二倍。)(2)(12)()(ePePMMePPePMM1MM1PP(e)BayesK近邻最近邻