3 第三章 参数估计与非参数估计.pdf
《3 第三章 参数估计与非参数估计.pdf》由会员分享,可在线阅读,更多相关《3 第三章 参数估计与非参数估计.pdf(13页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、11第三章 参数估计与非参数估计第三章 参数估计与非参数估计 参数估计与监督学习 参数估计理论 非参数估计理论2基于样本的Bayes分类器基于样本的Bayes分类器:通过估计类条件:通过估计类条件概率密度函数,概率密度函数,设计相应的判别函数设计相应的判别函数分类器功能结构基于样本直接确定判别函数方法基于样本直接确定判别函数方法3基于样本的基于样本的BayesBayes分类器分类器设计设计 Bayes决策需要已知两种知识:决策需要已知两种知识:各类的先验概率各类的先验概率P(i)各类的条件各类的条件概率密度函数概率密度函数p(x|i)(|)()(|)(|)()iiijjjpPPpP=xxx?知
2、识的来源:对问题的一般性认识或一些知识的来源:对问题的一般性认识或一些训练数据?基于样本两步基于样本两步Bayes分类器设计分类器设计?利用样本集估计利用样本集估计P(i)和和p(x|i)?基于上述估计值设计判别函数及分类器基于上述估计值设计判别函数及分类器?面临的问题:面临的问题:?如何利用样本集进行估计如何利用样本集进行估计?估计量的评价估计量的评价?利用样本集估计错误率利用样本集估计错误率4基于样本的Bayes分类器训练样本集训练样本集样本分布的统计特征:样本分布的统计特征:概率密度函数概率密度函数决策规则:决策规则:判别函数判别函数决策面方程决策面方程 最一般情况下适用的“最优”分类器
3、:最一般情况下适用的“最优”分类器:错误率最小错误率最小,对分类器设计在理论上有指导意义。,对分类器设计在理论上有指导意义。获取统计分布及其参数很困难,实际问题中并不一定具备获取准确统计分布的条件。获取统计分布及其参数很困难,实际问题中并不一定具备获取准确统计分布的条件。5直接确定判别函数直接确定判别函数 基于样本基于样本直接确定判别函数方法直接确定判别函数方法:针对各种不同的情况,使用不同的准则函数,设计出满足这些不同准则要求的分类器。针对各种不同的情况,使用不同的准则函数,设计出满足这些不同准则要求的分类器。这些准则的这些准则的“最优最优”并不一定与错误率最小相一致:次优分类器。并不一定与
4、错误率最小相一致:次优分类器。实例:正态分布最小错误率贝叶斯分类器在特殊情况下,是线性判别函数实例:正态分布最小错误率贝叶斯分类器在特殊情况下,是线性判别函数g(x)=wTx(决策面是超平面),能否基于样本直接确定决策面是超平面),能否基于样本直接确定w?训练样本集训练样本集决策规则决策规则:判别函数判别函数决策面方程决策面方程选择最佳准则选择最佳准则6一参数估计与非参数估计一参数估计与非参数估计参数估计参数估计:先假定研究问题具有某种数学模型,如正态分布,二项分布,再用已知类别的学习样本估计里面的参数。非参数估计非参数估计:不假定数学模型,直接用已知类别的学习样本先验知识估计数学模型。3-1
5、 参数估计与监督学习参数估计与监督学习27二监督学习与无监督学习二监督学习与无监督学习监督学习:在已知类别样本指导下进行学习和训练,可以统计出各类训练样本不同的描述量,如其概率分布,或在特征空间分布的区域等,利用这些参数进行分类器设计,称为有监督学习。参数估计和非参数估计都属于监督学习。无监督学习:不知道样本类别(也就是说没有训练样本),只知道样本的某些信息,然后利用这些信息进行估计,如:聚类分析。参数估计也属于无监督学习。3-1 参数估计与监督学习参数估计与监督学习(续(续1)83-1 参数估计与监督学习参数估计与监督学习(续(续2)?下图表示对一幅道路图像按路面与非路面分类可用两种不同做法
6、,其中左图左图是在图像中路面区与非路面中各找一个窗口窗口,将其中每个象素分别作为这两类的训练样本集每个象素分别作为这两类的训练样本集,用这两个样本集在特征空间的分布参数进行设计。?而无监督学习方法无监督学习方法则不同,它不预先选择样本类别的样本集,而是将整幅图的像素都作为待分类样本集,通过它们在特征空间中表现出来的聚类现象,把不同类别划分开。?图中有监督学习有监督学习,样本集分布呈现交迭情况,而无监督学习无监督学习方法由于没有类别样本指导,无法确定它们的交迭情况,只能按分布的聚类情况进行划分。93-1 参数估计与监督学习参数估计与监督学习(续(续3)?非监督学习与有监督学习方法的区别:非监督学
7、习与有监督学习方法的区别:1 有监督学习方法监督学习方法必须要有训练集与测试样本。在训练集中找规律,而对测试样本使用这种规律;而非监督学习非监督学习没有训练集这一说,只有一组数据,在该组数据集内寻找规律。2 有监督学习方法有监督学习方法的目的就是识别事物,识别的结果表现在给待识别数据加上了标号。因此训练样本集必须由带标号的样本组成。而非监督学习方法非监督学习方法只有要分析的数据集本身,预先没有什么标号。如果发现数据集呈现某种聚集性,则可按自然的聚集性分类,但不以与某种预先的分类标号对上号不以与某种预先的分类标号对上号为目的。例如上图的道路图像,有监督学习方法的目的是找到“道路”,而非监督学习方
8、法则只是将中间一条带状区域区分开来,本质上讲与“道路”这个标号没有关系。103-1 参数估计与监督学习参数估计与监督学习(续(续4)3 非监督学习方法非监督学习方法寻找数据集中的规律性,这种规律性并不一定要达到划分数据集的目的,也就是说不一定要“分类”。这一点比有监督学习方法的用途要广泛。譬如分析一堆数据的主分量,或分析数据集有什么特点都可以归于非监督学习方法的范畴。4 用非监督学习方法非监督学习方法分析数据集的主分量,与用K-L变换计算数据集的主分量又有区别主分量,与用K-L变换计算数据集的主分量又有区别。应该说后者从方法上讲不是一种学习方法。因此用K-L变换找主分量不属于非监督学习方法。通
9、过学习逐渐找到规律性通过学习逐渐找到规律性是学习方法的特点。在人工神经元网络中寻找主分量的方法属于非监督学习方法。11贝叶斯分类器中只要知道先验概率P(i),类条件概率P(x/i)或后验概率 P(i/x)就可以设计分类器了。现在研究,如何用已知训练样本信息估计P(i),P(x/i),P(i/x)概率密度估计方法概率密度估计方法?类先验概率P(i)的估计:用训练数据中各类出现的频率来估计 依靠经验12?类条件概率密度函数类条件概率密度函数估计:两大类方法 参数估计:概率密度函数形式已知,而表征函数参数未知,需通过训练数据来估计 最大似然估计 Bayes估计 非参数估计:概率密度函数形式未知,也不
10、作假设,利用训练数据直接对概率密度进行估计 Parzen窗法和kn-近邻法 神经网络方法313?估计量:样本集的某种函数f(X),X=X1,X2,XN?参数空间:总体分布未知参数所有可能取值组成的集合()12(,.,)Nd=x xx的()是样本集的函数,它对样本集的一次实现估计称计量点估为估计值?点估计的估计量和估计值点估计的估计量和估计值3-2 参数估计理论14?估计量评价标准估计量评价标准:无偏性,有效性,一致性无偏性,有效性,一致性 无偏性无偏性:E E()=()=有效性有效性:D D()()小,估计更有效小,估计更有效 一致性一致性:样本数趋于无穷时,样本数趋于无穷时,依概率趋于依概率
11、趋于:lim()0NP=15最大似然估计计算方法最大似然估计计算方法 Maximum Likelihood(ML)估计估计参数参数 是确定而未知的是确定而未知的,Bayes估计方法则视为随机变量。样本集可按类别分开样本集可按类别分开,不同类别密度函数的参数,分别用各类的样本集来训练。概率密度函数形式已知,参数未知,为了描述概率密度函数p(x|i)与参数的依赖关系,用p(x|i,)表示。独立地按概率密度p(x|)抽取样本集X=X1,X2,XN,用X 估计未知参数16 似然函数:似然函数:121()(|)(,.,|)(|)NNkklpXpp=xxxx 对数似然函数:对数似然函数:1()l n(|)
12、NkkHp=x 最大似然估计最大似然估计1argmax()argmaxln(|)MLnkklp=x17 最大似然估计计算方法使似然函数梯度梯度为01()|ln(|)|0MLMLNkkHp x=1.Ts=18一类概率密度最大似然估计一类概率密度最大似然估计(P48)假定:待估参数是确定的未知量按类别把样本分成假定:待估参数是确定的未知量按类别把样本分成M类类X1,X2,X3,,Xi,XM其中第其中第i类的样本共类的样本共N个:个:Xi =(X1,X2,XN)T 并且是独立从总体中抽取的并且是独立从总体中抽取的 Xi中的样本不包含中的样本不包含(ij)的信息,所以可以对每一类样本独立进行处理。第的
13、信息,所以可以对每一类样本独立进行处理。第i类的待估参数根据以上四条假定,我们下边就可以只利用第类的待估参数根据以上四条假定,我们下边就可以只利用第i类学习样本来估计第类学习样本来估计第i类的概率密度,其它类的概率密度由其它类的学习样本来估计。类的概率密度,其它类的概率密度由其它类的学习样本来估计。),.,(21nTi=j4191.一般原则:一般原则:第i类样本的类条件概率密度:P(Xi|i)=P(Xi|i,i)=P(Xi|i)原属于i类的学习样本为Xi=(X1,X2,XN,)Ti=1,2,M求求i的最大似然估计就是把的最大似然估计就是把P(Xi|i)看成看成i的函数,求出使它最大时的的函数,
14、求出使它最大时的i值。值。学习样本是从总体样本集中独立抽取的N个学习样本出现概率的乘积,将P(Xi|i)称作相对于样本集Xi的参数的似然函数似然函数。在N个样本独立抽出条件下,上式取对数可写为:(|,)(|)(|)1iiikiNiiiPPP XXXk=11log(|)log(|)NNiiiikkkkP XP X=20最大似然估计量为下面方程的解:有时上式是多解的,上图有5个解,只有一个解才使似然函数最大。11().lo g(|)0NiikkpHPX=111log(|)0.log(|)0NiikkNiikkpP XP X=P(Xi/i),即为的估值利用上式求出ii212.多维正态分布情况多维正态
15、分布情况()()已知已知,未知未知,估计估计服从正态分布所以在正态分布时)|(iiXP0)|(log1=XPkNk()()()=121|2log21)|(logXXXPkkTnk=1i待估参数为对对数似然函数求导,求其极大值有时不一定行得通。例如,随机变量X服从均匀分布,但参数1,2未知,若对其对数似然函数求导,则方程组中解出的参数1和2至少有一个为无穷大,为无意义结果。需用其它方法求解。(见书本50页)22所以这说明未知均值的最大似然估计正好是训练样本的算术平均。()=NkkX110=110)(NkkNX=NkkXN11代入上式得:()=NkkX11023,均未知均未知A.一维情况:一维情况
16、:n=1对于每个学习样本只有一个特征的简单情况:对于每个学习样本只有一个特征的简单情况:21211,=()122221)2log(21)|(log=XXPkik0)(1)|(log11211=XXPkNkikNk02)(21)|(log12212212=+=NkkikNkXXP=NkkXN1111()222111NkkXN=即学习样本的算术平均样本方差的最大似然估计24 讨论讨论:1.正态总体均值的最大似然估计即为学习样本的算术平均2.正态总体方差的最大似然估计与样本的方差不同,当N较大的时候,二者的差别不大。B多维情况:n个特征(学生可以自行推出下式)B多维情况:n个特征(学生可以自行推出下
17、式)估计值:结论:的估计即为学习样本的算术平均估计的协方差矩阵是矩阵的算术平均(nn阵列,nn个值)=NkkXN111()()=XTXNkNkk121()()XXkTk525二.贝叶斯估计(P50)二.贝叶斯估计(P50)最大似然估计是把待估的参数看作固定的未知量固定的未知量,而贝叶斯估计则是把待估的参数作为具有某种先验分布的随机变量某种先验分布的随机变量,通过对第 i 类学习样本 Xi 的观察,使概率密度分布 P(Xi|)转化为后验概率 P(|Xi),再求贝叶斯估计。贝叶斯估计和贝叶斯决策完全可以统一。26?贝叶斯决策问题与贝叶斯估计问题变量对应关系贝叶斯决策问题与贝叶斯估计问题变量对应关系
18、 贝叶斯决策问题:样本x决策ai真实状态j状态空间A是离散空间先验概率P(j)贝叶斯参数估计问题:样本集 X估计量真实参数参数空间是连续空间参数的先验分布p()27?贝叶斯估计贝叶斯估计-最大后验概率最大后验概率用一组样本集X=X1,X2,XN估计未知参数未知参数视为随机变量,先验分布为p(),而在已知样本集X 出现的条件下的后验概率为p(|X)最大后验概率估计-Maximum a posteriori(MAP)MAPargmax(|)(|)()argmax()argmax(|)()pXp Xpp Xp Xp=28?贝叶斯(最小风险)估计?参数估计的条件风险:给定X条件下,估计量的期望损失(,
19、)(|)(|)RXpXd=?参数估计的期望风险:估计量条件风险的期望参数估计的期望风险:估计量条件风险的期望(|)()dERRXp Xd=x?贝叶斯估计:使风险最小的估计贝叶斯估计:使风险最小的估计BEarg min(|)RX=BE称是关于的贝叶斯估计量29?求解贝叶斯估计量求解贝叶斯估计量定义损失函数,即平方误差函数定义损失函数,即平方误差函数2(,)()=定理定理 3.13.1:如果定义损失函数为误差平方函数,则有:如果定义损失函数为误差平方函数,则有:BE|(|)Epd=xx22(|)(,)(|)(|)(|)(|)(|)RXpX dEXpX dEXpX d =+达到最小证明思路:使条件风
20、险使条件风险P5230?贝叶斯估计步骤:P52贝叶斯估计步骤:P52 确定的先验分布P(),待估参数为随机变量。用第i类样本xi=(x1,x2,.xN)T求出样本的联合概率密度分布P(xi|),它是的函数。利用贝叶斯公式,求的后验概率=dPXPPXPXPiii)()|()().|()|(|)iPdX=求贝 叶 斯估 计(证 明略)631下面以正态分布的均值估计为例说明贝叶斯估计过程(P55-57)一维正态分布一维正态分布:已知总体方差2,估计假设概率密度服从正态分布:P(X|)=N(,2),参数未知。假定的先验知识用一个已知的先验密度P()表示,并假定服从均值0,方差为的正态分布,即:P()=
21、N(0,02)第i类学习样本:xi=(x1,x2,.xN)T,i=1,2,M第i类概率密度:P(x|i,xi)=P(x|xi)所以后验概率(贝叶斯公式)=dPXPPXPXPiii)()|()().|()|(2032因为N个样本是独立抽取的,所以上式可以写成其中为比例因子,只与Xi有关,与无关 P(Xik|)=N(,2),P()=N(0,02)其中a,a包含了所有与无关的因子1(|)(|)()NiikkPaP XPX=dPXPai)()|(1()()21exp2121exp21)|(002021=kNkiXaXP()()21exp10022=+=NkkXa)1(2)1(21exp 2012220
22、20+=NkkXNa(3-1)33P(|xi)是的二次函数的指数函数P(|xi)仍然是一个正态函数,即:P(|Xi)=N(N,N2)另外后验概率可以直接写成正态形式:比较以上(3-1)、(3-2)两个式子,对应的系数应该相等()21exp21)|(2NNNiXP=0222022101112NNNikkNNX=+=+(3-2)34解以上两式得:将N,N2代入P(|Xi)可以得到后验概率,再用贝叶斯估计公式求的贝叶斯估计02022120202+=NXNNkkN2022022+=NN=dXPi)|(3-3)(3-4)35对的估计为若令P()=N(0,02)=N(0,1),而且总体分布的方差2也为1与
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第三章 参数估计与非参数估计 第三 参数估计
限制150内