欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    模式识别课件04.pdf

    • 资源ID:69689646       资源大小:551.45KB        全文页数:28页
    • 资源格式: PDF        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    模式识别课件04.pdf

    第三章 概率密度函数的估计 3.1 引言 贝叶斯决策:已知)(iP和)|(ipx,对未知样本分类(设计分类器)实际问题:已知一定数目的样本,对未知样本分类(设计分类器)怎么办?一种很自然的想法:?首先根据样本估计)|(ipx和)(iP,记)|(ipx和)(iP?然后用估计的概率密度设计贝叶斯分类器。(基于样本的)两步贝叶斯决策 希望:当样本数N时,如此得到的分类器收敛于理论上的最优解。为此,需)|()|(iNippxx )()(iNiPP 重要前提:训练样本的分布能代表样本的真实分布,所谓 i.i.d 条件 有充分的训练样本 本章研究内容:如何利用样本集估计概率密度函数?估计量的性质如何?如何根据样本集估计错误率?估计概率密度的两种基本方法:?参数方法(parametric methods)?非参数方法(nonparametric methods)3.2 参数估计的基本概念和方法(part1)参数估计(parametric estimation):?已知概率密度函数的形式,只是其中几个参数未知,目标是根据样本估计这些参数的值。几个名词:统计量(statistics):样本的某种函数,用来作为对某参数的估计 参数空间(parametric space):待估计参数的取值空间 估计量(estimation):),(21NxxxL 3.2.1 最大似然估计(Maximum Likelihood Estimation)假设条件:参数是确定的未知量,(不是随机量)各类样本集iX X,ci,1L=中的样本都是从密度为)|(ipx的总体中独立抽取出来的,(独立同分布,i.i.d.))|(ipx具有某种确定的函数形式,只其参数未知 各类样本只包含本类分布的信息 其中,参数通常是向量,比如一维正态分布),(21iN,未知参数可能是=2iii,此时)|(ipx可写成),|(iipx或)|(ipx。鉴于上述假设,我们可以只考虑一类样本,记已知样本为 Nxxx,21L=X X 似然函数(似然函数(likelihood function))|()|,()|()(121iNiNxpxxxppl=LX X 在参数下观测到样本集X X的概率(联合分布)密度 基本思想:基本思想:如果在参数=下)(l最大,则应是“最可能”的参数值,它是样本集的函数,记作)(),(21X XdxxxdN=L。称作最大似然估计量。为了便于分析,还可以定义对数似然函数)(ln)(lH=。求解:求解:若似然函数满足连续可微的条件,则最大似然估计量就是方程 0)/)(=ddl 或 0/)(=ddH 的解(必要条件)。若未知参数不止一个,即Ts,21L=,记梯度算子 Ts=,21L 则最大似然估计量的必要条件由 S 个方程组成:0)(=H 讨论:?如果)(l或)(H连续可导,存在最大值,且上述必要条件方程组有唯一解,则其解就是最大似然估计量。(比如多元正态分布)。?如果必要条件有多解,则需从中求似然函数最大者?若不满足连续可导,则无一般性方法,用其它方法求最大(见课本均匀分布例)3.3 正态分布的监督参数估计(part1)3.3.1 最大似然估计示例 以单变量正态分布为例 T,21=,=1,22=221exp21)|(xxp 样本集 Nxxx,21L=X X 似然函数 )|()|()ln(1kNkxppx=X X 对数似然函数 )|(ln)(ln)(1kNkxPxlH=最大似然估计量满足方程 0)|(ln)(1=kNkxpH 而 2122)(212ln21)|(ln=kkxxp+=2122212)(2121)(1)|(lnkkkxxxp 得方程组=+=0)(10)(12221121121kNkNkkNkxx 解得 kNkxN=111 2122)(1=kNkxN 3.2 参数估计的基本概念和方法(part2)3.2.2 贝叶斯估计和贝叶斯学习 (一)贝叶斯估计(一)贝叶斯估计 思路与贝叶斯决策类似,只是离散的决策状态变成了连续的估计。思考题:请课后与贝叶斯决策比较 基本思想:基本思想:把待估计参数看作具有先验分布)(p的随机变量,其取值与样本集X X有关,根据样本集Nxxx,21L=X X估计。损失函数:把估计为所造成的损失,记为),(期望风险:xxddpRdE),(),(=xxxddppdE)()|(),(=xxxdpRdE)()|(=where,dE=x,条件风险:dpR)|(),()|(xx=dE=x 最小化期望风险 最小化条件风险 (对所有可能的x)有限样本集下,最小经经验风险:dpR)|(),()|(XXXX=贝叶斯估计量:贝叶斯估计量:(在样本集X X下)使条件风险(经验风险)最小的估计量。离散情况:损失函数表(决策表)连续情况:损失函数 常用的损失函数:2)(),(=(平方误差损失函数)定理定理 3.1 如果采用平方误差损失函数,则的贝叶斯估计量是在给定x时的条件期望,即=dpE)|(|xx 同理可得到,在给定样本集X X下,的贝叶斯估计是:=dpE)|(|XXXX 自学证明过程 求贝叶斯估计的方法:求贝叶斯估计的方法:(平方误差损失下)(1)确定的先验分布)(p(2)求样本集的联合分布 )|()|(1iNippx=X X(3)求的后验概率分布=dppppp)()|()()|()|(XXXXXX(4)求的贝叶斯估计量=dp)|(X X 同时还可求得=dppp)|()|()|(XXXXxx(考虑到我们最终的目的是求(考虑到我们最终的目的是求 p(x))讨论:设的最大似然估计为l,则在l=处)|(X Xp很可能有一尖峰,若此,则)|()|(lppxx=&X X,即贝叶斯估计结果与最大似然估计结果近似相等。(二)贝叶斯学习(二)贝叶斯学习 考虑学习样本个数N,记样本集Nxxx,21L=X X 1N时有)|()|()|(1=NNNpppXXXXx 因此有递推后验概率公式:=dpppppNNNNN)|()|()|()|()|(11XXXXXXxx 设)()|(pp=X X,则随着样本数增多,可得后验概率密度函数序列:)(p,)|(1xp,L),|(21xxp 参数估计的递推贝叶斯方法(Recursive Bayes Incremental Learning)如果此序列收敛于以真实参数值为中心的函数,则称样本分布具有贝叶斯学习(Bayesian Learning)性质。此时)()|()|(xxxpppN=X X 由先验分布)(p和样本信息(似然函数))|(X Xp求出的后验分布)|(X Xp,然后直接求样本总体分布 dppp)|()|()|(XXXXxx=的做法称作贝叶斯学习。估计量的性质与评价标准估计量的性质与评价标准 无偏性、有效性和一致性无偏性、有效性和一致性 无偏性:=),(21NExxxL 渐近无偏性:=NNE 有效性:对估计1和2,若方差)()(2212,()0lim=NNP 无偏性和有效性:对于多次估计,估计量能以较小的方差平均地表示真实值。一致性:当样本数无穷多时,每一次估计都在概率意义上任意接近真实值。3.3 正态分布的监督参数估计 以正态分布为例说明上节介绍的参数估计方法 3.3.1 最大似然估计示例),()(Np x=NiiN11x=NiTiiN1)(1xx 一维:=NiixN11,=NiixN122)(1 3.3.2 贝叶斯估计和贝叶斯学习示例 (一)贝叶斯估计 一维,),()|(2Nxp,2已知,估计 假设先验分布 ),()(200Np 结论:0220222020+=NmNNN where iNiNmx=1 -样本信息与先验知识的线性组合 一般情况下,0=N时,0=;N时,Nm 特例:若020=,则0 (先验知识可靠,样本不起作用)若0,则Nm=(先验知识十分不确定,完全依靠样本信息)(二)贝叶斯学习 ()22,21exp21)|(NNNNNNNp=X X =dpppNN)|()|()|(xxXXXX 0220222020+=NmNNNN 2202202+=NN 当N时,02N,)|(X Xp函数。()2222222,21exp21)|(NNNNNNp+=xx X X 均值N,方差由2增为22N+-由于用了的估计值而不确定性增加 3.4 非监督参数估计 以上讨论的是监督参数估计,即已知各样本的类别,根据各类样本集估计本类的概率密度函数中的参数。非监督参数估计指样本类别未知,但各类条件概率密度函数的形式已知,根据所有样本估计各类密度函数中的参数。本节只介绍非监督最大似然估计的思路 3.4.1 非监督参数估计的最大似然法 (一)假设条件:1.样本集Nxx,1L=X X中的样本属于C个类别,但不知各样本属哪类 2.类先验概率)(iP,ci,1L=已知 3.类条件概率密度形式已知),|(iipx,ci,1L=4.未知是仅是c个参数向量c,21L的值 所有未知参数组成的向量记为Tc,21L=(二)似然函数 混合密度 )(),|()|(1iiiciPppxx=分量密度:类条件密度),|(iipx 混合参数:先验概率)(iP(有时也可未知,一起参与估计)设样本集X X中的样本是从混合密度为)|(xp的总体中独立抽取的,即满足独立同分布条件,确定但未知,则 似然函数)|()|()(1iNipplx=X X 对数似然函数)|(ln)(ln)(1iNiplHx=最大似然估计就是使)(l或)(H取最大的值。(三)可识别性问题 求出,就得到了c,1L,即从混合密度函数中恢复出了分量密度函数。可能吗?什么条件下可能?可识别性:若对,对混合分布中每个x都有)|()|(xpxp,则密度)|(xp是可识别的。教材指出:大部分常见连续随机变量的分布密度函数都是可识别的,离散随机变量的混合概率函数则往往是不可识别的。(四)计算问题 对于可识别的似然函数,如何求最大似然估计?思路同监督情况,即如果)|(xp对可微,则令 0)(=H 得一系列方程组,它们是最大似然估计的必要条件,若存在唯一极值则就是解。=)(),|()|(1)(11jjjkcjkNkPxpxpHii )(),|()|(11iiikkNkPxpxpi=(设(设ji,独立)独立)),|(ln),|(1iikikiNkxpxPi=其中后验概率 )|()(),|(),|(kiiikikixpPxpxP=微分方程组 0)(=Hi,ci,2,1L=另,若)(iP也未知,则可引入限制条件 0)(iP,ci,1L=1)(1=iciP 可用 Lagrange 法求条件极值问题,定义 Lagrange 函数 +=1)(1iciPHH 可得 ),|(1)(1ikiNkixPNP=,ci,2,1L=0),|(ln),|(1=iikikiNkxpxPi,ciL,1=其中)(),|()(),|(),|(1jjjkcjiiikikiPxpPxpxP=,ci,1L=原则上可以从上述微分方程组中求解出最大似然估计和)(iP。但实际上多数问题中只能采用某种迭代方法求解。3.4.2 非监督参数估计示例:正态分布情况 (一)均值向量i未知,i,)(iP,c已知 由上节知最大似然估计满足方程组 0),|(ln),|(1=NkiikikixpxPi,ciL,1=代入正态分布公式,可得 0)(),|(11=iikNkikixxP 即 =NkikiNkkikiixPxxP11),|(),|(样本的加权平均,物理意义明确 可惜权值中包含未知参数 其中 =cjjjjkiiikikiPxpPxpxP1)(),|()(),|(),|(迭代法求解:用某种方法(比如用监督方法)得到一个较好的初值)0(i 然后用下式迭代:)(,|()(,|()1(11jxPxjxPjikiNkkikiNki=+梯度法,可能不是全局最优解,受初值影响大。(二)i,i,)(iP均未知,c已知 思路与(一)类似,将有关分布公式代入上小节方程即可,只是公式复杂一些,也可得到物理意义明确的方程式,但一般也只能用迭代法求解。讨论:参数估计方法,实际上要求对概率密度函数几乎知道一切,除了少数几个参数,实际应用中,除了要求好的估计方法外,更重要的是关于函数形式的先验知识和假设(正态分布是最常用的假设)。何时用正态分布?(中心极限定理?)3.5 非参数估计 参数估计 parametric(density)estimation 非参数估计 nonparametric(density)estimation 3.5.0 直方图方法 非参数概率密度估计的最简单方法(1)把x的每个分量分成k个等间隔小窗,(dEx,则形成dk个小舱)(2)统计落入各个小舱内的样本数iq(3)相应小舱的概率密度为)/(NVqi(N:样本总数,V:小舱体环)0481216202428323640delay(days)0.000.050.100.150.200481216202428323640death024683.5.1 非参数估计的基本原理 问题:已知样本集Nxx,1L=X X,其中样本均从服从)(xp的总体中独立抽取,求估计)(xp,近似)(xp 考虑随机向量x落入区域的概率dxxpPR)(=X X中有k个样本落入区域的概率 kNRkkNkPPCP=)1(k的期望值 RNPkE=k的众数(概率最大的取值)为)1(RPNm+=RP的估计 NkPR=&(k:实际落到中的样本数)设)(xp连续,且足够小,的体积为V,则有 VxpdxxpPRR)()(=x 因此 NVkxp=)(其中,N:样本总数,V:包含x的一个小区域的体积 k:落在此区域中的样本数)(xp为对)(xp在小区域内的平均值的估计。V的选择:过大,估计粗糙;过小,可能某些区域中无样本 理论结果:设有一系列包含x的区域LL,21n,对1采用 1 个样本进行估计,对2R用 2 个,n包含nk个样本,nV为n的体积,nnnNVkxp=)(为)(xp的第n次估计,有下面的结论:如果:(1)0lim=nnV (2)=nnklim (3)0lim=nknn 则)(xpn收敛于)(xp 两种选择方法:1.选择nV,(比如nVn1=),同时对nk和nkn加限制以保证收敛 Parzen 窗法 2.选择nk,(比如nVn1=),nV为正好包含x的nk个近邻。Nk近邻估计 3.5.2 Parzen 窗法 ),(1)(1iNikNxpxx=窗函数(核函数)),(ixxk,反映ix对)(xp的贡献,实现小区域选择。条件:0),(ixxk 1),(=dxxxki 常用窗函数:(1)超立方体窗(方窗)=otherwise 0,2,1,2/if 1),(djhxxhxxkjiidiL h为超立方体棱长,dhV=(2)正态窗(高斯窗)=212)()(21exp|)2(1),(iTiddixxQxxQxxk )(2Q=一维标准正态:=2)(21exp21),(iixxxxk (3)超球窗 =otherwise 0 if ),(1i-ixxVxxk(V:超球体积,半径)窗宽的选择:样本数少则选大些,样本数多则选小些,比如选dN/=)1,0(在满足一定的条件下,估计量)(xp是渐近无偏和平方误差一致的。(见教材)举例:用已知的密度函数产生一系列样本,根据这些样本用 Parzon 窗法估计概率密度函数,与真实密度函数比较,分析样本数,窗宽等对估计结果的影响。3.5.3 Nk近邻估计 nnnVNkxp/)(=通过控制小区域内的样本数nk来确定小区域大小。3.6 分类器错误率的估计 样本集:设计集(训练集)、检验集(考试集)3.6.1 有专门的考试集的情况(即已设计好分类器)设考试集有 N 个样本,其中k个被分错,则错误率估计是 Nk=可以证明 =E (无偏估计)若)(1P、)(2P未知,考试集由随机抽样产生,则 NVar/)1(=(随样本增多方差减小)若)(1P、)(2P已知,考试集依)(1P、)(2P选择性随机抽样产生,则 )1()(1 21iiiiPNVar=(方差更小)此时,iiiNk/=,2,1=i,iiP)(=3.6.2 没有专门的测试集(分类器未设计好)样本集既用于设计分类器,也用于估计错误率,因此存在设计集和考试集的划分策略问题。C法(再代入法):考试集与设计集相同,结果偏于乐观 U法:考试集与设计集分开,结果更客观,偏于保守。样本划分法:将样本集分成两组 需要样本较多 交叉验证法(cross-validation):留一法(leave-one-out):用一个样本做检验,其余1N个样本为设计集,反复N次 m-fold 法:每次随机抽出 1/m 个样本做检验,其余样本为训练集,反复多次 计算量较大,但在样本有限是比划分法更好 讨论:有限样本下,密度函数的估计问题是一个很难的问题(不适定),比分类器设计问题甚至更难,也是一个更一般的问题。因此,通过首先估计密度函数来解决 PR 问题似乎不是个好主意(除非有充分的先验知识)。小结:概率密度函数估计?参数估计:概率密度函数形式已知,只未知几个参数?最大似然估计 似然函数)|()(X Xpl=)|(1iNixp=对数似然函数)(ln)(lH=最大似然估计量)(max)(ll=或记 )(maxargl=求解:连续可微条件下 0)(=H 正态分布例:iNixN=11 TiiNixxN)(11=?贝叶斯估计 把看作随机变量,先验分布)(p 最小化风险 dxxpxRR)()|(=对样本集 dpxR)|(),()|(X X=平方误差损失函数 2)(),(=贝叶斯估计 dpE)|(|XXXX=求法:)|()|(1iNixpp=X X dppppp)()|()()|()|(XXXXXX=贝叶斯学习 dpxpxp)|()|,()|(XXXX=递推 dpxppxppNNNNN)(|()|()|()|()|(11=XXXXXX 正态分布例 0220222020+=NmNNNN iNiNxNm=11,),()(00Np ),()|(22NNNxp+X X?非参数估计:直接估计密度函数(数值解),不对函数形式作假设 基本思想:将取值空间分为多个小区间,假定小区间内密度值不变,用小区间内的样本估计此值。NVkxp=)(?Parzen 窗法 ),(1)(1iNixxkNxp=?Nk近邻估计 nNnNVkxp/)(=

    注意事项

    本文(模式识别课件04.pdf)为本站会员(asd****56)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开