模式识别课件04.pdf
《模式识别课件04.pdf》由会员分享,可在线阅读,更多相关《模式识别课件04.pdf(28页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第三章 概率密度函数的估计 3.1 引言 贝叶斯决策:已知)(iP和)|(ipx,对未知样本分类(设计分类器)实际问题:已知一定数目的样本,对未知样本分类(设计分类器)怎么办?一种很自然的想法:?首先根据样本估计)|(ipx和)(iP,记)|(ipx和)(iP?然后用估计的概率密度设计贝叶斯分类器。(基于样本的)两步贝叶斯决策 希望:当样本数N时,如此得到的分类器收敛于理论上的最优解。为此,需)|()|(iNippxx )()(iNiPP 重要前提:训练样本的分布能代表样本的真实分布,所谓 i.i.d 条件 有充分的训练样本 本章研究内容:如何利用样本集估计概率密度函数?估计量的性质如何?如何
2、根据样本集估计错误率?估计概率密度的两种基本方法:?参数方法(parametric methods)?非参数方法(nonparametric methods)3.2 参数估计的基本概念和方法(part1)参数估计(parametric estimation):?已知概率密度函数的形式,只是其中几个参数未知,目标是根据样本估计这些参数的值。几个名词:统计量(statistics):样本的某种函数,用来作为对某参数的估计 参数空间(parametric space):待估计参数的取值空间 估计量(estimation):),(21NxxxL 3.2.1 最大似然估计(Maximum Likelih
3、ood Estimation)假设条件:参数是确定的未知量,(不是随机量)各类样本集iX X,ci,1L=中的样本都是从密度为)|(ipx的总体中独立抽取出来的,(独立同分布,i.i.d.))|(ipx具有某种确定的函数形式,只其参数未知 各类样本只包含本类分布的信息 其中,参数通常是向量,比如一维正态分布),(21iN,未知参数可能是=2iii,此时)|(ipx可写成),|(iipx或)|(ipx。鉴于上述假设,我们可以只考虑一类样本,记已知样本为 Nxxx,21L=X X 似然函数(似然函数(likelihood function))|()|,()|()(121iNiNxpxxxppl=L
4、X X 在参数下观测到样本集X X的概率(联合分布)密度 基本思想:基本思想:如果在参数=下)(l最大,则应是“最可能”的参数值,它是样本集的函数,记作)(),(21X XdxxxdN=L。称作最大似然估计量。为了便于分析,还可以定义对数似然函数)(ln)(lH=。求解:求解:若似然函数满足连续可微的条件,则最大似然估计量就是方程 0)/)(=ddl 或 0/)(=ddH 的解(必要条件)。若未知参数不止一个,即Ts,21L=,记梯度算子 Ts=,21L 则最大似然估计量的必要条件由 S 个方程组成:0)(=H 讨论:?如果)(l或)(H连续可导,存在最大值,且上述必要条件方程组有唯一解,则其
5、解就是最大似然估计量。(比如多元正态分布)。?如果必要条件有多解,则需从中求似然函数最大者?若不满足连续可导,则无一般性方法,用其它方法求最大(见课本均匀分布例)3.3 正态分布的监督参数估计(part1)3.3.1 最大似然估计示例 以单变量正态分布为例 T,21=,=1,22=221exp21)|(xxp 样本集 Nxxx,21L=X X 似然函数 )|()|()ln(1kNkxppx=X X 对数似然函数 )|(ln)(ln)(1kNkxPxlH=最大似然估计量满足方程 0)|(ln)(1=kNkxpH 而 2122)(212ln21)|(ln=kkxxp+=2122212)(2121)
6、(1)|(lnkkkxxxp 得方程组=+=0)(10)(12221121121kNkNkkNkxx 解得 kNkxN=111 2122)(1=kNkxN 3.2 参数估计的基本概念和方法(part2)3.2.2 贝叶斯估计和贝叶斯学习 (一)贝叶斯估计(一)贝叶斯估计 思路与贝叶斯决策类似,只是离散的决策状态变成了连续的估计。思考题:请课后与贝叶斯决策比较 基本思想:基本思想:把待估计参数看作具有先验分布)(p的随机变量,其取值与样本集X X有关,根据样本集Nxxx,21L=X X估计。损失函数:把估计为所造成的损失,记为),(期望风险:xxddpRdE),(),(=xxxddppdE)()
7、|(),(=xxxdpRdE)()|(=where,dE=x,条件风险:dpR)|(),()|(xx=dE=x 最小化期望风险 最小化条件风险 (对所有可能的x)有限样本集下,最小经经验风险:dpR)|(),()|(XXXX=贝叶斯估计量:贝叶斯估计量:(在样本集X X下)使条件风险(经验风险)最小的估计量。离散情况:损失函数表(决策表)连续情况:损失函数 常用的损失函数:2)(),(=(平方误差损失函数)定理定理 3.1 如果采用平方误差损失函数,则的贝叶斯估计量是在给定x时的条件期望,即=dpE)|(|xx 同理可得到,在给定样本集X X下,的贝叶斯估计是:=dpE)|(|XXXX 自学证
8、明过程 求贝叶斯估计的方法:求贝叶斯估计的方法:(平方误差损失下)(1)确定的先验分布)(p(2)求样本集的联合分布 )|()|(1iNippx=X X(3)求的后验概率分布=dppppp)()|()()|()|(XXXXXX(4)求的贝叶斯估计量=dp)|(X X 同时还可求得=dppp)|()|()|(XXXXxx(考虑到我们最终的目的是求(考虑到我们最终的目的是求 p(x))讨论:设的最大似然估计为l,则在l=处)|(X Xp很可能有一尖峰,若此,则)|()|(lppxx=&X X,即贝叶斯估计结果与最大似然估计结果近似相等。(二)贝叶斯学习(二)贝叶斯学习 考虑学习样本个数N,记样本集
9、Nxxx,21L=X X 1N时有)|()|()|(1=NNNpppXXXXx 因此有递推后验概率公式:=dpppppNNNNN)|()|()|()|()|(11XXXXXXxx 设)()|(pp=X X,则随着样本数增多,可得后验概率密度函数序列:)(p,)|(1xp,L),|(21xxp 参数估计的递推贝叶斯方法(Recursive Bayes Incremental Learning)如果此序列收敛于以真实参数值为中心的函数,则称样本分布具有贝叶斯学习(Bayesian Learning)性质。此时)()|()|(xxxpppN=X X 由先验分布)(p和样本信息(似然函数))|(X X
10、p求出的后验分布)|(X Xp,然后直接求样本总体分布 dppp)|()|()|(XXXXxx=的做法称作贝叶斯学习。估计量的性质与评价标准估计量的性质与评价标准 无偏性、有效性和一致性无偏性、有效性和一致性 无偏性:=),(21NExxxL 渐近无偏性:=NNE 有效性:对估计1和2,若方差)()(2212,()0lim=NNP 无偏性和有效性:对于多次估计,估计量能以较小的方差平均地表示真实值。一致性:当样本数无穷多时,每一次估计都在概率意义上任意接近真实值。3.3 正态分布的监督参数估计 以正态分布为例说明上节介绍的参数估计方法 3.3.1 最大似然估计示例),()(Np x=NiiN1
11、1x=NiTiiN1)(1xx 一维:=NiixN11,=NiixN122)(1 3.3.2 贝叶斯估计和贝叶斯学习示例 (一)贝叶斯估计 一维,),()|(2Nxp,2已知,估计 假设先验分布 ),()(200Np 结论:0220222020+=NmNNN where iNiNmx=1 -样本信息与先验知识的线性组合 一般情况下,0=N时,0=;N时,Nm 特例:若020=,则0 (先验知识可靠,样本不起作用)若0,则Nm=(先验知识十分不确定,完全依靠样本信息)(二)贝叶斯学习 ()22,21exp21)|(NNNNNNNp=X X =dpppNN)|()|()|(xxXXXX 02202
12、22020+=NmNNNN 2202202+=NN 当N时,02N,)|(X Xp函数。()2222222,21exp21)|(NNNNNNp+=xx X X 均值N,方差由2增为22N+-由于用了的估计值而不确定性增加 3.4 非监督参数估计 以上讨论的是监督参数估计,即已知各样本的类别,根据各类样本集估计本类的概率密度函数中的参数。非监督参数估计指样本类别未知,但各类条件概率密度函数的形式已知,根据所有样本估计各类密度函数中的参数。本节只介绍非监督最大似然估计的思路 3.4.1 非监督参数估计的最大似然法 (一)假设条件:1.样本集Nxx,1L=X X中的样本属于C个类别,但不知各样本属哪
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 模式识别 课件 04
限制150内