《概率密度估计.ppt》由会员分享,可在线阅读,更多相关《概率密度估计.ppt(52页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第三章第三章 概率密度函数的估计概率密度函数的估计l 首先根据样本估计l 然后用估计的概率密度设计贝叶斯分类器。(基于样本的)两步贝叶斯决策一种很自然的想法:希望:当样本数N 时,如此得到的分类器收敛于理论上的最优解。重要前提:训练样本的分布能代表样本的真实分布,所谓 条件 有充分的训练样本本章研究内容:如何利用样本集估计概率密度函数?估计量的性质如何?如何根据样本集估计错误率?估计概率密度的两种基本方法:l 参数方法(parametric methods)l 非参数方法(nonparametric methods)3.2 参数估计的基本概念和方法参数估计的基本概念和方法(part1)参数估计
2、(parametric estimation):已知概率密度函数的形式,只是其中几个参数未知,目标是根据样本估计这些参数的值。几个名词:几个名词:统计量(statistics):样本的某种函数,用来作为对某参数的估计参数空间(parametric space):待估计参数的取值空间 估计量(estimation):3.2.1 最大似然估计最大似然估计(Maximum Likelihood Estimation)假设条件:参数 是确定的未知量,(不是随机量)各类样本集 中的样本都是从密度为 的总体中独立抽取出来的,(独立同分布,i.i.d.)具有某种确定的函数形式,只其参数 未知 各类样本只包含
3、本类分布的信息其中,参数 通常是向量,比如一维正态分布 ,未知参数可能是鉴于上述假设,我们可以只考虑一类样本,记已知样本为似然函数(likelihood function)在参数 下观测到样本集X 的概率(联合分布)密度基本思想:如果在参数 最大,则 应是“最可能”的参数值,它是样本集的函数,记作 称作最大似然估计量。为了便于分析,还可以定义对数似然函数上述假设2:样本是独立抽取的求解:若似然函数满足连续可微的条件,则最大似然估计量就是方程的解(必要条件)。若未知参数不止一个,即 ,记梯度算子则最大似然估计量的必要条件由S 个方程组成:讨论:u如果 连续可导,存在最大值,且上述必要条件方程组有
4、唯一解,则其解就是最大似然估计量。(比如多元正态分布)。u如果必要条件有多解,则需从中求似然函数最大者u若不满足连续可导,则无一般性方法,用其它方法求最大(见课本均匀分布例)最大似然估计示例最大似然估计示例以单变量正态分布为例样本集似然函数对数似然函数最大似然估计量 满足方程而得方程组解得可见,样本的选择是多么重要3.2 参数估计的基本概念和方法参数估计的基本概念和方法(part2)3.2.2 贝叶斯估计和贝叶斯学习贝叶斯估计和贝叶斯学习(一)贝叶斯估计 思路与贝叶斯决策类似,只是离散的决策状态变成了连续的估计。思考题:请课后与贝叶斯决策比较思考题:请课后与贝叶斯决策比较基本思想:基本思想:把
5、待估计参数 看作具有先验分布p()的随机变量,其取值与样本集X 有关,根据样本集 估计。损失函数:把 估计为 所造成的损失,记为 期望风险:条件风险:最小化期望风险 最小化条件风险(对所有可能的x)有限样本集下,最小化经验风险:贝叶斯估计量:(在样本集X 下)使条件风险(经验风险)最小的估计量 。离散情况:损失函数表(决策表)连续情况:损失函数常用的损失函数:(平方误差损失函数)定理3.1 如果采用平方误差损失函数,则 的贝叶斯估计量 是在给定x 时 的条件期望,即同理可得到,在给定样本集X 下,的贝叶斯估计是:自学证明过程自学证明过程自学证明过程自学证明过程求贝叶斯估计的方法:(平方误差损失
6、下)求贝叶斯估计的方法:(平方误差损失下)(1)确定 的先验分布 p()(2)求样本集的联合分布(3)求 的后验概率分布(4)求 的贝叶斯估计量同时还可求得(考虑到我们最终的目的是求p(x))讨论:讨论:设 的最大似然估计为 ,则在 很可能有一尖峰,若此,则 即贝叶斯估计结果与最大似然估计结果近似相等。处在 尖峰之外的区域可以忽略的话,则由上式(二)贝叶斯学习(二)贝叶斯学习考虑学习样本个数N,记样本集N 1时有代入第3步,因此有递推后验概率公式:则随着样本数增多,可得后验概率密度函数序列:参数估计的递推贝叶斯方法参数估计的递推贝叶斯方法(Recursive Bayes Incremental
7、 Learning)样本独立抽取 如果此序列收敛于以真实参数值为中心的 函数,则称样本分布具有贝叶斯学习(Bayesian Learning)性质。此时 由先验分布p()和样本信息(似然函数)p(X|)求出 的后验分布p(|X),然后直接求样本总体分布的做法称作贝叶斯学习。估计量的性质与评价标准估计量的性质与评价标准 无偏性、有效性和一致性无偏性、有效性和一致性无偏性:渐近无偏性:有效性:对估计 和 ,若方差 则 更有效一致性:无偏性和有效性:无偏性和有效性:对于多次估计,估计量能以较小的方差平均地表示真实值。一致性:一致性:当样本数无穷多时,每一次估计都在概率意义上任意接近真实值。3.3 正
8、态分布的监督参数估计正态分布的监督参数估计 以正态分布为例说明上节介绍的参数估计方法3.3.1 最大似然估计示例最大似然估计示例3.3.2 贝叶斯估计和贝叶斯学习示例贝叶斯估计和贝叶斯学习示例(一)贝叶斯估计(一)贝叶斯估计一般情况下,特例:(二二)贝贝叶叶斯斯学学习习3.4 非监督参数估计非监督参数估计 以上讨论的是监督参数估计,即已知各样本的类别,根据各类样本集估计本类的概率密度函数中的参数。非监督参数估计指样本类别未知,但各类条件概率密度函数的形式已知,根据所有样本估计各类密度函数中的参数。本节只介绍非监督最大似然估计的思路3.4.1 非监督参数估计的最大似然法非监督参数估计的最大似然法
9、(一)假设条件:(一)假设条件:1.样本集 中的样本属于C 个类别,但不知各样本属哪类2.类先验概率 已知3.类条件概率密度形式已知 4.未知仅是c 个参数向量 的值 所有未知参数组成的向量记为(二)似然函数(二)似然函数混合密度分量密度:类条件密度 混合参数:先验概率 (有时也可未知,一起参与估计)设样本集X 中的样本是从混合密度为p(x|)的总体中独立抽取的,即满足独立同分布条件,确定但未知,则似然函数对数似然函数(三)可识别性问题(三)可识别性问题 求出 ,就得到了 ,即从混合密度函数中恢复出了分量密度函数。可能吗?什么条件下可能?可识别性:可识别性:若对 ,对混合分布中每个x 都有p(
10、x|)p(x|),则密度p(x|)是可识别的。教材指出:教材指出:大部分常见连续随机变量的分布密度函数都是可识别的,大部分常见连续随机变量的分布密度函数都是可识别的,离散随机变量的混合概率函数则往往是不可识别的。离散随机变量的混合概率函数则往往是不可识别的。(四)计算问题(四)计算问题对于可识别的似然函数,如何求最大似然估计?思路同监督情况,即如果 对 可微,则令得一系列方程组,它们是最大似然估计的必要条件,若存在唯一极值则就是解。其中后验概率微分方程组另,若 也未知,则可引入限制条件可用Lagrange 法求条件极值问题,定义Lagrange 函数可得其中原则上可以从上述微分方程组中求解出最
11、大似然估计 和 。但实际上多数问题中只能采用某种迭代方法求解。3.4.2 非监督参数估计示例:正态分布情况非监督参数估计示例:正态分布情况(一)均值向量 未知,已知由上节知最大似然估计满足方程组代入正态分布公式,可得样本的加权平均,物理意义明确样本的加权平均,物理意义明确可惜权值中包含未知参数可惜权值中包含未知参数其中迭代法求解:用某种方法(比如用监督方法)得到一个较好的初值 然后用下式迭代:梯度法,可能不是全局最优解,受初值影响大。梯度法,可能不是全局最优解,受初值影响大。(二)均未知,c 已知 思路与(一)类似,将有关分布公式代入上小节方程即可,只是公式复杂一些,也可得到物理意义明确的方程
12、式,但一般也只能用迭代法求解。讨论:讨论:参数估计方法,实际上要求对概率密度函数几乎知道一切,除了参数估计方法,实际上要求对概率密度函数几乎知道一切,除了少数几个参数,实际应用中,除了要求好的估计方法外,更重要的是少数几个参数,实际应用中,除了要求好的估计方法外,更重要的是关于函数形式的先验知识和假设(正态分布是最常用的假设)。关于函数形式的先验知识和假设(正态分布是最常用的假设)。何时用正态分布?(中心极限定理?)何时用正态分布?(中心极限定理?)3.5 非参数估计非参数估计参数估计参数估计parametric(density)estimation非参数估计非参数估计 nonparametr
13、ic(density)estimation3.5.0 直方图方法直方图方法非参数概率密度估计的最简单方法(1)把x 的每个分量分成k 个等间隔小窗,(2)统计落入各个小舱内的样本数(3)相应小舱的概率密度为如果样本集来自于同一个类别,估计的结果为类条件概率密度;如果样本集来自于C个类别,又分不清那个样本来自于哪一类,则估计的结果为混合概率密度3.5.1 非参数估计的基本原理非参数估计的基本原理问题:已知样本集 ,其中样本均从服从p(x)的总体中独立抽取,求估计 ,近似p(x)考虑随机向量x 落入区域 的概率X 中有k 个样本落入区域 的概率k 的期望值k 的众数(概率最大的取值)为的估计设p(
14、x)连续,且 足够小,的体积为V,则有因此其中,N:样本总数,V:包含x 的一个小区域的体积k:落在此区域中的样本数 为对p(x)在小区域内的平均值的估计V 的选择:过大,估计粗糙;过小,可能某些区域中无样本样本选择的多少和合理性很关键理论结果:理论结果:设有一系列包含x 的区域 采用1 个样本进行估计,对 用2 个,包含 个样本,为 的体积,为p(x)的第n 次估计,有下面的结论:两种选择方法:3.5.2 Parzen 窗法窗法窗函数(核函数),反映 对p(x)的贡献,实现小区域选择。窗函数要满足下述形式,即具有密度函数的形式,则 一定为密度函数常用窗函数:(1)超立方体窗(方窗)(2)正态
15、窗(高斯窗)(3)超球窗窗宽的选择:样本数少则选大些,样本数多则选小些,对估计密度的影响是很大的。在满足一定的条件下,估计量p(x)是渐近无偏和平方误差一致的。(见教材)从原则上来讲,只要满足概率密度函数的形式,都可以作为窗函数使用,但最终的估计效果的好坏与样本的情况和窗函数及其参数的选择有关。举例:用已知的密度函数产生一系列样本,根据这些样本用Parzon 窗法估计概率密度函数,与真实密度函数比较,分析样本数,窗宽等对估计结果的影响。3.5.3 近邻估计近邻估计通过控制小区域内的样本数 来确定小区域大小。3.6 分类器错误率的估计分类器错误率的估计样本集:设计集(训练集)、检验集(考试集)3
16、.6.1 有专门的考试集的情况(即已设计好分类器)有专门的考试集的情况(即已设计好分类器)设考试集有N 个样本,其中k 个被分错,则错误率估计是可以证明(无偏估计)若 未知,考试集由随机抽样产生,则(随样本增多方差减小)若 已知,考试集依 选择性随机抽样产生,则3.6.2 没有专门的测试集(分类器未设计好)没有专门的测试集(分类器未设计好)样本集既用于设计分类器,也用于估计错误率,因此存在设计集和考试集的划分策略问题。C 法(再代入法):考试集与设计集相同,结果偏于乐观U 法:考试集与设计集分开,结果更客观,偏于保守。样本划分法:将样本集分成两组 需要样本较多交叉验证法(cross-valid
17、ation):留一法(leave-one-out):用一个样本做检验,其余N 1个样本为设计集,反复N 次 m-fold 法:每次随机抽出1/m 个样本做检验,其余样本为训练集,反复多次 计算量较大,但在样本有限是比划分法更好 讨论:讨论:有限样本下,密度函数的估计问题是一个很难的问题(不适定),比分类器设计问题甚至更难,也是一个更一般的问题。因此,通过首先估计密度函数来解决PR 问题似乎不是个好主意(除非有充分的先验知识)。小结:概率密度函数估计小结:概率密度函数估计l 参数估计:概率密度函数形式已知,只未知几个参数n 最大似然估计n 贝叶斯估计l 非参数估计l 参数估计:概率密度函数形式已知,只未知几个参数n 最大似然估计似然函数对数似然函数最大似然估计量求解:连续可微条件下正态分布例n 贝叶斯估计把 看作随机变量,先验分布p()最小化风险对样本集平方误差损失函数贝叶斯估计求法:贝叶斯学习递推正态分布例l 非参数估计非参数估计:直接估计密度函数(数值解),不对函数形式作假设直接估计密度函数(数值解),不对函数形式作假设基本思想:将取值空间分为多个小区间,假定小区间内密度值不变,用基本思想:将取值空间分为多个小区间,假定小区间内密度值不变,用小区间内的样本估计此值。小区间内的样本估计此值。n Parzen 窗法n 近邻估计近邻估计
限制150内