贝叶斯统计学习.pptx
一、一、贝叶斯叶斯统计的框架分析的框架分析困难困难:后验分布是复杂的、高维的分布后验分布是复杂的、高维的分布解决方法解决方法:马尔可夫链蒙特卡罗(马尔可夫链蒙特卡罗(MCMC)方法)方法后验分布后验分布 先验信息先验信息 似然函数似然函数第1页/共45页 目前,MCMC已经成为一种处理复杂统计问题的特别流行的工具,尤其在经常需要复杂的高维积分运算的贝叶斯分析领域更是如此。在那里,高维积分运算主要是用来求取普通方法无法得到的后验分布密度。如果合理的定义和实施,MCMC总能得到一条或几条收敛的马尔可夫链,该马尔可夫链的极限分布就是所需的后验分布二、MCMC方法第2页/共45页(一)预备知识二、MCMC方法第3页/共45页二、MCMC方法第4页/共45页(二)基本思想二、MCMC方法第5页/共45页(三)常用MCMC算法Gibbs抽样(吉布斯采样算法)二、MCMC方法第6页/共45页二、MCMC方法第7页/共45页立即更新的Gibbs抽样 每次迭带的时候的一些元素已经被跟新了,如果在更新其他的元素时不使用这些更新后的元素会造成一定程度新其他的元素时不使用这些更新后的元素会造成一定程度的浪费。事实上,的浪费。事实上,GibbsGibbs抽样抽样抽样抽样 可通过在每一步都利用近似可通过在每一步都利用近似得到的其他元素的值来获得更好的效果。这种方法改进了得到的其他元素的值来获得更好的效果。这种方法改进了练的混合,换句话说,链能更加迅速,更加详尽的搜索目练的混合,换句话说,链能更加迅速,更加详尽的搜索目标分布的支撑空间。标分布的支撑空间。第8页/共45页立即更新的立即更新的GibbsGibbs抽样描述如下:抽样描述如下:(1 1)选择初始值)选择初始值 。(2)逐个生成。(3)增加m,返回第(2)步。第9页/共45页二、MCMC方法第10页/共45页Metropolis-Hastings抽样二、MCMC方法第11页/共45页二、MCMC方法第12页/共45页二、MCMC方法第13页/共45页二、MCMC方法第14页/共45页三、MCMC方法的收敛性诊断要多久链才可以不依赖于其初始值以及需要多久该链能完全挖掘目标分布函数支撑的信息。在一个序列中观测值之间要隔多远才可以看作是近似独立的。该链是否近似达到其平稳分布。第15页/共45页观察样本路径观察自相关性图方差比收敛性诊断诊断方法第16页/共45页(1)观察样本路径 产生多条马尔可夫链,观察样本路径(对多个初始值产生多个马尔可夫链)样本路径是一个描述迭代数对应 的实现图。样本路径有时也称为历史图。如果链的混合不是很好,那么在很多次迭代中它会取 相同或者相近的数值。一个好的链能够快速地远离初始值,无论以何值开始。第17页/共45页历史迭代图不收敛收敛第18页/共45页(2)观察自相关性图自相关性图用于描述 序列在不同迭代延迟下的相关性,延迟i的自相关性是指相距i步的两迭代之间的相关性。具有较差的性质的链随着迭代延迟的增加会表现出较慢的自相关衰弱。第19页/共45页四、WinBUGS软件包第20页/共45页四、WinBUGS软件包第21页/共45页第22页/共45页Bayes Bayes统计推断Bayes统计推断概述参数的Bayes点估计Bayes区间估计Bayes假设检验第23页/共45页一 Bayes统计推断概述所研究的问题有一个确定的总体,其总体分布未知或部分未知,通过从该总体中抽取的样本(观测数据)作出与未知分布有关的某种结论。目的:利用问题的基本假定及包含在观测数据中的信息,作出尽量精确和可靠的结论。第24页/共45页一 Bayes统计推断概述Bayes推断第25页/共45页二 参数的Bayes点估计样本分布f(x|)中未知参数为;其中x=(x1,x2,xn)T;设的先验分布为()。有Bayes公式,的后验分布:这个后验分布h(|x)是进行 的Bayes点估计的出发点。第26页/共45页二 参数的Bayes点估计(1)最大后验估计 设,使后验分布h(|x)达到最大值的点 称为的最大后验估计,即:第27页/共45页二 参数的Bayes点估计(2)后验均值估计(后验期望估计)后验分布h(|x)的均值称为的后验均值估计(或后验期望估计),记为,即:第28页/共45页二 参数的Bayes点估计(3)后验中位数估计 若 是后验分布h(|x)的中位数,则 称为的后验中位数估计。即若 则后验分布中位数估计第29页/共45页二 参数的Bayes点估计以上三种估计统称的Bayes估计,记为 或简记为 。它们皆是样本观察值 x=(x1,x2,xn)T 的函数,即在一般场合下,这三种估计是不同的,当后验分布h(|x)对称时,这三种估计是相等的。第30页/共45页三 Bayes区间估计经典区间估计 参数是未知常数(非随机变量),其置信度为1-的区间估计L,U满足 理解为进行了大量重复试验,随机区间L,U 包含常数的概率为1-(L,u样本x的函数,是随机变量)。第31页/共45页三 Bayes区间估计经典统计学中,对给定的样本容量n,若进行多次反复的抽样,得到了众多个不同的区间,其中每个区间,要么包含的真值,要么不包含的真值。第32页/共45页三 Bayes区间估计Bayes区间估计 参数是随机变量,其后验分布h(|x)(x是样本观测值),的可信度为1-的区间估计满足 即在得到样本观测值x的条件下,随机变量落入区间L,U 的概率是1-(L,U)样本观测值x的函数,是确定的量)。第33页/共45页三 Bayes区间估计经典统计学认为,参数可以有一个取值范围,但本身不具有随机性,因此未知参数不是一个随机变量,仅是一个未知数而已。这是经典统计方法与Bayes统计方法的根本区别之一。第34页/共45页三 Bayes区间估计Beyas等尾可信区间 L=后验分布h(|x)的/2分位数;U=1-/2分位数。n n等尾可信区间常被采用,但不是最优的,最优可信区间的长度应该最短,这只要把具有最大后验密度函数的点包含在区间内,而在区间外的点上的后验密度函数值不超过区间内的后验密度函数值。第35页/共45页三 Bayes区间估计HPD可信区间 对于给定的可信概率1-,若存在区间I满足:(1)(2)任给 ,总成立 则称 I 是参数的可信度1-的最大后验密度(HPD)可信区间,简称(1-)HPD可信区间。第36页/共45页第37页/共45页三 Bayes区间估计当后验密度是单峰、对称时,(1-)HPD可信区间即等尾可信区间。当后验密度是多峰时,很多统计学家建议:放弃HPD准则,采用相连接的等尾可信区间为宜。第38页/共45页四 Bayes假设检验设假设检验问题为:其中01。记0,1为下列后验概率:第39页/共45页四 Bayes假设检验Bayes假设检验的推断原则:当0(x)1(x),接受假设H0;当0(x)1(x),接受假设H1。注:当0(x)=1(x),不宜作判断,尚需进一步抽样或进一步收集先验信息。与经典假设检验相比,与经典假设检验相比,BayesBayes假设检验无需选择检验统计量,确定抽样假设检验无需选择检验统计量,确定抽样分布,等等。分布,等等。第40页/共45页四 Bayes假设检验Bayes假设检验不同型:简单假设 简单假设 复杂假设 复杂假设 假单假设 复杂假设第41页/共45页四 Bayes假设检验Bayes因子 设两个假设0,1的先验概率分布为0与1,即:则 称为先验概率比。若已知后验概率为0,1,则称:为Bayes因子。B(x)反映了数据x支持0的程度。第42页/共45页四 Bayes假设检验从定义可以看出:Bayes因子既依赖于样本观测值x,又依赖于先验分布(),两种概率比相除,会削弱先验分布的影响,突出数据x的作用。第43页/共45页贝叶斯因子判断准则第44页/共45页感谢您的观看。第45页/共45页