贝叶斯统计ch贝叶斯推断.pptx
1第二章第二章 贝叶斯推断贝叶斯推断2.1 2.1 条件方法条件方法2.2 2.2 估计估计2.2.3 3 区间估计区间估计(可信区间可信区间)2.4 2.4 假设检验假设检验2.5 2.5 预测预测2.6 2.6 似然原理似然原理第1页/共71页22.1 2.1 条件方法 1.后验分布的特点:未知参数的后验分布是集三种信息(总体、样本和后验)于一身,它包含了所有可供利用的信息。故有关的参数估计和假设检验等统计推断都按一定方式从后验分布提取信息,其提取方法与经典统计推断相比要简单明确得多。2.条件方法的基本思想:基于后验分布的统计推断实际上只考虑已出现的数据(样本观察值)而认为未出现的数据与推断无关,这一重要的观点被称为“条件观点”,基于这种观点提出的统计方法被称为条件方法。第2页/共71页33.条件方法与频率方法的区别:(以对估计的无偏性认识为例)例如经典统计学认为参数的无偏估计应满足:其中平均是对样本空间中所有可能出现的样本而求的,可实际中样本空间中绝大多数样本尚为出现过,而多数从未出现的样本也要参与平均是实际工作者难以理解的。故在贝叶斯推断中不用无偏性,而条件方法是容易被实际工作者理解和接受的。例2.1 (教材P36)第3页/共71页42.2 估计1.1.贝叶斯估计贝叶斯估计 定定义义2.1 使后验密度 达到最大的值 称为最大后验估计;后验分布的中位数 称为后验中位数估计;后验分布的期望值 称为 的后验期望值估计,这三个估计都称为贝叶斯估计,记为 。第4页/共71页5解题的基本步骤:2分析后验分布的特征:对称分布 第5页/共71页6第6页/共71页7例2.3 为估计不合格率 ,今从一批产品中随机抽取n件,其中不合格品数X服从 ,一般选取 为 的先验分布,设 已知,求 的Bayes估计。解:由共轭先验分布可知,的后验分布为:则得:特例:选用贝叶斯假设作为先验分布,即特例:选用贝叶斯假设作为先验分布,即则则:第7页/共71页8第一、在二项分布时,的最大后验估计就是经典统计中的极大似然估计,即 的极大似然估计就是取特定的先验分布下的贝叶斯估计。第二、的后验期望值估计 要比最大后验估计 更合适一些。注意注意:第8页/共71页9试验号试验号样本量样本量n不合格数不合格数x13000.200210000.08333310.8004101010.917表2.1 不合格率 的二种贝叶斯估计的比较第9页/共71页10 例2.42.4 设x是来自如下指数分布的一个观察值。又取柯西分布作为的先验分布,即:求的最大后验估计 。解:由前面方法可求出的后验密度:为了寻找的最大后验估计 ,对后验密度求导数,得:由于(|x)的非减性,考虑到的取值不能超过x,故的最大后验估计应为 =x第10页/共71页112.2.贝叶斯估计的误差贝叶斯估计的误差 设 是 的一个贝叶斯估计,在样本给定后,是一个数,在综合各种信息后,是按 取值,所以评价一个贝叶斯估计的误差的最好而又简单的方式是用对 的后验均方差或平方根来度量,定义如下:定义定义2.2 设参数的后验分布为 ,贝叶斯估计为 ,则 的后验期望 称为 的后验均方差,而其平方根称为后验标准误。第11页/共71页12注意注意:(1)表示用条件分布 求期望;(2)当 时,则称为后验方差,其平方根称为后验标准差;(3)后验均方差与后验方差的关系:这表明,当 时,可使后验均方差达到最小,实际中常取后验均值作为 的贝叶斯估计值;(4)与经典统计的两点比较:后验方差应用的方便程度不一样;计算的复杂程度不一样。(阅读教材p40最后一段)第12页/共71页13例例2.5 设一批产品的不合格率为 ,检查是一个一个进行,直到发现第一个不合格品为止,若X为发现第一个不合格品时已检查的产品数,则X服从几何分布,其分布列为:设 的先验分布为 ,如今只获得一个样本观察值x=3,求 的最大后验估计,后验期望估计,并计算它的误差。解解:(1)先求联合分布。因为已知的先验分布和在给定下,X=3的条件概率,则联合分布为:X=3的无条件概率为(利用全概率公式)第13页/共71页14再求的后验分布列为:或 最后得 的最大后验估计:的后验均方差为(2)(3)因为,所以:第14页/共71页15例例2.6 在例2.3中,在选用共轭分布下,不合格品率的后验分布为贝塔分布,它的后验方差为:其中n为样本量,x为样本中不合格品数,与为先验分布中的两个超参数。若取=1,则其后验方差为:这时的后验期望估计和最大后验估计 分别为:第15页/共71页16显然,的后验均方差就是上述Var(/x),的后验均方差为:对若干对(n,x)的值算得的后验方差和后验均方差列入表2.2中。表2.2 和的后验均方差nxVarMSE301/50.026670.1600.066670.261001/120.005880.0800.012820.111012/120.010680.101/100.015120.122012/220.003590.061/200.005270.07第16页/共71页172.3 区间估计(可信区间)一、可信区间一、可信区间 第17页/共71页18 这里的可信水平和可信区间与经典统计中的置信水平与置信区间虽是同类的概念,但两者还是有本质的差别,主要表现在下面二点:1.在条件方法下,对给定的样本 x和可信水平1-,通过后验分布可求得具体的可信区间,譬如,的可信水平为0.9的可信区间是1.5,2.6,这时我们可以写出 2.在经典统计中寻求置信区间有时是困难的,因为它要设法构造一个枢轴量(含有被估计参数的随机变量),使它的分布不含未知参数,这是一项技术性很强的工作。相比之下可信区间只要利用后验分布,不需要再去寻求另外的分布,可信区间的寻求要简单得多。第18页/共71页19 例例2.72.7 设 是来自正态总体 的一个样本观察值,其中 已知,若正态均值的先验分布取为 ,其中 与 已知,则可求得 的后验分布为 ,由此很容易获得 的 可信 区间:其中是标准正态分布1-/2的分位数。第19页/共71页20例2.8 80年代我国彩电平均寿命的贝叶斯估计。经过早期筛选后的彩色电视机的寿命服从指数分布,它的密度函数为:其中0是彩电的平均寿命。现从一批彩电中随机抽取n台进行寿命试验,试验到第r(rn)台失效为止,其失效时间为 ,另外n-r台彩电直到试验停止时还未失效,这样的试验称为截尾寿命试验,所得样本 称为截尾样本,此截尾样本的联合密度函数为:其中F(t)为彩电的寿命的分布函数,称为总试验时间。第20页/共71页21(1)确定参数的先验分布:倒伽玛分布IGa(,)(2)利用历史资料确定两个超参数和的值(用第三种方法)(3)求出的后验分布:IGa(+r,+Sr)(4)用后验均值作为的贝叶斯估计:(5)可信下限的确定具体实施的步骤:第21页/共71页22 定义2.4 设参数的后验密度为(|x),对给定的概率1-(01-,则增大k,再转入Step1与Step2。若P(C(k)|x)1-,则减小k,再转入Step1与Step2。第24页/共71页25 例2.9 在2.8中已经确定彩电平均寿命的后验分布为倒伽玛分布IGa(1.956,42868),现求的可信水平为0.90的最大后验密度(HPD)可信区间。解题的基本步骤:1.确定参数的后验密度和分布函数:后验密度:分布函数:2.确定初始值3.按第一步计算初始区间4.计算后验概率5.验证初始区间是否满足要求,满足则停止,否则继续。第25页/共71页26表2.3 可信区间的搜索过程/16.710.3678790.3677650.7357590.0093830.7263760.59.2550.0758160.0758110.9098000.0009810.9088190.539.0390.0876300.0876540.9005660.0011910.8983750.5289.0530.0868150.0868380.9011890.0011770.900012第26页/共71页272.4 假设检验一、假设检验 经典统计中处理假设检验问题的基本步骤:1.建立原假设H0与备择假设H1:H0:0,H1:1其中0与1是参数空间中不相交的二个非空子集。2.选择检验统计量T=T(x),使其在原假设H0为真时概率分布是已知的。这是在经典方法中最困难的一步。3.对给定的显著性水平(01时接受H0;当0/11/2若取均匀分布U(0,1)作为的先验分布,试做出判断。解:因为0的后验概率为:在n=5时可计算各种x下的后验概率及后验机会比(见表2.4)第30页/共71页31 表2.4 的后验机会比从表中可以看出,当x=0,1,2时,应接受0,而在x=3,4,5时,应拒绝0,接受1。x012345063/6457/6442/64 22/647/641/6411/647/6422/64 42/64576463/640/163.08.141.910.520.120.016第31页/共71页32二、一个重要的概念贝叶斯因子定义2.5 设两个假设0与1的先验概率分别为0与1,后验概率分别为0与1,则称:为贝叶斯因子。贝叶斯因子表示数据x支持原假设的程度。第32页/共71页33三、简单假设0=0对简单假设1=11.贝叶斯因子的计算方法及其含义。在这种场合,两种简单假设的后验概率分别为:其中p(x/)为样本的分布,这时后验机会比为:如果要拒绝原假设0=0,则必须有:0/1小于1,即:第33页/共71页34即要求两密度函数值之比大于临界值,这正是著名的奈曼皮尔逊引理的基本结果,从贝叶斯观点看,这个临界值就是两个先验概率比。由此得到这种情形下的贝叶斯因子是:它不依赖于先验分布,仅依赖于样本的似然比,这时贝叶斯因子的大小表示样本x支持0的程度。第34页/共71页352.例题分析(P54例2.11)设XN(,1),其中只有两种可能,非0即1,需要检验的假设是:H0:=0,H1:=1若从该总体中抽取一个容量为n的样本x,试计算贝叶斯因子及作出相应的决策。解:先计算似然函数:再计算贝叶斯因子:最后进行数值分析:假设n=10,=2。则贝叶斯因子为:,这个数很小,所以应该拒绝H0而接受H1。第35页/共71页36四、复杂假设0对复杂假设11.贝叶斯因子的计算。在这种情形下,贝叶斯因子不仅与样本有关,还依赖于参数空间上的先验分布()。先把先验分布()限制在01上,并令:于是先验分布可改写为:其中0与1分别是0与1上的先验概率,g0与g1分别是0与1上的概率密度函数,由此可计算出后验概率比为 则贝叶斯因子为:第36页/共71页372.结论分析:由上式可看出,B(x)还依赖于0与1上的先验分布g0与g1,这时贝叶斯因子虽已不是似然比,但仍可看作0与1上的加权似然比,它部分地消除了先验分布的影响,而强调了样本观察值的作用。若设 与 分别是在0与1上的极大似然估计(MLE),那么经典统计中所使用的似然比统计量 是贝叶斯因子B(x)的特殊情况,即认为先验分布g0()与g1()的质量全部集中在 与 上。第37页/共71页383.例题2.12 设从正态总体N(,1)中随机抽取一个容量为10的样本x,算得样本均值 =1.5,试对如下两个假设进行检验:H0:1,H1:1取的共轭先验分布为N(0.5,2)。解:根据题意可算得的后验分布为 ,其中1=1.4523,=(0.3086)2,即N(1.4523,0.30862),由此可算得H0与H1的后验概率:0=P(1|x)=0.0708 1=P(1|x)=1-0=0.9292后验机会比为:0/1=0.0708/0.9292=0.0761可见,H0为真的可能性较小,因此拒绝H0,接受H1,即认为正态均值大于1。第38页/共71页39 另外,由先验分布N(0.5,2)也可算得H0与H1的先验概率0=0.6368,1=0.3632,则先验机会比0/1=1.7533,即先验信息是支持原假设的。再算两个机会比:B(x)=0.0761/1.7533=0.0434,即数据支持H0的贝叶斯因子并不高。两点讨论:1.样本均值对贝叶斯因子的影响(表2.5);2.先验均值对贝叶斯因子的影响(表2.6)。结论:贝叶斯因子对样本信息变化的反应是灵敏的,而对先验信息变化的反应是迟钝的。第39页/共71页40第40页/共71页41第41页/共71页42五、简单原假设对复杂的备择假设1.检验的基本问题考察检验问题:H0:=0 H1:0 对简单原假设H0:=0作贝叶斯检验时不能采用连续密度函数作为先验分布,因为任何这种先验分布将给=0的先验概率为零,从而后验概率也为零,所以一个有效的方法是对=0给一个正概率0,而对0给一个加权密度1g1()即的先验密度为:()=0I0()+1g1()其中I0()为=0的示性函数,1=1-0,g1()为0上的一个正常密度函数,这里可以把0看作近似的实际假设H0:0-,0+上的先验概率,这样的先验分布是由离散和连续两部分组成。第42页/共71页432.贝叶斯因子的计算 设样本分布为p(x|),利用上述先验分布容易得到样本x的边缘分布:其中 ,从而简单原假设与复杂备择假设的后验概率分别为:(0|x)=0p(x|0)/m(x)(1|x)=1m1(x)/m(x)后验机会比为:第43页/共71页44 由此得到贝叶斯因子为:这一简单表达式要比后验概率的计算容易的多,故实际中常常是先计算贝叶斯因子B(x),然后再计算后验概率(0|x):怎样推导?第44页/共71页45例2.13 设x是从二项分布b(n,)中抽取的一个样本,现考察如下两个假设 H0:=1/2 ,H1:1/2。若设在1/2上的密度g1()为区间(0,1)上的均匀分布U(0,1),试做出恰当的判断。解:由题意可求出x对g1()的边缘密度为:于是贝叶斯因子为:第45页/共71页46则由上式可计算原假设H0:=1/2的后验概率:如果取0=1/2,n=5,x=3,则其贝叶斯因子为:由于先验机会比为1,故贝叶斯因子就是后验机会比,从而后验机会比也接近于2,应接受原假设H0:=1/2。第46页/共71页47假设的形式Bayes因子说 明简单假设对简单假设B的大小表示样本支持0的程度。复杂假设对复杂假设B可看作0与1上的加权似然比,它部分地消除了先验分布的影响,而强调了样本观察值的作用。简单假设对复杂假设在实际应用中,可以先计算B,再计算后验概率:第47页/共71页48例2.14 Berger(1995)一个临床试验有两个处理:处理1:服药A;处理2:同时服药A与药B。问题:1.这两种处理方式有没有差别?2.如果有差别,哪一种方式的疗效更好?如今进行n次对照试验,设xi为第i次对照试验中处理2与处理1的疗效之差,又设诸xi相互独立同分布,且都服从N(,1),于是前n次的样本均值 ,先要考察如下二个假设:H0:=0 H1:0由于对二个处理的疗效知之甚少,故对H0和H1取相等概率,即0=1=1/2,而对H1:0上的先验密度g1()一般看法是:参数(疗效之差)接近于0比远离0更为可能,故取正态分布N(0,2)作为g1()第48页/共71页49解:问题1 的解决。由题设得到:样本分布:的先验分布:则 对g1()的边缘密度函数为:第49页/共71页50 这表明 对g1()的边际分布为正态分布N(0,2+1/n),同时,由上述计算容易看出,在给定 下(不含=0)的后验分布可以算得:即在给定下,(不含=0)的后验分布为:第50页/共71页51则贝叶斯因子为:由此可算得H0和H1的后验概率:第51页/共71页52由于数据是逐步获得的,每获得一个新的数据后计算一次贝叶斯因子和两个后验概率,结果见下表所示。表2.7 对照实验数据与各项后验概率n xn B 0 1 11 1212345678910 1.631.030.191.51-0.210.950.641.220.601.54 1.631.330.951.090.830.850.820.870.840.91 1.0060.5430.8290.3630.6930.4880.4310.2390.2150.0888 0.4170.3520.4530.2660.4090.3280.3010.1930.1770.082 0.5830.6480.5470.7340.5910.6720.6990.8070.8230.918 0.0540.0300.0350.0150.0230.0160.0130.0070.0060.003 0.5290.6180.5120.7190.5680.6570.6860.8000.8170.915 结论:两种处理方式有差别。第52页/共71页53问题2的解决。为此我们研究下列三个假设:H0:=0 H11:0其中H11表示处理2的疗效不如处理1,H12表示处理2的疗效比处理1要好,同时研究这三个假设更为合理,利用0时的后验分布容易算得H11和H12的后验概率:计算结果在上表中,可以看出应该拒绝H11,而接受H12,即处理2的疗效要好。第53页/共71页54本节重点内容:1.熟悉经典统计中假设检验的基本步骤;2.掌握贝叶斯假设检验的基本思想与经典统计假设检验思想的区别;3.掌握后验概率比(后验机会比)与贝叶斯因子两个重要概念;4.熟练掌握几种特殊的假设检验情形下,贝叶斯因子的计算方法和应用。第54页/共71页552.5 2.5 预测 一、预测的基本概念与基本问题预测:对随机变量未来观察值作出统计推断称为预测统计预测大致有以下几种形式:(1)设随机变量Xp(x|),在参数未知情况下如何对X的未来的观察值作出推断?(2)设x1,xn是来自p(x|)的过去观察值,在参数未知情况下,如何对X的未来的观察值作出推断?(3)按密度函数p(x|)得到一些数据x1,xn后,如何对具有密度函数g(z|)的随机变量Z的未来的观察值作出推断,这里两个密度函数p和g都含有相同的未知参数。第55页/共71页56二、预测的贝叶斯方法 好多实际问题可以归结为预测问题,经典统计中容许区间就可以看成是解决预测问题的一种方法,但根本的困难在于参数不能被观察到。而在贝叶斯统计中可以利用的先验分布()()或者后验分布(|x)(|x)很容易得到解决,解决的方案有两种,都是根据预测分布进行预测。方案一:在无观测数据情形下的预测。设随机变量Xp(x|),无X的观察数据,利用先验分布()容易获得未知的、但可观察的数据x的分布:称该分布为“先验预测分布”,即为X的边缘分布。预测方法:用m(x)的期望值、中位数或众数作为预测值,或者确定90%的预测区间a,b使得:Px(aXb)=0.9其中Px指用分布m(x)计算概率。第56页/共71页57方案二:有X X的观测数据时的预测方法。设 X有 观 察 值 x x=(x1,xn),利 用 后 验 分 布(|x x)可获得未知观察值的分布。(1)如果要预测同一总体的未来观察值,则可求出后验预测分布:(2)如果要预测另一总体的未来观察值,同样可求出后验预测分布:预测方法:用m(z|x x)的期望值、中位数或众数作为预测值,或者确定90%的预测区间a,b使得:Pz|x(aXb)=0.9,其中Pz|x指用后验预测分布m(z|x x)计算概率。第57页/共71页58三、例题分析 例2.15 在n次相互独立的贝努里试验成功了x次,试对未来的k次相互独立的贝努里试验中成功次数z作出预测。解:设成功概率为,则样本x的似然函数为:若取的共轭先验分布Be(,),则其后验密度为:第58页/共71页59新的样本z的似然函数为:于是在给定x时,z的后验预测分布为:第59页/共71页60 实例分析:假设一赌徒在过去10次赌博中赢3次,试对未来5次赌博中他赢的次数z作出预测。由以上分析可知该赌徒在未来5次赌博中他赢的次数z的后验预测分布为:由此可计算出z的后验预测概率如下:z012345m(z|x=3)0.18130.30220.27470.16490.06410.02128结论:(1)区间0,3是z的92%预测区间;(2)在未来5次赌博中能赢1到2次的可能性较大 第60页/共71页61讨论:在无观测数据的情况下,怎样对未来的k次相互独立的贝努里试验中成功次数z作出预测。k=5时,m(z)=1/6 例2.16 一颗钻石在一架天平上重复称重n次,结果为x1,xn,若把这颗钻石放在另一架天平上称重,如何对其称量值作出预测?(自学)第61页/共71页62 2.6 2.6 似然原理1.对似然函数的理解若设x=(x1,xn)是来自密度函数p(x|)的一个样本,则其乘积:有两个解释:(1)当给定时,p(x|)是样本x的联合密度函数;(2)当样本x的观察值给定时,p(x|)是未知参数的函数,并称为似然函数,记为L()。2.似然原理(1)有了观察值x之后,在做关于的推断和决策时,所有与试验有关的信息均被包含在似然函数L()之中。(2)如果有两个似然函数是成比例的,比例常数与无关,则他们关于含有相同的信息。第62页/共71页633.两个学派对似然原理的不同理解而产生的影响。(教材P68)例2.17 Lindley和Phillips(1976)的成果问题的描述:设为向上抛一枚硬币时出现正面的概率,现要检验如下二个假设:H0:=1/2,H1:1/2为此做了一系列相互独立的抛此硬币的试验,结果出现9次正面和3次反面。怎样作出合理的判断。第63页/共71页64分析:解决该问题,关键取决于对“一系列试验”的理解。因为事先没有对它有明确的规定,因此可能有如下两种情形:(1)事先已经决定抛12次硬币。在这种情况下,正面出现次数X服从二项分布b(n,),其中n为总试验次数,即n=12,于是相应的似然函数为:(2)事先规定试验进行到出现3次反面为止。则正面出现次数X服从负二项分布Nb(k,),其中k为反面出现次数,即k=3,于是相应的似然函数为:第64页/共71页65经典统计作出的判断:在二项分布模型和负二项分布模型下,犯第类错误的概率分别为:如果取=0.05作为显著性水平,在二项分布模型下,1,X=9不包含在拒绝域内,故应接受H0,在负二项分布模型下,1,故X=9在拒绝域内,从而拒绝H0,即这两个模型将得出完全不同的结论,这是与似然原理相矛盾的。第65页/共71页66贝叶斯统计作出的结果:(1)认清假设类型:简单假设对复杂假设(2)确定先验分布:其中0=1=1/2,g1()=U(0.5,1)(3)计算贝叶斯因子:第66页/共71页67其中 ,k1=220,k2=55,由此可计算出两种情形下的贝叶斯因子:因为贝叶斯因子小于1,所以应拒绝原假设H0,而接受备择假设H1。第67页/共71页68贝叶斯统计阶段问卷调查贝叶斯统计阶段问卷调查1.贝叶斯统计中你认为最重要的内容是什么?如果要你出一份考题,你将会选择哪些内容?(已讲过的内容)2.哪些部分是你学得较好的?3.哪些部分是你最感兴趣的?4.你最欣赏哪些题型?举几个例子(在课本上的例题、习题中选择)。5.最难学的内容是什么?6.哪些知识点是你的弱项?7.你认为这门课对你今后专业的学习和工作有什么帮助?8.在学习这门课的过程中遇到了哪些困难?9.请对你自己在这段时间内学习这门课的态度给一个合理评价。(上课的出勤、听课、作业及课后的复习)10.请给老师提出更好的建议。第68页/共71页69EX1 设随机变量设随机变量X的密度函数为的密度函数为(1)假如假如的先验分布为的先验分布为U(0,1),求求的后验分布的后验分布.(2)假如假如的先验分布为的先验分布为求求的后验分布及后验期望估计的后验分布及后验期望估计第69页/共71页70EX2 对正态分布对正态分布N(0,1)观察观察,获得三个观察值获得三个观察值若若的先验分布为的先验分布为N(3,1),求求的的0.95可信区间可信区间2.02,3.98第70页/共71页71感谢您的观看。第71页/共71页