上节课内容总结优秀PPT.ppt
《上节课内容总结优秀PPT.ppt》由会员分享,可在线阅读,更多相关《上节课内容总结优秀PPT.ppt(55页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、本节课内容n n重采样技术(重采样技术(resamplingresampling)n nBootstrapBootstrapn n刀切法(刀切法(jackknifejackknife)1引言n n 是一个统计量,或者是数据的某个函数,数据来是一个统计量,或者是数据的某个函数,数据来自某个未知的分布自某个未知的分布F F,我们想知道,我们想知道 的某些性质(如偏差、方差和置的某些性质(如偏差、方差和置信区间)信区间)n n假设我们想知道假设我们想知道 的方差的方差n n假如假如 的形式比较简洁,可以干脆用上节课学习的嵌入式估计量的形式比较简洁,可以干脆用上节课学习的嵌入式估计量 作为作为 的估计
2、的估计n n例:例:,则,则n n ,其中,其中 n n ,其中,其中n n问题:若问题:若 的形式很困难(随意统计量),如何计算的形式很困难(随意统计量),如何计算/估计?估计?2Bootstrap简介n nBootstrapBootstrap是一个很通用的工具,用来估计标准误差、置是一个很通用的工具,用来估计标准误差、置信区间和偏差。由信区间和偏差。由Bradley EfronBradley Efron于于19791979年提出,用于计年提出,用于计算随意估计的标准误差算随意估计的标准误差n n术语术语“Bootstrap”“Bootstrap”来自短语来自短语“to pull onese
3、lf up by ones“to pull oneself up by ones bootstraps”bootstraps”(源自西方神话故事(源自西方神话故事“The Adventures of Baron“The Adventures of Baron Munchausen”Munchausen”,男爵掉到了深湖底,没有工具,所以他想,男爵掉到了深湖底,没有工具,所以他想到了拎着鞋带将自己提起来)到了拎着鞋带将自己提起来)n n计算机的引导程序计算机的引导程序bootboot也来源于此也来源于此n n意义:不靠外界力气,而靠自身提升自己的性能,翻译意义:不靠外界力气,而靠自身提升自己的性
4、能,翻译为自助为自助/自举自举n n19801980年头很流行,因为计算机被引入统计实践中来年头很流行,因为计算机被引入统计实践中来3Bootstrap简介n nBootstrapBootstrap:利用计算机手段进行重采样:利用计算机手段进行重采样n n一种基于数据的模拟(一种基于数据的模拟(simulationsimulation)方法,用于统计推断。)方法,用于统计推断。基本思想是:利用样本数据计算统计量和估计样本分布,基本思想是:利用样本数据计算统计量和估计样本分布,而不对模型做任何假设(非参数而不对模型做任何假设(非参数bootstrapbootstrap)n n无需标准误差的理论计
5、算,因此不关切估计的数学形式有无需标准误差的理论计算,因此不关切估计的数学形式有多困难多困难n nBootstrapBootstrap有两种形式:非参数有两种形式:非参数bootstrapbootstrap和参数化的和参数化的bootstrapbootstrap,但基本思想都是模拟,但基本思想都是模拟4重采样n n通过从原始数据通过从原始数据 进行进行n n次有放回采次有放回采样样n n个数据,得到个数据,得到bootstrapbootstrap样本样本n n对原始数据进行对原始数据进行有放回有放回的随机采样,抽取的样本数目的随机采样,抽取的样本数目同原始样本数目一样同原始样本数目一样n n如
6、:若原始样本为如:若原始样本为n n则则bootstrapbootstrap样本可能为样本可能为5计算bootstrap样本n n重复重复B B次,次,n n1.1.随机选择整数随机选择整数 ,每个整数的取值范围为,每个整数的取值范围为1,1,nn,选择每个,选择每个1,n1,n之间的整数的概率相等,均为之间的整数的概率相等,均为n n2.2.计算计算bootstrapbootstrap样本为:样本为:n nWebWeb上有上有matlabmatlab代码:代码:n nBOOTSTRAP MATLAB TOOLBOX,by Abdelhak M.BOOTSTRAP MATLAB TOOLBOX
7、,by Abdelhak M.Zoubir and D.Robert Iskander,Zoubir and D.Robert Iskander,n nMatlabMatlab函数:函数:bootstrpbootstrp6Bootstrap样本n n在一次在一次bootstrapbootstrap采样中,某些原始样本可能没被采样中,某些原始样本可能没被采到,另外一些样本可能被采样多次采到,另外一些样本可能被采样多次n n在一个在一个bootstrapbootstrap样本集中不包含某个原始样本样本集中不包含某个原始样本 的概率为的概率为n n一个一个bootstrapbootstrap样本集包
8、含了大约原始样本集的样本集包含了大约原始样本集的1-0.368 1-0.368=0.6320.632,另外,另外0.3680.368的样本没有包括的样本没有包括7模拟n n假设我们从假设我们从 的分布的分布 中抽取中抽取IIDIID样本样本 ,当当 时,依据大数定律,时,依据大数定律,n n也就是说,假如我们从也就是说,假如我们从 中抽取大量样本,我们中抽取大量样本,我们可以用样本均值可以用样本均值 来近似来近似n n当样本数目当样本数目B B足够大时,样本均值足够大时,样本均值 与期望与期望 之间的差别可以忽视不计之间的差别可以忽视不计8模拟n n更一般地,对随意均值有限的函数更一般地,对随
9、意均值有限的函数h h,当,当 有有n n则当则当 时,有时,有n n用模拟样本的方差来近似方差用模拟样本的方差来近似方差9模拟n n怎样得到怎样得到 的分布?的分布?n n已知的只有已知的只有X X,但是我们可以探讨,但是我们可以探讨X X的分布的分布F Fn n假如我们可以从分布假如我们可以从分布F F中得到样本中得到样本 ,我们可以,我们可以计算计算n n怎样得到怎样得到F F?用?用 代替(嵌入式估计量)代替(嵌入式估计量)n n怎样从怎样从 中采样?中采样?n n因为因为 对每个数据点对每个数据点 的质量都为的质量都为1/n 1/n n n所以从所以从 中抽取一个样本等价于从原始数据
10、随机抽取一中抽取一个样本等价于从原始数据随机抽取一个样本个样本n n也就是说:为了模拟也就是说:为了模拟 ,可以通过有放回,可以通过有放回地随机抽取地随机抽取n n个样本(个样本(bootstrap bootstrap 样本)来实现样本)来实现10Bootstrap:一个重采样过程n n重采样:重采样:n n通过从原始数据通过从原始数据 进行有放回采样进行有放回采样n n个数据,得到个数据,得到bootstrapbootstrap样本样本n n模拟:模拟:n n为了估计我们感爱好的统计量为了估计我们感爱好的统计量 n n 的方差的方差/中值中值/均值,我们用均值,我们用 bootstrap b
11、ootstrap样本对应样本对应的统计量(的统计量(bootstrapbootstrap复制)复制)近似,其中近似,其中11例:中值X=(3.12,0,1.57,19.67,0.22,2.20)Mean=4.46X1=(1.57,0.22,19.67,0,0,2.2,3.12)Mean=4.13X2=(0,2.20,2.20,2.20,19.67,1.57)Mean=4.64X3=(0.22,3.12,1.57,3.12,2.20,0.22)Mean=1.7412Bootstrap方差估计n n方差:方差:n n其中其中n n留意:留意:F F为数据为数据X X的分布,的分布,G G为统计量为
12、统计量T T的分布的分布n n通过两步实现:通过两步实现:n n第一步:用第一步:用 估计估计 n n插入估计,积分符号变成求和插入估计,积分符号变成求和n n其次步:通过从其次步:通过从 中采样来近似计算中采样来近似计算n nBootstrapBootstrap采样采样+大数定律近似大数定律近似13Bootstrap:方差估计n nBootstrapBootstrap的步骤:的步骤:n n1.1.画出画出n n2.2.计算计算n n3.3.重复步骤重复步骤1 1和和2 2共共B B次,得到次,得到n n4.4.(大数定律)(计算boostrap样本)(计算boostrap复制)14例:混合高
13、斯模型:n n假设真实分布为假设真实分布为n n现有现有n n=100=100个观测样本:个观测样本:干脆用嵌入式估计结果:15例:混合高斯模型(续)n n用用BootstrapBootstrap计算统计量计算统计量 的方差:的方差:n n1.1.得到得到B B=1000=1000个个bootstrapbootstrap样本样本 ,其中,其中n n2.2.计算计算B B=1000=1000个个bootstrapbootstrap样本对应的统计量的值样本对应的统计量的值n n 3.3.与干脆用嵌入式估计得到的结果比较:16Bootstrap:方差估计n n真实世界:真实世界:n nBootstr
14、apBootstrap世界:世界:n n发生了两个近似发生了两个近似n n近似的程度与原始样本数目近似的程度与原始样本数目n n及及bootstrapbootstrap样本的数目样本的数目B B有关有关17Bootstrap:方差估计n n在方差估计中,在方差估计中,可为随意统计函数可为随意统计函数n n如均值(混合高斯模型的例子)如均值(混合高斯模型的例子)n n中值(伪代码参见教材)中值(伪代码参见教材)n n偏度(例子参见教材)偏度(例子参见教材)n n极大值(见后续例子)极大值(见后续例子)n nn n除了用来计算方差外,还可以用作其他应用除了用来计算方差外,还可以用作其他应用n nC
15、DFCDF近似、偏差估计、置信区间估计近似、偏差估计、置信区间估计18CDF近似n n令令 为为 的的CDFCDFn n则则 的的bootstrapbootstrap估计为估计为19偏差估计n n偏差的偏差的bootstrapbootstrap估计定义为:估计定义为:n nBootstrapBootstrap偏差估计的步骤为:偏差估计的步骤为:n n得到得到B B个独立个独立bootstrapbootstrap样本样本n n计算每个计算每个bootstrapbootstrap样本样本 对应的统计量的值对应的统计量的值n n计算计算bootstrapbootstrap期望:期望:n n计算计算b
16、ootstrapbootstrap偏差:偏差:20例:混合高斯模型:n n标准误差估计标准误差估计n n在标准误差估计中,在标准误差估计中,B B为为5050到到200200之间结果比较稳定之间结果比较稳定n n偏差估计偏差估计21Bootstrap置信区间n n正态区间:正态区间:n n简洁,但该估计不是很精确,除非简洁,但该估计不是很精确,除非 接近正态分接近正态分布布n n 百分位区间:百分位区间:,对应,对应 的的样本分位数样本分位数n n还有其他一些计算置信区间的方法还有其他一些计算置信区间的方法n n如枢轴置信区间:如枢轴置信区间:22例:Bootstrap置信区间n n例例8.6
17、8.6:BootstrapBootstrap方法的独创者方法的独创者Bradley EfronBradley Efron给出了下列用语说明给出了下列用语说明BootstrapBootstrap方法的例子。这些数据是方法的例子。这些数据是LASTLAST分数(法学院的入学分数)和分数(法学院的入学分数)和GPAGPA。计算。计算相关系数及其标准误差。相关系数及其标准误差。23例8.6(续)n n相关系数的定义为:相关系数的定义为:n n相关系数的嵌入式估计量为:相关系数的嵌入式估计量为:n nBootstrapBootstrap得到的相关系数插入估计的标准误差为:得到的相关系数插入估计的标准误差
18、为:标准误差趋向稳定于24例8.6(续)n n当当B=1000B=1000时,时,n n 的直方图为下图,可近似为从的直方图为下图,可近似为从 的分布采样的分布采样n n95%95%的正态区间为:的正态区间为:n n95%95%的百分点区间为:的百分点区间为:n n当大样本状况下,这两个区间趋近于相同当大样本状况下,这两个区间趋近于相同25非参数bootstrap过程总结n n对原始样本数据对原始样本数据 进行重采样,得到进行重采样,得到B B个个bootstrapbootstrap样本样本 ,其中,其中b=1,Bb=1,Bn n 对每个对每个bootstrapbootstrap样本样本 ,计
19、算其对应的统计量,计算其对应的统计量的值(的值(bootstrapbootstrap复制)复制)n n依据依据bootstrapbootstrap复制复制 ,计算其方差、偏差和置,计算其方差、偏差和置信区间等信区间等n n称为非参数称为非参数bootstrapbootstrap方法,因为没有对方法,因为没有对F F的先验(即的先验(即F F的学的学问仅从样本数据中获得)问仅从样本数据中获得)26非参数bootstrapn n统计量统计量/统计函数:统计函数:n n没有对没有对F F的先验,的先验,F F的学问仅从样本数据中获得(的学问仅从样本数据中获得(CDFCDF估估计),统计函数的估计变为
20、嵌入式估计计),统计函数的估计变为嵌入式估计n n真实世界:真实世界:n nBootstrapBootstrap世界:世界:n n如方差计算中,发生了两个近似如方差计算中,发生了两个近似n n近似的程度与样本数目近似的程度与样本数目n n及及bootstrapbootstrap样本的数目样本的数目B B有关有关27Bootstrap的收敛性n n例:混合高斯模型:例:混合高斯模型:n n n nn n=100=100个观测样本:个观测样本:n n4 4次试验得到不同次试验得到不同B B的偏差和方差的结果的偏差和方差的结果28Bootstrap的收敛性n nB B的选择取决于的选择取决于n n计
21、算机的可用性计算机的可用性n n问题的类型:标准误差问题的类型:标准误差/偏差偏差/置信区间置信区间/n n问题的困难程度问题的困难程度29Bootstrap失败的一个例子n n ,我们感爱好的统计量,我们感爱好的统计量 为为 n n 的的CDFCDF用用G G表示表示n n则则 的的pdfpdf为为 n n 30Bootstrap失败的一个例子(续)n n对非参数对非参数bootstrapbootstrap,令,令n n则则n n所以所以 ,非参数,非参数bootstrapbootstrap不能很好地模拟不能很好地模拟真正的分布真正的分布31Bootstrap失败的一个例子(续)n n假设样
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 上节课 内容 总结 优秀 PPT
限制150内