统计学bootstrap课程学习.pptx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《统计学bootstrap课程学习.pptx》由会员分享,可在线阅读,更多相关《统计学bootstrap课程学习.pptx(55页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、会计学1统计学统计学bootstrap第一页,共55页。2本节课内容本节课内容(nirng)n n重采样(ci yn)技术(resampling)n nBootstrapn n刀切法(jackknife)第1页/共55页第二页,共55页。3引言引言(ynyn)n n 是一个统计是一个统计(tngj)(tngj)量,或者是数据的某个函量,或者是数据的某个函数,数据来自某个未知的分布数,数据来自某个未知的分布F F,我们想知道,我们想知道 的某些性质(如偏的某些性质(如偏差、方差和置信区间)差、方差和置信区间)n n假设我们想知道假设我们想知道 的方差的方差n n如果如果 的形式比较简单,可以直接
2、用上节课学习的嵌入式估计的形式比较简单,可以直接用上节课学习的嵌入式估计量量 作为作为 的估计的估计n n例:例:,则,则n n ,其中,其中 n n ,其中,其中n n问题:若问题:若 的形式很复杂(任意统计的形式很复杂(任意统计(tngj)(tngj)量),如何计算量),如何计算/估计?估计?第2页/共55页第三页,共55页。4Bootstrap简介简介(jin ji)n nBootstrapBootstrap是一个很通用的工具,用来估计标准误差、置信区间和是一个很通用的工具,用来估计标准误差、置信区间和偏差。由偏差。由Bradley EfronBradley Efron于于1979197
3、9年提出,用于计算任意估计的标准误年提出,用于计算任意估计的标准误差差n n术语术语“Bootstrap”“Bootstrap”来自短语来自短语“toto pull oneself up by ones pull oneself up by ones bootstraps”bootstraps”(源自西方神话故事(源自西方神话故事“The Adventures of Baron“The Adventures of Baron Munchausen”Munchausen”,男爵掉到了深湖底,没有工具,所以,男爵掉到了深湖底,没有工具,所以(suy)(suy)他想他想到了拎着鞋带将自己提起来)到了
4、拎着鞋带将自己提起来)n n计算机的引导程序计算机的引导程序bootboot也来源于此也来源于此n n意义:不靠外界力量,而靠自身提升自己的性能,翻译为自助意义:不靠外界力量,而靠自身提升自己的性能,翻译为自助/自自举举n n19801980年代很流行,因为计算机被引入统计实践中来年代很流行,因为计算机被引入统计实践中来第3页/共55页第四页,共55页。5Bootstrap简介简介(jin ji)n nBootstrapBootstrap:利用计算机手段进行重采样:利用计算机手段进行重采样(ci yn)(ci yn)n n一种基于数据的模拟(一种基于数据的模拟(simulationsimula
5、tion)方法,用于统计推断。基本思想是:利用样本数据)方法,用于统计推断。基本思想是:利用样本数据计算统计量和估计样本分布,而不对模型做任何假设(非参数计算统计量和估计样本分布,而不对模型做任何假设(非参数bootstrapbootstrap)n n无需标准误差的理论计算,因此不关心估计的数学形式有多复杂无需标准误差的理论计算,因此不关心估计的数学形式有多复杂n nBootstrapBootstrap有两种形式:非参数有两种形式:非参数bootstrapbootstrap和参数化的和参数化的bootstrapbootstrap,但基本思想都是模拟,但基本思想都是模拟第4页/共55页第五页,共
6、55页。6重采样重采样(ci yn)n n通过从原始数据(shj)进行n次有放回采样n个数据(shj),得到bootstrap样本n n对原始数据(shj)进行有放回的随机采样,抽取的样本数目同原始样本数目一样n n如:若原始样本为n n则bootstrap样本可能为第5页/共55页第六页,共55页。7计算计算(j sun)bootstrap样本样本n n重复B次,n n1.随机选择整数 ,每个整数的取值范围(fnwi)为1,n,选择每个1,n之间的整数的概率相等,均为n n2.计算bootstrap样本为:n nWeb上有matlab代码:n nBOOTSTRAP MATLAB TOOLBO
7、X,by Abdelhak M.Zoubir and D.Robert Iskander,n nMatlab函数:bootstrp第6页/共55页第七页,共55页。8Bootstrap样本样本(yngbn)n n在一次bootstrap采样中,某些原始样本可能没被采到,另外一些样本可能被采样多次n n在一个bootstrap样本集中不包含某个原始样本 的概率为n n一个bootstrap样本集包含了大约(dyu)原始样本集的1-0.368=,另外的样本没有包括第7页/共55页第八页,共55页。9模拟模拟(mn)n n假设我们从 的分布 中抽取IID样本 ,当 时,根据大数定律,n n也就是说,
8、如果我们从 中抽取大量样本,我们可以用样本均值 来近似n n当样本数目B足够大时,样本均值 与期望(qwng)之间的差别可以忽略不计第8页/共55页第九页,共55页。10模拟模拟(mn)n n更一般地,对任意均值有限的函数h,当 有n n则当 时,有n n用模拟(mn)样本的方差来近似方差第9页/共55页第十页,共55页。11模拟模拟(mn)n n怎样得到怎样得到(d do)(d do)的分布?的分布?n n已知的只有已知的只有X X,但是我们可以讨论,但是我们可以讨论X X的分布的分布F Fn n如果我们可以从分布如果我们可以从分布F F中得到中得到(d do)(d do)样本样本 ,我们可
9、以,我们可以计算计算n n怎样得到怎样得到(d do)F(d do)F?用?用 代替(嵌入式估计量)代替(嵌入式估计量)n n怎样从怎样从 中采样?中采样?n n因为因为 对每个数据点对每个数据点 的质量都为的质量都为1/n 1/n n n所以从所以从 中抽取一个样本等价于从原始数据随机抽取一个样本中抽取一个样本等价于从原始数据随机抽取一个样本n n也就是说:为了模拟也就是说:为了模拟 ,可以通过有放回地随机抽,可以通过有放回地随机抽取取n n个样本(个样本(bootstrap bootstrap 样本)来实现样本)来实现第10页/共55页第十一页,共55页。12Bootstrap:一个:一个
10、(y)重采样过重采样过程程n n重采样:n n通过从原始数据 进行有放回采样n个数据,得到bootstrap样本n n模拟:n n为了估计我们感兴趣的统计(tngj)量 n n 的方差/中值/均值,我们用 bootstrap样本对应的统计(tngj)量(bootstrap复制)近似,其中第11页/共55页第十二页,共55页。13例:中值例:中值X=(3.12,0,1.57,19.67,0.22,2.20)Mean=4.46X1=(1.57,0.22,19.67,0,0,2.2,3.12)Mean=4.13X2=(0,2.20,2.20,2.20,19.67,1.57)Mean=4.64X3=(
11、0.22,3.12,1.57,3.12,2.20,0.22)Mean=1.74第12页/共55页第十三页,共55页。14Bootstrap方差方差(fn ch)估计估计n n方差:n n其中n n注意:F为数据X的分布,G为统计(tngj)量T的分布n n通过两步实现:n n第一步:用 估计 n n插入估计,积分符号变成求和n n第二步:通过从 中采样来近似计算n nBootstrap采样+大数定律近似第13页/共55页第十四页,共55页。15Bootstrap:方差:方差(fn ch)估计估计n nBootstrap的步骤:n n1.画出n n2.计算n n3.重复(chngf)步骤1和2共
12、B次,得到n n4.(大数(d sh)定律)(计算boostrap样本)(计算boostrap复制)第14页/共55页第十五页,共55页。16例:混合例:混合(hnh)高斯模型:高斯模型:n n假设真实假设真实(zhnsh)(zhnsh)分布为分布为n n现有现有n=100n=100个观测样本:个观测样本:直接用嵌入式估计(gj)结果:第15页/共55页第十六页,共55页。17例:混合高斯例:混合高斯(o s)模型(续)模型(续)n n用用BootstrapBootstrap计算统计量计算统计量 的方差:的方差:n n1.1.得到得到B=1000B=1000个个bootstrapbootstr
13、ap样本样本 ,其中,其中(qzhng)(qzhng)n n2.2.计算计算B=1000B=1000个个bootstrapbootstrap样本对应的统计量的值样本对应的统计量的值n n 3.3.与直接用嵌入式估计得到(d do)的结果比较:第16页/共55页第十七页,共55页。18Bootstrap:方差:方差(fn ch)估计估计n n真实世界:n nBootstrap世界:n n发生了两个近似n n近似的程度与原始样本(yngbn)数目n及bootstrap样本(yngbn)的数目B有关第17页/共55页第十八页,共55页。19Bootstrap:方差:方差(fn ch)估计估计n n在
14、方差估计中,可为任意统计函数n n如均值(混合高斯(o s)模型的例子)n n中值(伪代码参见教材)n n偏度(例子参见教材)n n极大值(见后续例子)n nn n除了用来计算方差外,还可以用作其他应用n nCDF近似、偏差估计、置信区间估计第18页/共55页第十九页,共55页。20CDF近似近似(jn s)n n令 为 的CDFn n则 的bootstrap估计(gj)为第19页/共55页第二十页,共55页。21偏差偏差(pinch)估计估计n n偏差偏差(pinch)(pinch)的的bootstrapbootstrap估计定义为:估计定义为:n nBootstrapBootstrap偏差
15、偏差(pinch)(pinch)估计的步骤为:估计的步骤为:n n得到得到B B个独立个独立bootstrapbootstrap样本样本n n计算每个计算每个bootstrapbootstrap样本样本 对应的统计量的值对应的统计量的值n n计算计算bootstrapbootstrap期望:期望:n n计算计算bootstrapbootstrap偏差偏差(pinch)(pinch):第20页/共55页第二十一页,共55页。22例:混合例:混合(hnh)高斯模型:高斯模型:n n标准误差估计n n在标准误差估计中,B为50到200之间结果(ji gu)比较稳定n n偏差估计B B10102020
16、50501001005005001000100010000100000.13860.13860.21880.21880.22450.22450.21420.21420.22480.22480.22120.22120.21870.2187B B1010202050501001005005001000100010000100005.05875.05874.95514.95515.02445.02444.98834.98834.99454.99455.00355.00354.99964.99960.06170.0617-0.0417-0.04170.02740.0274-0.0087-0.0087-
17、0.0025-0.00250.00640.00640.00250.0025第21页/共55页第二十二页,共55页。23Bootstrap置信区间置信区间n n正态区间(q jin):n n简单,但该估计不是很准确,除非 接近正态分布n n 百分位区间(q jin):,对应 的样本分位数n n还有其他一些计算置信区间(q jin)的方法n n如枢轴置信区间(q jin):第22页/共55页第二十三页,共55页。24例:例:Bootstrap置信区间置信区间n n例:例:BootstrapBootstrap方法的发明者方法的发明者Bradley EfronBradley Efron给出了下列用语解
18、释给出了下列用语解释BootstrapBootstrap方法的例子方法的例子(l zi)(l zi)。这些数据是这些数据是LASTLAST分数(法学院的入学分数)和分数(法学院的入学分数)和GPAGPA。计算相关系数及其标准误差。计算相关系数及其标准误差。LSAT(Y)576635558578666580555661651605653575545572594GPA(Z)3.393.302.813.033.443.073.003.433.363.133.122.742.762.882.96第23页/共55页第二十四页,共55页。25例例例例 (续)(续)(续)(续)n n相关系数的定义为:n n
19、相关系数的嵌入式估计量为:n nBootstrap得到的相关系数插入(ch r)估计的标准误差为:标准误差趋向(qxing)稳定于B252550100200400800160032000.1400.1400.1420.1420.1510.1510.1430.1430.1410.1370.1330.132第24页/共55页第二十五页,共55页。26例例例例 (续)(续)(续)(续)n n当当B=1000B=1000时,时,n n 的直方图为下图,可近似为从的直方图为下图,可近似为从 的分布采样的分布采样n n95%95%的正态区间为:的正态区间为:n n95%95%的百分点区间为:的百分点区间为
20、:n n当大样本情况下,这两个区间趋近当大样本情况下,这两个区间趋近(q jn)(q jn)于相同于相同第25页/共55页第二十六页,共55页。27非参数非参数bootstrap过程过程(guchng)总结总结n n对原始样本数据对原始样本数据 进行重采样进行重采样(ci yn)(ci yn),得到,得到B B个个bootstrapbootstrap样本样本 ,其中,其中b=1,Bb=1,Bn n 对每个对每个bootstrapbootstrap样本样本 ,计算其对应的统计量的值(,计算其对应的统计量的值(bootstrapbootstrap复制)复制)n n根据根据bootstrapboot
21、strap复制复制 ,计算其方差、偏差和置信区间等,计算其方差、偏差和置信区间等n n称为非参数称为非参数bootstrapbootstrap方法,因为没有对方法,因为没有对F F的先验(即的先验(即F F的知识仅从样本数据中获得)的知识仅从样本数据中获得)第26页/共55页第二十七页,共55页。28非参数非参数(cnsh)bootstrapn n统计量统计量/统计函数:统计函数:n n没有对没有对F F的先验,的先验,F F的知识仅从样本数据中获得(的知识仅从样本数据中获得(CDFCDF估计)估计),统计函数的估计变为嵌入式估计,统计函数的估计变为嵌入式估计n n真实世界真实世界(shji)
22、(shji):n nBootstrapBootstrap世界世界(shji)(shji):n n如方差计算中,发生了两个近似如方差计算中,发生了两个近似n n近似的程度与样本数目近似的程度与样本数目n n及及bootstrapbootstrap样本的数目样本的数目B B有关有关第27页/共55页第二十八页,共55页。29Bootstrap的收敛性的收敛性n n例:混合高斯模型:例:混合高斯模型:n n n nn=100n=100个观测个观测(gunc)(gunc)样本:样本:n n4 4次试验得到不同次试验得到不同B B的偏差和方差的结果的偏差和方差的结果第28页/共55页第二十九页,共55页
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 bootstrap 课程 学习
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内