抽样误差区间估计统计学课件.ppt
抽样误差区间估计统计学第1页,此课件共64页哦Review:统计资料的整理与描述频数分布和描述集中位置的指标描述离散趋势的指标正态分布的特征及曲线的面积规律标准正态分布正态分布的应用第2页,此课件共64页哦4.1 抽样误差和抽样分布Sampling Error and Sampling Distribution第3页,此课件共64页哦主要内容主要内容抽样误差抽样误差的重要性抽样误差的定义抽样误差的规律性标准误标准误的定义标准误的计算标准误的意义标准误的作用 t分布t分布的演化t分布的图形t分布的性质第4页,此课件共64页哦抽样误差的重要性既然有误差,为什么还要抽样?无限总体的客观存在试验研究的成本效益问题(cost effect)第5页,此课件共64页哦总体同质个体、个体变异总体参数未知样本代表性、抽样误差随机抽样样本统计量已知统计推断风 险抽样误差的重要性第6页,此课件共64页哦 抽样误差的定义假如事先知道某地七岁男童的平均身高为119.41cm。为了估计七岁男童的平均身高(总体均数),研究者从所有符合要求的七岁男童中每次抽取100人,共计抽取了五次。119.41cm=4.38cm第7页,此课件共64页哦抽样误差的定义五次抽样得到了不同的结果,原因何在?个体变异随机抽样不同男童的身高不同每次抽到的人几乎不同抽样误差第8页,此课件共64页哦抽样误差的定义【定义】由于个体变异的存在,在抽样研究中产生样本统计量和总体参数之间的差异,称为抽样误差(sampling error)。各种参数都有抽样误差,这里我们以均数为研究对象第9页,此课件共64页哦抽样误差的表现抽样误差的表现样本均数和总体均数间的差别样本均数和样本均数间的差别第10页,此课件共64页哦抽样误差只要有个体变异和随机抽样研究,抽样误差就是不可避免的。抽样误差有自己的客观规律,统计学就是拨开抽样误差之雾来洞察客观规律的利器。第11页,此课件共64页哦抽样误差的规律性 既然抽样误差是有规律的,那么到底它的分布规律到底是怎样的?第12页,此课件共64页哦从正态总体中随机抽样,其样本均数服从正态分布;从任意总体中随机抽样,当样本含量足够大时,其样本均数的分布逐渐逼近正态分布;样本均数之均数的位置始终在总体均数的附近;随着样本含量的增加,样本均数的离散程度越来越小,表现为样本均数的分布范围越来越窄,其高峰越来越尖。中心极限定理中心极限定理(central limit theorem)的表现的表现第13页,此课件共64页哦第14页,此课件共64页哦第15页,此课件共64页哦标准误的定义样本统计量(如均数)也服从一定的分布;与描述观测值离散趋势的指标类似,我们使用样本统计量的标准差来衡量抽样误差的大小。又称标准误(standard error,SE)。所以样本均数的标准差,称为均数的标准误第16页,此课件共64页哦标准误的计算计算公式为其中,为总体标准差,n为抽样的样本例数在研究工作时,由于总体标准差常常未知,可以利用样本标准差近似估计第17页,此课件共64页哦标准误的计算【例9】根据7岁男童的身高资料,在已知总体标准差时,标准误为4.38/10=0.438cm 而若以第一次抽样的样本标准差来代替总 体标准差,则标准误为4.45/10=0.445cm第18页,此课件共64页哦标准误的意义反映了样本统计量(样本均数,样本率)分布的离散程度,体现了抽样误差的大小。标准误越大,说明样本统计量(样本均数,样本率)的离散程度越大,即用样本统计量来直接估计总体参数越不可靠。反之亦然。标准误的大小与标准差有关,在例数n一定时,从标准差大的总体中抽样,标准误较大;而当总体一定时,样本例数越多,标准误越小。说明我们可以通过增加样本含量来减少抽样误差的大小。第19页,此课件共64页哦标准误的作用标准误的用途衡量样本统计量代表总体参数的可靠性;估计总体参数的可信区间;进行假设检验。第20页,此课件共64页哦标准误、标准差的区别和联系标准误、标准差的区别和联系第21页,此课件共64页哦区别区别1 1、意义上、意义上标准差描述个体值之间的变异,即观察值之间的离散程度;而标准误是描述统计量的抽样误差,即样本统计量和总体参数的接近程度;第22页,此课件共64页哦2 2、用途上、用途上标准差常用于表现观察值的波动范围;标准误常表示抽样误差的大小,估计总体参数的可信区间。第23页,此课件共64页哦3 3、标准差、标准误与样本含量、标准差、标准误与样本含量标准差是随着样本含量的增多,逐渐趋于稳定。标准误是随着样本含量的增多,逐渐减少。第24页,此课件共64页哦联系联系首首先先,标准差和标准误都是变变异异指指标标,说明个体之间的变异用标准差,说明统计量之间的变异用标准误。其其次次,当样本含量不变时,标准差大,标准误亦越大,均数的标准误与标准差成正比。第25页,此课件共64页哦样本均数的抽样分布规律中心极限定理u从均数为,标准差为的正态总体中随机抽样,样本均数服从均数为,标准差为 的正态分布。u从均数为,标准差为的任意总体中随机抽样,当样本含量足够大时,样本均数近似服从均数为,标准差为 的正态分布。第26页,此课件共64页哦t分布的演化根据中心极限定理的内容,当样本含量足够大时,对从均数为,标准差为的任意总体中随机抽样所得的样本均数进行标准化变换,有第27页,此课件共64页哦由于总体标准差往往是未知的,此时往往用样本标准差代替总体标准差,这里,为自由度(degree of freedom,df),取值为n-1,由W.S.Gosset提出。t分布的演化第28页,此课件共64页哦 f(t)=(标准正态曲线)=5=10.10.2-4-3-2-1012340.3自由度分别为1、5、时 t 分布的图形第29页,此课件共64页哦t分布的性质t分布为一簇单峰分布曲线,以0为中心,左右对称。分布的高峰位置比u u分布低,尾部高。即相同的尾部面积对应的界值,比u u分布大。例如:P P=0.05,=0.05,u u=1.64,=1.64,而自由度为1010的t t分布界值,t t=1.812=1.812。t分布与自由度有关,自由度越小,t分布的峰越低,而两侧尾部翘得越高;自由度逐渐增大时,t分布逐渐逼近标准正态分布;当自由度为无穷大时,t分布就是标准正态分布。每一自由度下的t分布曲线都有其自身分布规律。第30页,此课件共64页哦t t界值表界值表每一自由度下的t分布曲线都有其自身分布规律,这个规律可见于t界值表界值表。表上的阴影部分阴影部分,表示表示t,以外的尾部面积以外的尾部面积占总面积的百分数,即占总面积的百分数,即概率概率P。表中数据表中数据表示与 确定时相应的t界值界值(critical value),常记为t,。第31页,此课件共64页哦例例如如,当=10,单尾概率=0.05时,查表得单尾t0.05,10=1.812,表表明明,按t分布的规律,从正态分布总体中抽取样本含量为n=11的样本,则由该样本计算的t值大于等于1.812的概率为0.05,或者小于等于-1.812的概率亦为0.05,可表示为:P(t-1.812)=0.05或P(t1.812)=0.05第32页,此课件共64页哦例例如如,当=10,双尾概率=0.05时,查表得双尾t0.05,102.228,表表明明,按t分布的规律,从正态分布总体中抽取样本含量为n=11的样本,则由该样本计算的t值大于等于2.228的概率为0.025,小于等于-2.228的概率亦为0.025。可表示为:P(t-2.228)+P(t2.228)0.05或:P(-2.228t2.228)=1-0.05=0.95。第33页,此课件共64页哦从t分布图不难看出:在相同自由度时t值越大,概率P越小;在相同t值时,双尾概率P为单尾概率P的两倍。如双尾t0.10,10=单尾t0.05,10=1.812。第34页,此课件共64页哦t界值表单侧:P(t=t,)=双侧:P(t=t,)=即:P(-t,t t,)=1-【例10】查t界值表得t 值表达式 t 0.05,10=2.228 (双侧)t 0.05,10=1.812 (单侧)-tt0第35页,此课件共64页哦小结抽样误差的定义和表现抽样误差的规律:中心极限定理标准误的定义及其意义t分布的演化、图形、特征及意义第36页,此课件共64页哦4.2 区间估计和可信区间Interval Estimation and Confidence Interval第37页,此课件共64页哦主要内容统计推断点估计区间估计区间估计的实质可信区间的定义总体均数可信区间的计算正确理解可信区间的含义第38页,此课件共64页哦统计推断所谓统计推断(statistical inference),是指如何抽样,以及如何用样本性质推断总体特征。参数估计(parameter estimation)假设检验(hypothesis testing)第39页,此课件共64页哦统计推断的思路总体个体、个体变异总体参数未知样本代表性、抽样误差随机抽样样本统计量已知统计 推断风 险第40页,此课件共64页哦参数估计 点估计(Point Estimation)To use a number to estimate the parameter.区间估计(Interval Estimation)To obtain a range so as to include the parameter.第41页,此课件共64页哦(1)点估计用样本统计量作为总体参数的估计例如:用样本均数作为总体均数的一个估计第42页,此课件共64页哦点估计的缺陷=?cm =?cm x1,x2,x3,x4 N =143.3747 S=5.2347x1,x2,x3x10 =144.0681 S=4.7245 x1,x2,x3x10 =142.7203 S=9.2473 x1,x2,x3x10样本含量样本含量n=10第43页,此课件共64页哦点估计的缺陷第44页,此课件共64页哦(2)区间估计例11:为了解某地 1 岁婴儿的血红蛋白浓度,从该地区随机抽取 25 名 1 岁婴儿,测得其血红蛋白 均 数=123.7(g/L)标准差=11.9(g/L)试估计该地区1岁婴儿的平均血红蛋白浓度。第45页,此课件共64页哦可信区间的定义v按一定的概率(1-)用一个区间来估计总体参数所在的范围,该范围通常称为参数的可信区间或置信区间(confidence interval,CI),预先给定的概率(1-)称为可信度或者置信度(confidence level),常取95%或99%。v可信区间(CL,CU)是一开区间,CL、CU 称为可信限第46页,此课件共64页哦理论基础:理论基础:t t 值的分布值的分布均数的抽样分布-2.064 0 2.064v24第47页,此课件共64页哦区间估计:第48页,此课件共64页哦(3)可信区间(confidence interval):区间(118.79,128.61)包含了总体均数,其信度为95%。可信度(confidence level):95%.结论:该地区 1 岁婴儿的平均血红蛋白浓度为118.79128.61(g/L)(可信度为95%)。或:该地区 1 岁婴儿的平均血红蛋白浓度的95%可信区间为118.79128.61(g/L)。第49页,此课件共64页哦可信区间的两个要素可信区间的两个要素准确性准确性 要求要求 小,可信度大小,可信度大精确性精确性 要求要求 大,区间窄大,区间窄 可信区间的长度受制于可信区间的长度受制于个体变异个体变异和和样本含量样本含量:个体变异越大,区间越宽;样本含量越小,区个体变异越大,区间越宽;样本含量越小,区间越宽间越宽 第50页,此课件共64页哦可信区间估计的理论基础:均数的抽样分布可信区间估计的理论基础:均数的抽样分布-t/2,v 0 t/2,v 1-/2/2第51页,此课件共64页哦(4)总体均数可信区间的计算总体标准差已知时均数的95%可信区间总体标准差未知时均数的95%可信区间第52页,此课件共64页哦总体标准差已知时均数的95%可信区间的估计2.5%2.5%95%第53页,此课件共64页哦总体标准差已知时均数的95%可信区间的估计对于以总体均数为中心的曲线下 95%面积所对应的区间内的任意一个 ,相应的区间 一定包含总体均数。第54页,此课件共64页哦总体标准差已知时均数的95%可信区间的估计在总体中抽样,样本均数的u变换值有95%可能性落在(-1.96,1.96)之间在总体中抽样,样本均数所计算的区间有95%可能性包括总体均数第55页,此课件共64页哦总体标准差未知时均数的95%可信区间样本含量较大时,样本标准差逼近总体标准差第56页,此课件共64页哦总体标准差未知时均数的95%可信区间-t/2,v 0 t/2,v 1-/2/2第57页,此课件共64页哦例12 三种情形之下的计算从该地区随机抽取25名 1 岁婴儿,测得其血红蛋白均数123.7(g/L),根据文献已知该地血红蛋白总体标准差12.1(g/L);从该地区随机抽取250名 1 岁婴儿,测得其血红蛋白均数123.7(g/L),样本标准差11.9(g/L);从该地区随机抽取25名 1 岁婴儿,测得其血红蛋白均数123.7(g/L),样本标准差11.9(g/L);试估计该地区1岁婴儿的平均血红蛋白浓度。第58页,此课件共64页哦(5)正确理解可信区间可信度为95%的CI的涵义:每100个样本,按同样方法计算95%的CI,平均有95%的CI包含了总体参数。这里的95%,指的是方法本身!而不是某个区间!总体参数虽未知,但却是固定的值,而不是随机变量值。第59页,此课件共64页哦95%可信区间的含义-2 -1 0 1 2 按这种方法构建的可信区间,理论上平均每100次,有95次可以估计到总体参数。随机现象模拟软件随机现象模拟软件第60页,此课件共64页哦下列说法正确吗?算得某95%的可信区间,则:总体参数有95%的可能落在该区间。有95%的总体参数在该区间内。该区间包含95%的总体参数。该区间包含总体参数,可信度为95%。第61页,此课件共64页哦Summary Statistical Inference includes parameter estimation and hypothesis test.To obtain a interval in which it may include the population parameter with some confidence level,this is called a interval estimation.Confidence interval has two factors:Confidence and Precision To obtain the confidence limits we should pay attention to the assumptions.第62页,此课件共64页哦概念辨析标准差标准误个体变异 抽样误差参考值范围 可信区间变量分布 抽样分布第63页,此课件共64页哦Contact:86862755Email:第64页,此课件共64页哦