抽样误差与参数估计课件.ppt
抽样误差与参数估计第1页,此课件共37页哦抽样误差与标准误抽样误差与标准误Sampling error andstandard error第2页,此课件共37页哦populationsamplesamplinginferring统计学的分析思路统计学的分析思路第3页,此课件共37页哦抽样实验抽样实验例例7-1:某地区正常成年男子的某地区正常成年男子的红细胞胞计数服从正数服从正态分布分布N(5.00,0.502)(1012/L),随随机抽取机抽取100份份样本,每份本,每份样本含有本含有10个个个体。个体。第4页,此课件共37页哦样本1样本2样本99样本3样本100第5页,此课件共37页哦正常男子正常男子红细胞胞计数抽数抽样实验结果果No 红细胞计数红细胞计数s123991005.595.494.564.824.085.115.564.875.304.734.265.475.215.194.845.045.194.715.304.660.440.420.330.390.46第6页,此课件共37页哦抽样误差抽样误差通通过对研究研究总体中随机抽取部分有体中随机抽取部分有代表性的代表性的样本,用本,用统计量量(样本均数)本均数)来推断来推断总体参数。体参数。由于抽由于抽样的随机性而造成的随机性而造成样本本统计量量(样本均数)与本均数)与总体体参数参数(总体均数)体均数)间的差的差别,称,称为均数的均数的抽抽样误差。差。第7页,此课件共37页哦从从总体体N(5.00,0.502)中抽中抽样实验结果果第8页,此课件共37页哦n=30n=10第9页,此课件共37页哦各各样本均数未必等于本均数未必等于总体均数体均数各各样本均数之本均数之间也存在差异也存在差异 样本均数的分布也是正本均数的分布也是正态分布分布样本均数的本均数的变异范异范围较原原变量的量的变异异范范围大大大大缩小小第10页,此课件共37页哦样本均数的本均数的标准准误统计上,将上,将统计量(如量(如样本均数、本均数、样本本率等)的率等)的标准差称准差称为标准准误,用以用以衡量抽衡量抽样误差的大小差的大小n固定固定时,标准差越大,准差越大,标准准误越大越大标准差固定准差固定时,n越大,越大,标准准误越小越小实际工作中,工作中,总体体标准差常未知准差常未知第11页,此课件共37页哦例例72:已知某已知某样本本 =5.03,s=0.52,n=10,试计算算标准准误。实际工作中,只能根据一份工作中,只能根据一份样本本计算出算出一个一个标准准误说明抽明抽样误差的大小,即差的大小,即 估估计的可靠程度的可靠程度第12页,此课件共37页哦例例73:2003年,在某地年,在某地20岁应征男青征男青年中随机抽取年中随机抽取85人,平均身高人,平均身高为171.2cm,标准差准差为5.3cm,计算当地算当地20岁应征男征男青年身高的青年身高的标准准误。反映了本次反映了本次调查身高均数身高均数171.2cm的抽的抽样误差大小(估差大小(估计值)第13页,此课件共37页哦样本均数的分布本均数的分布原分布原分布为正正态分布,分布,则新分布也新分布也为正正态分布,如原分布分布,如原分布为非正非正态分布,当分布,当n足足够大大时(如如n60),新分布也近似正,新分布也近似正态分分布布新分布可用新分布可用样本均数的均数和均数的本均数的均数和均数的标准差来描述其特征,其理准差来描述其特征,其理论值分分别为第14页,此课件共37页哦t分布分布(t-distribution,student distribution,Gosset,1908)第15页,此课件共37页哦=,标标准正准正态态分布分布=5=1第16页,此课件共37页哦t分布特征分布特征单峰分布,以峰分布,以t=0为中点,两中点,两侧对称;称;样本本(自由度自由度)越小,越小,t分布曲分布曲线峰峰值越越低,低,t值越分散;越分散;随着自由度的增大,随着自由度的增大,t分布接近于分布接近于标准准正正态分布,当分布,当时,时,t分布的极限分布的极限分布是分布是标准正准正态分布。分布。第17页,此课件共37页哦第18页,此课件共37页哦图中阴影部分表示中阴影部分表示t/2,以外尾部面以外尾部面积占占总面面积的百分比的百分比P同一同一时,t与与P呈反向关系呈反向关系当当=时,t/2,=u/2当当相同相同时,单侧P与双与双侧2P对应相同相同的的t界界值,如如t0.05,=t0.10/2,第19页,此课件共37页哦可可(置置)信区间信区间Confidence interval,CI第20页,此课件共37页哦Statistical inferenceParameterestimationHypothesis testingInterval estimationPoint estimation第21页,此课件共37页哦点估计点估计(point estimation):就是用就是用样本指本指标直接地估直接地估计总体指体指标。总体均数体均数总体率体率即即样本均数和本均数和样本率分本率分别是是总体均数和体均数和总体率的估体率的估计值。第22页,此课件共37页哦区间估计区间估计(confidence interval estimation)指用指用 和和 确定一个具有确定一个具有较大置信度的包含大置信度的包含总体参数的区体参数的区间,该区区间包含包含总体均数的概率体均数的概率为1-,称,称为总体体均数的均数的1-可信区可信区间。1-一般取一般取0.95或或0.99。样本统计样本统计量量标准误的标准误的估计值估计值第23页,此课件共37页哦总体均数的可信区体均数的可信区间1.未知未知时,按,按t分布的原理分布的原理的概率之和的概率之和为或或第24页,此课件共37页哦2.已知已知时,或,或 未知但未知但n足足够大大n足够大,用样本标准差足够大,用样本标准差S来估计来估计第25页,此课件共37页哦例例74:已知某已知某样本的本的 ,s=0.52,n=10,试计算算该总体正常成年男子平均体正常成年男子平均红细胞胞计数的数的95%可信区可信区间。解:解:v=9,=0.05(双双侧),),查t界界值表,得表,得第26页,此课件共37页哦例例75:试估估计2003年当地年当地20岁应征男征男青年身高青年身高总体均数的体均数的95%可信区可信区间。解:解:n=85,大,大样本本时 用用 代替代替第27页,此课件共37页哦可信区可信区间的解的解释从从总体中做随机抽体中做随机抽样,据每个,据每个样本可算本可算得一个可信区得一个可信区间,如,如95%可信区可信区间意味意味着做着做100次抽次抽样,算得,算得100个可信区个可信区间,平均有平均有95个包括个包括,只有只有5个不包括。个不包括。实际工作中工作中,为估估计总体均数,我体均数,我们只做只做一次抽一次抽样,只算得一个可信区只算得一个可信区间,用以估,用以估计 的范的范围,理,理论上有上有95%的可能是正的可能是正确的确的(1-),只有只有5%的可能的可能发生生错误。第28页,此课件共37页哦可信区间两个要素可信区间两个要素1.准准确确度度:反反映映可可信信度度(1-)的的大大小小。1-越越接接近近1,越准确,越准确 如可信度如可信度99%比比95%准确准确精确度:精确度:反映区间范围宽窄。范围越窄越好反映区间范围宽窄。范围越窄越好 95%可信区间精度优于可信区间精度优于99%在在n确定的情况下,准确度确定的情况下,准确度,精确度,精确度;在在兼兼顾准准确确度度和和精精确确度度时,一一般般取取95%可可信信区区间;在可信度确定的情况下,增加在可信度确定的情况下,增加样本例数,可提本例数,可提高精确度高精确度;第29页,此课件共37页哦两两样本均数之差的分布与本均数之差的分布与标准准误从两个正从两个正态总体体 中中随机抽随机抽样,分,分别得得n1、s1和和n2、s2 则:第30页,此课件共37页哦如果两如果两总体体标准差未知准差未知合并方差合并方差第31页,此课件共37页哦两两总体均数之差的估体均数之差的估计两两总体均数之差体均数之差1-2的的1-可信区可信区间为:大大样本本时总体均数的可信区体均数的可信区间自由度:自由度:第32页,此课件共37页哦例例77:某某药治治疗流行性乙型流行性乙型脑炎,将炎,将72名患者随机分名患者随机分为试验组和和对照照组,得,得两两组退退热天数天数结果如下,果如下,试估估计该药是是否有效。否有效。分组分组nS试验组试验组322.91.9对照组对照组405.22.7第33页,此课件共37页哦1-2 的的95%可信区可信区间即即第34页,此课件共37页哦标准差和准差和标准准误的比的比较标准差标准差SD标准误标准误SE意义意义个体变异大小个体变异大小抽样误差大小抽样误差大小用途用途CV,参考值范围参考值范围CI,假设检验,假设检验计算计算随随n增加增加渐趋于稳定渐趋于稳定渐趋于渐趋于0第35页,此课件共37页哦(1-)100%参考参考值范范围与可信区与可信区间的的区区别含含义 前者指前者指该区区间包含了包含了(1-)100%的的观察察值;后者指;后者指该区区间包含包含总体均数的可体均数的可能性是能性是(1-)100%。计算(双算(双侧)参考参考值范范围可信区可信区间第36页,此课件共37页哦小 结标准差和准差和标准准误的比的比较区区间估估计和医学参考和医学参考值范范围的区的区别可信区可信区间的涵的涵义第37页,此课件共37页哦