抽样误差与参数估计精选PPT.ppt
抽样误差与参数估计第1页,此课件共37页哦抽样误差与标准误抽样误差与标准误Sampling error andstandard error第2页,此课件共37页哦populationsamplesamplinginferring统计学的分析思路统计学的分析思路第3页,此课件共37页哦抽样实验抽样实验例例7-1:某地区正常成年男子的红细胞计某地区正常成年男子的红细胞计数服从正态分布数服从正态分布N(5.00,0.502)(1012/L),随随机抽取机抽取100份样本,每份样本含有份样本,每份样本含有10个个个体。个体。第4页,此课件共37页哦样本1样本2样本99样本3样本100第5页,此课件共37页哦正常男子红细胞计数抽样实验结果正常男子红细胞计数抽样实验结果No 红细胞计数红细胞计数s123991005.595.494.564.824.085.115.564.875.304.734.265.475.215.194.845.045.194.715.304.660.440.420.330.390.46第6页,此课件共37页哦抽样误差抽样误差通过对研究总体中随机抽取部分有代表通过对研究总体中随机抽取部分有代表性的样本,用性的样本,用统计量统计量(样本均数)来(样本均数)来推断总体参数。推断总体参数。由于抽样的随机性而造成样本统计由于抽样的随机性而造成样本统计量(样本均数)与总体量(样本均数)与总体参数参数(总体均(总体均数)间的差别,称为均数的数)间的差别,称为均数的抽样误差。抽样误差。第7页,此课件共37页哦从总体从总体N N(5.00,0.50(5.00,0.502 2)中抽样实验结果中抽样实验结果第8页,此课件共37页哦n=30n=10第9页,此课件共37页哦各样本均数未必等于总体均数各样本均数未必等于总体均数各样本均数之间也存在差异各样本均数之间也存在差异 样本均数的分布也是正态分布样本均数的分布也是正态分布样本均数的变异范围较原变量的变异范样本均数的变异范围较原变量的变异范围大大缩小围大大缩小第10页,此课件共37页哦样本均数的标准误样本均数的标准误统计上,将统计量(如样本均数、样本统计上,将统计量(如样本均数、样本率等)的标准差称为标准误率等)的标准差称为标准误,用以用以衡量衡量抽样误差的大小抽样误差的大小n n固定时,标准差越大,标准误越大固定时,标准差越大,标准误越大标准差固定时,标准差固定时,n n越大,标准误越小越大,标准误越小 实际工作中,总体标准差常未知实际工作中,总体标准差常未知第11页,此课件共37页哦例例72:已知某样本已知某样本 =5.03,s=0.52,n=10,试计算标准误。,试计算标准误。实际工作中,只能根据一份样本计算出实际工作中,只能根据一份样本计算出一个标准误说明抽样误差的大小,即一个标准误说明抽样误差的大小,即 估计估计的可靠程度的可靠程度第12页,此课件共37页哦例例73:2003年,在某地年,在某地20岁应征男青岁应征男青年中随机抽取年中随机抽取85人,平均身高为人,平均身高为171.2cm,标准差为,标准差为5.3cm,计算当地,计算当地20岁应征男岁应征男青年身高的标准误。青年身高的标准误。反映了本次调查身高均数反映了本次调查身高均数171.2cm的抽样的抽样误差大小(估计值)误差大小(估计值)第13页,此课件共37页哦样本均数的分布样本均数的分布原分布为正态分布,则新分布也为正态原分布为正态分布,则新分布也为正态分布,如原分布为非正态分布,当分布,如原分布为非正态分布,当n足足够大时够大时(如如n60),新分布也近似正态分,新分布也近似正态分布布新分布可用样本均数的均数和均数的标新分布可用样本均数的均数和均数的标准差来描述其特征,其理论值分别为准差来描述其特征,其理论值分别为第14页,此课件共37页哦t分布分布(t-distribution,student distribution,Gosset,1908)第15页,此课件共37页哦=,标标准正准正态态分布分布=5=1第16页,此课件共37页哦t分布特征分布特征单峰分布,以单峰分布,以t=0为中点,两侧对称;为中点,两侧对称;样本样本(自由度自由度)越小,越小,t分布曲线峰值越分布曲线峰值越低,低,t值越分散;值越分散;随着自由度的增大,随着自由度的增大,t分布接近于标准分布接近于标准正态分布,当正态分布,当时,时,t分布的极限分布的极限分布是标准正态分布。分布是标准正态分布。第17页,此课件共37页哦第18页,此课件共37页哦图中阴影部分表示图中阴影部分表示t/2,以外尾部面积以外尾部面积占总面积的百分比占总面积的百分比P同一同一时,时,t与与P呈反向关系呈反向关系当当=时,时,t/2,=u/2当当相同时,单侧相同时,单侧P与双侧与双侧2P对应相同对应相同的的t界值界值,如如t0.05,=t0.10/2,第19页,此课件共37页哦可可(置置)信区间信区间Confidence interval,CI第20页,此课件共37页哦Statistical inferenceParameterestimationHypothesis testingInterval estimationPoint estimation第21页,此课件共37页哦点估计点估计(point estimation):就是用样本指就是用样本指标直接地估计总体指标。标直接地估计总体指标。总体均数总体均数总体率总体率即样本均数和样本率分别是总体均数和即样本均数和样本率分别是总体均数和总体率的估计值。总体率的估计值。第22页,此课件共37页哦区间估计区间估计(confidence interval estimation)指用指用 和和 确定一个具有较确定一个具有较大置信度的包含总体参数的区间,该区大置信度的包含总体参数的区间,该区间包含总体均数的概率为间包含总体均数的概率为1-,称为总体,称为总体均数的均数的1-可信区间。可信区间。1-一般取一般取0.95或或0.99。样本统计量样本统计量标准误的标准误的估计值估计值第23页,此课件共37页哦总体均数的可信区间总体均数的可信区间1.未知时,按未知时,按t分布的原理分布的原理 的概率之和为的概率之和为或或第24页,此课件共37页哦2.已知时,或已知时,或 未知但未知但n足够大足够大n足够大,用样本标准差足够大,用样本标准差S来估计来估计第25页,此课件共37页哦例例74:已知某样本的已知某样本的 ,s=0.52,n=10,试计算该总体正常成年男子平均红细,试计算该总体正常成年男子平均红细胞计数的胞计数的95%可信区间。可信区间。解:解:v=9,=0.05(双侧),查双侧),查t界值表,得界值表,得第26页,此课件共37页哦例例75:试估计试估计2003年当地年当地20岁应征男岁应征男青年身高总体均数的青年身高总体均数的95%可信区间。可信区间。解:解:n=85,大样本时,大样本时 用用 代替代替第27页,此课件共37页哦可信区间的解释可信区间的解释从总体中做随机抽样,据每个样本可算从总体中做随机抽样,据每个样本可算得一个可信区间,如得一个可信区间,如95%可信区间意味可信区间意味着做着做100次抽样,算得次抽样,算得100个可信区间,个可信区间,平均有平均有95个包括个包括,只有只有5个不包括。个不包括。实际工作中实际工作中,为估计总体均数,我们只做为估计总体均数,我们只做一次抽样一次抽样,只算得一个可信区间,用以估只算得一个可信区间,用以估计计 的范围,理论上有的范围,理论上有95%的可能是正的可能是正确的确的(1-),只有只有5%的可能发生错误。的可能发生错误。第28页,此课件共37页哦可信区间两个要素可信区间两个要素1.准准确确度度:反反映映可可信信度度(1-)的的大大小小。1-越越接接近近1,越准确,越准确 如可信度如可信度99%比比95%准确准确精确度:精确度:反映区间范围宽窄。范围越窄越好反映区间范围宽窄。范围越窄越好 95%可信区间精度优于可信区间精度优于99%在在n n确定的情况下,准确度确定的情况下,准确度,精确度,精确度;在兼顾准确度和精确度时,一般取在兼顾准确度和精确度时,一般取95%95%可信区间可信区间;在可信度确定的情况下,增加样本例数,可提高精在可信度确定的情况下,增加样本例数,可提高精确度确度;第29页,此课件共37页哦两样本均数之差的分布与标准误两样本均数之差的分布与标准误从两个正态总体从两个正态总体 中随机中随机抽样,分别得抽样,分别得n1、s1和和n2、s2 则:则:第30页,此课件共37页哦如果两总体标准差未知如果两总体标准差未知合并方差合并方差第31页,此课件共37页哦两总体均数之差的估计两总体均数之差的估计两总体均数之差两总体均数之差1-2的的1-可信区间为可信区间为:大样本时总体均数的可信区间大样本时总体均数的可信区间自由度:自由度:第32页,此课件共37页哦例例7 77 7:某药治疗流行性乙型脑炎,将某药治疗流行性乙型脑炎,将7272名患者随机分为试验组和对照组,得名患者随机分为试验组和对照组,得两组退热天数结果如下,试估计该药是两组退热天数结果如下,试估计该药是否有效。否有效。分组分组nS试验组试验组322.91.9对照组对照组405.22.7第33页,此课件共37页哦1 1-2 2 的的95%95%可信区间可信区间即即第34页,此课件共37页哦标准差和标准误的比较标准差和标准误的比较标准差标准差SD标准误标准误SE意义意义个体变异大小个体变异大小抽样误差大小抽样误差大小用途用途CV,参考值范围参考值范围CI,假设检验,假设检验计算计算随随n增加增加渐趋于稳定渐趋于稳定渐趋于渐趋于0第35页,此课件共37页哦(1-)100%参考值范围与可信区间的参考值范围与可信区间的区别区别含义含义 前者指该区间包含了前者指该区间包含了(1-)100%的观察的观察值;后者指该区间包含总体均数的可能值;后者指该区间包含总体均数的可能性是性是(1-)100%。计算(双侧)计算(双侧)参考值范围参考值范围可信区间可信区间第36页,此课件共37页哦小 结标准差和标准误的比较标准差和标准误的比较区间估计和医学参考值范围的区别区间估计和医学参考值范围的区别可信区间的涵义可信区间的涵义第37页,此课件共37页哦