《抽样分布和参数估计.ppt》由会员分享,可在线阅读,更多相关《抽样分布和参数估计.ppt(33页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第六章第六章 抽样分布与参数估计抽样分布与参数估计主主要要内内容容三、样本平均数(三、样本平均数()呈正态分布时)呈正态分布时 总体平均数(总体平均数()的估计)的估计四、样本平均数呈四、样本平均数呈t分布时总体平均数分布时总体平均数()的估计)的估计二、参数估计概述二、参数估计概述一、抽样分布概述一、抽样分布概述一、随机抽样一、随机抽样n每一个体被抽中的概率相同;每一个体被抽中的概率相同;n最理想、最科学的抽样方法;最理想、最科学的抽样方法;n能保证样本数据对总体的代表性;能保证样本数据对总体的代表性;n能有效控制抽样误差,将其限制在一定范能有效控制抽样误差,将其限制在一定范围内。围内。第一
2、节第一节 抽样分布概述抽样分布概述 第一节第一节 抽样分布概述抽样分布概述 抽样分布是理论的概率分布,是统计推断的理抽样分布是理论的概率分布,是统计推断的理论依据。论依据。二、抽样分布二、抽样分布2.1 定义定义总体分布总体分布:总体内个体数值的:总体内个体数值的频数分布频数分布;样本分布样本分布:样本内个体数值的频数分布;:样本内个体数值的频数分布;抽样分布抽样分布:某一种统计量的:某一种统计量的概率分布概率分布。抽样分布是从同一总体内抽取的不同样本的统抽样分布是从同一总体内抽取的不同样本的统计量的概率分布。计量的概率分布。特特点点总体总体 从总体中随机抽出容量为从总体中随机抽出容量为n n
3、的一切可能样的一切可能样本的平均数之平均数等于总体平均数。本的平均数之平均数等于总体平均数。从正态总体中,随机抽取的容量为从正态总体中,随机抽取的容量为n n的一的一切可能样本平均数的分布也呈正态分布。切可能样本平均数的分布也呈正态分布。2.2 样本平均数的分布的特点样本平均数的分布的特点 第一节第一节 抽样分布概述抽样分布概述 容量为容量为n n的平均数在抽样分布上的标准差(的平均数在抽样分布上的标准差(称称为标准误为标准误SESE),等于总体标准差除以),等于总体标准差除以n n的方根:的方根:(公式公式6-5)随着样本容量的增大,随着样本容量的增大,样本平均数的标准差(标准样本平均数的标
4、准差(标准误)误)越小。越小。4.4.虽然总体不是正态分布,如果样本容量较虽然总体不是正态分布,如果样本容量较大,反映总体大,反映总体和和的样本平均数的平均数和的样本平均数的平均数和标准差,也接近正态分布。标准差,也接近正态分布。总体分布总体分布总体与样本平均数分布的比较总体与样本平均数分布的比较容量为容量为100样本平均数分布样本平均数分布(5 5)样本平均数的分布也可转换为标准正)样本平均数的分布也可转换为标准正态分布。态分布。例例 从一个均值从一个均值=8,=0.6的总体中随机选取容量的总体中随机选取容量为为25的样本。假定该总体不是很偏,的样本。假定该总体不是很偏,求:求:(1)样本均
5、值样本均值 小于小于7.9的近似概率的近似概率;(2)样本均值样本均值 超过超过7.9的近似概率的近似概率;(3)样本均值样本均值 在总体均值在总体均值=8附近附近0.1范围内的范围内的概率概率.(1)(2)(3)一、定义一、定义参数估计:通过参数估计:通过样本统计量样本统计量按统计学标准,对按统计学标准,对所在所在总体参数总体参数特征进行估计,通过局部推论总体的情况。特征进行估计,通过局部推论总体的情况。总总体体样样本本随机原则随机原则总体参数总体参数 统计量统计量 s r b参数估计参数估计假设检验假设检验 第二节第二节 参数估计概述参数估计概述总体参数的估计分为总体参数的估计分为点估计点
6、估计和和区间估计。区间估计。二、点估计二、点估计(1 1)用来对总体参数进行估计的样本统计量叫用来对总体参数进行估计的样本统计量叫做总体参数的做总体参数的估计量估计量;将估计量在一个样本中;将估计量在一个样本中的取值直接作为总体参数的的取值直接作为总体参数的估计值估计值,叫作点估,叫作点估计。计。(样本平均数(样本平均数 是总体平均数是总体平均数 的估计量;的估计量;=60 =60 是是 的一个估计值)的一个估计值)(2 2)对点估计优劣进行评价时,主要看)对点估计优劣进行评价时,主要看估计量估计量的选择是否最优的选择是否最优 第二节第二节 参数估计概述参数估计概述 n n无偏性无偏性无偏性无
7、偏性 如果一切可能个样本统计量的值与总体参数值偏差如果一切可能个样本统计量的值与总体参数值偏差的平均值为的平均值为0 0,这种统计量就是总体参数的无偏估计量。,这种统计量就是总体参数的无偏估计量。例如:样本平均数是总体平均数的无偏估计量,例如:样本平均数是总体平均数的无偏估计量,样本方差样本方差 不是不是 的无偏估计量;而的无偏估计量;而 才是才是才是才是 的的的的无偏估计量无偏估计量n n有效性有效性有效性有效性 当总体参数不止有一种无偏估计量时,某一种估计当总体参数不止有一种无偏估计量时,某一种估计量的一切可能样本值的方差小者为有效性高,方差大者量的一切可能样本值的方差小者为有效性高,方差
8、大者为有效性低。为有效性低。n n一致性一致性 当样本容量无限增大时,估计量的值当样本容量无限增大时,估计量的值能越来越接近它所估计的总体参数值,这能越来越接近它所估计的总体参数值,这种估计是总体参数一致性估计量。种估计是总体参数一致性估计量。n n充分性充分性 一个容量为一个容量为n n的样本统计量的样本统计量,应能充分应能充分地反映全部地反映全部n n个数据所反映的总体的信息。个数据所反映的总体的信息。(3 3)点估计的误差点估计的误差 估计值与参数的差叫误差。当不考虑其它因估计值与参数的差叫误差。当不考虑其它因素的情况下,这个误差仅由抽样所造成,因而称素的情况下,这个误差仅由抽样所造成,
9、因而称作抽样误差。作抽样误差。无偏估计值抽样误差的平均值虽然为零,但无偏估计值抽样误差的平均值虽然为零,但任意一次点估计的抽样误差等于零的概率极小,任意一次点估计的抽样误差等于零的概率极小,因此有必要规定任意一次点估计时抽样误差的最因此有必要规定任意一次点估计时抽样误差的最大允许范围。(所谓最大范围一般指大允许范围。(所谓最大范围一般指95%95%或或99%99%次次的抽样误差都不超出这个范围)。的抽样误差都不超出这个范围)。例如,由样本平均值估计总体平均值时,例如,由样本平均值估计总体平均值时,-称作抽样误差,称作抽样误差,1.961.96 或或2.582.58 即即抽样误抽样误差的最大范围
10、。差的最大范围。即:即:用用 作为作为 的估计的估计值时,抽样误差不超过值时,抽样误差不超过1.961.96 。n (同时要注意的是,这个结论有(同时要注意的是,这个结论有95%95%的把的把握,仍有握,仍有5%5%犯错误的可能性)犯错误的可能性)三、区间估计三、区间估计n 区间估计就是用一个区间去估计未知参区间估计就是用一个区间去估计未知参数,它不具体指出总体参数等于什么,但能数,它不具体指出总体参数等于什么,但能指出总体的未知参数落入某一区间的概率有指出总体的未知参数落入某一区间的概率有多大。多大。区间估计的基本原理区间估计的基本原理 (以(以总体均值的估计为例):总体均值的估计为例):总
11、体正态分布总体正态分布 样本平均数抽样分布也是正态分样本平均数抽样分布也是正态分布布 把样本平均数的抽样分布转换为标准正态分把样本平均数的抽样分布转换为标准正态分布布从总体中随机抽取一个样本,从总体中随机抽取一个样本,落入区间(落入区间(,)的概率为)的概率为-;一旦落入该区间,则以一旦落入该区间,则以 为中心的区间为中心的区间 一定把总体均值一定把总体均值 包含进来;包含进来;因此,随机抽取一个样本,区间因此,随机抽取一个样本,区间 会以会以-的概率将总体均值的概率将总体均值 包含在内。包含在内。其中:其中:n 为犯错误的概率,为犯错误的概率,-为置信水平,该区间称作为置信水平,该区间称作置
12、信水平为置信水平为-的置信区间的置信区间一、总体均值的区间估计一、总体均值的区间估计 1.1 1.1 总体正态分布、总体方差已知总体正态分布、总体方差已知 X X服从正态分布,服从正态分布,X XN(N(,2 2)总体均值的置信区间总体均值的置信区间 第三节第三节 总体平均数参数估计总体平均数参数估计例:某地区例:某地区1010岁全体女童身高历年来标岁全体女童身高历年来标准差为准差为6.256.25厘米,现从该地区随机抽厘米,现从该地区随机抽2727名名1010岁女童,测得平均身高为岁女童,测得平均身高为134.2134.2厘米,试厘米,试估计该地区估计该地区1010岁全体女童平均身高的岁全体
13、女童平均身高的9595和和9999置信区间。置信区间。99951.962.58-1.96-2.5899951.96 2.58-1.96-2.58解:解:已知:已知:为为6.25cm6.25cm,N N为为2727,为为134.2cm134.2cm 根据根据0.950.95置区间时置区间时()()得到得到0.950.95置信区间:置信区间:同理得到同理得到0.990.99置信区间:置信区间:cmcmcmcm1.2 1.2 总体正态分布、总体方差未知总体正态分布、总体方差未知 这种条件下,从总体分布这种条件下,从总体分布样本平均数的抽样分布与样本平均数的抽样分布与总体方差是否已知无关,但这时总体方
14、差是否已知无关,但这时 要用要用S Sn-1n-1来替代,即来替代,即 这时由于这时由于S S是变量,对是变量,对 的转换的转换不再服从正态分布,而服从的是不再服从正态分布,而服从的是t t分布分布,即,即t t分布的特点分布的特点形状与正态分布曲线相似形状与正态分布曲线相似t t分布曲线随自由度不同而有一簇曲线分布曲线随自由度不同而有一簇曲线自由度的计算:自由度的计算:自由度是指能够独立变化的数据个数。自由度是指能够独立变化的数据个数。查查t t分布表时,需根据自由度及相应的显著性水平,并分布表时,需根据自由度及相应的显著性水平,并要注意是单侧数据还是双侧。要注意是单侧数据还是双侧。2.12
15、-2.120.0250.025df=162.120.025df=16双侧P=0.05单侧P=0.025 因为因为 所以,总体平均值的置信区间为:所以,总体平均值的置信区间为:例:从某小学三年级随机抽取例:从某小学三年级随机抽取1212名学生,其阅读名学生,其阅读能力得分为能力得分为 28 28,3232,3636,2222,3434,3030,3333,2525,3131,3333,2929,2626。试估计该校三年级学生阅读能力总体平均数试估计该校三年级学生阅读能力总体平均数9595和和9999的置信区间。的置信区间。解:解:1212名学生阅读能力的得分假定是从正名学生阅读能力的得分假定是从
16、正态总体中抽出的随机样本,而总体标准差态总体中抽出的随机样本,而总体标准差未未知,在此条件下,对样本平均数的标准化转换知,在此条件下,对样本平均数的标准化转换应服从应服从t t分布。分布。于是需用于是需用t t分布来估计该校三年级学生阅分布来估计该校三年级学生阅读能力总体平均数读能力总体平均数9595和和9999的置信区间。的置信区间。n由原始数据计算出样本统计值为由原始数据计算出样本统计值为当当 0.050.05时,时,因此,该校三年级学生阅读能力得分因此,该校三年级学生阅读能力得分9595的置信区间为:的置信区间为:当 0.01时,因此,该校三年级学生阅读能力得分因此,该校三年级学生阅读能
17、力得分9999的置信区间为:的置信区间为:1.3 1.3 总体非正态分布、大样本(总体非正态分布、大样本(n30n30)总体不是正态分布,样本平均数的抽样分布只是近似正态总体不是正态分布,样本平均数的抽样分布只是近似正态分布,这时在大样本的条件下,对样本平均数的标准化分布,这时在大样本的条件下,对样本平均数的标准化转换按近似标准正态分布处理。转换按近似标准正态分布处理。1.4 1.4 总体非正态分布、小样本(总体非正态分布、小样本(n30n5,nq5),(np5,nq5),可将二项分布变换为正态分布可将二项分布变换为正态分布总体比例总体比例p p的置信区间的置信区间:例:在近期某项广州地区女大学生群体在例:在近期某项广州地区女大学生群体在学习、交往、情感等方面的价值观调查中,学习、交往、情感等方面的价值观调查中,992992个有效被试的样本中,有近个有效被试的样本中,有近60%60%愿意嫁愿意嫁给给“富二代富二代”,”,求持这种态度的真正比例求持这种态度的真正比例的的95%95%的置信区间。的置信区间。
限制150内