统计学之抽样与总体参数的估计38825.pptx
第六章第六章 抽样与总体参数的估计抽样与总体参数的估计统计推断是统计学研究的重要内容。抽样是进行统计统计推断的基础工作。参数估计是统计推断的重要内容之一。6.1 抽样与抽样分布6.2 参数的估计方法6.3 总体均值和总体比例的区间估计6.4 两个总体均值及两个总体比例之差的估计6.5 正态总体方差及两个正态总体方差比的区间估计6.6 相关系数的区间估计6.1 抽样与抽样分布6.1.1 总体、个体和样本总体(Population)-要研究的事物或现象的总体。个体(Item unit)-组成总体的每个元素(成员)。总体容量(Population size)-一个总体中所含个体的数量。样本(Sample)-从总体中抽取的部分个体。样本容量(Sample size)-样本中所含个体的数量。抽样(Sampling)-为推断总体的某些重要特征,需要从总体中按一定抽样技术抽取若干个体的过程。统计量(Statistic)-由样本构造,用来估计总体参数的函数。统计量是样本的函数,只依赖于样本;统计量不含任何参数。样本均值、样本方差等都是统计量。6.1.2 抽样方法抽样设计与全面调查相比有如下特点:(1)节省人力及费用;(2)节省时间,提高调查研究的时效性;(3)保证研究结果的准确性。抽样方法分为两类:概率抽样和非概率抽样1、概率抽样根据已知的概率选取被调查者;最理想、最科学的抽样方法;能保证样本数据对总体的代表性;能有效控制抽样误差,将其限制在一定范围内;缺点是:相对非概率抽样,花费较大。概率抽样的几种形式:(1)简单随机抽样(Simple random sampling)完全随机地选取样本,要求有一个完美的抽样框或有总体中每一个个体的详尽名单。可以采取抽签或随机数字表的办法实现。(2)分层抽样(Reduced sampling)先将总体分成不同的“层”,然后,在每一“层”内进行简单随机抽样。可防止简单随机抽样造成的样本构成与总体构成不成比例的现象。(3)整群抽样(Cluster Sampling)在整群抽样中,总体首先被分成称作群的独立的元素组,总体中的每一元素属于且仅属于某一群。抽取一个以群为元素的简单随机样本,样本中的所有元素组成样本。在理想状态下,每一群是整个总体小范围内的代表。(4)系统抽样(Systematic sampling)又称等距抽样。从前k个元素中随机选一个,然后在样本框中每隔一定距离抽取一个。2、非概率抽样不是完全按随机原则选取样本。(1)方便抽样(Convenience sampling)由调查人员自由、方便地选择被调查者的非随机选样。(2)判断抽样(Judgement sampling)通过某些条件过滤选择某些被调查者参与调查的判断抽样法。建议使用概率抽样方法:简单随机抽样、分层抽样、整群抽样或系统抽样。从所估总体特征与样本结果的接近程度上讲,公式可用于估计抽样结果的“优良性”。而用方便抽样和判断抽样方法不能对该“优良性”进行估计。因而,当解释由非概率抽样方法得到的结果时,要特别小心。6.1.3 样本均值的分布与中心极限定理1、样本均值X分布的含义采用随机抽样的方法,从总体中抽取大小为n的一个样本,计算出它的平均值X1,然后将这些个体放回总体去,再抽取n个个体,又可以计算出平均值X2,再将n个个体放回去,再抽取n个个体,如此可以计算出无限个X,这些样本均值X所有可能值的概率分布叫均值X的抽样分布.设X1,X2,Xn为某总体中抽取的随机样本,X1,X2,Xn为相互独立,且与总体有相同分布的随机变量.(1)当总体为正态分布N(,2)时,X的抽样分布仍为正态分布,当越来越大时,X的离散程度越来越小,即用X估计越准确。(2)当总体的分布不是正态分布时,只要样本容量足够大时,样本均值的分布总是近似正态分布,此时要求总体方差2有限。假定总体均值为,方差为2中心极限定理中心极限定理(Central Limit theorem):设从均值为,方差为2(有限)的任意一个总体中抽取大小为的样本,当充分大时(n30),样本均值X的抽样分布近似服从均值为,方差为2/的正态分布。x什么叫充分大呢?总体偏离正态越远,则要求就越大。在实际应用中常要求30。例6.1 从一个均值=8,=0.6的总体中随机选取容量为25的样本。假定该总体不是很偏的,求:(1)样本均值 小于7.9的近似概率;(2)超过7.9的近似概率;(3)在总体均值=8附近0.1范围内的概率.解:根据中心极限定理,在总体不很偏的情况下,(1)(2)(3)例6.2 某厂声称生产的电池=54个月,=6个月的寿命分布。某消费团体为检验该厂的说法是否准确,购买了50个该厂生产的电池进行试验。(1)若厂商声称是正确的,描述50个电池寿命的抽样分布;(2)若厂商声称是正确的,则50个样品组成的样本的平均寿命不超过52个月的概率是多少?解:=54,=6,小概率事件如果真观察到50个电池平均寿命低于52个月,则有理由怀疑厂方说法的正确性。例6.3 某电梯承受的最大拉力为1000千克,可乘坐13人。已知人群的平均体重为60千克,标准差为14千克,且服从正态分布。问电梯发生事故的概率是多少?解:=60,=14,13 则该电梯发生事故的概率为0.0000076.1.4 样本方差的分布样本方差的分布较复杂,它与总体分布有关。在这里只研究当总体为正态分布时,样本方差的分布。(1)样本方差的分布设X1,X2,,Xn为来自正态分布N(,2)的样本,则从数学上可以推导出正态总体下样本方差S2的分布为:(未分组数据)(组距分组数据)(2)卡方分布设X1,X2,,Xn为来自正态分布N(0,1)的一个样本,为自由度为n的卡方分布,自由度n是相互独立的正态变量的个数.卡方分布的特点:1)卡方分布是一个正偏态分布。随自由度n的不同,其分布曲线的形状不同,n小,分布偏斜;n很大,接近于正态分布。当自由度df=n +时,卡方分布即为正态分布。2)值都是正值;3)k个 分布的和也是 分布,即是服从自由度df=df1+df2+dfk的 分布。表明 分布具有可加性。4)0卡方分布表给出了卡方变量在不同自由度下的临界值.当n很大时,近似服从实用上,n45时,Up为正态分布的p分位数。6.1.5 两个方差比的分布设 来自正态总体 的一个样本;来自正态总体 的一个样本且Xi(i=1,2,n1)与Yi(i=1,2,n2)相互独立,则F(n1-1,n2-1)为第一自由度(分子自由度)为n1-1,为第二自由度(分母自由度)为n2-1的F分布。F分布的定义分布的定义F分布的特点:(1)F分布形态是正偏态分布,形式随n1,n2不同而不同,随df1,df2的增加而渐趋正态分布;(2)F为两个方差比率,所以为正值;(3)当df1=1,df2任意时,F值与自由度为df2的t值的平方相等,即F(1,df2)=t2(df2)(4)F分布是统计学家费歇尔(R.A.Fisher)于1924年首先发现的。F分布在假设检验、区间估计、方差分析、回归分析及试验设计等数理统计领域有重要的作用。6.1.6 T统计量的分布设X1,X2,,Xn是来自正态总体N(,2)的一个样本,称为T统计量,它服从自由度为n-1的t分布,即 Tt(n-1)意义:当正态总体方差2已知时,样本平均数的分布为正态分布X N(,2/n);当总体方差2未知时,用S2作为2的估计值,当样本容量小于30时,分布 不接近正态分布,而是自由度为n-1的t分布,n30时接近正态分布,n趋向于无穷时,它是正态分布。t分布的特点:(1)对称。左侧为负,右侧为正,均值为0;(2)-t30时,t分布为接近正态分布,方差1,n-145时,t分布与正态分布没有多大差异在小样本n30时,t分布具有重要作用。6.2 参数估计方法参数估计方法6.2.1 点估计(Point estimate)当总体参数不清楚时,用一个特定值,一般常用样本统计量进行估计,叫点估计。设为总体X的待估计参数,一般用样本X1,X2,Xn构造一个统计量 来估计,则称为的估计量,对于样本的一组数据x1,x2,xn,估计量的值(x1,x2,xn)称为的估计值。如用样本平均数估计总体参数,用样本标准差估计总体标准差一个好的估计量应具备下列特性:(1)一致性(Consistency)当样本容量无限增大时,估计值越来越接近所估计的总体参数.(2)无偏性(Unbiasedness)估计值的平均值与真值一致.(3)有效性(Effectiveness)当总体参数的无偏估计不只一个统计量时,无偏估计变异最小者有效性高,变异大者有效性低.(4)充分性指一个容量为n的样本统计量,是否充分地反映了全部n个数据所反映总体的信息.6.2.2 区间估计(Interval estimate)点估计总是以误差存在为前提,而不能提供正确估计的概率。没有解决参数估计的精确度和可靠性问题。而区间估计可以弥补这一不足之处。区间估计就是用一个区间去估计未知参数,它不具体指出总体参数等于什么,但能指出总体的未知参数落入某一区间的概率有多大。设x1,x2,xn是来自密度f(x,)的样本,对于给定的,0 1,如能找到两个统计量1(x1,x2,xn)和2(x1,x2,xn),使得P1(x1,x2,xn)30(大样本)时,样本均值近似服从正态分布置信区间为:或例6.4母总体为正态分布,=7.07,抽取两个样本n1=10,X1=78,n2=36,X2=79求的0.95、0.99置信区间。例6.5 已知某校的一次考试全体考生成绩总方差为100,从中抽得5位考生的成绩为65,83,94,70,88,试求全体考生成绩均值的95%和99%的置信区间。2、方差、方差 2未知未知(1)总体服从正态分布,XN(,2)用S2代替 2,建立区间估计统计量置信区间为:n足够大,大于等于30时,也可用正态分布.(2)总体非正态,且方差未知n足够大时,估计统计量接近正态分布,置信区间为,总体均值、总体比例区间估计的一般规律:点估计值临界值标准误例6.6 某校对高中一年级学生进行英语水平测试,测试后从中抽取的9个考生的成绩为83,91,62,50,74,68,70,65,85,试对该年级考生的该次测试成绩均值作区间估计(取=0.05)例6.7 总体未知,S2=S2n-1=34,n=100人,样本平均值为26分钟,估计全校学生平均每天锻炼时间。例6.8 已知某一总体均值的95%置信区间为(122,130)。如果样本均值为126,样本标准差为16.07,则研究中应选取多大的样本容量?6.3.2 总体比例的区间估计总体比例的区间估计某种特征占全部单位的比例p,样本比例为 p,在大样本下(np5,nq5),可将二项分布变换为正态分布总体比例p的置信区间:例6.10 在整个流动原因的研究中,从某企业抽取200人流动人员的样本,有140人说离开的原因是不能与管理人员融洽相处,求由于该原因离开的真正比例的95%的置信区间。6.3.3 样本容量的确定样本容量的确定确定n十分重要,n过大,增加费用,n过小误差增大。n的确定依赖于多大置信度(可靠性),什么样的精度(多宽的区间)。1、估计时 n的确定正态总体或非正态总体但大样本时,置信区间为(用样本均值估计时允许的最大绝对误差)样本容量样本容量n,总体方差总体方差 2,允许误差,允许误差,可靠性系数,可靠性系数Z /2的关系:(1)总体方差越大,需要的样本容量越大;反之亦然;(2)允许误差越大,需要的样本容量越小,反之亦然;(3)可靠性系数越大,需要的样本容量越大,反之亦然.例6.11要使95%置信区间的允许误差为5,应选取多大的样本容量?假定总体的标准差为25.例6.12 一家广告公司想估计某类商店去年所花的平均广告费有多少。经验表明,总体方差约为1800000。如置信度取95,并要使估计值处在总体平均值附近500元的范围内,这家广告公司应取多大的样本?2、估计总体比例时,样本容量的确定、估计总体比例时,样本容量的确定估计总体比例时,允许的最大绝对误差为例6.13 一家市场调研公司想估计某地区有彩色电视机的家庭所占的比例。该公司希望对p的估计误差不超过0.05,要求的可靠程度为95%,应取多大容量的样本?例6.14 一项调查中,总体比率的计划值为0.35,则当允许的最大绝对误差为0.05时,在求其95%置信区间时应采用多大的样本容量。6.4 两个总体均值及两个总体比例之差的估计两个总体均值及两个总体比例之差的估计6.4.1 两个总体均值之差的估计1、两总体方差已知条件:1)两总体均服从正态分布或分布未知但为大样本;2)两个样本独立 1-2在在1-置信度水平下的置信区间为置信度水平下的置信区间为:例6.15 一个银行负责人想知道储户存入两家银行的钱数。他从两家银行各抽取了一个25个储户组成的随机样本,样本平均值如下:银行A:4500元;银行B:3250元。设已知两个总体服从方差分别为2500和3600的正态分布。试求:A B的区间估计:(1)置信度95%;(2)置信度99%.2、两总体方差未知、两总体方差未知(1)两个总体为正态分布,且12222将两个样本联合起来估计2,联合统计量为估计量 的标准误为:置信区间为置信区间为:例6.16 为了比较两位银行职员为新顾客办理个人结算帐目的平均时间长度,分别给两位职员随机安排了10位顾客,并记录了为每位顾客办理帐单所需的时间(单位:分钟),相应的样本均值和方差为:假定每位职员办理帐单所需时间均服从正态分布,且方差相等,试求两位职员办理帐单的服务时间之差的95%的区间估计。解:解:根据题意,两总体服从正态分布且方差相等,未知。12的置信区间为:所求区间估计为:(2)两个总体均服从正态分布且 用S12估计12,用S22估计22,的估计为 这时不服从 t(n1+n2-2)而服从t(f)若f不是整数,则取与f最接近的整数作为自由度的取值。12的置信度为(1)的近似区间估计为:例6.17 上例中若假定两个总体的方差不等。求两个均值之差的区间估计。解:则t0.05/2(18)=2.1009,从而所求两均值之差的95的近似区间估计为:即(3)如果两个总体不服从正态分布,且方差不等,当n1、n2很大时,将S1和S2作为 1和 2的估计值,置信区间为:6.4.2 两个总体比例之差的区间估计设两个总体的比例分别为p1和p2,为了估计p1-p2,分别从两个总体中各随机抽取容量为n1和n2的两个随机样本。并计算两个样本中的比例当n1和n2两者都很大时,而且总体比例不太接近0或1时,的抽样分布 服从正态分布,从而p1-p2的置信区间为:用 代替p1和p2例6.18 某饮料公司对其所做的报纸广告在两个城市的效果进行了比较,它们从两个城市中分别随机地调查了1000个成年人,其中看过该广告的比例分别为0.18和0.14,试求两城市成年人中看过该广告的比例之差的95%的置信区间。解:由于样本容量都为1000,属于大样本容量,置信区间为:即故以95的把握估计两城市成年人中看过该广告的比例差在0.79%7.21%之间。6.5 正态总体方差及两正态总体方差之比的区间估计正态总体方差及两正态总体方差之比的区间估计6.5.1 正态总体方差的区间估计 X1,X2,.,Xn来自均值,2均未知,则2的点估计量为S2,且2的置信区间为:的置信区间为:当30时,S近似服从N(,2/(2()),的近似估计区间为:例6.19 对某种金属的10个样品所组成的一个随机样本作抗拉强度试验。从试验数据算出的方差为4,试求2的95置信区间,构造这一区间时用了什么假定?的置信区间又如何?解:设该金属的抗拉强度服从正态分布,在2的95的置信区间为:式中,10,10.95,/2=0.025,S2=4,从而该区间为:(10-1)4/19.0,(10-1)4/2.7,即1.89,13.33,的95%的置信区间为1.891/2,13.331/2,即1.38,3.656.5.2 两个正态总体方差比的区间估计当两个总体为正态分布时,当 时例6.20 某一特定工序生产的一批化工产品中的杂质含量的变异依赖于操作过程处理的时间长度。某生产商拥有两条生产线,为了在降低产品中杂质平均数量的同时降低杂质的变异,对第二条生产线进行了很小的调整,研究这种调整是否确能达到目的。为此从两条生产线生产的两批产品中各随机抽取了25个样品,它们的均值和方差为:根据所给信息确定两总体方差比12/22 的90%的置信区间。解:假定两条生产线上生产的产品中的杂质数量服从正态分布,则置信度为90%的12/22 的置信区间为:所求区间为:即:6.6 相关系数的区间估计相关系数的区间估计6.6.1 积差相关系数的区间估计1、积差相关系数的抽样分布-101=0=0.5=0.7当0时,r的分布呈不同程度的正偏态;0时,只有n500时渐近正态分布,标准误为:当=0时r的分布服从自由度为n-2的t分布,标准误为:费舍(Fisher)的Z分布:0时,只有n500时渐近正态分布,条件非常严格,应用受到很大限制。在一般情况下,将r值转换为Z值(n不受条件限制),这些Z值渐近服从正态分布,标准误为:2、积差相关系数的区间估计(1)当总体相关系数为0时,样本相关系数的分布为自由度是n-2的t分布,置信区间为:(2)当总体相关系数不为0时,1)如果n500,可用下式计算置信区间:2)利用费舍Z函数分布无论样本容量大小,还是总体相关是否为0,Z函数的分布近似正态分布,具体步骤如下:a.用公式计算:Zr=ln(1+r)/(1-r)/2;或查r-Zr转换表;b.计算Zr的置信区间 ZrZ/2SEz,SEz=1/(n-3)1/2;c.将Zr的置信区间转换成相关系数:查r-Zr转换表,或用公式 计算r值。例6.21 某小学120名学生通过甲乙二测验,计算相关系数为0.24,问该二测验总体相关系数的.95的置信区间。解:假设总体相关系数 0,.95的置信区间为:该置信区间不包含0,说明该样本的总体相关系数不为0,所以用上述方法求置信区间是不合适的.正确的方法应该用Z函数方法.故总体相关系数的置信区间为0.0640.040之间.作此结论犯错误的概率为0.05,正确的概率为0.95。6.6.2 等级相关系数的区间估计斯皮尔曼等级相关系数,它在9n 20时,rR的分布近似为例6.22 n=15,rR=0.41,问其总体相关系数的0.95的置信区间。课堂练习课堂练习1、已知某测验成绩的分布为正态分布,标准差为5。从该总体中随机抽取n=16的样本,算得其平均值为81,标准差S=6,问该测验的真实分数是多少?2、已知某校学生的身高服从正态分布,现从该校随机抽取20名学生测量身高,其平均值为171cm,标准差为6cm。试估计该校学生身高的真实情况。3、从某正态总体中随机抽取样本容量为25的样本,该样本的分散程度S=10,问该总体的分散程度如何?4、从两个正态总体中各随机抽取一个样本,n1=10,S1=3,n2=11,S2=4,求二总体方差比的95的置信区间。5、已知样本相关系数r=0.60,n=37,问总体相关系数是多少?6、某县教育局随机抽查了360名初中学生的视力情况,发现有125名学生患有不同程度的近视,问该县初中学生患近视的真实比例是多少?本章结束本章结束谢谢观看/欢迎下载BY FAITH I MEAN A VISION OF GOOD ONE CHERISHES AND THE ENTHUSIASM THAT PUSHES ONE TO SEEK ITS FULFILLMENT REGARDLESS OF OBSTACLES.BY FAITH I BY FAITH