《第六章样本与统计量.ppt》由会员分享,可在线阅读,更多相关《第六章样本与统计量.ppt(47页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第六章第六章 样本与统计量样本与统计量6.1 引言引言6.2 总体与样本总体与样本6.3 统计量统计量6.4 正态总体正态总体 数理统计学是一门应用性很强的学科。它研究怎样以数理统计学是一门应用性很强的学科。它研究怎样以有效的方式有效的方式收集、收集、 整理和分析整理和分析带有随机性的数据带有随机性的数据,以便,以便对所考察的问题作出正确的推断和预测,为采取正确的决对所考察的问题作出正确的推断和预测,为采取正确的决策和行动提供依据和建议。策和行动提供依据和建议。 数理统计不同于一般的资料统计,它更侧重于应数理统计不同于一般的资料统计,它更侧重于应用随机现象本身的规律性进行资料的收集、整理和分析
2、。用随机现象本身的规律性进行资料的收集、整理和分析。6.1 引言引言 由于大量随机现象必然呈现出其由于大量随机现象必然呈现出其规律性规律性,因而从理论,因而从理论上讲,只要对随机现象进行上讲,只要对随机现象进行足够多次足够多次的的观察观察,随机现象的,随机现象的规律性就规律性就一定能够清楚一定能够清楚地呈现出来。地呈现出来。 但是,客观上只允许我们对随机现象进行但是,客观上只允许我们对随机现象进行次数不多次数不多的观察或试验,也就是说:我们获得的只能是的观察或试验,也就是说:我们获得的只能是局部局部的或的或有有限限的观察资料。的观察资料。 数理统计的任务就是研究怎样有效地数理统计的任务就是研究
3、怎样有效地收集收集、整理整理和和分分析析所获得的有限资料,并对所研究的问题尽可能地给出精所获得的有限资料,并对所研究的问题尽可能地给出精确而可靠的确而可靠的推断推断。 现实世界中存在着形形色色的数据,分析这些数据需现实世界中存在着形形色色的数据,分析这些数据需要多种多样的方法。要多种多样的方法。 因此,数理统计中的方法和支持这些方法的相应理论因此,数理统计中的方法和支持这些方法的相应理论是相当丰富的。概括起来可以归纳成两大类。是相当丰富的。概括起来可以归纳成两大类。 参数估计参数估计: : 根据数据,对分布中的未知参数进行估计;根据数据,对分布中的未知参数进行估计; 假设检验假设检验: : 根
4、据数据,对分布的未知参数的某种假设进根据数据,对分布的未知参数的某种假设进 行检验。行检验。 参数估计与假设检验参数估计与假设检验构成了统计推断的两种基本形式构成了统计推断的两种基本形式,这两种推断渗透到了数理统计的每个分支。这两种推断渗透到了数理统计的每个分支。6.2 总体与样本总体与样本 在数理统计中,称研究问题所涉及对象的全体为在数理统计中,称研究问题所涉及对象的全体为总总体体,总体中的每个成员为,总体中的每个成员为个体个体。 例如例如: : 研究某工厂生产的某种产品的废品率,则这研究某工厂生产的某种产品的废品率,则这种产品的全体就是总体,而每件产品都是一个个体。种产品的全体就是总体,而
5、每件产品都是一个个体。6.2.1 6.2.1 总体、个体与样本总体、个体与样本 实际上,我们真正关心的并不一定是总体或个体本实际上,我们真正关心的并不一定是总体或个体本身,而身,而真正关心的真正关心的是是总体或个体的总体或个体的某项某项数量指标。数量指标。 如:某电子产品的使用寿命,某天的最高气温,加如:某电子产品的使用寿命,某天的最高气温,加工出来的某零件的长度等数量指标。工出来的某零件的长度等数量指标。因此,有时也将总因此,有时也将总体理解为那些体理解为那些研究对象的某项数量指标的全体研究对象的某项数量指标的全体。 为评价某种产品质量的好坏,通常的做法是:从全为评价某种产品质量的好坏,通常
6、的做法是:从全部产品中随机部产品中随机( (任意任意) )地抽取一些样品进行地抽取一些样品进行观测观测( (检检测测) ),统计学上称这些样品为统计学上称这些样品为一个一个样本样本。同样,我们也将样本同样,我们也将样本的数量指标的数量指标称为称为样本。因此,今后当我们说到总体样本。因此,今后当我们说到总体及及样样本时,既指研究对象又指它们的某项数量指标。本时,既指研究对象又指它们的某项数量指标。例例1 1:研究某地区研究某地区 N 个农户的年收人。个农户的年收人。 在这里,总体既指这在这里,总体既指这 N 个农户,又指我们所关心的个农户,又指我们所关心的 N个农户的个农户的数量指标数量指标他们
7、的年收入他们的年收入( ( N 个数字个数字) )。 如果从这如果从这 N 个农户中随机地抽出个农户中随机地抽出 m 个农户作为调查个农户作为调查对象,那么,这对象,那么,这 m 个农户以及他们的数量指标个农户以及他们的数量指标年收年收入入( ( m个数字个数字) )就是样本。就是样本。 注意:注意:上例中的总体是直观的,看得见、摸得着的。上例中的总体是直观的,看得见、摸得着的。但是,但是,客观情况并非总是这样。客观情况并非总是这样。例例2 2:用一把尺子测量一件物体的长度。用一把尺子测量一件物体的长度。假定假定 n 次测量值分别为次测量值分别为X1, ,X2 , , ,Xn. .显然,在该问
8、题中显然,在该问题中, ,我们把测量值我们把测量值X1, ,X2, ,Xn看成样本。但总体是什么呢看成样本。但总体是什么呢? ? 事实上,这里没有一个现实存在的个体的集合可以事实上,这里没有一个现实存在的个体的集合可以作为上述问题的总体。可是,我们可以这样考虑,既然作为上述问题的总体。可是,我们可以这样考虑,既然 n 个测量值个测量值 X1, ,X2, , ,Xn 是样本,那么,总体就应该理是样本,那么,总体就应该理解为解为一切所有可能的测量值的全体。一切所有可能的测量值的全体。又如又如:为研究某种安眠药的药效,让:为研究某种安眠药的药效,让 n 个病人同时服用这个病人同时服用这种药,记录服药
9、者各自服药后的睡眠时间比未服药时增加种药,记录服药者各自服药后的睡眠时间比未服药时增加睡眠的小时数睡眠的小时数: : X1, ,X2, , ,Xn,则这些数字就是样本。则这些数字就是样本。 那么,什么是总体呢那么,什么是总体呢? ? 设想让某个地区设想让某个地区( (或某国家,甚至全世界或某国家,甚至全世界) )所有患失眠所有患失眠症的病人都服用此药,则他们所增加睡眠的小时数之全体症的病人都服用此药,则他们所增加睡眠的小时数之全体就是研究问题的总体。就是研究问题的总体。 对一个总体,如果用对一个总体,如果用X表示其数量指标,那么,表示其数量指标,那么,X的的值对不同的个体就取不同的值。因此,如
10、果我们随机地抽值对不同的个体就取不同的值。因此,如果我们随机地抽取个体,则取个体,则X的值也就随着抽取个体的不同而不同。的值也就随着抽取个体的不同而不同。 所以,所以,X是一个随机变量是一个随机变量! ! 既然总体是随机变量既然总体是随机变量X,自然就有其概率分布。我们,自然就有其概率分布。我们把把X的分布称为的分布称为总体分布。总体分布。 总体的特性是由总体分布来刻画的。因此,常把总体总体的特性是由总体分布来刻画的。因此,常把总体和总体分布视为同义语。和总体分布视为同义语。. .6.2.2 6.2.2 总体分布总体分布例例 3 (例例 l 续续):在在例例 l l中,若农户年收入以万元计,假
11、定中,若农户年收入以万元计,假定 N户的收入户的收入X只取以下各值只取以下各值: : 0.5, 0.8, l.0, 1.2和和1.5。取上。取上述值的户数分别述值的户数分别n1, n2, n3, n4和和n5 (n1+n2+n3+n4+n5=N)。则。则X为离散型分布,分布律为为离散型分布,分布律为: :X0.50.811.21.5PNn1Nn2Nn3Nn4Nn5例例4 ( 例例2续续 ):在例在例2中,假定物体真实长度为中,假定物体真实长度为 ( (未知未知) )。一般说来,测量值。一般说来,测量值X就是总体,取就是总体,取 附近值的概率要大一些,而离附近值的概率要大一些,而离 越远的值被取
12、越远的值被取到的概率就越小。到的概率就越小。 如果测量过程没有如果测量过程没有系统性误差系统性误差,则,则X取大取大于于 和小于和小于 的概率也会相等。的概率也会相等。 在这种情况下,人们往往认为在这种情况下,人们往往认为X 服从均值服从均值为为 ,方差为,方差为 2 的正态分布。的正态分布。 2 2反映了测量的反映了测量的精度。于是,总体精度。于是,总体X的分布为的分布为 N( ( , , 2 2) )。 说明:说明:这里有一个问题,即物体长度的测这里有一个问题,即物体长度的测量值总是在其真值量值总是在其真值 的附近,它不可能取负值。的附近,它不可能取负值。 而正态分布取值在而正态分布取值在
13、(-(-, ,) )上。那么,怎上。那么,怎么可以认为测量值么可以认为测量值X X服从正态分布呢服从正态分布呢? ? 回答这个问题,有如下两方面的理由。回答这个问题,有如下两方面的理由。(1).(1).在前面讲过,对于在前面讲过,对于X N( , , 2), PP -3-3 X0,当样本大小当样本大小 n 增大时,上面的概率也随之增增大时,上面的概率也随之增大;大;n 趋于无穷时,上式趋近于趋于无穷时,上式趋近于 1。任给任给c 0,总有,总有例例1:用机器向瓶子里灌装液体洗涤剂,规定用机器向瓶子里灌装液体洗涤剂,规定每瓶装每瓶装 毫升。但实际灌装量总有一定波动。毫升。但实际灌装量总有一定波动
14、。假定灌装量的方差假定灌装量的方差 2 2=1=1,如果每箱装这样的,如果每箱装这样的洗涤剂洗涤剂 25 瓶瓶。求求这这 25 瓶洗净剂的平均灌装量瓶洗净剂的平均灌装量与标定值与标定值 相差不超过相差不超过0.3毫升的概率;毫升的概率;又又如如果每箱装果每箱装5050瓶时呢瓶时呢? ?解:解:记一箱中记一箱中 25 瓶洗净剂灌装量为瓶洗净剂灌装量为 X1, ,X2, , , X25 是来自均值为是来自均值为 , 方差为方差为1的总体的随机样的总体的随机样本。根据抽样分布定理本。根据抽样分布定理1,近似地有,近似地有 , )1/25 ,(NX当当 n=50=50时,时,同样可算出:同样可算出:3
15、 .0 XP;8664.015.125.15.125/13.025/125/13.0XP.966.03.0XP6.4 正态总体正态总体6.4.1 2 分布分布它是由正态分布派生出来的一种分布。它是由正态分布派生出来的一种分布。 定义定义1: 设设 X1, X2, , Xn 相互独立相互独立,且均,且均服从正态分服从正态分布布 N(0, 1), 则称随机变量则称随机变量222212nXXX 服从自由度为服从自由度为 n 的的卡方卡方分布,记成分布,记成 2 。 2分布的密度函数为分布的密度函数为 . 0, 0, 0,)2(21);(2122xxexnnxfxnn其中其中 ( () )为伽玛为伽玛
16、(Gamma)函数,通过积分函数,通过积分 0 ,)( 01 dxexx来定义来定义由由 2 分布的定义,不难得到其如下性质:分布的定义,不难得到其如下性质:;则则且共同分布为且共同分布为独立同分布,独立同分布,设设 )(1 ), ,( , , , (1).2122221nniinXNXXX . ).2(2212221mnmnYYYY 则则且二者相互独立,且二者相互独立,设设分分布布的的可可加加性性。称称为为性性质质 2 2 . 2)(Var )( ).3(2nXn,XEXn 则则,若若 进一步,由中心极限定理可以推出进一步,由中心极限定理可以推出, n 充充分大时近分大时近 似于标准正态分布
17、似于标准正态分布 N(0,1)。,nnX2 2分布密度函数图形分布密度函数图形n=4n=9n=14n=19 n2 2 分布上分布上 分位点有表分位点有表可查,见附表可查,见附表4 4。对于对于给定的给定的 (0,1), (0,1), 称满足条件称满足条件)(222)( )( ndxxfPnn的点的点 n2( ( ) )为为 n n2 2分布的上分布的上( (右右) ) 分位点。分位点。n2分布分位点分布分位点xf(x)n2( ) t 分布的概率密度为分布的概率密度为 . ,1)2(2)1();(212 xnxnnnnxfn 为服从自由度为服从自由度 n 的的 t 分布,记为分布,记为 T tn
18、。6.4.2 t 分布分布nYXT 定义定义2: 设设 X N(0, 1) , Y n2 , 且且 X与与Y 相互独立相互独立,则称随机变量,则称随机变量数学期望与方差数学期望与方差 3, 2, 0 1 )( nntEn,不存在不存在 4, 3, )2/(, 2 , 1 )(nnnntVarn,不存在不存在t 分布的概率密度图形分布的概率密度图形, 0);(lim 0 nxfxx且且对对称称,图图形形关关于于当当 n 充分大时充分大时, f (x; n) 趋近于标准正态分布的概率密度。趋近于标准正态分布的概率密度。 n=1n=4n=9标准正态分布标准正态分布若若 T tn , 对给定的对给定的
19、 (0,1)(0,1),称满足条件称满足条件t 分布的分位点分布的分位点的点 tn( ( ) )为为 tn 分布上分布上 分位点。分位点。 )( )()(ntndttftTPt 分布的上分布的上 分位点有表分位点有表可查,见附表可查,见附表3 3。tn( ) tn(x)x tn 分布上分布上 分位点分位点示意图示意图6.4.3 F 分布分布定义:定义:设设 m2, n2;且与相互独立,;且与相互独立,则称则称 F =(X/m)/(Y/n)服从第一自由度为服从第一自由度为m,第二自由度为,第二自由度为n 的的 F 分布。记成分布。记成 F Fm ,n 。 1 n,mm,nFmXnYFF F 则则
20、,若若由定义可见:由定义可见:F 分布的概率密度为分布的概率密度为 . 0, 0 , 0,1222)(2122,xxxnmxnmnmnmxfnmmmnmF 分布的概率密度图形分布的概率密度图形F1,3F3,3F5,3F7,3F3,3F3,4F3,5F3,7 若若 FFm, n,对给定的,对给定的 (0,1), (0,1), 称满足条件称满足条件F 分布的分位点分布的分位点的点的点 Fm,n( )为为F分布的上分布的上 分位点。分位点。. .xxfFFPFm,nm,n)( d )()(F 分布上分布上 分位点有表分位点有表可查,见附表可查,见附表5 5。 Fm,n( )Fm,n(x)x F 分布
21、上分布上 分位点分位点示意图示意图 一个需要注意的问题一个需要注意的问题:(1) . )(1)1(FFn,mm,n 这个关系式的证明如下:这个关系式的证明如下:证明:证明:若若 X Fm,n,则,则 Y = X -1-1 Fn,m。依分位点定义,。依分位点定义,)1(1, nmFXP )1(1, nmFYP )(111 FYPm,n上式等价于上式等价于 )(11, FYPm,n再根据再根据 Y ( Fn,m ) 的上的上 分位点定义分位点定义,有有, )(11)(FFm,nn,m 在通常在通常 F 分布表中,只对分布表中,只对 比较小的值较小的值,如如 = 0.01, 0.05, 0.025及
22、及0.1等列出了分位点。但有时我们也需要知等列出了分位点。但有时我们也需要知道道 比较大的分位点,较大的分位点,它们在它们在 F 分布表中查不到。这时我们就可利用分位点分布表中查不到。这时我们就可利用分位点的关系式的关系式(1)把它们计算出来。把它们计算出来。 例如:对例如:对m=12, n=9, =0.95, 我们在我们在 F 分布表中分布表中查不到查不到 F12,9(0.95),但由,但由(1)式,知式,知.375.02.801 .05)0(1.95)0(129912 ,FF可从可从F 分布分布 表中查到表中查到 还有一个重要结果还有一个重要结果: 若若X tn , , 则则X2 2 F1
23、,n。 请同学们自己证明。请同学们自己证明。定理定理 1:6.4.4 正态总体样本均值与样本方差的分布正态总体样本均值与样本方差的分布则则值值与与样样本本方方差差,分分别别为为样样本本均均与与的的简简单单样样本本,是是抽抽自自正正态态总总体体,设设 ) ( 2221SXNXXXn;,或或, ) 1 0(/ )/ ( ).1 (2NnXnNX;2122/) 1( ).2(nSn相互独立;相互独立;与与 ).3(2SX. / ).4(1ntnSX例例1:设某物体的实际重量为设某物体的实际重量为 ( (未知未知),),现在用一台天平现在用一台天平称量它称量它, ,共称共称 n 次次, ,得到得到X1
24、 1, ,X2 2, ,Xn n。假设每次称量过程彼此独立假设每次称量过程彼此独立, ,且无系统误差且无系统误差, , 则可认则可认为这些测量值独立同分布为这些测量值独立同分布, , 均服从正态分布均服从正态分布N( ( , , 2 2) ), ,方差方差 2 2反映了天平及测量过程的总精度。我们通常用反映了天平及测量过程的总精度。我们通常用样本均值样本均值根据定理根据定理1 1( (基本定理基本定理),),有有, 去去估估计计X. )/ (2nNX ,再根据正态分布的性质再根据正态分布的性质( (见见p110,p110,例例4.2.6),),知知. 9974.03 nXP 例如:例如:当当
25、= = 0.1 时,时,; 095. 0/3 n 若取若取 n=10,则,则. 30 . 0/3 n 若取若取 n=100,则,则也就是说:我们的估计值也就是说:我们的估计值X 与真值与真值 的的偏差不超过偏差不超过3 3/n的概率约为的概率约为 99.7499.74%, 并且并且随称量次数随称量次数 n 的增加,的增加,偏差界限偏差界限3/3/n将越来越小。将越来越小。例例2:在设计导弹发射装置时,重要内容之一是研究弹在设计导弹发射装置时,重要内容之一是研究弹着点偏离目标中心的距离的方差。着点偏离目标中心的距离的方差。对于某类导弹发射装置,弹着点偏离目标中心的距离服对于某类导弹发射装置,弹着点偏离目标中心的距离服从从 N( ( , , 2 2) ),这里,这里 2 = 100米米2 2。现在进行了现在进行了25次发射试验,用次发射试验,用 S2 2 记这记这25次试验中弹着次试验中弹着点偏离目标中心的距离的样本方差。点偏离目标中心的距离的样本方差。求求: : S S 2 2 超过超过50米米2 2的概率。的概率。解解: 根据基本定理,知根据基本定理,知查附表查附表4,4,得到得到: :. /) 1(2122nSn222250) 1() 1(50nSnPSP. 975.012502242PSP 12 10050242242125PP所以,所以,
限制150内