总体分布样本分布.ppt
管理统计学管理统计学谢湘生谢湘生广东工业大学管理学院广东工业大学管理学院第5章 总体分布、样本分布 与参数估计5.1 总体分布与样本分布本章的总体(Population or Universe)是指研究对象的全体。并且先研究只有一个特征(指标或变量)的总体。这样表述总体特征的变量可以看成一个一维随机变量。5.1.1 总体与总体分布更准确地说,一维随机变量是指反映某总体特征取值,且具有如下特点的变量X:(1)在同一条件下可以无限次重复取值;(2)取值的结果可能有多个,但不确定;(3)事先不知道取值结果(Outcome)。因此,总体也可理解为一个随机变量取的值全体。随机变量取值的概率分布,就称为总体分布。一个随机变量取给定值或属于一给定值集合的概率所确定的函数称为该随机变量的概率分布。概率分布反映的是随机变量所有可能取值的概率的分配方式。一旦与所有可能结果相联系的概率被确定,则概率分布完全确定。X x1 x2 xn P(X)p1 p2 pn 离散随机变量的概率分布。设X为取相异值x1,x2,xn,的离散随机变量,则函数称为X的概率分布或概率分布函数(probability distribution function,PDF),其中P(X=xi)为离散随机变量X取xi值的概率。(1)离散随机变量的概率分布)离散随机变量的概率分布例 抛掷一个均匀的骰子,假设骰子的六个面分别标有数字1,2,3,4,5,6。用X标识骰子落地后朝上一面的数字。则X是离散随机变量。其概率分布如下表所示X123456pi1/61/61/61/61/61/6写成函数形式(2)连续随机变量的概率密度函数)连续随机变量的概率密度函数设X是连续随机变量,x是X取的值,若函数f(x)满足下列条件:则称f(x)为X的概率密度函数(probability density function,PDF),其中P(axb)表示X在区间(a,b取值的概率。有时也称下式定义的函数为X的概率分布函数:连续型随机变量取给定值的概率为零。(1)位于横轴的上方(2)曲线与横轴围成的面积为1 ab(3)X在区间(a,b取值的概率等于该区间上的曲边梯形的面积 ab连续型随机变量在给定集合取值的概率分配方式由其概率密度完全确定。5.1.2 随机样本与样本观察值随机样本与样本观察值从重复抽样的角度看从重复抽样的角度看“每次从某个总体每次从某个总体X中随机抽中随机抽取个体取个体”可理解为一个可理解为一个随机实验随机实验。随机样本随机样本:表征:表征n次抽取个体的随机抽样的一组随次抽取个体的随机抽样的一组随机变量机变量X1,X2,Xn.样本观察值(样本数据)样本观察值(样本数据):n次次随机抽样的结果随机抽样的结果:x1,x2,xn(称为随机变量(称为随机变量X1,X2,Xn的样本的样本观察值)。观察值)。n称为称为样本容量样本容量。注注:x1,x2,xn也可以看成随机变量也可以看成随机变量X的的n次重复次重复抽样的结果。抽样的结果。大写的英文字母:随机变量小写的英文字母:随机变量的观察值例例 抛掷一个均匀的骰子,假设骰子的六个面分别抛掷一个均匀的骰子,假设骰子的六个面分别标有数字标有数字1,2,3,4,5,6。用。用X标识骰子落地后标识骰子落地后朝上一面的数字。则朝上一面的数字。则X是离散随机变量。是离散随机变量。对该随机变量进行一次抽样,其实就是掷该骰子对该随机变量进行一次抽样,其实就是掷该骰子一次。一次。第第i次抽样,就是第次抽样,就是第i次掷骰子,其结果的表示:次掷骰子,其结果的表示:事前事前事后事后Xixi易见,易见,Xi其实就是其实就是X.当然这里要求各当然这里要求各Xi是是独立的独立的.在理论上表在理论上表述时常说成各述时常说成各Xi是是iid的的(即即Independent Identically Distribution)5.1.3 样本分布函数设设x1,x2,xn是随机变量是随机变量X的样本观察值,将它的样本观察值,将它们按大小顺序排列,排序后为们按大小顺序排列,排序后为x1 x2 xn,ki为为小于小于xi+1的样本值出现的累积频次,的样本值出现的累积频次,n仍为样本容仍为样本容量,则可得到样本累积频率分布函数如下量,则可得到样本累积频率分布函数如下样本累积频率分布函数又简样本累积频率分布函数又简称为样本(累积)分布函数,称为样本(累积)分布函数,它是总体(累积)分布函数它是总体(累积)分布函数的近似,的近似,n越大,就越接近总越大,就越接近总体分布,如图。体分布,如图。对于有限总体,其累积概率分布函数不连续,是阶跃式的。样本的累积分布函数也是阶跃式的。如图所示。5.1.4 格利文科(Glivenko)定理(样本分布与总体分布的关系)格利文科定理:当n趋于无穷大时,Fn(x)依概率1(关于x)均匀地收敛于总体分布F(x).格利文科定理的数学表达如下:格利文科定理是用样本特征推断总体特征的依据格利文科定理是用样本特征推断总体特征的依据。这表明当n充分大时,样本分布Fn(x)是总体分布F(x)的一个良好近似。例如,利用格利文科定理可以证明:5.1.5 随机样本的均值函数对于随机样本X1,X2,Xn,定义样本的均值函数(简称为样本均值)为由于式中Xi是随机样本(随机变量),因此作为随机样本函数的 是随机变量比较样本数据的均值它可以看成是 的观察值5.1.6 随机样本的方差函数对于随机样本X1,X2,Xn,定义样本的方差函数(简称为样本方差)为由于式中Xi是随机样本(随机变量),因此作为随机样本函数的S2是随机变量比较样本数据的方差它是S2的观察值5.2 统计量与统计量的分布 统计量的定义统计量是不含未知参数的、随机样本X1,X2,Xn的函数注意统计量是随机样本X1,X2,Xn的函数,因而也是随机变量在上面定义的函数中将每个随机样本Xi用其观察值xi代替,计算的结果f(x1,x2,xn)称为统计量的值。也可以直接将f(x1,x2,xn)看成统计量的观察值。5.2.2 由标准正态分布的随机样本由标准正态分布的随机样本所引出的几个重要统计量的分布所引出的几个重要统计量的分布1.正态分布与标准正态分布正态分布与标准正态分布设设X服从均值为服从均值为,方差为,方差为2正态分布正态分布,即,即 X N(,2),则其分布密度函数为,则其分布密度函数为特别地,当特别地,当=0,2=1 时正态分布称为时正态分布称为标准正标准正态分布态分布。正态分布是一种最常见的分布。通常如果一个随机变量只受到大量小的独立因素的影响,则它服从正态分布。正态分布有许多特点:例如它是对称的。正态变量大约有68%的可能性在离均值一个标准差的范围内取值;大约有95%的可能性在离均值1.96倍标准差的范围内取值。几乎不在离均值3倍标准差以外的地方取值。68%95%99.7%l甲生考试成绩常常不及格,如果能够拿甲生考试成绩常常不及格,如果能够拿到一个到一个6060多分的成绩,都感到非常满意多分的成绩,都感到非常满意了。了。某日,老师发期中考卷,甲生拿到某日,老师发期中考卷,甲生拿到考卷后,看到成绩是考卷后,看到成绩是8080分,喜出望外,分,喜出望外,心想这一次总算要扬眉吐气了,但是,心想这一次总算要扬眉吐气了,但是,只见老师在黑板上写下本次期中考试全只见老师在黑板上写下本次期中考试全班平均成绩是班平均成绩是9090分,标准差分,标准差5 5分。见到这分。见到这一结果,甲生还能高兴的起来吗?一结果,甲生还能高兴的起来吗?对任何一个服从正态分布的随机变量X N(,2),总可以将它变换为一个标准正态分布的随机变量,变换的方式为:也就是,Z N(0,1)。例如 设XN(54,0.852),要计算P(X52)。则可以这样计算:2.2(n)分布的构成设X N(0,1),X1,X2,Xn是X的随机样本,则这些随机样本的平方和服从自由度为n的2分布,即2 2(n)利用这一结果可以证明对于任何取自于均值为标准差为的正态分布的样本,其方差函数S2满足2分布的均值为分布的均值为n,方差为,方差为2n,其中,其中n为自由度为自由度(df)。3.t分布自由度为n的t分布,记为t(n),是由标准正态分布N(0,1)和2(n)分布组成,其表达式为其中X N(0,1),Y 2(n),且X与Y相互独立。t分布的均值为0,方差为n/(n-2)。3.F分布F分布变量是由两个2变量之比组成的:记为FF(n,m),其中U 2(n),V 2(m).对于 F(n,m),n称为第一自由度(分子自由度),m称为第二自由度(分母自由度)。5.2.3 由一般正态分布的随机样本所构成的若干重要统计量的分布设随机变量X N(,2),X1,X2,Xn是X的随机样本,则(1)(2)(3)(4)(5)其中 是容量为n1的随机变量 的样本方差;是容量为n2的随机变量 的样本方差。5.2.4 任意分布的随机样本均值函数的均值和方差设随机变量X 的均值为,方差为2,而分布形式任意,X1,X2,Xn是X的随机样本,则(1)(2)也就是任意随机变量的样本均值就等于总体均值;样本方差等于总体方差与样本容量的商设X1,X2,Xn是X的随机样本,则它们之间相互独立,并且均值都为,方差都为2,于是2.一个应用广泛的样本均值与方差:0-1分布的样本均值与方差0-1分布 反映总体中某类个体占的比例的随机变量X,可以简单地用0-1分布B(1,p)来表示,其中p就是总体中该类个体所占的比例。例如 在某学生构成的总体中,少数民族占的比例是p,则从该总体中任选一个同学为少数民族的概率为p,而任选一个同学不是少数民族的概率为1-p。0-1分布的均值为p,方差为p(1 p)从服从0-1分布的一个总体中随机地抽取n个样本X1,X2,Xn.记样本均值函数为 则 5.2.5 大样本均值的分布:中心极限定理设随机变量X 服从均值为,方差为2 的分布,X1,X2,Xn是X的随机样本,则有如下的中心极限定理。中心极限定理中心极限定理(Central Limit Theorem):当:当n充充分大时,近似地有分大时,近似地有一般地,当n30时,就可应用中心极限定理了。或者近似地有或者近似地有例 一汽车蓄电池商声称其生产的电池具有均值为54个月、标准差为6个月的寿命分布。现假设某消费者团体决定检验该厂的说法是否准确,为此购买了50个该厂的电池进行检验。1)假定厂商的声称是正确的,试描述这50个电池平均寿命的抽样分布。2)假定厂商声称正确,则50个样品组成的样本的平均寿命不超过52个月的寿命的概率是多少?解 1)由中心极限定理,样本均值近似服从正态分布,即近似地而并且故2)按照上面得到的结果来计算这50个电池平均寿命不超过52个月的概率这表明这50个电池平均寿命不超过52个月的概率非常小。因此这种情况应该不太可能出现。如果出现该情况意味着什么?前面已经计算得到P(X52)=0.0094由于所以的证明利用上述结果与的结果能够得到5.3 点估计在解决实际问题时,常常需要用样本来推断总体分布的某些参数值,这就是所谓的参数估计。参数估计又分为点估计与区间估计。粗略地讲,点估计就是用样本的某一函数值,来估计总体分布中的未知参数。而区间估计就是(以一定概率)把总体分布的参数确定在由样本决定的某个区间内。5.3.1 点估计的概念设设是总体分布中一个需要估计的参数。现在从总是总体分布中一个需要估计的参数。现在从总体中得到一个随机样本体中得到一个随机样本X1,X2,Xn,我们的目,我们的目的是通过这一随机样本来估计参数的是通过这一随机样本来估计参数。的估计量的估计量通常是随机样本通常是随机样本X1,X2,Xn的一个的一个函数,记为函数,记为简记为简记为若能够得到一组样本观察值若能够得到一组样本观察值x1,x2,xn,则将它,则将它们代入上述函数,可以计算出们代入上述函数,可以计算出的估计值的估计值的估计值也简记为的估计值也简记为 。的的点估计点估计就是求就是求的估计值的估计值5.3.2 矩估计法对总体而言,对总体而言,矩矩是指:是指:k阶原点矩阶原点矩 k阶中心矩(中心为阶中心矩(中心为)对样本而言对样本而言 一阶原点矩一阶原点矩 二阶中心矩二阶中心矩矩估计法就是用样本矩来估计总体的相应矩。矩估计法就是用样本矩来估计总体的相应矩。例如通常例如通常用用 来估计来估计 用用 来估计来估计 并且称这样得到的估计量为并且称这样得到的估计量为矩估计量矩估计量。5.3.3 极大似然估计法引例引例 设甲乙两个盒子外形完全相同,甲盒中装有设甲乙两个盒子外形完全相同,甲盒中装有90个白球个白球10个黑球,乙盒中装有个黑球,乙盒中装有90个黑球个黑球10个白个白球。今随机地抽取一个盒子并从中抽取一球,结球。今随机地抽取一个盒子并从中抽取一球,结果抽到白球,问这球是从哪个盒子中抽取的?果抽到白球,问这球是从哪个盒子中抽取的?从甲盒中抽取一球是白球的概率从甲盒中抽取一球是白球的概率p1=9/10从乙盒中抽取一球是白球的概率从乙盒中抽取一球是白球的概率p2=1/10p1远大于远大于p2,因此我们推断这球是从甲盒中取出。,因此我们推断这球是从甲盒中取出。这个推断我们依据的是所谓极大似然原理:这个推断我们依据的是所谓极大似然原理:如果如果进行一次随机实验,结果是若干个可能后果中的进行一次随机实验,结果是若干个可能后果中的某一个出现了,则可以认为实验的条件有利于该某一个出现了,则可以认为实验的条件有利于该后果的出现,即该后果出现的概率最大后果的出现,即该后果出现的概率最大。更一般地,如果用一个参数更一般地,如果用一个参数来表示不同的盒子,来表示不同的盒子,即即现在随机抽取一个盒子,然后随机独立有放回现在随机抽取一个盒子,然后随机独立有放回地抽取地抽取5次,每次抽取一个球。如果结果是黑、次,每次抽取一个球。如果结果是黑、白、白、白、黑。问白、白、白、黑。问等于等于0还是等于还是等于1?对于甲盒,得到这样结果的概率对于甲盒,得到这样结果的概率对于乙盒,得到这样结果的概率对于乙盒,得到这样结果的概率由于由于p1大于大于p2,因此我们推断,因此我们推断=0。也就是,也就是,是使联合概率达到最大的数是使联合概率达到最大的数。将上述问题抽象化。设将上述问题抽象化。设X是一个随机变量,其概率是一个随机变量,其概率密度函数为密度函数为 。又设。又设X1,X2,Xn是是X的的随机样本,则记联合密度函数为随机样本,则记联合密度函数为称为称为的的极大似然函数极大似然函数。若得到一组样本观察值若得到一组样本观察值x1,x2,xn,则代入,则代入L后后得到一个关于得到一个关于的函数。如果存在的函数。如果存在 使函数使函数L取最大值。则称该取最大值。则称该 为为的的极大似然估计极大似然估计值值。而称。而称为为的的极大似然估计量极大似然估计量。5.3.4 示例例例5.3.1 设随机变量设随机变量X 服从均值为服从均值为,方差为方差为2 的正的正态分布态分布,X1,X2,Xn是是X的随机样本,求的随机样本,求和和2的极大似然估计量。的极大似然估计量。首先由前面的讨论可知极大似然函数为首先由前面的讨论可知极大似然函数为对对L取极大值等价于对取极大值等价于对L的对数取极大值,而的对数取极大值,而因此在因此在L取对数后,再分别计算关于取对数后,再分别计算关于和和2的偏导数,的偏导数,并令偏导数为零,解得并令偏导数为零,解得和和2的估计量(极大似然估的估计量(极大似然估计量)分别为计量)分别为2的极大似然估计量要小于其矩估计量的极大似然估计量要小于其矩估计量一个实例:EAI管理人员Electronics Associates公司(公司(EAI)的人事主管正在)的人事主管正在制定一项公司制定一项公司2500名管理人员的简报。其中包括管理名管理人员的简报。其中包括管理人员的平均年薪和公司中已完成公司管理培训项目的人员的平均年薪和公司中已完成公司管理培训项目的管理人员所占比例。管理人员所占比例。总体:总体:EAI的的2500名管理人员名管理人员实际上可以根据公司档案获得有关总体参数:实际上可以根据公司档案获得有关总体参数:总体年薪的均值与标准差:总体年薪的均值与标准差:=51800,=4000完成培训的管理人员所占比例:完成培训的管理人员所占比例:p=0.6现在考虑如果不用总体全部现在考虑如果不用总体全部2500人的数据人的数据,而是使用而是使用一个样本可以节约时间和成本,人事主管应该如何估一个样本可以节约时间和成本,人事主管应该如何估计总体的有关参数计总体的有关参数假定管理人员抽取了一个有名管理人员构成的假定管理人员抽取了一个有名管理人员构成的随机样本有关数据如下表随机样本有关数据如下表由样本估计的年薪的均值与方差由样本估计的年薪的均值与方差由样本估计的参加培训人员的比例由样本估计的参加培训人员的比例5.4 判断点估计量的优劣标准5.4.1无偏估计量无偏估计量设 为的估计量。如果 则称 为的无偏估计量。无偏的分布无偏的分布 有偏的分布有偏的分布对于正态总体,可以证明总体均值的样本矩估计量(同时也是极大似然估计量)是无偏的。总体方差的样本矩估计量S2是无偏的,但是极大似然估计量是有偏的。5.4.2 最小方差性在获得的参数估计量中,人们总是希望估计量的方差尽可能小.这样估计误差的分布范围才比较小 的分布函数的分布函数的分布函数的分布函数在对两个估计量进行比较时,若一个估计量的方差小于另一个估计量的方差,我们也常说,前者更有效。5.4.3 有效估计量设设X是一均值为是一均值为,方差为,方差为2的随机变量,并且的随机变量,并且X1,X2,Xn是来自于是来自于X的随机样本,试比较如下两个的随机样本,试比较如下两个估计量的有效性:估计量的有效性:(1)(2)解解 首先易知首先易知并且并且利用初等不等式利用初等不等式可得可得故故 比比 有效有效.5.4.4 渐近无偏估计量5.4.5 一致估计量一致估计量的另一种等价的定义是:(1)是渐近无偏的;(2)其中(2)中的极限采用下式计算极限符号后面的称为渐近方差渐近方差,而通常计算方差时,直接用下面的表达5.4.6 渐近有效性渐近有效性的定义:渐近有效性的定义:一个估计量是渐近有效的,如果(1)这个估计量是一致估计量(2)这个估计量有着比“其他方法得到的估计量”有更小的渐近方差通常判别点估计量优劣的准则l小样本准则小样本准则无偏性无偏性有效性有效性l大样本准则大样本准则一致性一致性可以证明下列估计量是具有较好统计性质的估计量总体均值的矩估计量总体方差2的矩估计量总体方差2的极大似然估计量总体比例p的估计量样本比例总体构成比例的估计常常可能会关注总体中某一类特定对象占的比例p。对于这样的问题,可以采用如下的方式处理。在总体中任取一个个体,用一个变量X来描述所抽取的对象是否属于所关注的对象这一事件,即X=1,若抽得的是所关注的对象0,若抽得的不是所关注的对象于是,该总体可以用服从0-1分布的随机变量X B(1,p)描述,其中p表示所关注的对象在总体中占的比例。对于0-1分布B(1,p),其数学期望值与方差分别为:p,p(1 p)设X1,X2,Xn是来自于总体X的一个随机样本,并且在这一样本中我们所关注的对象恰好出现了n1次。那么即样本的均值恰好等于样本的比例。由此可见,可用样本比例 来估计总体比例p。此外,由中心极限定理,当样本容量充分大时,样本的均值函数近似地服从正态分布,也就是近似地有:5.5 区间估计5.5.1置信区间置信区间若总体分布含一个未知参数,如果找出了2个依赖样本X1,X2,Xn的估计量:使得其中0 1,则称随机区间 为的(1 )(或100(1 )%)的置信区间;1 (或百分数100(1 )%)称为置信度或置信水平;称为显著性水平,通常取为0.05或0.01。5.5.2 已知总体方差求总体均值的置信区间例 设总体X服从N(,0.09),抽取了4个样本观察值x1,x2,x3,x4,求总体均值的95%的置信区间。首先因此注意到N(0,1)是一个对称分布。现在来确定k,使得2.5%的面积的面积95%的面积的面积kx0.000.010.020.030.040.050.060.070.080.090.00.10.20.30.40.50.60.70.80.91.01.11.21.31.41.51.61.71.81.92.02.12.22.32.42.52.62.72.82.90.50000.53980.57930.61790.65540.69150.72570.75800.78810.81590.84130.86430.88490.90320.91920.93320.94520.95540.96410.97130.97720.98210.98610.98930.99180.99380.99530.99650.99740.99810.50400.54380.58320.62170.65910.69500.72910.76110.79100.81860.84380.86650.88690.90490.92070.93450.94630.95640.96480.97190.97780.98260.98640.98960.99200.99400.99550.99660.99750.99820.50800.54780.58710.62550.66280.69850.73240.76420.79390.82120.84610.86860.88880.90660.92220.93570.94740.95730.96560.97260.97830.98300.98680.98980.99220.99410.99560.99670.99760.99820.51200.55170.59100.62930.66640.70190.73570.76730.79670.82380.84850.87080.89070.90820.92360.93700.94840.95820.96640.97320.97880.98340.98710.99010.99250.99430.99570.99680.99770.99830.51600.55570.59480.63310.67000.70540.73890.77030.79950.82640.85080.87290.89250.90990.92510.93820.94950.95910.96710.97380.97930.98380.98740.99040.99270.99450.99590.99690.99770.99840.51990.55960.59870.63680.67360.70880.74220.77340.80230.82890.85310.87490.89440.91150.92650.93940.95050.95990.96780.97440.97980.98420.98780.99060.99290.99460.99600.99700.99780.99840.52390.56360.60260.64060.67720.71230.74540.77640.80510.83150.85540.87700.89620.91310.92780.94060.95150.96080.96860.97500.98030.98460.98810.99090.99310.99480.99610.99710.99790.99850.52790.56750.60640.64430.68080.71570.74860.77940.80780.83400.85770.87900.89800.91470.92920.94180.95250.96160.96930.97560.98080.98500.98840.99110.99320.99490.99620.99720.99790.99850.53190.57140.61030.64800.68440.71900.75170.78230.81060.83650.85990.88100.89970.91620.93060.94300.95350.96250.97000.97620.98120.98540.98870.99130.99340.99510.99630.99730.99800.99860.53590.57530.61410.65170.68790.72240.75490.78520.81330.83890.86210.88300.90150.91770.93190.94410.95450.96330.97060.97670.98170.98570.98900.99160.99360.99520.99640.99740.99810.9986利用书末的附表一,可以查得k=z0.025=1.96。于是下面的不等式成立的概率为0.95这等价于将z0.025=1.96代入上式,即得到所需要的置信区间一般地,已知总体方差时均值置信区间的表达式5.5.3 未知总体方差求总体均值的置信区间设 ,抽取了一组样本观察值x1,x2,xn,求总体均值的1-置信区间。这里总体的方差2是未知的。首先由有记 是自由度为n-1 的t分布对应着显著性水平的临界值。则 从而可得置信区间为例 为检查北京市中学生的身体状况,抽取了由16名男高中生的构成一个随机样本。设计算出样本的平均身高为174cm,标准差为5cm。求北京市男高中生平均身高的95%的置信区间。解 首先可以算出再根据/2=(1 0.95)/2=0.025,以及自由度n 1=15查p376的t分布表得代入置信区间的计算公式得即所求置信区间为(171.3356,176.6644)。换言之根据样本我们有95%的把握说北京市男高中生的平均身高在171.3356cm176.6644cm之间。点估计中用无偏性与有效性来评价估计量的好坏,在区间估计中是用置信度和精度来衡量估计量的优劣。以 的置信区间为例,公式样本容量的确定表示一个以 为中心,以 为半径的区间。通过t/2可知当置信度(1-)增大,t/2增大,区间长度增大(精度降低)。当样本容量n增大,缩小,区间长度缩小(精度提高)。可见追求置信度和精度是矛盾的。通常作法是,在控制一定的置信度条件下,用加大n的办法提高精度。由于n的加大会直接导致人力、物力、财力的支出加大,所以实际工作中只取满足精度的那个尽可能小的样本容量即可。这里称置信区间半径 为允许误差限(极限误差),整理之后得 但是上式并不适合作为样本容量的估计(为什么?)所以常常先估计出总体的方差,然后再应用已知总体方差置信区间表达式得到如下的样本容量的相应表达式例例:某地区有40,000农户,想通过抽样方法了解一下,每户农民春小麦的平均播种面积,从历史资料看 =8.5亩比较合适。若给定(1-)=0.95,若给定所求平均播种面积的允许误差不超出0.5亩,求抽样时样本容量应选多大?样本容量不应小于1 111户 注意:当n为小数时,应进位向上取整数。5.5.4 未知总体均值求总体方差的置信区间对正态分布,在未知总体均值的情况下,要求总体方差置信水平为1-的置信区间。首先注意到因此对给定的置信水平1-,可以求临界值使得从而可求得总体方差置信水平为1-的置信区间为其中分别是截断分布 左右两边面积各为/2的临界值。于是用样本比例估计总体比例用样本比例估计总体比例,总体比例的区间估计总体比例的区间估计(补充补充)设总体比例为设总体比例为 p,则则当当 np 和和 n(1-p)都大于都大于10时,时,样本比例样本比例 近似服从均值为近似服从均值为 p,方差为方差为 p(1-p)/n 的正态的正态分布。分布。从而从而对给定的置信度对给定的置信度1-,由由可得总体比例可得总体比例 p 的置信度的置信度为为 1-的的置信区间为置信区间为案例思考题案例思考题国外民意调查机构在进行民意调查时,通常要求在95%的置信度下将调查的允许误差(极限误差,即置信区间的 d 值)控制在3%以内。问为满足该调查精度要求,至少需要多大的样本?如果要求置信度达到99%,调查误差仍为3%,此时至少需要多大的样本?案例思考题解答案例思考题解答(1)本案例中,l故需要的样本容量至少为故需要的样本容量至少为 案例思考题解答案例思考题解答(2)如果要求置信度达到99%,则Z/2=Z0.005=2.575,5.6 SPSS在参数估计中的应用见教材和课堂演示见教材和课堂演示