《简单随机抽样.pptx》由会员分享,可在线阅读,更多相关《简单随机抽样.pptx(103页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第二章第二章 简单随机抽样简单随机抽样第二章第二章 简单随机抽样简单随机抽样1、简单估计量、简单估计量2、比率估计量、比率估计量3、回归估计量、回归估计量例例: :从某个总体抽取一个从某个总体抽取一个n=50n=50的独立同分布样本,样本数据如下:的独立同分布样本,样本数据如下: 567 601 665 732 366 937 462 619 279 287567 601 665 732 366 937 462 619 279 287 690 520 502 312 452 562 557 574 350 875 690 520 502 312 452 562 557 574 350 875
2、834 203 593 980 172 287 753 259 276 876 834 203 593 980 172 287 753 259 276 876 692 371 887 641 399 442 927 442 918 11 692 371 887 641 399 442 927 442 918 11 178 416 405 210 58 797 746 153 644 476 178 416 405 210 58 797 746 153 644 476(1 1)计算样本均值与样本方差。)计算样本均值与样本方差。(2 2)若用)若用 估计总体均值估计总体均值,按数理统计结果,是否无
3、偏,按数理统计结果,是否无偏,并写出它的方差表达式。并写出它的方差表达式。(3 3)根据上述样本数据,如何估计?)根据上述样本数据,如何估计?(4 4)假定的分布是近似正态的,试分别给出总体均值)假定的分布是近似正态的,试分别给出总体均值的置信的置信度为度为95%95%的近似置信区间。的近似置信区间。y(1 1)计算样本均值与样本方差。)计算样本均值与样本方差。(2 2)若用)若用 估计总体均值估计总体均值,按数理统计结果,是否无偏,按数理统计结果,是否无偏,并写出它的方差表达式。并写出它的方差表达式。 (3 3)根据上述样本数据,如何估计?)根据上述样本数据,如何估计?y)yny(1n11n
4、)yy(s ,nyyn1i22in1i2i2n1ii 2,( )yV yn222,( )sE sv yn性质:( )(4 4)假定的分布是近似正态的,试分别给出总体均值)假定的分布是近似正态的,试分别给出总体均值的置信的置信度为度为95%95%的近似置信区间。的近似置信区间。122yy ., t(1), t(1)sy/nyyynnsn假定总体是近似正态分布设 , ,是独立同分布样本,则即( ) )(),(ystyysty2121概述概述一、简单随机抽样一、简单随机抽样(或单纯随机抽样)(或单纯随机抽样) 本书一般局限于不放回随机抽样本书一般局限于不放回随机抽样二、实施方法二、实施方法三、地位、
5、作用三、地位、作用 是其他抽样方法基础是其他抽样方法基础2.1定义与符号定义与符号l定义定义2.1 从总体的N个单元中,一次整批抽取n个单元,使任何一个单元被抽中的概率都相等,任何n个不同单元组成的组合被抽中的概率也都相等,这种抽样称为简单随机抽样.l定义2.2 从总体的N个单元中,逐个不放回抽取单元,每次抽取到尚未入样的任何一个单元的概率都相等,直到抽足n个单元为止,这样所得的n个单元组成一个简单随机样本.l定义2.3 按照从总体的N个单元中抽取n个单元的所有可能不同组合构造所有可能的 个样本,从中随机抽取一个样本,使每个样本被抽到的概率都等于1/ ,这种抽样称为简单随机抽样。l注意:定义2
6、.1与定义2.3是等价的。l 三个定义之间的联系nNCnNC简单随机抽样的具体实施方法常用的有抽签法和随机数法两种。l(一)抽签法l抽签法是先对总体N个抽样单元分别编上1到N的号码,再制作与之相对应的N个号签并充分摇匀后,从中随机地抽取n个号签(可以是一次抽取n个号签,也可以一次抽一个号签,连续抽n次),与抽中号签号码相同的n个单元即为抽中的单元,由其组成简单随机样本。l抽签法在技术上十分简单,但在实际应用中,对总体各单元编号并制作号签的工作量可能会很繁重,尤其是当总体容量比较大时,抽签法并不是很方便,而且也往往难以保证做到等概率。因此,实际工作中常常使用随机数法。 l(二)随机数法l随机数法
7、就是利用随机数表、随机数骰子或计算机产生的随机数进行抽样。由于计算机产生的随机数实际上是伪随机数,不是真正的随机数,特别是直接采用一般现成程序时,产生的随机数往往不能保证其随机性。因此,一般使用随机数表,或用随机数骰子产生的随机数,特别在n比较大时。l1、随机数表及其使用方法l随机数表是由0到9的10个阿拉伯数字进行随机排列组成的表。l所谓随机排列,即每个数字都是按等概和重复独立抽取的方式排定的。在编制时,使用一种特制的电器或用计算机,将0至9的10个数字随机地自动摇出,每个摇出的数字就是一个随机数字。为使用方便,可依其出现的次序,按行或按列分成几位一组进行排列。根据不同的需要,它们所含数字的
8、多少以及分位和排列的方式尽可以不同。l目前,世界上已编有许多种随机数表。其中较大的有兰德公司编制,1955年出版的100万数字随机数表,它按五位一组排列,共有20万组;肯德尔和史密斯编制,1938年出版的10万数字随机数表,它也按五位一组排列,共有25000组。我国常用的是中国科学院数学研究所概率统计室编印的常用数理统计表中的随机数表。简单随机抽样属等概率抽样,在使用简单随机抽样属等概率抽样,在使用随机数表时,要注意以下几点:随机数表时,要注意以下几点:l每次使用时,确定使用哪页及哪行哪列的数字为起点,必须是随机的。 l设总体容量为N,若N的位数为r,则一定要从r位数中抽取。遇到1至N的数可直
9、接使用;遇到其它的数不能直接使用。l当r2时,可从含有起点数字左边的r位数开始,也可从右边的r位数开始。可从起点开始向下抽取,也可向右抽取。但一经确定使用哪一种方式,就必须用一种方式抽取全部单元号,中途不能变更。 l在重复抽样时,遇到重复的数字应重复使用;在不重复抽样时,遇到重复的数字应舍去不用。随机数表法一般分下述几步:随机数表法一般分下述几步:l第一步:确定起点页码,如用笔尖在随机数表上随机指定一点,若落点数字(或距落点最近的数字)为奇数,则确定起点在第1页;否则,起点在第二页。 l第二步:确定起点的行数与列数,先在表上随机指定一点,由落点处的两位数确定起点的行数。由于每页只有50行,所以
10、当落点处的两位数大于50时,则取其减去50的差数为行数。为保证等概性,当落点处的数为“00”时,则行数应取作50。然后依同样的方法再确定起点的列数。 l第三步:确定所抽样本单元的号码。从上述确定的起点开始向下(或向右),每次取一个r位数。通常,若所需抽的数是一位数或两位数(即r1或2),则由起点开始,依次向右抽取较方便,达到该行右端时,从下一行左端开始继续向右抽取;若所需抽的数是三位及以上(即r3)则由起点开始依次向下抽取较方便,达到最后一行时,向右移10位(或r位),再从第一行开始向下继续抽取,直到取足所需的n个r位数为止,以这n个r位数所对应的总体单元组成样本。2、随机数骰子及其使用方法、
11、随机数骰子及其使用方法l随机数骰子是由均匀材料制成的正二十面体(通常的骰子是正六面体,即正方体),面上刻有09的数字各2个。每盒骰子由盒体、盒盖、泡沫塑料垫及若干个(通常是36个)不同颜色的骰子组成。使用随机数骰子时可以像普通骰子那样用投掷的方法。但正规的方法是将一个或n个骰子放在盒中,拿去泡沫塑料垫,水平地摇动盒子,使骰子充分旋转,最后打开盒子,读出骰子表示的数字。一个骰子一次产生一个09的随机数。要产生一个m位数字的随机数,就需要同时使用m个骰子(事先规定好每种颜色所代表的位数,例如红色表示百位数,蓝色表示十位数,黄色表示个位数等),或将一个骰子使用m次(规定第一次产生的数字为最高位数,最
12、后一次产生的数字为最末位即个位数字等)。特别规定m个骰子的数字(或一个骰子m次产生的数字)都为0时,表示1m。 l也许有人会认为,在抽样时不用随机数表,而采取随意抽选的办法也可以达到预期的抽样效果。表面上看,这种想法似乎有一定道理,但实际试验的结果证明随意抽样不等于随机抽样。 简单随机抽样的方法评估简单随机抽样的方法评估 l简单随机抽样对总体不加任何限制,等概率地从总体中直接抽取样本,是最简单、最单纯的抽样技术,它具有计算简便的优点,是研究其它复杂抽样技术的基础,也是比较各种抽样技术之间估计效率的标准,同时,从理论上讲简单随机抽样在各种抽样技术中是贯彻随机原则最好的一种,并且数学性质很简单,是
13、等概率抽样的特殊类型。 l另一方面,因为是等概率抽取样本,所以要求总体在所研究的主要标志上同质性或齐性(共性)较好,也即总体要比较均匀;要求样本容量要比较大,以保证样本对总体具有充分的代表性。但是,在社会经济现象中,这种均匀总体是很少见的。因此,实际工作中很少单纯使用简单随机抽样方法。l再者,因为直接从总体中抽取样本,未能充分利用关于总体的各种其它已知信息,以有效地提高样本的代表性,并进而提高抽样的估计效率。l此外,简单随机抽样要求在抽样前编制出抽样框,并对每一个总体抽样单元进行编号,而且当总体抽样单元的分布比较分散时,样本也可能会比较分散,这些都会给简单随机抽样方法的运用造成许多的不便,甚至
14、在某些情况下干脆无法使用。因此,在此基础上研究其它抽样技术显得更加重要。 符号的表示符号的表示l总体均值l总体总值(总体总量)l总体比例l总体比率(总体比值)2.2 简单估计量及其性质简单估计量及其性质l2.2.1简单估计量的性质引理2.1 从大小为N的总体中抽取一个样本量为n的简单随机样本,则总体中每个特定单元入样的概率为 ,两个特定单元都入样的概率为 。 Nn11NNnn一、总体均值的估计一、总体均值的估计 1.1.简单估计及其无偏性:简单估计及其无偏性:这种估计即是简单估计这种估计即是简单估计估计估计条件下,条件下,在没有其他总体信息的在没有其他总体信息的 N1iin1iiYN1Yyn1
15、yY)y(E1 :性性质质l定理2.1 对于简单随机抽样,作为 的简单估计 , 是无偏的。 注意定理可以表示成更简洁的形式: Yy YyEY证明证明1:(定义法)定义法)nNn1nNCn/ )yy(Cy)y(E N1ii1n1Nn1YCn1)yy(n1yYYN1CYCn1Cy)y(EN1iinNN1ii1n1NnN 证明证明2:(对称性论证法(对称性论证法) n1iiyn1yYYN1YNnn1)y(En1)y(EN1iiN1iin1ii l证明3:从总体规模为N的总体中抽取一个容量为n的简单随机样本。若对总体中每个单元,如引理2.2引进随机变量即可完成证明。参见34页。估计量的方差估计量的方差
16、 l在抽样推断中,有时往往只计算出估计量的值,而不大注意估计量的误差(方差或标准差)。但是,总体均值的估计量通常与总体均值的真值间不完全一致,即存在误差,而且所有可能的样本均值相对于总体均值的误差大小也是不一致的。联合国统计局编的抽样调查理论基础一书指出:“从研究大多数国家的抽样实践中,可以看出:虽然计算估计量的标准差,至少对关键性的几个估计量计算其标准差来说,仅需增加很少的额外开支或负担,但是他们并不意识到确定估计量的标准差的重要意义。这是否因为统计人员无意识地忽视了估计量的不精确性所产生的严峻的现实呢?计算标准差,并且把他们与估计量一起列出来,应该成为实际工作的一个常规。”2.2.2简单估
17、计量简单估计量 方差与协方差方差与协方差y1、简单估计量、简单估计量 的方差的方差yl证明: 方法一: 根据方差的定义和性质,显然有l =2221)()(YynEnYyEyV212)(1niiYyEn2211()2()()nniijiijEyYEyYyYnl根据前面定理2.1证明的方法二中使用过的对称性证明方法,即知:l =l = 21)(niiYyE21()NiinYYNnjiiiYyYyE)() 1() 1(NNnn()()nijijYYYYl故 = = = =)(yV2111()2()()1NniijiijnYYYY YYnNN221111111()()2()()111NNniiijii
18、ijnnnYYYYYYYYnNNNN21)(111YYNNnNnNii)1 (2fnSl证明2:仿照前面定理2.1 之证明3引进随机变量,且运用引理2.2的结论就可完成证明。参见36页。l推论2.4 对于简单随机抽样, 的方差为:yNY 221)(SnfNYV 2、两个估计量的、两个估计量的 协方差协方差, y xl证明1:根据定义,采用对称证明法。参见40页。2.2.3方差与协方差的估计方差与协方差的估计 n1i22in1i2i222yny1n1yy1n1sSsE)()(其中其中)(性质:性质: 证明:只需证证明:只需证由定义由定义由对称论证法由对称论证法 22N1ii2N1ii2)Yy(n
19、)Yy(1n1)yy(1n1s22211(1)() ()nNiiiinn NEyYYYSNN2221()fNnE yYSSnNn 22222S)nN() 1N(n) 1n(NSSnNnNnSN) 1N(n1n1)s (E 区间估计区间估计22111Yffyzs yzsnn的置信度为的近似置信区间为:,/2/2n( , ( ) N0 1NVzdzz当 很大时,( , )( )则()( )因此,( )( )l在获得各种总体特征的简单估计量的方差估计后,由于这些简单估计量均以样本均值为核心构建,根据中心极限定理它们都接近正态分布 核心估计量样本均值分布近似服从正态分布 。于是,可按照数理统计中有关正
20、态分布总体特征的区间估计步骤进行估计,首先根据样本调查值计算出 和 ,然后用 作为 的近似 yVyEN,y yV ,N Y V y yVyEN,例子例子1l1395411977050501501501iiyy50122501224911501iiiiynyyys60416060663020803030491例:在某地区例:在某地区1000010000户家庭中,按简单随机抽样抽取户家庭中,按简单随机抽样抽取400400户,调查户,调查一个月的伙食费(单位:元)。经计算:一个月的伙食费(单位:元)。经计算:(1 1)试估计该地区平均每户每月的伙食费,并估计其标准差。)试估计该地区平均每户每月的伙食
21、费,并估计其标准差。(忽略(忽略f f)(2 2)给出置信度为)给出置信度为95%95%时该地区平均每户每月伙食费的近似置信时该地区平均每户每月伙食费的近似置信区间。区间。 4001i2i4001ii39.119110251y,165712y 解:解: (1 1) (2 2)62.355s,58.126465)yny(1n1s28.414400165712yn1i22i2 0.05/20.05/295%,379.43,449.13Yssyzyznn的置信度的近似置信区间为:78.17nssnf1)y( s28.414yY 例:某地区性专业杂志目前拥有例:某地区性专业杂志目前拥有80008000
22、家订户,从中按简单随机家订户,从中按简单随机抽样抽取了抽样抽取了484484户,这户,这484484户的年均收入为户的年均收入为3050030500元,标准差为元,标准差为70407040元。试求该杂志订户的年均收入元。试求该杂志订户的年均收入 的置信度为的置信度为95%95%的近似的近似置信区间。置信区间。 解:解:310704048480004841snf1)y(v)y(s30500y 2230500 1.96 310 30500 1.96 31029892,31108yz s yyz s y( ),( )即,2.3比率估计量及其性质比率估计量及其性质一、使用比估计的两种情况一、使用比估计
23、的两种情况YRX简单估计量即即之之比比值值均均值值)体体的的两两个个指指标标总总量量(或或所所需需估估计计的的目目标标值值是是总总,1.1.比值比值( (或比率或比率) )XYXYR 例例: :XYR每每户户平平均均消消费费支支出出总总额额每每户户平平均均食食品品消消费费支支出出某某地地区区的的恩恩格格尔尔系系数数 元元以以上上)(元元)(元元)(元元)(:的的每每盒盒最最高高价价格格范范围围是是若若会会购购买买,您您所所能能承承受受)不不会会()会会(,您您会会不不会会购购买买?假假如如市市场场上上有有奶奶酪酪出出售售1141093862541.221.14 5,1014 50iiNixiy
24、要估计会购买的人中,能承受的最高价格在 元者所占的比例可设总体有 人,第 人会购买奶酪,其他,第 人会购买且能承受的最高价格范围是元,其他 例例: : “筛选性筛选性”问题问题XYXYRNiiNii 11因此,要估计的是因此,要估计的是 例例:1802:1802年,法国的年,法国的LaplaceLaplace受政府委托进行法国受政府委托进行法国人口的估计与推算。推算方法如下:人口的估计与推算。推算方法如下:已已知知)总总体体的的出出生生人人口口数数总总体体的的人人口口总总数数(XYR 2.2.利用辅助变量的信息改进估计的精度利用辅助变量的信息改进估计的精度35.28 样样本本的的出出生生人人口
25、口总总数数样样本本的的人人口口数数RRXY 即总体的人口总数即总体的人口总数,RYYRX X的比率估计量:已知利用辅助变量的信息改进估计的精度利用辅助变量的信息改进估计的精度RXYXRYXYXYR ,因此因此,,RRYYYRX XYRX X及 的比率估计量:已知已知二、简单随机抽样下的比估计二、简单随机抽样下的比估计1.1.比的简单估计量:比的简单估计量:XYR xy 对对于于简简单单随随机机抽抽样样2. 2. 性质:性质: 对于简单随机抽样(1)2.3( )yRnE RRx引理:是有偏的。但当 大时,212()1(2)2.4( )( )1NiiiYRXfV RMSE RnXN引理:22222
26、2221(2)1(2)xyxxxfSRSR SnXfSR S SR SnX(1)11( )()()( )nxXyyE RE rEEE yYRxXXXnE RR当 大时, ( )当 大时,( )证明:证明:222222222221(2)( )( )( )( )( )1001111( )( )iiiNiiigV RE R E RE R RV RMSE RE yRxMSE RE R RXGYRXiNGYRXgyRxE yRxE gE gE gGV gYRXffSnnNfV RMSE Rn()()()又()对每个总体单元,令, ,则()( )()()( )()2121NiiiYRXNX()212212
27、2221222222222()1( )( )1()()11()2 ()()()111(2)1(2)NiiiNiiiNiiiiixyxxxYRXfMSE RV RNnXYYRXRXfNnXYYR YYXXRXXfNnXfSRSR SnXfSR S SR SnX 10)(112 NRXYnfNiii1)(1)(12 NYYnfYVyYYNii的简单估计为的简单估计为对于简单随机抽样,对于简单随机抽样,2.6()RRYRXnE YRXY定理:是有偏的。但当 大时,21()12.12()()1NiiiRRYRXfV YV ynN推论:(3)比率估计量的方差估计22221( )( )(2)xyxfV R
28、MSE RSRSR SnX22212( )1(2)xyxXV Rfv RsRsR snX当 已知时,的渐近无偏估计为( ) NiiiRXYN12)(11估计估计可用可用 niiixRyn12)(111)(1122 NRXYXnfNiii11122 nxRyXnfniii)(21222222( )111(2)niiixyxXxXV RyRxfv RnxnfsRsR snx当 未知时,用 代替 ,则的渐近无偏估计为()( )比率估计量的方差估计值比率估计量的方差估计值2222221(2)yxxRXfVysRsR sxn22211(2)yxxRfVysRsR sn 比率估计量的方差估计值比率估计量的
29、方差估计值22222221(2)RyxxXfVYNsRsR sxn222211(2)RyxxfV YNsRsR sn 例:某小区有例:某小区有19201920户,从中随机抽取了户,从中随机抽取了7070户,调查户,调查各户的住房面积(单位:平方米)和家庭人口,各户的住房面积(单位:平方米)和家庭人口,得数据:得数据: 试对人均住房面积作点估计和置信度为试对人均住房面积作点估计和置信度为95%95%的区的区间估计。间估计。7264.5xy1110 x52940.7,y260 x1821.4,y701iii701i2i701i2i701ii701ii 解:解:01. 72604 .18217017
30、01 iiiixyR085. 011)(1222 nxRyxnfRvRVniii)()(的渐近无偏估计为:的渐近无偏估计为:92.56372)(7012270170127012 iiiiiiiiiixRxyRyxRy2295%6.44 7.58RRzv RRzv R的置信度为的置信区间为:( ) ,( ),3.3.比率估计量与简单估计量的比较比率估计量与简单估计量的比较21(2)( )fYyV ySn的简单估计 的方差为:222(1)1()(2)RRxxnYyfV ySR S SR Sn当 足够大时, 的比估计的方差为:2222221211( )()(21(20RxxxxffV yV ySSR
31、 S SR SnnfR S SR Sn() ( )得:)/22/212xxxxRSSXCSSYCCC特别若,则 ,即比估计较相应的简单估计更精确。 回归估计回归估计Linear regression 估计精度就比较高。为常数)。这时,用比(可以认为又比较大,相关系数的回归直线通过原点,关于如果。估计其实质是用,已知计量:简单随机抽样中的比估aaxyxyXYxyXXxyYiiiiR)(iiyxx如果 关于 的回归直线不通过原点,如何利用辅助指标 的信息来估计调查指标Y的特征数呢?1.简单随机抽样中的回归估计量:简单随机抽样中的回归估计量:对于简单随机抽样,总体均值和总体总值的回归估计量分别为:(
32、)lrlrlrlrYyyXxXYNYNy,其中 已知YYEyYxXyYYXxxxyyyxyxylrlrlrlriiiiiiiii)(性质:记为以后)(的回归估计为时,当)(的回归值时,事先给定常数)若(据结构:具有一元线性回归的数与假定100000000:011lrlrlrlrlrYyyXxyyyyXxyyyRyyXxXRXxxxE YY若 事先给定常数时,的回归估计为()当时,(即回归估计为简单估计)当时,()(即回归估计为差估计)当时,()(即回归估计为比率估计)性质 :() (定理2.8)22200122lrxyxfV ySSSn性质 :( )()(定理2.8)2220000101220
33、11221)()1)11111ilrxyxnlriiiniiiiilrZNiiifV ySSSnyyXxyXxnzzzyXxnYzYfV ySnfYXXYnN性质 :( )()证明:换个角度:(,其中(或者说: 的回归估计就是用样本均值 去估计( )()2012220022200111212NiiixyxlrxyxlrfYYXXnNfSSSnfv ysssV yn()()性质:( )()是( )的无偏估计。01022122min22221111111()NiixyilrNxiilrNNiiiiiYYXXSBV ySXXfVySnBYXYSYEYeNN定理2.9:(的最佳值)()()当时,( )
34、达到最小值,()且( )()其中 为 关于 的(有限)总体回归系数,为 与X的相关系数。(),即总体残差平方和。证明:22200020220220min2120,011lrxyxxylrxlrxylrxfV ySSSnSdV yBdSd V ydSfBVySSn( )()( )令得( )当时,( )()1221222(2.10)11iiiiiniiyxinxiilrlrlrlryxyxyyxxsBBbsxxYyyb XxnE yYfnV yMSE ySn假定 与 具有一元线性回归的数据结构:( )若 根据样本计算时,为样本回归系数。()()一般是未知的,()的回归估计为:()性质:当 大时,(
35、 )定理性质:当 大时,( )( )()(定理2.11)性质:当22221121,11221()2lrenneiiiiiiyxfnv ysnsyyyyb xxnnnsbsn大时 ( )其中样本残差()() ()例:例:总体由75308个农场组成,设yi为第i个农场养牛的头数, xi为第i个农场的面积。已知农场平均面积为31.25英亩,选取一个样本容量为2055的简单随机样本。经计算得: 试估计每个农场平均养牛头数及标准差。2212.53,30.65274100.15357179.55251007337.763xyxyxsss解:20.355yxxsbs74.12)65.3025.31(355.
36、 053.12)(xXbyylr221()11()20.035()()0.187lreyxlrlrfv ysnfsbsnns yv y标准差为2.5 2.5 简单随机抽样的实施简单随机抽样的实施一、一、样本容量的确定的原则与主要因素确定的原则与主要因素 简单随机抽样的费用:简单随机抽样的费用:若若C CT T,C C0 0定,则最大的定,则最大的n n就确定了。就确定了。 精度精度费用费用费费用用是是平平均均调调查查一一个个单单元元的的是是固固定定费费用用是是总总费费用用其其中中:CCCCnCC0T0T 精度常见的表示方法:精度常见的表示方法:2Srrz( )相对误差限 ,2d dz S绝对误
37、差限 ,( )1.估计R时样本量的确定:VXSnNnnVXNSVXSnRxyNSSXnfRVnVRdddNiiidd2200022221222211111,,其中解得:)(,其中)(大时,当的方差上限为如果估计。未知时,也可由)(由的样本,抽一个容量为也可以通过试点调查时计,可以通过以往的资料估,xXxRynsnSniiidd122211例:某公司有1000名职工,为了估计职工今年与去年病假工时的比率,要抽一个容量为n的简单随机样本进行调查。先随机抽了10人作试点调查,数据如下:希望以置信度95%,使估计R的绝对误差不超过0.01,应抽容量为多大的样本?已知公司职工去年病假工时为16300。解
38、:05. 1178187101101iiiixyR4245,4066,4463178,18710110121012101101iiiiiiiiiiixyxyxy由试点调查的数据得:5222/1210122701221011012101210603. 296. 101. 03 .1610001630016300474. 3)(91265.312)(dVXXxRysxRxyRyxRyiiidiiiiiiiiii,已知334100050215021,50200220NnnnVXSnd例:审计员想把一个医院的财产的现在价值与记录价值作一比较。从计算机存储的记录里查到,医院的财产有2100项,共计价值9
39、50000元。为了估计现在的价值,拟在2100项目中随机抽取n项。因为没有信息可用来确定n,先随机抽了15项,获得数据整理如下: 试确定n,使估计量的绝对误差不超过500元(置信度为95%)。表示现在的价值。值,表示从计算机查到的价其中iiiiiiiiiiiiiyxyxyyxx27.4560,19.4522, 5 .23754.4706, 0 .24215115121511512151解:表示现在的价值。值,表示从计算机查到的价其中iiiiiiiiiiiiiyxyxyyxx27.4560,19.4522, 5 .23754.4706, 0 .2421511512151151215198. 00
40、 .2425 .237151151iiiixyR406210050415041504)2100500(4444. 796. 100222222/10NnnndSnd4444. 7)(1412218.1042)(151221512215115121512iiidiiiiiiiiiixRysxRxyRyxRy 二、估计总体均值或总量时样本量的确定方法二、估计总体均值或总量时样本量的确定方法 先对总体均值的情形讨论。先对总体均值的情形讨论。 1.1.精度要求:置信度精度要求:置信度1-1-的绝对误差限为的绝对误差限为d d,即,即 1)dYy(P)(V,(Nn 很大时,很大时,当当),()(10N
41、z 则()( )/2/2dzz因 此 , () ()则估计总体均值时样本量这样确定:则估计总体均值时样本量这样确定:222211z Sdnz SNd()()2/2/2N nd zzSnN ( )2220( )z SSnV yd记)202001z SnnnndN则,其中()2.2.精度要求:置信度精度要求:置信度1-1-的相对误差限为的相对误差限为r r,即,即 则估计总体均值时样本量这样确定:则估计总体均值时样本量这样确定: 1dYyPdy1)(的定义:的定义:的绝对误差限的绝对误差限)估计量)估计量而(而(20200:,1ydz SnnnndN若当精度要求为 估计量 的绝对误差限为 时,其中
42、() 1)rYYy(P 1YrYyP1rYYyPry2)(即即)(的定义:的定义:的相对误差限的相对误差限)估计量)估计量(Yrd21 )得:)得:)、()、(由(由(2202200()() ,1z Sz SnnnndrYN例例1 1:若要求估计职工的平均收入的绝对误差在:若要求估计职工的平均收入的绝对误差在2020元之内,置信元之内,置信度为度为95%, N=4328, 95%, N=4328, ,则样本量应该是多少?,则样本量应该是多少?解:解:2220001.96136.08()()17820178171178114328z SndnnnN136.08S 例例2 2:在某地区:在某地区1
43、000010000户家庭中,按单纯随机抽样抽取户家庭中,按单纯随机抽样抽取400400户,调户,调查一个月的伙食费(单位:元)。经计算:查一个月的伙食费(单位:元)。经计算: 利用这次抽样结果,现在若要再进行一次简单随机抽样,利用这次抽样结果,现在若要再进行一次简单随机抽样,分别要求如下时,样本量各为多少?分别要求如下时,样本量各为多少? (1 1)要求)要求d=50d=50(置信度为(置信度为0.950.95);); (2 2)要求)要求r=0.05r=0.05(置信度为(置信度为0.95)0.95)。62.355s ,28.414400165712y 解:解:22000(1)1941911z SndnnnN()2000(2)()113210161z SnrYnnnN2.2.设计效应(设计效应(design effectdesign effect):):值越大,效率越低。值越大,效率越低。抽样估计量的方差抽样估计量的方差相同样本量下简单随机相同样本量下简单随机的方差的方差所考虑抽样设计估计量所考虑抽样设计估计量deffdeff 1nn deff
限制150内