《统计学第六章抽样与抽样分布.pptx》由会员分享,可在线阅读,更多相关《统计学第六章抽样与抽样分布.pptx(85页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、统计学统计学1/15/20221第六章第六章 抽样与抽样分布抽样与抽样分布 本章内容:抽样与抽样分布是推断统计学中的最基本内容。学习本章了解抽样的概率抽样方法;理解抽样分布的概念和形式;掌握样本平均数、样本比例的抽样分布;了解抽样组织方式及其抽样分布。重点是样本平均数、重点是样本平均数、样本比例的抽样分布。样本比例的抽样分布。1/15/20222 第六章第六章 抽样与抽样分布抽样与抽样分布 本章分三节: 第一节第一节 抽样的基本概念抽样的基本概念 第二节第二节 抽样分布抽样分布 第三节第三节 抽样组织方式及其抽样分抽样组织方式及其抽样分布布 1/15/20223第一节第一节 抽样的基本概念抽样
2、的基本概念本节需要把握四个问题:一、总体与样本;一、总体与样本;二、抽样方法;二、抽样方法;三、抽样框;三、抽样框;四、抽样误差。四、抽样误差。1/15/20224一、总体与样本一、总体与样本 把握两个问题: 1、总体和总体参数; 2、样本和样本统计量。1/15/20225 1、总体与总体参数(1)总体总体:指根据研究目的确定的所要研究的同类事物的全体,是所要说明其数量特征的研究对象。按所研究标志性质不同,分为变量总体和属性总体,分别研究总体的数量特征和品质特征。 构成总体的个别事物(基本单元)就是总体单位总体单位,也称个体。总体单位的总数称为总体容量,记作N。1/15/20226 1、总体与
3、总体参数、总体与总体参数 (2)总体参数:总体参数:指抽样估计中用来反映总体数量特征的指标。研究目的确定后,总体确定,总体参数存在但未知,需要估计。 A、变量总体中各单位可以直接用数量表示,设各单位变量值为:X1, X2, XN,则总体参数有均值,标准差或方差以及总体标志总量,即 我们研究变量X值的全体,X的取值有一定分布,为一个随机变量。 XNFFXXXXNFXFNXXNiiNii,)(1),(221221或或1/15/20227 (2)总体参数总体参数:B、对于属性总体,各单位不能用数值来表示,但可以计算总体成数,如前面所学P=N1/ N,Q=N0/N,P+Q=1,则总体参数有均值,标准差
4、或方差以及具有某一属性的单位总数,即: 1、总体与总体参数PX _NPPP, )1 ( 1/15/20228 2 2、样本和样本统计量样本和样本统计量 (1)样本:)样本:是从总体中抽出的部分单位的集合,样本所包含的总体单位个数称为样本样本容量容量,一般用,一般用n表示。表示。把n30的样本称为大样本, n30的样本称为小样本。对于既定总体,由于抽取样本的方式方法不同,样本容量可大可小,样本不确定。样本的内部构成与总体内部构成总有一定差异,即样本不能完全代表总体,用样本估计总体总存在代表性误差代表性误差。 样本个数:样本个数:又称样本可能数目,它是指从一个总体中可能抽取多少个样本。样本个数的多
5、少与抽样方法有关。 1/15/20229 2、样本和样本统计量 (2)样本统计量:)样本统计量:又称样本指标或估计量,它是根据样本资料计算的、用以估计和推断相应总体参数的综合指标,常用的有:)1 (),1(11)(1221221ppsnnpxssffxxxxnsfxfnxxniinii,或或1/15/202210二、抽样方法二、抽样方法 把握以下问题: 1、概率抽样与非概率抽样; 2、重复抽样与不重复抽样。1/15/202211 (1)概率抽样:又称随机抽样,指按随机原则抽取样本。 随机原则:就是排除主观意愿的干扰,使总体的每一个单位都有一定的概率被抽选为样本单位,每个单位能否入样是随机的。
6、概率抽样的基本组织方式有:简单随机抽样、分层抽样、等距抽样和整群抽样。 1、概率抽样与非概率抽样1/15/202212 1、概率抽样与非概率抽样 (2)概率抽样的特点:A、避免主观选样带来的倾向性误差(系统偏差),使样本资料能够估计、推断总体的数量特征;B、因为抽样建立在概率和数理统计基础上,可以计算和控制抽样误差,能说明估计结果的可靠程度。 实际中,在不可能或不必要全面调查时,常用概率抽样推断总体,还可以修正或补充全面调查的结果。1/15/202213 1、概率抽样与非概率抽样 (3)非概率抽样:又称非随机抽样,指从研究目的出发,根据研究者的经验或判断,从总体中有意识抽取若干个单位构成样本。
7、有重点调查、典型调查、配额抽样、方便抽样等 。 配额抽样:指抽选一群特定数目的满足特定条件的被调查者的抽样方法,这群被调查者已知对此研究主题有用,配额通常是年龄、收入、职业等,使用配额抽样有助于降低非概率抽样方法的偏差。 1/15/2022141、概率抽样与非概率抽样 (4 4)非概率抽样:)非概率抽样: 适用于:了解总体大致情况,总结经验教训,进行大规模调查前的试点等,有其优越性。 缺点:受主观影响易产生倾向性误差;不能计算、控制误差,无法说明调查结果的可靠程度。抽样一般都是指概率抽样。1/15/2022152、重复抽样和非重复抽样、重复抽样和非重复抽样(1)重复抽样:)重复抽样:又称重置抽
8、样,是指从总体中抽出一个样本单位,记录其标志值后,又将其放回总体中继续参加下一轮单位的抽取。特点是:第一,n个单位的样本是由n次试验的结果构成的。第二,每次试验是独立的,即其试验的结果与前次、后次的结果无关。第三,每次试验是在相同条件下进行的,每个单位在多次试验中选中的机会(概率)是相同的。在重复试验中,样本可能的个数是 ,N为总体单位数,n为样本容量。nN1/15/2022162、重复抽样和非重复抽样 (2)非重复抽样:)非重复抽样:又称为不重置抽样,即每次从总体抽取一个单位,登记后不放回原总体,不参加下一轮抽样。下一次继续从总体中余下的单位抽取样本。特点是:第一,n个单位的样本由 n 次试
9、验结果构成,但由于每次抽出不重复,所以实质上相当于从总体中同时抽取n个样本单位。第二,每次试验结果不是独立的,上次中选情况影响下次抽选结果。第三,每个单位在多次(轮)试验中中选的机会是不等的。不重复抽样,如果是考虑顺序,其样本可能个数为 ;如果不考虑顺序,其样本可能个数为 。)!(!nNN!)!(!nnNN1/15/202217三、抽样框 把握以下问题: 1、概念; 2、抽样框的形式; 3、对抽样框的要求。1/15/2022181、概念 抽样框:抽样框:指包括全部抽样单位的名单框架。 调查目的确定后,总体随之确定,总体又叫目标总体,即理论上的抽样范围,与实际抽样的总体范围有时不一致。此外抽样单
10、位可以是个总体单位,也可以是若干总体单位的集合。如某省进行农户收支调查,目标总体是全省所有农户,抽样单位可以是每个农户,也可以是每个乡或村。所以,有目标总体后还必须明确实际进行抽样的总体范围和抽样单位。1/15/2022192、抽样框的形式 (1)名单抽样框名单抽样框:列出全部总体单位的名录一览表,如职工名单、企业名单等。 (2)区域抽样框区域抽样框:按地理位置将总体范围划分为若干小区域,以小区域为抽样单位。如某市居民住房调查,将全市居民户划分为若干街道或片区。 (3)时间表抽样框时间表抽样框:将总体全部单位按时间顺序排列,把总体的时间过程分为若干小的时间单位,以时间单位作为抽样单位。如对流水
11、线上24小时内生产的产品进行质量抽检。1/15/202220 3、对抽样框的要求 (1)应与目标总体一致,即包括全部总体单位,不重不漏,否则破坏随机原则。例如,对某市居民进行抽查,以电话号码本为抽样框不科学。 (2)尽可能利用与所研究变量高度相关的辅助变量的信息,设计最佳的抽样组织方式和抽样估计方法。1/15/202221四、抽样误差 把握以下问题: 1、调查误差概念及其分类; 2、实际抽样误差; 3、抽样平均误差; 4、抽样极限误差。1/15/2022221、调查误差概念及其分类 (1)统计调查的误差:指调查结果与总体真值间的差异。 (2)分为登记性误差和代表性误差:)分为登记性误差和代表性
12、误差: A、登记性误差:登记性误差:指在调查和汇总过程中由于观察、测量、登记、计算等方面的差错或被调查者提供虚假资料造成的误差。它是任何一种统计调查都可能产生的,可以避免。1/15/2022231、调查误差概念及其分类 (2)分为登记性误差和代表性误差:)分为登记性误差和代表性误差: B、代表性误差代表性误差 :指用样本指标推断总体指标时,由于样本结构与总体结构的不一致,样本不能完全代表总体而产生的误差。 代表性误差又分为系统误差和随机误差:a、系统误差又称偏差,指非随机因素引起的样本代表性不足产生的误差,可以避免;b、随机误差,又称偶然性误差、抽样误差,随机因素引起的代表性误差,不可避免,但
13、可以计算并加以控制。1/15/2022242、实际抽样误差 (1)实际抽样误差指某一具体样本的样本估计值 与总体参数 的真实值之间的离差 。实际中,总体参数 未知,误差无法计算。 平均数的误差: 成数的误差:p-P)(_Xx 1/15/2022252、实际抽样误差 (2)由于样本随机抽取,估计量是随样本不同而不同的随机变量,所以实际抽样误差是随机变量,可正可负,可大可小。就某个既定的抽样方案,样本估计量所有可能值有一定的分布规律,它们与总体参数的离差即抽样误差也有一定的规律。实际中真正计算、控制的误差并不是该误差。1/15/2022263、抽样平均误差(1)它是反映抽样误差一般水平的指标。常用
14、样本估计量的标准差反映所有可能样本估计量与其中心的平均离散程度,即抽样平均数或抽样成数的标准差,公式为:则抽样平均数、抽样成数的标准差分别为:可能样本个数2)()(E可能样本个数2_)()(xExx可能样本个数2)()(pEpp1/15/2022273、抽样平均误差 (2)又因为 ,则上式变为 反映所有可能样本的估计值与总体参数的平均差异程度,即抽样平均误差,可以衡量样本对总体的代表性大小,它越小则统计量的分布就越集中在总体参数的附近。 抽样平均数、抽样成数的标准差变为: 另一个概念是抽样方差 为抽样平均误差的平方。)(E)1.5()()(2可能样本个数可能样本个数2_)()(Xxx可能样本个
15、数2)()(Ppp)(V1/15/2022284、抽样极限误差 (1)它是指一定概率下样本指标与总体参数间抽样误差的可能范围,又称允许误差允许误差。因为总体参数确定,统计量围绕其左右变动,用统计量与总体参数之差的绝对值表示误差的可能范围。公式表示: 在一定概率下: 平均数、比例的抽样极限误差,在一定概率下,_xXxpPp1/15/2022294、抽样极限误差 (2)抽样极限误差是抽样误差的可能范围而非完全肯定范围,可能范围大小与这一估计的可能性大小即概率紧密联系,这个概率被称为置信度置信度或或可信程度可信程度、把握程度、概率保把握程度、概率保证程度证程度等等,表示为 ,其他条件不变的情况下,抽
16、样极限误差越大,置信度越大。11/15/2022304、抽样极限误差 (3)相关概念: 抽样误差率抽样误差率=(抽样极限误差/估计量) 100%,抽样估计精度=100%-抽样误差率 估计精度与置信度矛盾。其他条件不变下,提高估计置信度,增大允许误差,使精度降低;反之,提高精度会降低置信度。实际中根据具体情况,可先确定置信度再求极限误差或先确定极限误差再求相应的把握程度。1/15/202231 第二节第二节 抽样分布抽样分布 本节只讨论重复的简单随机抽样,所得容量为n的样本(x1, x2 xn)称为简单随机样本,它满足两个条件: x1, x2 xn相互独立;每个xi(i=1,2,n)都与总体X同
17、分布。 把握以下问题: 一、抽样分布的概念;一、抽样分布的概念; 二、抽样平均数的抽样分布;二、抽样平均数的抽样分布; 三、样本比例的抽样分布;三、样本比例的抽样分布; 四、不重复抽样的修正系数。四、不重复抽样的修正系数。1/15/202232一、抽样分布的概念一、抽样分布的概念 把握以下问题: 1、抽样分布的概念; 2、寻求抽样分布的方法。1/15/2022331、抽样分布的概念 (1 1)它是指样本统计量的概率分布。)它是指样本统计量的概率分布。每个随机变量都有其概率分布,样本统计量是随机变量,有若干可能取值,每个取值有一定的可能性即概率,从而形成统计量的概率分布。 样本统计量是由n个随机
18、变量构成的样本函数,抽样分布属于随机变量函数的分布。1/15/2022341、抽样分布的概念 (2)例如,总体有N个单位,随机抽取n个单位进行调查,可抽取 个样本,得 个不尽相同的样本平均数,将样本平均数全部可能取值及其出现的概率依序排列得到样本平均数的概率分布即平均数的抽样分布。同理得到比例的抽样分布、样本标准差的抽样分布。对于抽样分布,同样可以计算其均值和方差(或标准差)等数字特征反映该分布的集中、离散趋势。nNnN1/15/202235 1、抽样分布的概念 (3)抽样分布反映样本统计量的分布特征,是抽样推断的重要依据,根据其分布规律,可以揭示样本指标与总体参数间的关系,估计抽样误差,说明
19、抽样推断的可靠程度。1/15/202236 2、寻求抽样分布的方法 有精确方法精确方法和和大样本方法大样本方法,形成精确和渐近抽样分布。(1)当总体分布类型已知,对任一自然数n能导出统计量 的分布的明显表达式,称为精确方法精确方法,所得分布为精确分布精确分布。当n较小时特别有用,又称小样本方法小样本方法,大多是在正态总体条件正态总体条件下得到的。),(21nxxx1/15/202237 2、寻求抽样分布的方法 (2)大多数场合,精确分布很难求出或表达式复杂,借助极限定理,寻求n无限增大时统计量的极限分布,用极限分布当作所求抽样分布的近似,称为大样本方法大样本方法,这种极限分布称为渐近分布渐近分
20、布。 在抽样推断中,许多场合下统计量服从正态分布或以正态分布为渐近分布,此外还有 分布、 t分布、 F分布等精确抽样分布。2x1/15/202238二、抽样平均数的抽样分布二、抽样平均数的抽样分布 把握以下问题: 1 1、总体方差已知总体方差已知时,样本平均数时,样本平均数的抽样分布;的抽样分布; 2 2、总体方差未知总体方差未知时,样本平均数时,样本平均数的抽样分布。的抽样分布。1/15/202239 1 1、总体方差已知时,样本平均、总体方差已知时,样本平均数的抽样分布(大样本)数的抽样分布(大样本) (1)定理定理1:设总体 是一个简单随机样本,则样本平均数 证明:因为总体 是其一个简单
21、随机样本,所以 相互独立且都服从 ,由概率论知,相互独立的正态随机变量和服从正态分布,其线性函数也服从正态分布。),(),(212nxxxNX./)(,)(),/,(2_2_nxVxEnNx),(),(212nxxxNXnxxx,21).,(2NX1/15/202240 1、总体方差已知时,样本平均数的抽样分布(大样本)(1)定理1的证明:而且,所以, 将样本平均数标准化,有:) 4 . 6 (1)(1)/()() 3 . 6 (1)(1)/()(222_nnnxVnnxVxVnnxEnnxExEiiii)./,(2_nNx)5 . 6)(1 , 0(/)(_NnxxxZ1/15/202241
22、1、总体方差已知时,样本平均数的抽样分布(大样本) (2)定理)定理2:若总体平均数 和方差 有限,当样本容量n充分大时,无论总体形式如何,样本平均数 近似服从正态分布 (3)由定理知,样本平均数是以总体平均数为分布中心,且n愈大,样本平均数的离散程度愈小,抽样误差愈小。由此得出抽样平均数的标准差即抽样平均误差的公式为: 实际计算中,总体标准差未知,可用以前的标准差代替;大样本下,用样本标准差代替。)./,(2nN2_x)6 . 6()()(2_nnxVx1/15/2022421、总体方差已知时,样本平均数的抽样分布(大样本) (4)由公式(6.6)知,影响抽样平均误差的因素: A、总体方差或
23、标准差,即总体各单位变量值的差异程度; B、样本容量,容量越大,误差越小; C、抽样方法(重复、不重复抽样)和抽样组织方式(分层抽样、等距抽样等)。1/15/2022432、总体方差未知时,样本平均数的抽样分布(小样本) 定理定理3:设总体 是一个简单随机样本,样本均值为 ,样本标准差为S,则统计量),(),(212nxxxNX_xnnnxxSntnSxt1,1)().1(/2_大样本其中1/15/202244 三、样本比例的抽样分布三、样本比例的抽样分布 把握以下问题: 1、总体比例与样本比例; 2、样本比例的抽样分布。1/15/202245 1、总体比例与样本比例、总体比例与样本比例 总体
24、中具有某种特征的单位占全部单位的比例称作总体比例总体比例,记做,记做P;样本中具有此种特征的单位占全部样本单位的比例称作样本比例样本比例,记做,记做p。 实际中如产品的合格率、某电视节目的收视率等。1/15/202246 2、样本比例的抽样分布、样本比例的抽样分布 (1)X服从二项分布,且有E(X)=nP,V(X)=nP(1-P),当从总体中抽出一个容量为n的样本时,样本中具有某种特征的单位数x服从二项分布,即xB(n,p),因而样本比例p=x/n也服从二项分布,且有:)10. 6)(1 (1)(1)()()9 . 6()(1)()(2PPnxVnnxVpVPxEnnxEpE1/15/2022
25、47 2、样本比例的抽样分布 (2)根据中心极限定理,当 二项分布趋于正态分布,大样本下,若nP、n(1-P)皆大于5,样本比例近似服从正态分布:pN(P,P(1-P)/n),则比例的抽样平均误差为: 实际中,用以前的总体比例或样本比例 p 代替。,n)12. 6()1 ()()(nPPpVp1/15/202248 四、不重复抽样的修正系数四、不重复抽样的修正系数 1、与重复抽样比,由于样本单位不重复,样本单位很可能在总体中更均匀的分布,从而样本结构更能与总体结构近似,因此不重复抽样所得样本对总体的代表性更大,抽样误差较小。 前面所讲的抽样分布和抽样平均误差公式都是就重复抽样而言。 1/15/
26、202249四、不重复抽样的修正系数 2、不重复抽样的抽样平均误差为: 其中 称为不重复抽样的修正系数,N很大时, 其他条件相同下, 不重复抽样误差小于重复抽样。当N很大而n很小时,系数接近1,二者相差不大。因此,无限总体都可以用重复抽样的平均误差公式度量抽样误差;有限总体当抽样比例很小时(一般小于5%),也常用重复抽样公式计算。)14.6()1()1()1()1()()13.6()1()1()(22_NnnppNnNnpppNnnNnNnx1NnNNnNnN111/15/202250第三节第三节 抽样组织方式及其抽样分布抽样组织方式及其抽样分布 把握以下问题: 一、简单随机抽样;一、简单随机
27、抽样; 二、分层抽样;二、分层抽样; 三、等距抽样;三、等距抽样; 四、整群抽样;四、整群抽样; 五、抽样组织方式的选择。五、抽样组织方式的选择。1/15/202251一、简单随机抽样一、简单随机抽样 它是最基本的抽样组织方式,常用方法有抽签法、利用随机数表取数法和电子计算机取数法。 它队对总体单位不进行任何划分或排队,完全随机地直接从总体中抽取样本单位,使每个单位都有完全均等的机会被抽中,故又称纯随机抽样。 它只对总体单位进行编号。这样估计的效率低,进行大规模抽样调查时,工作不易展开。1/15/202252二、分层抽样及其抽样估计二、分层抽样及其抽样估计 把握以下问题: 1、分层抽样的概念及
28、特点; 2、等比例分层抽样方式; 3、抽样平均误差的计算; 4、例6-1。1/15/2022531、分层抽样的概念及特点、分层抽样的概念及特点 (1)也称类型抽样,它是按一定标志对总体各单位进行分类(或层、子总体),然后分别从每一类中按随机原则抽取一定的单位构成样本。例如,抽样调查一个城市居民收入分配状况,如果历史资料反映了该城市居民的贫富结构:高收入者、中等收入者与低收入者的比例结构,我们可以按此结构分类分别从高收入者、中等收入者与低收入者中按一定的比例抽取样本。1/15/2022541、分层抽样的概念及特点、分层抽样的概念及特点 (2)特点:类型抽样是统计分组与抽样原理的结合,可以提高样本
29、的代表性;不仅可以用样本推断总体,还可以推断子总体指标。 前提是对总体的结构有着一定的了解,为了充分利用这些信息,提高估计的精确性,对总体按确定标志进行分类,保证抽出的样本与总体尽可能保持相似的结构。1/15/202255 2、等比例分层抽样方式、等比例分层抽样方式 分层抽样可分为等比例和不等比例分层抽样,实际中采用等比例分层抽样。 (1)设总体由N个单位组成,按对总体的认识,把总体分为k组,使得: 然后相应从各组中分别按随机方式抽出个单位组成样本。设样本容量为n,它满足:kNNNN21knnnn211/15/202256 2、等比例分层抽样方式、等比例分层抽样方式 (2)比例抽样方式就是从每
30、一类 抽取 时要求两者间保持合适的比例,也就是保持各组样本单位数与总体同组单位数之比,等于样本容量与总体单位数之比,即 所以各组的样本单位数应为: NnNnNn2211NnNnii), 2 , 1(ki1/15/2022573、抽样平均误差的计算和区间估计、抽样平均误差的计算和区间估计 (1)步骤:设样本是: 样本抽出来后: 第一步:计算各组平均数 第二步:将各组平均数以各组单位数或各样本组单位数为权数,进行加权平均,求出样本平均数1,21knkkxxx111211,nxxx,ijijinxx), 2 , 1(kinxnNxNxiiii1/15/2022583、抽样平均误差的计算和区间估计、抽
31、样平均误差的计算和区间估计 (1)步骤:第三步:计算分层抽样的抽样平均误差,第i组的组内标准差为 第i组 的抽样平均误差为: 即为 的方差 ,表示从第i组中抽样计算平均数的方差 ,样本平均数 的方差为 ,样本平均数的抽样平均误差为 记 表示组(层)内方差平均数。iiiinxx2ixiixniix2ixx2222nnixixnnnnnnnxiiiiiixx222222_1)(_或nniii22x1/15/202259 3、抽样平均误差的计算和区间估计、抽样平均误差的计算和区间估计 (1)步骤: 同样可计算在不重复抽样条件下的抽样平均误差为: Nnnix121/15/202260 3、抽样平均误差
32、的计算、抽样平均误差的计算 (2)分析:在分组下,总方差=组内方差平均数+组间方差,通过比较,分层抽样的抽样平均误差小于简单随机抽样的抽样误差。 对于给定的总体,总体方差一定,划分层时应尽量增大层间差异,缩小层内差异。因为层内差异越小。分层抽样的抽样平均误差越小,参数估计的效率越高。1/15/202261例6-1 某地区对居民在一年内用于某类消费的支出进行等比例分层抽样,结果见表,要求计算该地区平均每户支出的抽样平均误差和抽样极限误差。 调查户数平均支出(元) 方差 城镇 40 350 2209 农村 80 260 29161/15/2022624、例6-1 解:样本平均数是: 层内方差平均数
33、: 抽样平均误差: 抽样极限误差:元)(29080402608035040nxnxii33.2680804029168022094022nnii元)(726.412033.2680)(2_nx元)(452. 9726. 42)(_2_xzx1/15/202263三、等距抽样三、等距抽样 把握以下问题: 1、等距抽样的概念和特点; 2、无关标志排队等距抽样; 3、有关标志排队等距抽样。1/15/202264 1、等距抽样的概念和特点 (1)又称机械抽样或系统抽样,它是将总体各单位按某一标志进行排队,计算出抽样间隔,并在第一个抽样间隔内确定一个抽样起点,再按固定的顺序和间隔来抽取样本单位的抽样组织
34、形式。 根据需要抽取的样本单位数n和总体的单位数N,可以计算出等距抽样的间隔大小: K=N/n ,再从第一至第K个单位的范围内确定抽样起点,之后每隔K个单位抽取一个样本单位。1/15/202265 1、等距抽样的概念和特点 (2)优越性:提高样本单位分布的均匀性,样本代表性强,一般工作易开展,实际应用广泛。 但等距抽样在排队后,抽样起点一确定,整个样本就确定了。其随机性体现在排队和抽样起点的确定上。 按排队标志与调查内容的关系,等距抽样分为无关标志、有关标志排队等距抽样,二者抽样起点确定方式、抽样效果不同。1/15/202266 2、无关标志排队等距抽样 (1)它是指等距抽样据以排队的标志与调
35、查内容没有直接关系。例如,城市居民家计调查时,将居民按其居住的街道门牌号码排队;产品质量检查按产品生产的时间先后顺序排队,每个一定时间或每生产一定数量的产品抽取一单位产品。1/15/2022672、无关标志排队等距抽样(2)抽样起点的确定:从所要调查的标志看,总体单位的排序仍是随机的,抽样起点r可以随机确定,即1r K,遵循随机原则,避免系统偏差。(3)无关标志排队等距抽样的效果接近于简单随机抽样的效果,其抽样误差通常按简单随机抽样的抽样误差公式近似计算。1/15/202268 3、有关标志排队等距抽样 (1)它是指排队标志与调查内容有关,例如职工家计调查按职工工资水平排队。 (2)在排队后,
36、从所调查变量看,总体单位也大致呈顺序排列,其抽样起点不宜随机确定。否则,若第一个间隔内随机抽取一个标志值较小(或大)的单位作起点,整个样本会出现偏低(或高)的系统偏差。1/15/2022693、有关标志排队等距抽样 (3)半距起点等距抽样(中心系统抽样):以第一个抽样距离的一半为抽样起点(r=k/2)并每间隔k个单位抽一个单位。这样样本单位是处于每个抽样距离(组)中点的总体单位。因单位变量值大致呈顺序排列,所以这些单位变量值能代表所在间距内的一般水平,由此样本代表性较高。但这种取样限制抽样的随机性,且只能抽取出一个样本。1/15/202270 3、有关标志排队等距抽样 (4)对称等距抽样:在第
37、一个间距内随机确定起点r( 1r k),然后以组界k,2k,(n-1)k为对称点两两对称地抽取样本单位,看书上图,知第一组内r偏小,但第二组内样本单位(2k-r)偏大;反之,第二组内r偏大,则第二个样本单位偏小,这样整体看,样本有较好的代表性,又保证抽样的随机性,根据排队结果可以抽出k个样本1/15/2022713、有关标志排队等距抽样 (5)有关标志排队等距抽样相当于分层较多(将总体分为同等大小的n个层)而每层只抽取一个调查单位的分层抽样,所以抽样效果类似于分层抽样,抽样误差一般按分层抽样的误差公式近似计算。1/15/202272四、整群抽样四、整群抽样 把握以下问题: 1、整群抽样的概念和
38、特点; 2、整群抽样的抽样平均误差; 3、例6-2。1/15/202273 1、整群抽样的概念和特点、整群抽样的概念和特点 (1)整群抽样又称集团抽样,就是将总体各单位分成若干群,然后从其中随机抽取部分群,对中选的群进行全面调查的抽样组织方式。例如居民家计调查,以一个乡(或街道)的所有住户或所有人口为一群,对抽中的乡或街道的住户或人口进行全面调查。1/15/202274 1、整群抽样的概念和特点 (2)这种方式是整群的抽取样本单位,只需对各群编号,简化工作,抽样单位集中,便于集中调查,简单方便又节省人力、物力、财力和时间,应用广泛。 但抽样单位集中,抽样单位在总体中分布不够均匀。在其他条件相同
39、下,其样本代表性可能较差,要适当多抽一些样本单位。1/15/202275 2、整群抽样的抽样平均误差 (1)整群抽样的代表性取决于抽中群之间的差异,差异大,代表性差。因此其误差与群间差异有关,与群内差异无关。 (2)设总体的全部N个单位被划分为R群,每群含有M个单位。现在从总体R群中随机抽出r群组成样本,对中选的群中的所有单位进行全面调查。群的平均数是: 样本均值是:MxxMjiji1ri,2,1rxrMxxriiriMjij1111/15/202276 2、整群抽样的抽样平均误差 (2)从上式可以看出,整群抽样实质上是以群代替总体单位,以群平均数代替总体单位标志值之后的简单随机抽样。群间方差
40、是: 或者由样本数据估计: 因此,样本平均数的抽样平均误差是: 上式中出现修正系数 ,这是因为整群抽样都采用不重复抽样。RXXiB22122rxxSiB)1 (1)(22_RrrRrRrxBB1RrR1/15/2022772、整群抽样的抽样平均误差(3)比较简单随机抽样与整群抽样的抽样误差公式,知n/N和r/R都是总体比例,差别在前者取决于总体方差和样本单位数,后者取决于群间方差和样本群数。 在其他条件相同下, 整群抽样的误差大于简单随机抽样的误差。时即当22222BBmrrMn1/15/2022782、整群抽样的抽样平均误差 (4)由上知,整群抽样划分群时,应使群间差异尽可能小,群体内的总体
41、单位间的差异尽可能大。 对群体的划分可以是人为的或自然形成的。 人为划分可以要求群体大小相等或接近,如产品分装、职工分班组等。自然形成的群体大小不等,如按街道、乡村划分居民群体等。 当群体大小相等或接近时,样本群体的抽取和参数估计简单;当群体大小悬殊时,宜采用与群体规模成比例的不等概率的抽样方法抽取样本群体,其参数估计公式不同。一般使各群体所含总体单位数尽可能相等。1/15/2022794、例6-2 某商场有某种饮料500箱、每箱6瓶,现随机抽取10箱检查每瓶的含菌数,则得这10箱的平均每瓶含菌数分别为:90、80、65、85、75、70、50、70、60、65个。要求推断这批饮料的平均含菌数
42、及抽样平均误差。 解:样本平均数 (个)7110656080901rxxrii1/15/202280 4、例6-2 解:样本群间方差: 抽样平均误差为:33.143110)7165()7190(12222rxxSiB(个)75.3)500101 (1033.143)1 ()(2_RrrxB1/15/202281五、抽样组织方式的选择五、抽样组织方式的选择 1、几种抽样组织方式各有特点和前提条件、适用场合,实际中在方式选择上考虑: (1)调查对象的性质特点,对调查对象的了解程度; (2)抽样误差的大小; (3)人力、物力和财力的条件等。 一般复杂的抽样组织方式如分层抽样,抽样误差小,但需要较多人
43、力、物力和财力;简单的抽样组织方式,抽样误差大,耗费较少。1/15/202282 五、抽样组织方式的选择五、抽样组织方式的选择 2、实际中两种或多种抽样组织方式结合使用,如分层抽样与等距抽样结合。 对大规模抽样调查采用多阶段抽样,它是指分两个或两个以上的阶段来完成抽取样本单位的过程。如我国的城市职工家计调查采用三阶段抽样:先选调查城市,再从抽中城市中分部门抽选基层单位,最后从抽中的基层单位中抽取调查户。它根据需要和可能,综合运用几种组织方式,一般前阶段选择分层抽样或有关标志排队等距抽样,后面阶段采用简单随机抽样或无关标志排队等距抽样。1/15/202283本章思考题本章思考题 1.抽样?抽样框?怎样编制抽样框?抽样?抽样框?怎样编制抽样框? 2.抽样平均误差、抽样极限误差?它们之抽样平均误差、抽样极限误差?它们之间的关系?间的关系? 3.确定必要的抽样数目有何意义?必要抽确定必要的抽样数目有何意义?必要抽样数目受哪些因素影响?样数目受哪些因素影响? 4.基本的抽样组织方式有哪几种?它们各基本的抽样组织方式有哪几种?它们各有什么特点?有什么特点? 5.抽样估计的方法有哪些?如何进行?抽样估计的方法有哪些?如何进行?1/15/202284作业题作业题 第第2版教材:版教材:157页第页第1、2、7题。题。1/15/202285
限制150内