统计学基础学习知识第七章抽样推断.doc
,.统计学基础 第七章 抽样推断【教学目的】1.理解抽样推断的含义及特点2.深刻理解抽样误差产生的原因3.对抽样误差、抽样平均误差、抽样极限误差加以区别4.了解各种抽样组织形式的特点5.重点掌握简单随机抽样组织形式的区间估计方法6.掌握必要样本单位数的确定方法【教学重点】1.理解抽样推断中的几个基本概念(总体指标、样本指标、平均数、成数、方差、标准差)。2.理解抽样误差的概念3.理解和运用不同抽样方法下计算抽样误差4.掌握简单随机抽样组织形式的区间估计方法6.掌握必要样本单位数的确定方法【教学难点】1.理解抽样推断中的几个基本概念(总体指标、样本指标、平均数、成数、方差、标准差)。2.理解抽样误差的概念3.理解和运用不同抽样方法下计算抽样误差4.掌握简单随机抽样组织形式的区间估计方法6.掌握必要样本单位数的确定方法【教学时数】教学学时为10课时【教学内容参考】第一节 抽样推断的意义一、抽样推断的含义 (一)抽样推断的特点抽样推断又称为抽样估计,它是在抽样调查的基础上,利用样本实际资料计算样本指标,并据以推算总体相应数量特征的一种统计调查方式。【案例】从全国所有股份制企业中,抽取一部分企业,详细调查其生产经营状况,根据这一部分企业的调查资料,来推算所有股份制企业的生产经营状况,这就属于抽样推断。抽样推断有以下几个特点:1.按随机原则从总体中抽取调查单位。所谓随机原则是指在抽取调查单位时,总体中每个单位都有同等被抽中的机会,完全排除了人为主观意识的影响,哪个单位抽中与否,纯粹是随机的、偶然的。按随机原则抽取调查单位是进行抽样推论的基本要求。2.根据被抽取的调查单位,计算各种指标,并对总体的指标作出估计。 3.抽样推断中的抽样误差可以事先计算并加以控制,从而保证抽样推断的结论符合预定的精确度和可靠度要求。 (二)抽样推断的作用 抽样推断的主要作用有: 1.对某些不可能进行全面调查而又需要了解全面情况的社会经济现象,可以采用抽样推断方式。另外,对于无限总体也不可能进行全面调查,只能采用抽样推断方式。2.对于某些不必要或在经济上不允许经常采用全面调查的社会经济现象,最适宜采用抽样推断方式。3.对于需要及时了解情况的现象,也经常采用抽样推断方式。因为全面调查浪费人力、物力和财力,资料也不易及时取得,而抽样推断方式不仅节省人力、资金,且时间快,方式灵活,能够及时满足了解情况的需要。4.对全面调查的资料进行评价和修正。全面调查由于范围广、工作量大、参加的人员多,发生登记性误差的可能性就大。因此,为了保证全面调查资料的准确性,检验全面调查资料的质量,在全面调查之后,一般都要进行抽样推断。在总体中再抽取一部分单位重新调查,然后将两次调查的资料进行比较,计算出差错率,并据此对全面调查的资料加以修正。5.抽样推断还可以用于工业生产过程中的质量控制。【能力训练】下列事项属于抽样推断的有( )。 为了测定车间的工时损失,对车间中的每三班工人中的第一班工人进行调查。 为了解某大学食堂卫生状况,对该校的五个食堂进行调查。 对某城市1%的家庭进行调查,以便研究该城市居民的消费状况。对某公司三个分厂中的一个分厂进行调查,以便研究该工厂的能源利用效果。 二、抽样的基本概念 (一)总体和样本 总体又称全及总体。它是根据研究目的,由全部调查单位所组成的集合体。总体的单位数通常都是很大的,甚至是无限的,这样才有必要组织抽样调查,进行抽样推断。总体单位数一般用符号N表示。 样本又称子样。它是从总体中随机抽取出来的部分调查单位所组成的集合体。样本的单位数是有限的。样本单位数一般用符号n表示,也称样本容量。 对于某一特定研究问题来说,作为推断对象的总体是确定的,而且是惟一的。但由于从一个总体中可以抽取许多个样本,所以作为观察对象的样本,不是惟一的,而是可变的。明白这一点对于理解抽样推断原理是很重要的。 (二)总体指标和样本指标 总体指标又称参数。它是根据总体各单位的标志表现计算的综合指标。 对于总体中的数量标志,可以计算的总体指标有总体平均数、总体方差2 (或总体标准差)。设总体变量X的取值为:X1,X2,则 对于总体中的品质标志,由于各单位品质标志不能用数量来表示,因此,可以计算的总体指标有总体成数、总体成数方差或总体成数标准差P)。 设P表示总体中具有某种性质的单位数在总体单位数中所占的比重,Q表示总体中不具有某种性质的单位数在总体单位数中所占的比重。在总体N个单位中,有N1 个单位具有某种性质,N0 个单位不具有某种性质,N=N1 +N0 。则 如果总体中的品质表现只有“是”、“非”两种。例如,产品质量的标志表现为合格和不合格,人口性别的标志表现为男性和女性,则可以把“是”的标志表现表示为1,而“非”的标志表现表示为0。那么成数P就可以视为(0,1)分布的相对数,并可以计算相应的方差(或标准差)。其计算公式为 在抽样推断中,总体指标的意义和计算方法是明确的,但总体指标的具体数值事先是未知的,需要用样本指标来估计它。样本指标又称统计量。它是根据样本各单位的标志表现计算的、用来估计总体指标的综合指标。可以计算的样本指标有样本平均数、样本方差s2和样本成数P等。设样本变量x的取值为x1,x2,xn,则 在抽样推断中,样本指标的计算方法是确定的,但它的取值随着样本的不同,有不同的样本变量。所以,样本指标本身是随机变量,用它作为总体指标的估计值,有时误差大些,有时误差小些;有时产生正误差,有时产生负误差。 【能力训练】总体指标和样本指标( )。都是随机变量都是确定性变量 前者是惟一确定的,后者是随机变量前者是随机变量,后者是惟一确定的三、抽样方法在抽样调查中,从总体中抽取样本单位的方法有两种:重复抽样和不重复抽样。(一)重复抽样 重复抽样也称重置抽样、放回抽样、回置抽样等。它是指从总体N个单位中随机抽取容量为n的样本时,每次抽取一个单位,把结果登记下来后,重新放回,再从总体中抽取下一个样本单位。在这种抽样方式中,同一单位可能有被重复抽中的机会。可见,重复抽样的总体单位在各次抽取中都是不变的,每个单位中选的机会在每次抽取中都是均等的。 用重复抽样的方法从总体N个单位中抽取n个单位组成样本,可能得到的样本总数为Nn个。(二)不重复抽样不重复抽样也称不重置抽样、不放回抽样、不回置抽样等。它是指从总体N个单位中随机抽取容量为n的样本时,每次抽取一个单位后,不再放回去,下一次则从剩下的总体单位中继续抽取,如此反复,最终构成一个样本。也就是说,每个总体单位至多只能被抽中一次,所以从总体中每抽取一次,总体就少一个单位。因此,先后抽出来的各个单位被抽中的机会是不相等的。用不重复抽样的方法从总体N个单位中抽取n个单位组成样本,可能得到的样本总数为。不考虑顺序的组合数为。 可见,在相同样本容量的要求下,不重复抽样可能得到的样本个数比重复抽样可能得到的样本个数少。当采用不重复抽样、而全及总体所包含的单位数又不多时,越到后来,留在总体中的单位就越少,被抽中的机会就越大。不过当全及总体单位数很多、样本总体单位数所占的比重很小时,则对先后抽出来的各个单位被抽中的机会影响不大。由于不重复抽样简便易行,所以在实际工作中经常被采用。第二节 抽样误差一、抽样误差的含义在抽样推断中,用样本指标推断总体指标,总会存在一定的误差,其误差来源主要有两个方面:(一)登记性误差即在调查和整理资料的过程中,由于主、客观因素的影响而引起的误差,如在登记的过程中由于疏忽而将3误写为8,将1误写为7;在计算合计的过程中所造成的计算错误等。(二)代表性误差即由于样本的结构情况不足以代表总体特征而导致的误差。代表性误差的产生又有两种情况:一种是违反了抽样推断的随机原则,如调查者有意地多选较好的单位或多选较差的单位来进行调查,这样计算出来的样本指标必然出现偏高或偏低的情况,造成系统性误差,也称为偏差。另一种情况是遵守了抽样推断的随机原则,但由于从总体中抽取样本时有多种多样的可能,当取得一个样本时,只要被抽中样本的内部结构与被研究总体的结构有所出入,就会出现或大或小的偶然性的代表性误差,也称为随机误差。系统性误差和登记性误差都是由于抽样工作组织不好而导致的,应该采取预防措施避免发生。而偶然性的代表性误差是无法消除的。抽样误差就是指这种偶然性的代表性误差,即按随机原则抽样时,单纯由于不同的随机样本得出不同的估计量而产生的误差。抽样误差是抽样推断所固有的,虽然它无法避免,但可以运用大数定律的数学公式加以精确地计算,确定其具体的数量界限,并通过抽样设计加以控制。所以这种抽样误差也称为可控制误差。 【能力训练】抽样误差是( )。 样本数目过少引起的观察、测量、计算的失误引起的抽样过程中的偶然性因素引起的抽样推断中产生的系统性误差二、抽样平均误差 (一)抽样平均误差的含义 抽样误差描述了样本指标与总体指标之间的离差绝对数,在用样本指标估计相应的总体指标时,它可以反映估计的准确程度。但是由于抽样误差是随机变量,具有取值的多样性和不确定性特点,因而就不能以它的某一个样本的具体误差数值来代表所有样本与总体之间的平均误差情况,应该用抽样平均误差来反映抽样误差平均水平。 所谓抽样平均误差,就是所有可能出现的样本指标(平均数或成数)的标准差,也可以理解为所有的样本指标与总体指标之间的平均离差。我们所说的抽样误差可以事先计算和控制,就是针对抽样平均误差而言的。抽样平均误差是用样本指标推断总体指标时,计算误差范围的基础。 抽样平均误差的计算,与抽样方法和抽样组织形式有直接关系,不同的抽样方法和抽样组织形式计算抽样平均误差的公式是不同的。 (二)抽样平均误差的计算 在实际工作中,只求得一个样本指标,无法得到抽样平均误差(即样本指标的标准差),因而常常是根据抽样平均误差和总体标准差的关系来推算。样本平均数的抽样平均误差计算公式如下: 在一般情况下,总体平均数是未知的。当样本较多时,可用样本平均数的平均数来代替(这已经得到证明)。而在实际工作中,通常只需从总体中抽取一个样本,这样就可以根据总体标准差和样本单位数的关系来计算。 1.重复抽样条件下抽样平均误差的计算 数理统计可以证明:在重复抽样条件下,抽样平均误差与总体标准差成正比,与样本单位数的平方根成反比。故在已知总体标准差的条件下,可用下面的公式计算样本平均数的抽样平均误差: 在大样本(n30)下,如果没有总体标准差的资料,可用样本标准差s来代替,其公式如下: 相应地有样本成数的抽样平均误差公式: 同样,在大样本下,如果P未知,可用样本成数p来代替,即 总体成数方差还有一个特点,就是它的最大值是0.50.5=0.25,也就是说,当两类总体单位各占一半时,它的变异程度最大,方差为25%,标准差则为50%。因此,在总体成数方差值未知时,可用其最大值来代替,这样会使计算出来的抽样平均误差偏大一些,一般而言这对推断认识有益而无害。2.不重复抽样条件下抽样平均误差的计算对上述重复抽样下的公式作如下修正: 不重复抽样的平均误差和重复抽样的平均误差公式,两者相差的因子()永远小于1。在不重复抽样下,抽中的单位不再放回,总体单位数逐渐减少,余下的每个单位被抽中的机会就会增大,所以不重复抽样的抽样平均误差小于重复抽样的抽样平均误差,这就是用因子()作为调整系数来修正原式的道理。但在抽中单位占全体单位的比重很小时,这个因子接近于1,对于计算抽样平均误差所起的作用不大。因而实际工作中不重复抽样有时仍按重复抽样的公式计算。 抽样平均误差的计算,在抽样调查中占有相当重要的地位。抽样调查的优点在于它能计算出抽样平均误差,且以抽样平均误差作为用样本指标推断总体指标的重要补充指标。三、影响抽样平均误差的因素影响抽样平均误差的因素主要有:(一)样本单位数的多少 在其他条件不变的情况下,样本单位数愈多,抽样误差就愈小;反之,样本单位数愈少,则抽样误差就愈大。样本单位数越大,样本就越能反映总体的数量特征,如果样本单位数扩大到接近总体单位数时,抽样调查也就接近于全面调查,抽样误差就缩小到几乎完全消失的程度。 (二)总体被研究标志的变异程度 在其他条件不变的情况下,总体各单位标志值变异程度愈小,则抽样误差也愈小,抽样误差和总体变异程度成正比变化。这是因为总体变异程度小,表示总体各单位标志值之间的差异小,则样本指标与总体指标之间的差异也就小。如果总体各单位标志值相等,则标志变异程度等于0,样本指标就完全等于总体指标,抽样误差也就不存在了。 (三)抽样的组织形式和抽样方法 在其他条件不变的情况下,不重复抽样下的样本比重复抽样下的样本代表性强,其抽样误差相应也要小。在不同的抽样组织形式下,抽样误差也不同。 了解影响抽样误差的因素,对于控制和分析抽样误差十分重要。在上述影响抽样误差的三个因素中,标志变异程度是客观存在的因素,是调查者无法控制的,但样本单位数、抽样方法及抽样的组织形式却是调查者能够选择和控制的。因此,在实际工作中,应当根据研究的目的和具体情况,做好抽样设计和实施工作,以获得经济有效的抽样效果。四、抽样极限误差 (一)抽样极限误差的含义 抽样极限误差是从另一个角度来考虑抽样误差问题的。用样本指标推断总体指标时,要想达到完全准确和毫无误差,几乎是不可能的。样本指标和总体指标之间总会有一定的差距,所以在估计总体指标时就必须同时考虑误差的大小。我们不希望误差太大,因为这会影响样本资料的价值。误差愈大,样本资料的价值便愈小,当误差超过一定限度时,样本资料也就毫无价值了。所以在进行抽样推断时,应该根据所研究对象的变异程度和分析任务的需要确定允许的误差范围,在这个范围内的数字就算是有效的。这就是抽样极限误差的问题。 抽样极限误差是指样本指标和总体指标之间抽样误差的可能范围。由于总体指标是一个确定的数,而样本指标则是围绕着总体指标左右变动的量,它与总体指标可能产生正离差,也可能产生负离差,样本指标变动的上限或下限与总体指标之差的绝对值就可以表示抽样误差的可能范围。 设分别表示样本平均数的抽样极限误差和样本成数的抽样极限误差,则有:上面的不等式可以变换为下列不等式关系: 上面第一式表明样本平均数 是以总体平均数为中心,在至至之间变动的,区间称为样本平均数的估计区间,区间的长度为2,在这个区间内样本平均数和总体平均数之间的绝对离差不超过。同样,上面第二式表明,样本成数是以总体成数P为中心,在至之间变动的,在区间内样本成数与总体成数的绝对离差不超过。由于总体平均数和总体成数是未知的,它需要用实测的样本平均数和样本成数来估计,因而抽样极限误差的实际意义是希望估计区间能以一定的可靠程度覆盖总体平均数,能以一定的可靠程度覆盖总体成数P,因而上面的不等式应变换为 (二)抽样极限误差的计算 基于概率估计的要求,抽样极限误差通常需要以抽样平均误差或为标准单位来衡量。把抽样极限误差或分别除以或,得相对数t,它表示误差范围为抽样平均误差的若干倍,t是测量估计可靠程度的一个参数,称为抽样误差的概率度。 抽样估计的概率度是表明样本指标和总体指标的误差不超过一定范围的概率保证程度。由于样本指标随着样本的变动而变动,它本身是一个随机变量,因而样本指标和总体指标的误差仍然是一个随机变量,并不能保证误差不超过一定范围这个事件是必然事件,而只能给以一定程度的概率保证。因此,就有必要计算样本指标落在一定区间范围内的概率,这种概率称为抽样估计的概率保证程度。根据抽样极限误差的基本公式=t得出,概率度t的大小要根据对推断结果要求的把握程度来确定,即根据概率保证程度的大小来确定。概率论和数理统计证明,概率度t与概率保证程度F(t)之间存在着一定的函数关系,给定t值,就可以计算出F(t)来;相反,给出一定的概率保证程度F(t),则可以根据总体的分布,获得对应的t值。在实际应用中,因为我们所研究的总体大部分为正态总体,对于正态总体而言,为了应用的方便编有正态概率表以供使用。根据正态概率表,已知概率度t可查得相应的概率保证程度F(t);相反,已知概率保证程度F(t)也可查得相应的概率度t。 从抽样极限误差的计算公式来看,抽样极限误差与概率度t和抽样平均误差三者之间存在如下关系: 1.在值保持不变的情况下,增大t值,抽样极限误差也随之扩大,这时估计的精确度将降低;反之,要提高估计的精确度,就得缩小t值,此时概率保证程度也会相应降低。 2.在t值保持不变的情况下,如果值小,则抽样极限误差就小,估计的精确度就高;反之,如果值大,抽样极限误差就大,估计的精确度就低。 由此可见,估计的精确度与概率保证程度是一对矛盾,进行抽样估计时必须在两者之间进行慎重的选择。【能力训练】在一定的误差范围要求下( )。 概率度大,要求可靠性低,样本数目相应要多概率度大,要求可靠性高,样本数目相应要多概率度小,要求可靠性低,样本数目相应要少概率度小,要求可靠性高,样本数目相应要少概率度小,要求可靠性低,样本数目相应要多第三节 抽样估计 抽样估计是指利用实际调查的样本指标的数值来估计相应的总体指标的数值的方法。由于总体指标是表明总体数量特征的参数,例如总体平均数、总体成数等,所以抽样估计也称为参数估计。参数估计有点估计和区间估计两种方法。一、点估计 点估计的基本特点是,根据样本资料计算样本指标,再以样本指标数值直接作为相应的总体指标的估计值。例如,以实际计算的样本平均数作为相应总体平均数的估计值;以实际计算的样本成数作为相应总体成数的估计值等等。设以样本平均数作为总体平均数的估计值,样本成数p作为总体成数P的估计值。 点估计的优点是原理直观,计算简便,在实际工作中经常采用。不足之处是这种估计方法没有考虑到抽样估计的误差,更没有指明误差在一定范围内的概率保证程度。因此,当抽样误差较小,或抽样误差即使较大也不妨碍对问题的认识和判断时,才可以使用这种方法。二、区间估计 (一)区间估计的含义 区间估计的基本特点是,根据给定的概率保证程度F(t)的要求,利用实际样本资料,给出总体指标估计值的上限和下限,即指出可能覆盖总体指标的区间范围。也就是说,区间估计要解决两个问题: 第一,根据样本指标和误差范围估计出一个可能包括总体指标的区间,即确定出估计区间的上限和下限。 第二,确定出估计区间覆盖总体未知参数的概率保证程度。区间估计的基本公式有 从而得到总体平均数的估计区间:总体成数的估计区间:(二)区间估计的模式 在进行区间估计的时候,根据所给定条件的不同,总体平均数和总体成数的估计有以下两套模式可供选择使用。 1.根据已给定的误差范围,求概率保证程度。具体步骤是:第一步,抽取样本,计算样本指标,即计算样本平均数或样本成数p,作为总体指标的估计值,并计算样本标准差s以推算抽样平均误差。第二步,根据给定的抽样极限误差,估计总体指标的上限和下限。 第三步,将抽样极限误差除以抽样平均误差,求出概率度t,再根据t值查正态概率表求出相应的概率保证程度。【案例】对工厂生产设备中某种型号的机械零件进行耐磨性能检验,抽查的样本资料见表7-5,要求耐磨时数的允许误差范围为10小时(=10)。试估计这批机械零件的平均耐磨时数。 表7-5 某型号机械零件耐磨性能资料耐磨时数(小时)组中值x(小时)零件数f(个)900以下87519009509252950100097561000105010253510501100107543110011501125911501200117531200以上12251合计-100 第一步,计算,s, 注意:总体标准差以样本标准差s代替第二步,根据给定的=10,计算总体平均数的上、下限:下限=1055.5-10=1045.5(小时)上限=1055.5+10=1065.5(小时)第三步,根据,查正态概率表得概率保证程度F(t)=94.64%。 推断的结论是:根据要求耐磨时数的允许误差范围为10小时,估计这批机械零件耐磨时数在(1045.5,1065.5)之间,其概率保证程度为94.64%。【案例】仍用表7-5中的资料,设该种型号零件质量标准规定,耐磨时数达1000小时以上为合格品,要求合格率估计的允许误差范围不超过4%,试估计该批机械零件的合格率。第一步,计算p,,第二步,根据给定的=4%,求总体合格率的上、下限:下限=91%-4%=87%上限=91%+4%=95% 第三步,根据=1.4,查正态概率表得概率F(t)=83.85%。 推断的结论是:根据要求,合格率允许误差范围不超过4%,估计这批零件的合格率在(87%,95%)之间,其概率保证程度为83.85%。 2.根据已给定的概率保证程度,求抽样极限误差。具体步骤是: 第一步,抽取样本,计算样本指标,即计算样本平均数或样本成数p,作为总体指标的估计值,并计算样本标准差s以推算抽样平均误差。 第二步,根据给定的概率保证程度F(t),查概率表求得概率度t值。 第三步,根据概率度t和抽样平均误差推算出抽样极限误差,并根据抽样极限误差求出被估计总体指标的上限和下限。【案例】对我国某中等城市进行居民家庭年人均旅游消费支出调查,随机抽取400户居民家庭,调查得知居民家庭年人均旅游消费支出额为400元,标准差为100元,要求以95%的概率保证程度,估计该市年人均旅游消费支出额。第一步,根据已知资料算得年人均消费支出额=400(元)样本标准差s=100(元)注意:总体标准差以样本标准差s代替第二步,根据给定的概率保证程度F(t)=95%,查正态概率表得t=1.96。第三步,计算=1.965=9.80,则该市居民家庭年人均旅游消费支出额:下限=400-9.80=390.20(元)上限=400+9.80=409.80(元) 结论:在95%的概率保证程度下,估计该市居民家庭年人均旅游消费支出额在(390.20,409.80)之间。【案例】为了解国内旅游人数情况,在一些地区随机调查5000人,结果发现800人有当年国内旅游计划,要求以95%的概率保证程度,估计国内旅游人数比率的可能范围。第一步,根据已知资料算得注意:P(1-P)用p(1-p)代替第二步,根据给定的概率保证程度F(t)=95%,查正态概率表得概率度t=1.96。第三步,计算=1.960.518%=1.015%则总体比率的上、下限为:下限=16%-1.015%=14.985%上限=16%+1.015%=17.015% 结论:在95%的概率保证程度下,估计国内旅游人数的比率在15%,17%之间。第四节 必要样本单位数的确定一、样本单位数的确定【引言】科学地组织抽样调查,保证随机抽样条件的实现,并合理有效地取得各项数据,是抽样设计中一个至关重要的问题。注意相关问题如下:首先要保证随机原则的实现。其次,样本单位数确定。 再次,科学选择抽样组织形式。最后,还必须重视调查费用这个基本因素。实际上任何一项抽样调查都是在一定费用的限制下进行的。抽样设计应该力求采用调查费用最省的方案。一般地说,提高精确度的要求与节省费用的要求往往有矛盾,抽样误差要求愈小,则调查费用需要愈多。因此,抽样误差最小的方案并非是最好的方案,在许多情况下,允许一定范围的误差仍能够满足分析的要求。我们的任务就是在允许的误差要求下,选择费用最少的抽样设计方案。综上所述,抽样设计应该掌握两个基本原则: 第一,保证实现抽样的随机原则,即保证总体各单位的相互独立性,以及任何一个单位在每次抽样中被抽中机会的均等性。 第二,保证实现最大的抽样效果原则,即在一定的调查费用下,选取抽样误差最小的方案;或在给定调查精确度的要求下,选取调查费用最省的方案。 (一)根据平均数的抽样极限误差确定样本单位数 影响抽样误差的因素之一,是样本单位数的多少。在抽样调查中,事先确定必要的样本单位数,是一项重要的工作。由于样本单位数n是抽样极限误差公式的组成部分,所以可以根据抽样极限误差公式推导出样本单位数。以简单随机抽样为例,测定总体平均数所必需的样本单位数n。 1.重复抽样条件下: 2.不重复抽样条件下: (二)根据成数的抽样极限误差确定样本单位数1.重复抽样条件下2.不重复抽样条件下或是指在抽样误差不超过预先规定的数值,即满足抽样极限误差小于等于或的条件下,至少应抽取的样本单位数。(三)确定必要样本单位数应注意的问题 在确定必要样本单位数的过程中,可能会遇到一些应用性问题,主要应注意以下几个方面: 1.总体指标未知的问题。公式中涉及到总体标准差与总体成数资料时,一般可利用以前的经验数据或样本数据来代替。若遇到有不止一个经验数据或样本数据时,宜选择最大的一个。若总体成数未知,可选取使成数方差达到最大(0.25)或接近最大的P值代入。 2.估计对象导致数目不相等的问题。对于同一资料既要估计平均数又要估计成数时,根据这两种估计所求的必要样本单位数可能不相等,这时应选择其中样本单位数较大的进行抽样,以保证抽样推断的精确性和可靠性。 3.抽样方式导致数目不相等的问题。按重复抽样公式计算的必要样本单位数要比按不重复抽样公式确定的必要样本单位数大。在条件允许的情况下,为保证抽样推断的精确度和可靠程度,原则上,一切抽样调查在计算必要样本单位数时,都可采用重复抽样公式计算。 二、影响样本单位数的因素 影响样本单位数的因素主要有以下几个:(一)总体标准差在其他条件不变的情况下,总体标准差与样本单位数成正比。总体标准差大,说明总体差异程度高,总体各单位标志值较平均数的离散程度高,则样本单位数就多;反之,总体标准差小,则样本单位数就少。(二)抽样极限误差在其他条件不变的情况下,抽样极限误差与样本单位数成反比。如果允许的误差范围越大,对抽样估计的精确度要求越低,则样本单位数就越少;反之,若允许的误差范围越小,对精确度的要求越高,则样本单位数就越多。(三)抽样方法及抽样的组织形式抽样方法和抽样组织形式不同,样本单位数的多少也不同。在其他条件不变的情况下,重复抽样条件下的样本单位数多于不重复抽样条件下的样本单位数;在适宜的条件下,类型抽样比简单重复抽样的样本单位数少。此外,样本单位数的多少,一方面要考虑耗费的人力、财力、物力和时间的允许条件;另一方面要考虑能否达到研究的预期目的。一般而言,样本单位数越多,抽样误差越小,样本的代表性越大。但是,样本单位数越多,耗费的人力、物力、财力和时间也越多,从而又导致研究结果的时效性差。因此,在确定样本单位数时,还要考虑到这个方面的需要与可能。 【案例】仍利用表7-5中的资料,确定必要样本单位数。根据表7-5中的已知资料计算得到=1055.5小时,s=51.91小时,=10小时,t=1.93,p=90%(耐磨时数达1000小时以上比重),=4%.按样本平均数的重复抽样公式,确定必要样本单位数为按样本成数的重复抽样公式,确定必要样本单位数为 根据计算结果,进行抽样调查时所确定的必要样本单位数应为210个。第五节 抽样的组织形式一、简单随机抽样 简单随机抽样又称纯随机抽样。它是对总体中的所有单位不进行任何分组、排队,而是完全随机地直接从总体N个单位中抽取n个单位,作为一个样本进行调查。在抽样中保证总体中每个单位都有同等的被抽中的机会。 简单随机抽样是抽样中最基本、最单纯的组织形式,它适用于均匀总体,即具有某种特征的单位均匀地分布于总体的各个部分,使总体的各个部分都是同等分布的。获得简单随机样本的具体做法主要有两种:1.抽签法。抽签法就是将总体各单位编号,以抽签的方式从中任意抽取所需样本单位的方法。 2.查随机数表法。所谓随机数表是指含有一系列组别的随机数字的表格。表中数字的出现及其排列是随机的。查随机数表时,可以竖查、横查、顺查、逆查;可以用每组数字左边的头几位数,也可以用其右边的后几位数,还可以用中间的某几位数字。这些都需要事先定好。但一经决定采用某一种具体做法,就必须保证对整个样本的抽取完全遵从同一规则。简单随机抽样在理论上最符合随机原则,但在实际应用中有很大的局限性:第一,无论用抽签法还是用查随机数表法取样,均需对总体各个单位逐一编号。而抽样推断中的总体单位数很多,编号查号的工作量很大。第二,当总体各单位标志变异程度较大时,简单随机抽样的代表性就比较差。第三,对某些事物根本无法进行简单随机抽样,如对正在连续生产的大量产品进行质量检验,就不可能对全部产品进行编号抽检。所以简单随机抽样适用于所调查的总体单位数不多、且各单位标志变异程度较小的情况。二、类型抽样 类型抽样亦称分类抽样或分层抽样。它是先将总体各单位按主要相关标志分组(或分类),然后在各组(或各类)中再按随机原则抽取样本单位的组织形式。例如,在进行城市职工家庭旅游消费支出抽样调查时,首先把职工按所属国民经济部门分类,然后再在各部门中抽取若干个调查户;再如,进行星级宾馆入住情况调查时,先将各宾馆按星级标准分为五星、四星、三星、二星和一星五类,然后再在各类宾馆中抽取若干个调查单位。 类型抽样实质上是分组法和随机抽样法相结合的产物。先划分出性质不同的各个组,以减少组内标志值之间的变异程度;然后按照随机原则,从各组中抽取调查单位。所以,类型抽样所抽取的样本代表性较高,抽样误差小,能够以较少的样本单位数获得比较准确的推断结果。特别是当总体各单位标志值相差很大,各组间标志值变异程度很大时,类型抽样则更为优越。 经过划类分组后,确定各类型组样本单位数一般有两种方法: 第一,不等比例抽样。即各类型组所抽取的单位数,按各类型组标志值的变异程度来确定,变异程度大则多抽一些单位,变异程度小则少抽一些单位。这种方法又称为类型适宜抽样或称一般抽样。 第二,等比例抽样。即按各类型组的单位数占总体单位数的比重进行抽样。 在实际工作中,由于事先很难了解各组的标志变异程度,因此,大多数类型抽样采用等比例抽样法。 类型抽样的特点是,样本单位数不是从整个总体,而是从各类中分别抽取,且彼此独立。三、等距抽样 等距抽样亦称机械抽样。它是先把总体各单位按照某一标志排队,然后按相等的距离抽取样本单位的组织形式。排队的标志可以是与调查标志无关的,也可以是与调查标志有关的。 按无关标志排队,是指排队时采用与调查项目无关的标志进行。例如,按姓氏笔画多少排队、按地名笔画排队、按人名册、户口簿及按地图上的地理位置排队等。也可以按时间顺序排队,例如,检查产品质量,确定按10%的比率抽检,这时即可按时间顺序在每10个产品中抽取一个进行质量检查,直至将规定的样本单位数抽满为止。 按有关标志排队,是指排队时采用与调查项目有关的标志进行。例如,进行我国粮食产量抽样调查,由省抽县,县抽乡,乡抽村,都是按前三年的粮食平均亩产量排队的;进行我国城市职工家计抽样调查,是按职工平均工资排队的。按有关标志排队,能使被研究对象标志值的变动均匀地分布在总体中,保证样本具有较高的代表性。 等距抽样除考虑排队的标志外,还需要考虑抽样距离的问题。设N为全及总体单位数,n为样本单位数,k为抽样距离,则k=N/n。 等距抽样的随机性表现在抽取的第一个样本单位上,当第一个样本单位确定后,其余的各个样本单位也就确定了。就是说,第一个样本单位确定后,每加一个抽样距离就是下一个被抽取的样本单位,直至抽满规定的样本单位数为止。例如,进行工业产品质量检查,当确定按5%的比率抽取样本单位时,可以按时间顺序每隔5件抽取一件产品进行登记,一直达到预定的样本单位数为止。又如,进行粮食产量抽样调查时,抽取样本单位是先按最近三年粮食平均亩产量排队,再根据累计播种面积和预定抽取的样本单位数计算抽样距离,第一个样本单位在1/2抽样距离处,以后每加一个抽样距离就是下一个被抽取的样本单位,直至抽满规定的样本单位数为止。 等距抽样在按无关标志排队、等距抽取样本单位时,实质上仍是简单随机抽样,其抽样平均误差的计算公式与简单随机抽样相同。在按有关标志排队、等距抽取样本单位时,实质上就成为类型抽样的特例。因此,抽样平均误差的公式与类型抽样公式相同。但按有关标志排队的等距抽样与类型抽样略有不同,等距抽样只在各组中抽取一个单位,而类型抽样是在各组中抽取若干个单位。四、整群抽样 整群抽样亦称成组抽样。前面介绍的三种抽样组织形式,都是一个一个地抽取样本单位,故称为个体抽样。整群抽样则是一批一批地抽取样本单位,每抽取一批时,对其中所有的单位都进行登记调查。抽取的形式,既可用简单随机抽样形式,也可以用等距抽样形式,一般常用后者。例如,要按10%的比例对饭店餐具进行卫生检验,即可每隔5小时从已消毒的餐具中抽取一次消毒过的全部产品作为一群,然后按比例要求抽满群数组成样本,并对每群进行逐个登记。整群抽样容易组织,多用于进行产品的质量检查。缺点是由于样本在总体中太集中,分布不均匀,与其他几种抽样方式比较,误差较大,代表性较差。但是如果群内差异大而群间差异小,即群内方差大,群间方差小,则可使样本代表性提高,使抽样误差减少。考虑到编制名单和抽取样本的工作比其他各种组织形式简便易行,调查也集中方便,这时整群抽样又是有益的。【能力训练】 (1)先将总体各单位按某一标志排列,再依固定顺序和间隔来抽取样本单位数的抽样组织形式,被称为( )。 纯随机抽样 机械抽样 分层抽样 整群抽样 (2)先将总体各单位按主要标志分组,再从各组中随机抽取一定单位组成样本,这种抽样组织形式,被称为( )。 纯随机抽样 机械抽样 分层抽样
收藏
编号:2622016
类型:共享资源
大小:280.42KB
格式:DOC
上传时间:2020-04-24
8
金币
- 关 键 词:
-
统计学
基础
学习
知识
第七
抽样
推断
- 资源描述:
-
,.
统计学基础 第七章 抽样推断
【教学目的】
1.理解抽样推断的含义及特点
2.深刻理解抽样误差产生的原因
3.对抽样误差、抽样平均误差、抽样极限误差加以区别
4.了解各种抽样组织形式的特点
5.重点掌握简单随机抽样组织形式的区间估计方法
6.掌握必要样本单位数的确定方法
【教学重点】
1.理解抽样推断中的几个基本概念(总体指标、样本指标、平均数、成数、方差、标准差)。
2.理解抽样误差的概念
3.理解和运用不同抽样方法下计算抽样误差
4.掌握简单随机抽样组织形式的区间估计方法
6.掌握必要样本单位数的确定方法
【教学难点】
1.理解抽样推断中的几个基本概念(总体指标、样本指标、平均数、成数、方差、标准差)。
2.理解抽样误差的概念
3.理解和运用不同抽样方法下计算抽样误差
4.掌握简单随机抽样组织形式的区间估计方法
6.掌握必要样本单位数的确定方法
【教学时数】
教学学时为10课时
【教学内容参考】
第一节 抽样推断的意义
一、抽样推断的含义
(一)抽样推断的特点
抽样推断又称为抽样估计,它是在抽样调查的基础上,利用样本实际资料计算样本指标,并据以推算总体相应数量特征的一种统计调查方式。
【案例】
从全国所有股份制企业中,抽取一部分企业,详细调查其生产经营状况,根据这一部分企业的调查资料,来推算所有股份制企业的生产经营状况,这就属于抽样推断。
抽样推断有以下几个特点:
1.按随机原则从总体中抽取调查单位。所谓随机原则是指在抽取调查单位时,总体中每个单位都有同等被抽中的机会,完全排除了人为主观意识的影响,哪个单位抽中与否,纯粹是随机的、偶然的。按随机原则抽取调查单位是进行抽样推论的基本要求。
2.根据被抽取的调查单位,计算各种指标,并对总体的指标作出估计。
3.抽样推断中的抽样误差可以事先计算并加以控制,从而保证抽样推断的结论符合预定的精确度和可靠度要求。
(二)抽样推断的作用
抽样推断的主要作用有:
1.对某些不可能进行全面调查而又需要了解全面情况的社会经济现象,可以采用抽样推断方式。另外,对于无限总体也不可能进行全面调查,只能采用抽样推断方式。
2.对于某些不必要或在经济上不允许经常采用全面调查的社会经济现象,最适宜采用抽样推断方式。
3.对于需要及时了解情况的现象,也经常采用抽样推断方式。因为全面调查浪费人力、物力和财力,资料也不易及时取得,而抽样推断方式不仅节省人力、资金,且时间快,方式灵活,能够及时满足了解情况的需要。
4.对全面调查的资料进行评价和修正。全面调查由于范围广、工作量大、参加的人员多,发生登记性误差的可能性就大。因此,为了保证全面调查资料的准确性,检验全面调查资料的质量,在全面调查之后,一般都要进行抽样推断。在总体中再抽取一部分单位重新调查,然后将两次调查的资料进行比较,计算出差错率,并据此对全面调查的资料加以修正。
5.抽样推断还可以用于工业生产过程中的质量控制。
【能力训练】
下列事项属于抽样推断的有( )。
①为了测定车间的工时损失,对车间中的每三班工人中的第一班工人进行调查。
②为了解某大学食堂卫生状况,对该校的五个食堂进行调查。
③对某城市1%的家庭进行调查,以便研究该城市居民的消费状况。
④对某公司三个分厂中的一个分厂进行调查,以便研究该工厂的能源利用效果。
二、抽样的基本概念
(一)总体和样本
总体又称全及总体。它是根据研究目的,由全部调查单位所组成的集合体。总体的单位数通常都是很大的,甚至是无限的,这样才有必要组织抽样调查,进行抽样推断。总体单位数一般用符号N表示。
样本又称子样。它是从总体中随机抽取出来的部分调查单位所组成的集合体。样本的单位数是有限的。样本单位数一般用符号n表示,也称样本容量。
对于某一特定研究问题来说,作为推断对象的总体是确定的,而且是惟一的。但由于从一个总体中可以抽取许多个样本,所以作为观察对象的样本,不是惟一的,而是可变的。明白这一点对于理解抽样推断原理是很重要的。
(二)总体指标和样本指标
总体指标又称参数。它是根据总体各单位的标志表现计算的综合指标。
对于总体中的数量标志,可以计算的总体指标有总体平均数、总体方差σ2 (或总体标准差σ)。
设总体变量X的取值为:X1,X2,…则
对于总体中的品质标志,由于各单位品质标志不能用数量来表示,因此,可以计算的总体指标有总体成数、总体成数方差或总体成数标准差σP)。
设P表示总体中具有某种性质的单位数在总体单位数中所占的比重,Q表示总体中不具有某种性质的单位数在总体单位数中所占的比重。在总体N个单位中,有N1 个单位具有某种性质,N0 个单位不具有某种性质,N=N1 +N0 。则
如果总体中的品质表现只有“是”、“非”两种。例如,产品质量的标志表现为合格和不合格,人口性别的标志表现为男性和女性,则可以把“是”的标志表现表示为1,而“非”的标志表现表示为0。那么成数P就可以视为(0,1)分布的相对数,并可以计算相应的方差(或标准差)。其计算公式为
在抽样推断中,总体指标的意义和计算方法是明确的,但总体指标的具体数值事先是未知的,需要用样本指标来估计它。
样本指标又称统计量。它是根据样本各单位的标志表现计算的、用来估计总体指标的综合指标。可以计算的样本指标有样本平均数、样本方差s2和样本成数P等。
设样本变量x的取值为x1,x2,…xn,则
在抽样推断中,样本指标的计算方法是确定的,但它的取值随着样本的不同,有不同的样本变量。所以,样本指标本身是随机变量,用它作为总体指标的估计值,有时误差大些,有时误差小些;有时产生正误差,有时产生负误差。
【能力训练】
总体指标和样本指标( )。
①都是随机变量
②都是确定性变量
③前者是惟一确定的,后者是随机变量④前者是随机变量,后者是惟一确定的
三、抽样方法
在抽样调查中,从总体中抽取样本单位的方法有两种:重复抽样和不重复抽样。
(一)重复抽样
重复抽样也称重置抽样、放回抽样、回置抽样等。它是指从总体N个单位中随机抽取容量为n的样本时,每次抽取一个单位,把结果登记下来后,重新放回,再从总体中抽取下一个样本单位。在这种抽样方式中,同一单位可能有被重复抽中的机会。可见,重复抽样的总体单位在各次抽取中都是不变的,每个单位中选的机会在每次抽取中都是均等的。
用重复抽样的方法从总体N个单位中抽取n个单位组成样本,可能得到的样本总数为Nn个。
(二)不重复抽样
不重复抽样也称不重置抽样、不放回抽样、不回置抽样等。它是指从总体N个单位中随机抽取容量为n的样本时,每次抽取一个单位后,不再放回去,下一次则从剩下的总体单位中继续抽取,如此反复,最终构成一个样本。也就是说,每个总体单位至多只能被抽中一次,所以从总体中每抽取一次,总体就少一个单位。因此,先后抽出来的各个单位被抽中的机会是不相等的。
用不重复抽样的方法从总体N个单位中抽取n个单位组成样本,可能得到的样本总数为。不考虑顺序的组合数为。
可见,在相同样本容量的要求下,不重复抽样可能得到的样本个数比重复抽样可能得到的样本个数少。当采用不重复抽样、而全及总体所包含的单位数又不多时,越到后来,留在总体中的单位就越少,被抽中的机会就越大。不过当全及总体单位数很多、样本总体单位数所占的比重很小时,则对先后抽出来的各个单位被抽中的机会影响不大。由于不重复抽样简便易行,所以在实际工作中经常被采用。
第二节 抽样误差
一、抽样误差的含义
在抽样推断中,用样本指标推断总体指标,总会存在一定的误差,其误差来源主要有两个方面:
(一)登记性误差
即在调查和整理资料的过程中,由于主、客观因素的影响而引起的误差,如在登记的过程中由于疏忽而将3误写为8,将1误写为7;在计算合计的过程中所造成的计算错误等。
(二)代表性误差
即由于样本的结构情况不足以代表总体特征而导致的误差。代表性误差的产生又有两种情况:
一种是违反了抽样推断的随机原则,如调查者有意地多选较好的单位或多选较差的单位来进行调查,这样计算出来的样本指标必然出现偏高或偏低的情况,造成系统性误差,也称为偏差。
另一种情况是遵守了抽样推断的随机原则,但由于从总体中抽取样本时有多种多样的可能,当取得一个样本时,只要被抽中样本的内部结构与被研究总体的结构有所出入,就会出现或大或小的偶然性的代表性误差,也称为随机误差。
系统性误差和登记性误差都是由于抽样工作组织不好而导致的,应该采取预防措施避免发生。而偶然性的代表性误差是无法消除的。抽样误差就是指这种偶然性的代表性误差,即按随机原则抽样时,单纯由于不同的随机样本得出不同的估计量而产生的误差。
抽样误差是抽样推断所固有的,虽然它无法避免,但可以运用大数定律的数学公式加以精确地计算,确定其具体的数量界限,并通过抽样设计加以控制。所以这种抽样误差也称为可控制误差。
【能力训练】
抽样误差是( )。
①样本数目过少引起的
②观察、测量、计算的失误引起的
③抽样过程中的偶然性因素引起的
④抽样推断中产生的系统性误差
二、抽样平均误差
(一)抽样平均误差的含义
抽样误差描述了样本指标与总体指标之间的离差绝对数,在用样本指标估计相应的总体指标时,它可以反映估计的准确程度。但是由于抽样误差是随机变量,具有取值的多样性和不确定性特点,因而就不能以它的某一个样本的具体误差数值来代表所有样本与总体之间的平均误差情况,应该用抽样平均误差来反映抽样误差平均水平。
所谓抽样平均误差,就是所有可能出现的样本指标(平均数或成数)的标准差,也可以理解为所有的样本指标与总体指标之间的平均离差。我们所说的抽样误差可以事先计算和控制,就是针对抽样平均误差而言的。抽样平均误差是用样本指标推断总体指标时,计算误差范围的基础。
抽样平均误差的计算,与抽样方法和抽样组织形式有直接关系,不同的抽样方法和抽样组织形式计算抽样平均误差的公式是不同的。
(二)抽样平均误差的计算
在实际工作中,只求得一个样本指标,无法得到抽样平均误差(即样本指标的标准差),因而常常是根据抽样平均误差和总体标准差的关系来推算。样本平均数的抽样平均误差计算公式如下:
在一般情况下,总体平均数是未知的。当样本较多时,可用样本平均数的平均数来代替(这已经得到证明)。而在实际工作中,通常只需从总体中抽取一个样本,这样就可以根据总体标准差和样本单位数的关系来计算。
1.重复抽样条件下抽样平均误差的计算
数理统计可以证明:在重复抽样条件下,抽样平均误差与总体标准差成正比,与样本单位数的平方根成反比。故在已知总体标准差的条件下,可用下面的公式计算样本平均数的抽样平均误差:
在大样本(n>30)下,如果没有总体标准差σ的资料,可用样本标准差s来代替,其公式如下:
相应地有样本成数的抽样平均误差公式:
同样,在大样本下,如果P未知,可用样本成数p来代替,即
总体成数方差还有一个特点,就是它的最大值是0.50.5=0.25,也就是说,当两类总体单位各占一半时,它的变异程度最大,方差为25%,标准差则为50%。因此,在总体成数方差值未知时,可用其最大值来代替,这样会使计算出来的抽样平均误差偏大一些,一般而言这对推断认识有益而无害。
2.不重复抽样条件下抽样平均误差的计算
对上述重复抽样下的公式作如下修正:
不重复抽样的平均误差和重复抽样的平均误差公式,两者相差的因子()永远小于1。在不重复抽样下,抽中的单位不再放回,总体单位数逐渐减少,余下的每个单位被抽中的机会就会增大,所以不重复抽样的抽样平均误差小于重复抽样的抽样平均误差,这就是用因子()作为调整系数来修正原式的道理。但在抽中单位占全体单位的比重很小时,这个因子接近于1,对于计算抽样平均误差所起的作用不大。因而实际工作中不重复抽样有时仍按重复抽样的公式计算。
抽样平均误差的计算,在抽样调查中占有相当重要的地位。抽样调查的优点在于它能计算出抽样平均误差,且以抽样平均误差作为用样本指标推断总体指标的重要补充指标。
三、影响抽样平均误差的因素
影响抽样平均误差的因素主要有:
(一)样本单位数的多少
在其他条件不变的情况下,样本单位数愈多,抽样误差就愈小;反之,样本单位数愈少,则抽样误差就愈大。样本单位数越大,样本就越能反映总体的数量特征,如果样本单位数扩大到接近总体单位数时,抽样调查也就接近于全面调查,抽样误差就缩小到几乎完全消失的程度。
(二)总体被研究标志的变异程度
在其他条件不变的情况下,总体各单位标志值变异程度愈小,则抽样误差也愈小,抽样误差和总体变异程度成正比变化。这是因为总体变异程度小,表示总体各单位标志值之间的差异小,则样本指标与总体指标之间的差异也就小。如果总体各单位标志值相等,则标志变异程度等于0,样本指标就完全等于总体指标,抽样误差也就不存在了。
(三)抽样的组织形式和抽样方法
在其他条件不变的情况下,不重复抽样下的样本比重复抽样下的样本代表性强,其抽样误差相应也要小。在不同的抽样组织形式下,抽样误差也不同。
了解影响抽样误差的因素,对于控制和分析抽样误差十分重要。在上述影响抽样误差的三个因素中,标志变异程度是客观存在的因素,是调查者无法控制的,但样本单位数、抽样方法及抽样的组织形式却是调查者能够选择和控制的。因此,在实际工作中,应当根据研究的目的和具体情况,做好抽样设计和实施工作,以获得经济有效的抽样效果。
四、抽样极限误差
(一)抽样极限误差的含义
抽样极限误差是从另一个角度来考虑抽样误差问题的。用样本指标推断总体指标时,要想达到完全准确和毫无误差,几乎是不可能的。样本指标和总体指标之间总会有一定的差距,所以在估计总体指标时就必须同时考虑误差的大小。我们不希望误差太大,因为这会影响样本资料的价值。误差愈大,样本资料的价值便愈小,当误差超过一定限度时,样本资料也就毫无价值了。所以在进行抽样推断时,应该根据所研究对象的变异程度和分析任务的需要确定允许的误差范围,在这个范围内的数字就算是有效的。这就是抽样极限误差的问题。
抽样极限误差是指样本指标和总体指标之间抽样误差的可能范围。由于总体指标是一个确定的数,而样本指标则是围绕着总体指标左右变动的量,它与总体指标可能产生正离差,也可能产生负离差,样本指标变动的上限或下限与总体指标之差的绝对值就可以表示抽样误差的可能范围。
设分别表示样本平均数的抽样极限误差和样本成数的抽样极限误差,则有:
上面的不等式可以变换为下列不等式关系:
上面第一式表明样本平均数 是以总体平均数为中心,在至至之间变动的,区间称为样本平均数的估计区间,区间的长度为2,在这个区间内样本平均数和总体平均数之间的绝对离差不超过。同样,上面第二式表明,样本成数是以总体成数P为中心,在至之间变动的,在区间内样本成数与总体成数的绝对离差不超过。
由于总体平均数和总体成数是未知的,它需要用实测的样本平均数和样本成数来估计,因而抽样极限误差的实际意义是希望估计区间能以一定的可靠程度覆盖总体平均数,能以一定的可靠程度覆盖总体成数P,因而上面的不等式应变换为
(二)抽样极限误差的计算
基于概率估计的要求,抽样极限误差通常需要以抽样平均误差或为标准单位来衡量。把抽样极限误差或分别除以或,得相对数t,它表示误差范围为抽样平均误差的若干倍,t是测量估计可靠程度的一个参数,称为抽样误差的概率度。
抽样估计的概率度是表明样本指标和总体指标的误差不超过一定范围的概率保证程度。由于样本指标随着样本的变动而变动,它本身是一个随机变量,因而样本指标和总体指标的误差仍然是一个随机变量,并不能保证误差不超过一定范围这个事件是必然事件,而只能给以一定程度的概率保证。因此,就有必要计算样本指标落在一定区间范围内的概率,这种概率称为抽样估计的概率保证程度。根据抽样极限误差的基本公式Δ=tμ得出,概率度t的大小要根据对推断结果要求的把握程度来确定,即根据概率保证程度的大小来确定。概率论和数理统计证明,概率度t与概率保证程度F(t)之间存在着一定的函数关系,给定t值,就可以计算出F(t)来;相反,给出一定的概率保证程度F(t),则可以根据总体的分布,获得对应的t值。
在实际应用中,因为我们所研究的总体大部分为正态总体,对于正态总体而言,为了应用的方便编有《正态概率表》以供使用。根据《正态概率表》,已知概率度t可查得相应的概率保证程度F(t);相反,已知概率保证程度F(t)也可查得相应的概率度t。
从抽样极限误差的计算公式来看,抽样极限误差Δ与概率度t和抽样平均误差μ三者之间存在如下关系:
1.在μ值保持不变的情况下,增大t值,抽样极限误差Δ也随之扩大,这时估计的精确度将降低;反之,要提高估计的精确度,就得缩小t值,此时概率保证程度也会相应降低。
2.在t值保持不变的情况下,如果μ值小,则抽样极限误差Δ就小,估计的精确度就高;反之,如果μ值大,抽样极限误差Δ就大,估计的精确度就低。
由此可见,估计的精确度与概率保证程度是一对矛盾,进行抽样估计时必须在两者之间进行慎重的选择。
【能力训练】
在一定的误差范围要求下( )。
①概率度大,要求可靠性低,样本数目相应要多
②概率度大,要求可靠性高,样本数目相应要多
③概率度小,要求可靠性低,样本数目相应要少
④概率度小,要求可靠性高,样本数目相应要少
⑤概率度小,要求可靠性低,样本数目相应要多
第三节 抽样估计
抽样估计是指利用实际调查的样本指标的数值来估计相应的总体指标的数值的方法。由于总体指标是表明总体数量特征的参数,例如总体平均数、总体成数等,所以抽样估计也称为参数估计。参数估计有点估计和区间估计两种方法。
一、点估计
点估计的基本特点是,根据样本资料计算样本指标,再以样本指标数值直接作为相应的总体指标的估计值。例如,以实际计算的样本平均数作为相应总体平均数的估计值;以实际计算的样本成数作为相应总体成数的估计值等等。设以样本平均数作为总体平均数的估计值,样本成数p作为总体成数P的估计值。
点估计的优点是原理直观,计算简便,在实际工作中经常采用。不足之处是这种估计方法没有考虑到抽样估计的误差,更没有指明误差在一定范围内的概率保证程度。因此,当抽样误差较小,或抽样误差即使较大也不妨碍对问题的认识和判断时,才可以使用这种方法。
二、区间估计
(一)区间估计的含义
区间估计的基本特点是,根据给定的概率保证程度F(t)的要求,利用实际样本资料,给出总体指标估计值的上限和下限,即指出可能覆盖总体指标的区间范围。也就是说,区间估计要解决两个问题:
第一,根据样本指标和误差范围估计出一个可能包括总体指标的区间,即确定出估计区间的上限和下限。
第二,确定出估计区间覆盖总体未知参数的概率保证程度。区间估计的基本公式有
从而得到总体平均数的估计区间:
总体成数的估计区间:
(二)区间估计的模式
在进行区间估计的时候,根据所给定条件的不同,总体平均数和总体成数的估计有以下两套模式可供选择使用。
1.根据已给定的误差范围,求概率保证程度。具体步骤是:
第一步,抽取样本,计算样本指标,即计算样本平均数或样本成数p,作为总体指标的估计值,并计算样本标准差s以推算抽样平均误差。
第二步,根据给定的抽样极限误差Δ,估计总体指标的上限和下限。
第三步,将抽样极限误差Δ除以抽样平均误差μ,求出概率度t,再根据t值查《正态概率表》求出相应的概率保证程度。
【案例】
对工厂生产设备中某种型号的机械零件进行耐磨性能检验,抽查的样本资料见表7-5,要求耐磨时数的允许误差范围为10小时(=10)。试估计这批机械零件的平均耐磨时数。
表7-5 某型号机械零件耐磨性能资料
耐磨时数(小时)
组中值x(小时)
零件数f(个)
900以下
875
1
900~950
925
2
950~1000
975
6
1000~1050
1025
35
1050~1100
1075
43
1100~1150
1125
9
1150~1200
1175
3
1200以上
1225
1
合计
-
100
第一步,计算,s,
注意:总体标准差σ以样本标准差s代替
第二步,根据给定的=10,计算总体平均数的上、下限:
下限==1055.5-10=1045.5(小时)
上限==1055.5+10=1065.5(小时)
第三步,根据,查《正态概率表》得概率保证程度F(t)=94.64%。
推断的结论是:根据要求耐磨时数的允许误差范围为10小时,估计这批机械零件耐磨时数在(1045.5,1065.5)之间,其概率保证程度为94.64%。
【案例】
仍用表7-5中的资料,设该种型号零件质量标准规定,耐磨时数达1000小时以上为合格品,要求合格率估计的允许误差范围不超过4%,试估计该批机械零件的合格率。
第一步,计算p,,
第二步,根据给定的=4%,求总体合格率的上、下限:
下限==91%-4%=87%
上限==91%+4%=95%
第三步,根据=1.4,查《正态概率表》得概率F(t)=83.85%。
推断的结论是:根据要求,合格率允许误差范围不超过4%,估计这批零件的合格率在(87%,95%)之间,其概率保证程度为83.85%。
2.根据已给定的概率保证程度,求抽样极限误差。具体步骤是:
第一步,抽取样本,计算样本指标,即计算样本平均数或样本成数p,作为总体指标的估计值,并计算样本标准差s以推算抽样平均误差。
第二步,根据给定的概率保证程度F(t),查概率表求得概率度t值。
第三步,根据概率度t和抽样平均误差μ推算出抽样极限误差Δ,并根据抽样极限误差求出被估计总体指标的上限和下限。
【案例】
对我国某中等城市进行居民家庭年人均旅游消费支出调查,随机抽取400户居民家庭,调查得知居民家庭年人均旅游消费支出额为400元,标准差为100元,要求以95%的概率保证程度,估计该市年人均旅游消费支出额。
第一步,根据已知资料算得
年人均消费支出额=400(元)
样本标准差s=100(元)
注意:总体标准差σ以样本标准差s代替
第二步,根据给定的概率保证程度F(t)=95%,查《正态概率表》得t=1.96。
第三步,计算=1.965=9.80,则该市居民家庭年人均旅游消费支出额:
下限==400-9.80=390.20(元)
上限==400+9.80=409.80(元)
结论:在95%的概率保证程度下,估计该市居民家庭年人均旅游消费支出额在(390.20,409.80)之间。
【案例】
为了解国内旅游人数情况,在一些地区随机调查5000人,结果发现800人有当年国内旅游计划,要求以95%的概率保证程度,估计国内旅游人数比率的可能范围。
第一步,根据已知资料算得
注意:P(1-P)用p(1-p)代替
第二步,根据给定的概率保证程度F(t)=95%,查《正态概率表》得概率度t=1.96。第三步,计算=1.960.518%=1.015%则总体比率的上、下限为:
下限==16%-1.015%=14.985%
上限==16%+1.015%=17.015%
结论:在95%的概率保证程度下,估计国内旅游人数的比率在[15%,17%]之间。
第四节 必要样本单位数的确定
一、样本单位数的确定
【引言】
科学地组织抽样调查,保证随机抽样条件的实现,并合理有效地取得各项数据,是抽样设计中一个至关重要的问题。注意相关问题如下:
首先要保证随机原则的实现。
其次,样本单位数确定。
再次,科学选择抽样组织形式。
最后,还必须重视调查费用这个基本因素。
实际上任何一项抽样调查都是在一定费用的限制下进行的。抽样设计应该力求采用调查费用最省的方案。一般地说,提高精确度的要求与节省费用的要求往往有矛盾,抽样误差要求愈小,则调查费用需要愈多。因此,抽样误差最小的方案并非是最好的方案,在许多情况下,允许一定范围的误差仍能够满足分析的要求。我们的任务就是在允许的误差要求下,选择费用最少的抽样设计方案。
综上所述,抽样设计应该掌握两个基本原则:
第一,保证实现抽样的随机原则,即保证总体各单位的相互独立性,以及任何一个单位在每次抽样中被抽中机会的均等性。
第二,保证实现最大的抽样效果原则,即在一定的调查费用下,选取抽样误差最小的方案;或在给定调查精确度的要求下,选取调查费用最省的方案。
(一)根据平均数的抽样极限误差确定样本单位数
影响抽样误差的因素之一,是样本单位数的多少。在抽样调查中,事先确定必要的样本单位数,是一项重要的工作。由于样本单位数n是抽样极限误差公式的组成部分,所以可以根据抽样极限误差公式推导出样本单位数。以简单随机抽样为例,测定总体平均数所必需的样本单位数n。
1.重复抽样条件下:
2.不重复抽样条件下:
(二)根据成数的抽样极限误差确定样本单位数
1.重复抽样条件下
2.不重复抽样条件下
或是指在抽样误差不超过预先规定的数值,即满足抽样极限误差小于等于或的条件下,至少应抽取的样本单位数。
(三)确定必要样本单位数应注意的问题
在确定必要样本单位数的过程中,可能会遇到一些应用性问题,主要应注意以下几个方面:
1.总体指标未知的问题。公式中涉及到总体标准差与总体成数资料时,一般可利用以前的经验数据或样本数据来代替。若遇到有不止一个经验数据或样本数据时,宜选择最大的一个。若总体成数未知,可选取使成数方差达到最大(0.25)或接近最大的P值代入。
2.估计对象导致数目不相等的问题。对于同一资料既要估计平均数又要估计成数时,根据这两种估计所求的必要样本单位数可能不相等,这时应选择其中样本单位数较大的进行抽样,以保证抽样推断的精确性和可靠性。
3.抽样方式导致数目不相等的问题。按重复抽样公式计算的必要样本单位数要比按不重复抽样公式确定的必要样本单位数大。在条件允许的情况下,为保证抽样推断的精确度和可靠程度,原则上,一切抽样调查在计算必要样本单位数时,都可采用重复抽样公式计算。
二、影响样本单位数的因素
影响样本单位数的因素主要有以下几个:
(一)总体标准差
在其他条件不变的情况下,总体标准差与样本单位数成正比。总体标准差大,说明总体差异程度高,总体各单位标志值较平均数的离散程度高,则样本单位数就多;反之,总体标准差小,则样本单位数就少。
(二)抽样极限误差
在其他条件不变的情况下,抽样极限误差与样本单位数成反比。如果允许的误差范围越大,对抽样估计的精确度要求越低,则样本单位数就越少;反之,若允许的误差范围越小,对精确度的要求越高,则样本单位数就越多。
(三)抽样方法及抽样的组织形式
抽样方法和抽样组织形式不同,样本单位数的多少也不同。在其他条件不变的情况下,重复抽样条件下的样本单位数多于不重复抽样条件下的样本单位数;在适宜的条件下,类型抽样比简单重复抽样的样本单位数少。
此外,样本单位数的多少,一方面要考虑耗费的人力、财力、物力和时间的允许条件;另一方面要考虑能否达到研究的预期目的。一般而言,样本单位数越多,抽样误差越小,样本的代表性越大。但是,样本单位数越多,耗费的人力、物力、财力和时间也越多,从而又导致研究结果的时效性差。因此,在确定样本单位数时,还要考虑到这个方面的需要与可能。
【案例】
仍利用表7-5中的资料,确定必要样本单位数。根据表7-5中的已知资料计算得到
=1055.5小时,s=51.91小时,=10小时,t=1.93,p=90%(耐磨时数达1000小时以上比重),=4%.
按样本平均数的重复抽样公式,确定必要样本单位数为
按样本成数的重复抽样公式,确定必要样本单位数为
根据计算结果,进行抽样调查时所确定的必要样本单位数应为210个。
第五节 抽样的组织形式
一、简单随机抽样
简单随机抽样又称纯随机抽样。它是对总体中的所有单位不进行任何分组、排队,而是完全随机地直接从总体N个单位中抽取n个单位,作为一个样本进行调查。在抽样中保证总体中每个单位都有同等的被抽中的机会。
简单随机抽样是抽样中最基本、最单纯的组织形式,它适用于均匀总体,即具有某种特征的单位均匀地分布于总体的各个部分,使总体的各个部分都是同等分布的。
获得简单随机样本的具体做法主要有两种:
1.抽签法。抽签法就是将总体各单位编号,以抽签的方式从中任意抽取所需样本单位的方法。
2.查随机数表法。所谓随机数表是指含有一系列组别的随机数字的表格。表中数字的出现及其排列是随机的。查随机数表时,可以竖查、横查、顺查、逆查;可以用每组数字左边的头几位数,也可以用其右边的后几位数,还可以用中间的某几位数字。这些都需要事先定好。但一经决定采用某一种具体做法,就必须保证对整个样本的抽取完全遵从同一规则。
简单随机抽样在理论上最符合随机原则,但在实际应用中有很大的局限性:
第一,无论用抽签法还是用查随机数表法取样,均需对总体各个单位逐一编号。而抽样推断中的总体单位数很多,编号查号的工作量很大。
第二,当总体各单位标志变异程度较大时,简单随机抽样的代表性就比较差。
第三,对某些事物根本无法进行简单随机抽样,如对正在连续生产的大量产品进行质量检验,就不可能对全部产品进行编号抽检。
所以简单随机抽样适用于所调查的总体单位数不多、且各单位标志变异程度较小的情况。
二、类型抽样
类型抽样亦称分类抽样或分层抽样。它是先将总体各单位按主要相关标志分组(或分类),然后在各组(或各类)中再按随机原则抽取样本单位的组织形式。例如,在进行城市职工家庭旅游消费支出抽样调查时,首先把职工按所属国民经济部门分类,然后再在各部门中抽取若干个调查户;再如,进行星级宾馆入住情况调查时,先将各宾馆按星级标准分为五星、四星、三星、二星和一星五类,然后再在各类宾馆中抽取若干个调查单位。
类型抽样实质上是分组法和随机抽样法相结合的产物。先划分出性质不同的各个组,以减少组内标志值之间的变异程度;然后按照随机原则,从各组中抽取调查单位。所以,类型抽样所抽取的样本代表性较高,抽样误差小,能够以较少的样本单位数获得比较准确的推断结果。特别是当总体各单位标志值相差很大,各组间标志值变异程度很大时,类型抽样则更为优越。
经过划类分组后,确定各类型组样本单位数一般有两种方法:
第一,不等比例抽样。即各类型组所抽取的单位数,按各类型组标志值的变异程度来确定,变异程度大则多抽一些单位,变异程度小则少抽一些单位。这种方法又称为类型适宜抽样或称一般抽样。
第二,等比例抽样。即按各类型组的单位数占总体单位数的比重进行抽样。
在实际工作中,由于事先很难了解各组的标志变异程度,因此,大多数类型抽样采用等比例抽样法。
类型抽样的特点是,样本单位数不是从整个总体,而是从各类中分别抽取,且彼此独立。
三、等距抽样
等距抽样亦称机械抽样。它是先把总体各单位按照某一标志排队,然后按相等的距离抽取样本单位的组织形式。排队的标志可以是与调查标志无关的,也可以是与调查标志有关的。
按无关标志排队,是指排队时采用与调查项目无关的标志进行。例如,按姓氏笔画多少排队、按地名笔画排队、按人名册、户口簿及按地图上的地理位置排队等。也可以按时间顺序排队,例如,检查产品质量,确定按10%的比率抽检,这时即可按时间顺序在每10个产品中抽取一个进行质量检查,直至将规定的样本单位数抽满为止。
按有关标志排队,是指排队时采用与调查项目有关的标志进行。例如,进行我国粮食产量抽样调查,由省抽县,县抽乡,乡抽村,都是按前三年的粮食平均亩产量排队的;进行我国城市职工家计抽样调查,是按职工平均工资排队的。按有关标志排队,能使被研究对象标志值的变动均匀地分布在总体中,保证样本具有较高的代表性。
等距抽样除考虑排队的标志外,还需要考虑抽样距离的问题。设N为全及总体单位数,n为样本单位数,k为抽样距离,则k=N/n。
等距抽样的随机性表现在抽取的第一个样本单位上,当第一个样本单位确定后,其余的各个样本单位也就确定了。就是说,第一个样本单位确定后,每加一个抽样距离就是下一个被抽取的样本单位,直至抽满规定的样本单位数为止。例如,进行工业产品质量检查,当确定按5%的比率抽取样本单位时,可以按时间顺序每隔5件抽取一件产品进行登记,一直达到预定的样本单位数为止。又如,进行粮食产量抽样调查时,抽取样本单位是先按最近三年粮食平均亩产量排队,再根据累计播种面积和预定抽取的样本单位数计算抽样距离,第一个样本单位在1/2抽样距离处,以后每加一个抽样距离就是下一个被抽取的样本单位,直至抽满规定的样本单位数为止。
等距抽样在按无关标志排队、等距抽取样本单位时,实质上仍是简单随机抽样,其抽样平均误差的计算公式与简单随机抽样相同。在按有关标志排队、等距抽取样本单位时,实质上就成为类型抽样的特例。因此,抽样平均误差的公式与类型抽样公式相同。但按有关标志排队的等距抽样与类型抽样略有不同,等距抽样只在各组中抽取一个单位,而类型抽样是在各组中抽取若干个单位。
四、整群抽样
整群抽样亦称成组抽样。前面介绍的三种抽样组织形式,都是一个一个地抽取样本单位,故称为个体抽样。整群抽样则是一批一批地抽取样本单位,每抽取一批时,对其中所有的单位都进行登记调查。抽取的形式,既可用简单随机抽样形式,也可以用等距抽样形式,一般常用后者。例如,要按10%的比例对饭店餐具进行卫生检验,即可每隔5小时从已消毒的餐具中抽取一次消毒过的全部产品作为一群,然后按比例要求抽满群数组成样本,并对每群进行逐个登记。
整群抽样容易组织,多用于进行产品的质量检查。缺点是由于样本在总体中太集中,分布不均匀,与其他几种抽样方式比较,误差较大,代表性较差。但是如果群内差异大而群间差异小,即群内方差大,群间方差小,则可使样本代表性提高,使抽样误差减少。考虑到编制名单和抽取样本的工作比其他各种组织形式简便易行,调查也集中方便,这时整群抽样又是有益的。
【能力训练】
(1)先将总体各单位按某一标志排列,再依固定顺序和间隔来抽取样本单位数的抽样组织形式,被称为( )。
①纯随机抽样 ②机械抽样 ③分层抽样 ④整群抽样
(2)先将总体各单位按主要标志分组,再从各组中随机抽取一定单位组成样本,这种抽样组织形式,被称为( )。
①纯随机抽样 ②机械抽样 ③分层抽样 ④
展开阅读全文
淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。