(本科)[9]第九章 抽样技术《统计学》(第二版)ppt课件.ppt
课程主讲人:9第九章 抽样技术统计学(第二版)第第九九章章 抽样技术抽样技术 Chapter 9 Sampling Techniques 第一节第一节 抽样技术的概述抽样技术的概述 一、抽样技术的概念及随机原则一、抽样技术的概念及随机原则 事实上,我们对事物的认识从理论上讲通常只限事实上,我们对事物的认识从理论上讲通常只限于整个事物的一个缩影,假如这个缩影能用数据来描于整个事物的一个缩影,假如这个缩影能用数据来描述,那么该缩影即为统计样本。述,那么该缩影即为统计样本。 抽样技术(抽样技术(Sampling Techniques)是遵循随机原)是遵循随机原则从全及总体中抽选部分单位构成样本,用样本特征则从全及总体中抽选部分单位构成样本,用样本特征值对全及总体的数量特征和分布特征做出具有一定可值对全及总体的数量特征和分布特征做出具有一定可靠性的估计和判断的统计调查方法。靠性的估计和判断的统计调查方法。 所谓随机原则,又称等可能性原则、机会均等原所谓随机原则,又称等可能性原则、机会均等原则,它是指从调查对象中抽选部分单位,总体中每个则,它是指从调查对象中抽选部分单位,总体中每个单位都有均等的中选或不中选的机会,抽中或未抽中单位都有均等的中选或不中选的机会,抽中或未抽中那个单位纯粹是偶然性事件,完全排除了调查者的主那个单位纯粹是偶然性事件,完全排除了调查者的主观意识的影响。观意识的影响。 二、概率选样与非概率选样的区别二、概率选样与非概率选样的区别 按照选取调查单位的方式划分,选样调查分概率按照选取调查单位的方式划分,选样调查分概率选样和非概率选样。概率选样又称随机选样、或然率选样和非概率选样。概率选样又称随机选样、或然率选样,它主要包括抽样调查;非概率选样又称非随机选样,它主要包括抽样调查;非概率选样又称非随机选样,它主要包括重点调查、典型调查。这两类选样选样,它主要包括重点调查、典型调查。这两类选样的区别在于:的区别在于: 第一,概率选样是按照随机原则无意识地选取调第一,概率选样是按照随机原则无意识地选取调查单位,而非概率选样是按照主观意志有意识地选取查单位,而非概率选样是按照主观意志有意识地选取调查单位。调查单位。 第二,概率选样中的抽样调查可以利用部分单位第二,概率选样中的抽样调查可以利用部分单位的特征值去估计和推断总体特征,故抽样调查又称抽的特征值去估计和推断总体特征,故抽样调查又称抽样推断。而非概率选样中的重点调查目的在于通过对样推断。而非概率选样中的重点调查目的在于通过对重点单位的调查来了解认识总体的基本情况;典型调重点单位的调查来了解认识总体的基本情况;典型调查主要着眼于通过对典型单位的观察,以解剖麻雀的查主要着眼于通过对典型单位的观察,以解剖麻雀的方式来了解和掌握现象总体的结构和发展规律,以总方式来了解和掌握现象总体的结构和发展规律,以总结经验教训。结经验教训。 第三,概率选样能事前计算抽样误差控制住一定第三,概率选样能事前计算抽样误差控制住一定的范围内,从而达到最优的抽样效果。而非概率选择的范围内,从而达到最优的抽样效果。而非概率选择不能计算误差,也不能说明估计的准确程度和可靠程不能计算误差,也不能说明估计的准确程度和可靠程度。度。 第二节第二节 抽样推断中的基本概念抽样推断中的基本概念 一、全及总体和样本总体一、全及总体和样本总体 (一)全及总体(一)全及总体 全及总体,又称母体,它是统计所研究对象的全全及总体,又称母体,它是统计所研究对象的全体,它由若干个相同性质的调查单位所构成的集合体。体,它由若干个相同性质的调查单位所构成的集合体。全及总体单位数体现了总体的容量,通常用表示。按全及总体单位数体现了总体的容量,通常用表示。按照总体容量的大小可分为有限总体(照总体容量的大小可分为有限总体(Finite population)和无限总体(和无限总体(Infinite population)。有限总体是指总)。有限总体是指总体单位数是有限可数的;无限总体是指总体单位数是体单位数是有限可数的;无限总体是指总体单位数是无限不可数的。对于有限总体既可以进行全面调查,无限不可数的。对于有限总体既可以进行全面调查,又可以进行抽样调查;而对于无限总体则无法进行全又可以进行抽样调查;而对于无限总体则无法进行全面调查,只能进行抽样调查。无论是有放回的抽选面调查,只能进行抽样调查。无论是有放回的抽选(Replacement sampling),还是无放回的抽选),还是无放回的抽选(Without replacement sampling),每一次从无限总),每一次从无限总体中抽取样本单位都可以看作是相互独立的,这为数体中抽取样本单位都可以看作是相互独立的,这为数学处理提供了便利;无放回的从有限总体中抽取样本学处理提供了便利;无放回的从有限总体中抽取样本 单位,每一次抽选不是相互独立的,前一次的抽选结单位,每一次抽选不是相互独立的,前一次的抽选结果会直接影响到以后的抽选结果。当有限总体的容量果会直接影响到以后的抽选结果。当有限总体的容量很大,而抽取的样本单位相对地很少时,即使是无放很大,而抽取的样本单位相对地很少时,即使是无放回地抽选,每一次抽选所带来的影响被视为微不足道,回地抽选,每一次抽选所带来的影响被视为微不足道,基本上可以忽略不计,这样有限总体就可以看作无限基本上可以忽略不计,这样有限总体就可以看作无限总体来处理。柯赫伦(总体来处理。柯赫伦(W G Cochran)认为:凡)认为:凡样本单位数占母体单位数样本单位数占母体单位数5%5%以上的可视为有限母体,以上的可视为有限母体,不够不够5%5%的就按无限母体处理。的就按无限母体处理。 (二)样本总体(二)样本总体 样本总体,又称子样,简称样本,它是指按照随样本总体,又称子样,简称样本,它是指按照随机原则从全及总体中抽取的部分单位所构成的集合体。机原则从全及总体中抽取的部分单位所构成的集合体。样本总体单位数体现了样本的容量,通常用表示。按样本总体单位数体现了样本的容量,通常用表示。按照样本容量的大小可分为大样本和小样本。当时,则照样本容量的大小可分为大样本和小样本。当时,则为大样本;当时,则为小样本。对于一个完全唯一确为大样本;当时,则为小样本。对于一个完全唯一确定的全及总体,随着样本容量和抽样方式的不同,可定的全及总体,随着样本容量和抽样方式的不同,可以从中抽选多个不同的样本。样本中包含着总体的有以从中抽选多个不同的样本。样本中包含着总体的有关信息。关信息。 二、全及指标和样本指标二、全及指标和样本指标 (一)全及指标(一)全及指标 全及指标,又称总体参数,它是描述全及总体特全及指标,又称总体参数,它是描述全及总体特征的综合指标。由于全及总体是唯一确定的,所以,征的综合指标。由于全及总体是唯一确定的,所以,各全及指标值也是唯一确定的。总体参数是未知的,各全及指标值也是唯一确定的。总体参数是未知的,它是抽样推断的对象。主要的全及指标有:它是抽样推断的对象。主要的全及指标有: 1 1全及平均数(全及平均数( ),又称总体平均数。),又称总体平均数。 总体未分组:总体未分组: 总体已分组:总体已分组: 2 2全及成数(全及成数( ),又称总体成数。),又称总体成数。 x1NiixxN11kiiikiix fxfP1NPN 式中:式中: 表示全及总体中具有相同标志表现的单表示全及总体中具有相同标志表现的单位数。位数。 3 3总体标准差(总体标准差( )。)。 总体未分组:总体未分组: 总体已分组:总体已分组: 4 4总体是非标志标准差(总体是非标志标准差( )。)。 (二)样本指标(二)样本指标 样本指标,又称统计量,它是描述样本特征的综合样本指标,又称统计量,它是描述样本特征的综合指标。由于从全及总体中可以抽取多个可能样本,指标。由于从全及总体中可以抽取多个可能样本,这这1N21()NiixxN211()kiiikiixxffP(1)PPP 样样不同的样本就会有不同的指标值,因而样本指标是不同的样本就会有不同的指标值,因而样本指标是样本变量的函数,它是随机变量,也即由样本观测值样本变量的函数,它是随机变量,也即由样本观测值所决定的统计量是随机变量。样本指标是用来推断总所决定的统计量是随机变量。样本指标是用来推断总体数量特征的依据。主要的样本指标有:体数量特征的依据。主要的样本指标有: 1 1样本平均数(样本平均数( )。)。 样本未分组:样本未分组: 样本已分组:样本已分组: 2 2样本成数(样本成数( )。)。 式中:式中: 表示样本中具有相同标志表现的单位数。表示样本中具有相同标志表现的单位数。 x1niixxn11kiiikiix fxfp1npn1n 3 3样本标准差(样本标准差( )。)。 样本未分组:样本未分组: 样本已分组:样本已分组: 4 4总体是非标志标准差(总体是非标志标准差( )。)。 三、重置抽样与不重置抽样三、重置抽样与不重置抽样 (一)重置抽样(一)重置抽样 重置抽样,又称有放回的抽样,它是指从全及总重置抽样,又称有放回的抽样,它是指从全及总体体 个单位中随机抽取一个容量为个单位中随机抽取一个容量为 的样本,每次抽的样本,每次抽中的单位经登录其有关标志表现后又放回总体中重新中的单位经登录其有关标志表现后又放回总体中重新s21()niixxsn211()kiiikiixxfsfps(1)psppNn 参加下一次的抽选。每次从总体中抽取一个单位,可参加下一次的抽选。每次从总体中抽取一个单位,可看作是一次试验,连续进行看作是一次试验,连续进行 次试验就构成了一个样次试验就构成了一个样本。可见,重置抽样的样本是经本。可见,重置抽样的样本是经 次相互独立的连续次相互独立的连续试验形成的。每次试验均是在相同的条件下完全按照试验形成的。每次试验均是在相同的条件下完全按照随机原则进行的。随机原则进行的。 (二)不重置抽样(二)不重置抽样 不重置抽样,又称无放回的抽样,它是指从全及不重置抽样,又称无放回的抽样,它是指从全及总体总体 个单位中随机抽取一个容量为个单位中随机抽取一个容量为 的样本,每次的样本,每次抽中的单位登录其有关标志表现后不再放回总体中参抽中的单位登录其有关标志表现后不再放回总体中参加下一次的抽选。经过连续加下一次的抽选。经过连续 次不重置抽选单位构成次不重置抽选单位构成样本,实质上相当于一次性同时从总体中抽中样本,实质上相当于一次性同时从总体中抽中 个单个单位构成样本。上一次的抽选结果会直接影响到下一次位构成样本。上一次的抽选结果会直接影响到下一次抽选,因此,不重置抽样的样本是经抽选,因此,不重置抽样的样本是经 次相互联系的次相互联系的连续试验形成的。连续试验形成的。 nnNnnnn 四、抽样框与样本数四、抽样框与样本数 (一)抽样框(一)抽样框 抽样框,又称抽样结构,它是指对可以选择作为抽样框,又称抽样结构,它是指对可以选择作为样本的总体单位列出名册或排序编号,以确定总体的样本的总体单位列出名册或排序编号,以确定总体的抽样范围和结构。设计出了抽样框后,便可采用抽签抽样范围和结构。设计出了抽样框后,便可采用抽签的方式或按照随机数表来抽选必要的单位数。若没有的方式或按照随机数表来抽选必要的单位数。若没有抽样框,则不能计算样本单位的概率,从而也就无法抽样框,则不能计算样本单位的概率,从而也就无法进行概率选样。进行概率选样。 (二)样本数(二)样本数 样本数,又称样本的可能数目,它是指从总体样本数,又称样本的可能数目,它是指从总体 个单位中随机抽选个单位中随机抽选 个单位构成样本,通常有多种抽个单位构成样本,通常有多种抽选方法,每一种抽选方法实际上是选方法,每一种抽选方法实际上是 个总体单位的一个总体单位的一种排列组合,一种排列组合便构成一个可能的样本,种排列组合,一种排列组合便构成一个可能的样本,个总体单位的排列组合总数,称为样本的可能数目。个总体单位的排列组合总数,称为样本的可能数目。Nnnn 1 1重置抽样并考虑样本单位构成顺序差异,则重置抽样并考虑样本单位构成顺序差异,则 可能的样本数可能的样本数 2 2重置抽样但不考虑样本单位构成顺序差异,则重置抽样但不考虑样本单位构成顺序差异,则 可能的样本数可能的样本数 3 3不重置抽样但考虑样本单位构成顺序差异,则不重置抽样但考虑样本单位构成顺序差异,则 可能的样本数可能的样本数 4 4不重置抽样且不考虑样本单位构成顺序差异,不重置抽样且不考虑样本单位构成顺序差异,则则 可能的样本数可能的样本数 nnN NNN个1nNnC !()!nNNANn!()!nNNCn Nn 第三节第三节 抽样推断的方法论基础抽样推断的方法论基础 抽样推断的方法论基础是马克思主义认识论和概抽样推断的方法论基础是马克思主义认识论和概率论的极限定理中大数定律与中心极限定理。率论的极限定理中大数定律与中心极限定理。 一、马克思主义认识论一、马克思主义认识论 认识论指出人们认识客观事物的逻辑思维路径有认识论指出人们认识客观事物的逻辑思维路径有两条:一是由一般到特殊的演绎推理;二是由特殊到两条:一是由一般到特殊的演绎推理;二是由特殊到一般的归纳推理。所谓演绎推理,它是在封闭的系统一般的归纳推理。所谓演绎推理,它是在封闭的系统中从一般命题导出特殊结论的逻辑方法,即从三段论中从一般命题导出特殊结论的逻辑方法,即从三段论中的大前提、小前提而得出结论。结论的正确已全部中的大前提、小前提而得出结论。结论的正确已全部包含在前提的正确性之中,换而言之,只要前提正确包含在前提的正确性之中,换而言之,只要前提正确则结论必定正确。所谓归纳推理。它是在开放的系统则结论必定正确。所谓归纳推理。它是在开放的系统中从研究个别命题而达到一般性的结论,结论的内容中从研究个别命题而达到一般性的结论,结论的内容大于前提。前提正确未必导致结论正确,在一定情况大于前提。前提正确未必导致结论正确,在一定情况下,它还可能有错误的结论。演绎推理不增加多少知下,它还可能有错误的结论。演绎推理不增加多少知识内容,而归纳推理的结论的正确性还决定于前提以识内容,而归纳推理的结论的正确性还决定于前提以外的许多事实,所以结论必须经过事实检验,若该结外的许多事实,所以结论必须经过事实检验,若该结论是正确的,则必然会扩大人类的知识或增加知识的论是正确的,则必然会扩大人类的知识或增加知识的内容。内容。 抽样(估计)推断是运用归纳推理的逻辑思维方抽样(估计)推断是运用归纳推理的逻辑思维方式,由对个别样本的研究结论归纳推理出总体的结论。式,由对个别样本的研究结论归纳推理出总体的结论。 二、大数定律二、大数定律 大数定律,又称大数法则,它是关于大量随机现大数定律,又称大数法则,它是关于大量随机现象的平均水平的稳定性的一系列定理的总称。通过对象的平均水平的稳定性的一系列定理的总称。通过对随机现象的多次试验和大量观察,得到总体大量相互随机现象的多次试验和大量观察,得到总体大量相互独立的随机变量,对这些随机变量值综合平均,使正独立的随机变量,对这些随机变量值综合平均,使正负作用于随机现象的偶然性偏差趋于相互抵消,从而负作用于随机现象的偶然性偏差趋于相互抵消,从而使总体呈现出稳定的统计规律性,即随机现象趋向于使总体呈现出稳定的统计规律性,即随机现象趋向于事物固有平均水平。如:对部分年轻已婚妇女出生的事物固有平均水平。如:对部分年轻已婚妇女出生的婴儿的性别观察,可能是男孩居多或女孩居多,具有婴儿的性别观察,可能是男孩居多或女孩居多,具有很大的偶然性。如果对大量已婚年轻妇女出生婴儿的很大的偶然性。如果对大量已婚年轻妇女出生婴儿的性别观察,那么男孩、女孩的比率几乎稳定在性别观察,那么男孩、女孩的比率几乎稳定在1:11:1。 下面仅介绍与抽样估计有联系的大数法则中的下面仅介绍与抽样估计有联系的大数法则中的契契比雪夫定理比雪夫定理。 设设 , , 为相互独立的随机变量序列,为相互独立的随机变量序列,服从同一概率分布,且具有相同的期望值服从同一概率分布,且具有相同的期望值 和方差和方差 ,则对于任意给定的小正数则对于任意给定的小正数 ,有,有 式中:式中: 表示抽样平均数;表示抽样平均数; 表示总体平均数;表示总体平均数; 表示抽样单位数。表示抽样单位数。 上式表明,当样本容量上式表明,当样本容量 足够大时,样本平均数足够大时,样本平均数( )与总体平均数()与总体平均数( )的偏差小于)的偏差小于 的可能性趋的可能性趋近于近于1 1的概率,亦即此时,所有观察结果的算术平均数的概率,亦即此时,所有观察结果的算术平均数 依概率收敛于期望值(依概率收敛于期望值( )被观察值的真值的被观察值的真值的事件几乎成为必然事件。大数法则论证了抽样平均数事件几乎成为必然事件。大数法则论证了抽样平均数趋近于总体平均数的条件及趋势。趋近于总体平均数的条件及趋势。 ,1x2xnx211limlim1niinniPxP xxnixixE x ( )nnixxixx 三、中心极限定理三、中心极限定理 中心极限定理是指在某些条件下,即使原来并不中心极限定理是指在某些条件下,即使原来并不服从正态分布的一些独立的随机变量,当随机变量个服从正态分布的一些独立的随机变量,当随机变量个数无限增加时,随机变量之和的分布会趋于正态分布。数无限增加时,随机变量之和的分布会趋于正态分布。多轮抽样可得到多个样本,相应就有多个样本值,所多轮抽样可得到多个样本,相应就有多个样本值,所有样本值随样本不同而不同,因此样本值是一个随机有样本值随样本不同而不同,因此样本值是一个随机变量。所有样本值之和除以样本个数得抽样平均数,变量。所有样本值之和除以样本个数得抽样平均数,因此,抽样平均数实际上是一种随机变量和的分布。因此,抽样平均数实际上是一种随机变量和的分布。若总体变量存在有限的平均数和方差,则不论总体分若总体变量存在有限的平均数和方差,则不论总体分布如何,当样本容量趋于无穷大时,抽样平均数的极布如何,当样本容量趋于无穷大时,抽样平均数的极限分布是正态分布。如:某一时刻城市用电量是大量限分布是正态分布。如:某一时刻城市用电量是大量用户用电量的总和。用户用电量的总和。 中心极限定理的重要定理之一的中心极限定理的重要定理之一的李亚普诺夫定理李亚普诺夫定理,它是研究在一定条件下,随机变量之和的极限分布渐它是研究在一定条件下,随机变量之和的极限分布渐近地服从正态分布。近地服从正态分布。 设随机变量序列设随机变量序列 , , , 相互独立且同分相互独立且同分布,其存在共同的期望值布,其存在共同的期望值 和方差和方差 ,对一切实数,对一切实数 ,有有 式中:式中: 1x2xnx2t1limlimnninninnYxnxYE YPtPtn( )1limlimniiinnxxxxnPtPtn2212xtedtx ( ) 121nnniiYxxxx12nnE YE xxx( ) ()12nE xE xE xnxn( ) ( )( )1222222nnYxxxnnYn 由上述结论可知,只要由上述结论可知,只要 比较大,随机变量比较大,随机变量 就近似服从标准正态分布就近似服从标准正态分布 ,因而,因而 近近 似服从正态分布似服从正态分布 。该定理是大样本统计推。该定理是大样本统计推断的理论基础。断的理论基础。 n1niixnn0,1N ()1niix2,N nn() 第四节第四节 样本的概率分布样本的概率分布 所谓概率(所谓概率(Probability),它是衡量随机事件出),它是衡量随机事件出现可能性大小的尺度。现可能性大小的尺度。 设随机变量设随机变量 的可能取值为的可能取值为 , , , , 其相应的概率其相应的概率 , , , ,将其列入表,将其列入表9-19-1中:中: 该表称为的概率分布表。该表称为的概率分布表。 1x2xxnx11()p xxp22()p xxp()nnp xxpxx1x2x3xkx-1nxnx( )p x1p2p3pkp-1npnp表9-1 的概率分布表的概率分布表 1( )niiiE xx p2221()()niiiiE xxxxp 一、重置抽样的概率分布一、重置抽样的概率分布 在一次试验中,在一次试验中, 事件出现的概率为事件出现的概率为 , , 出现出现(或(或 不出现)的概率为不出现)的概率为 。连续。连续 次独立试验,样次独立试验,样本中包含本中包含 事件的个数事件的个数 是一个随机变量,则是一个随机变量,则 事件事件在样本中共出现在样本中共出现 次的概率为:次的概率为: 将其列入表将其列入表9-29-2中:中: 由于这一分布的概率和二项式由于这一分布的概率和二项式 的展开式各的展开式各项相同,故称二项分布,该分布属于离散型随机变量项相同,故称二项分布,该分布属于离散型随机变量的分布。的分布。 ApAAqnAxAk()kkn kNp xkC p q0,1,2,kn xkn( )p xnq11nNC pq222nNC p qkkn kNC p qnp 0 1 2 表9-2 二项分布二项分布()npq0( )( )nxxn xNxE xxp xxC p qnp2220()( )()nxxn xnxxxp xxxC p qnpq 二、不重置抽样的概率分布二、不重置抽样的概率分布 从总体从总体 个单位中每次不重复抽取个单位中每次不重复抽取1 1个单位,共抽个单位,共抽选选 个单位构成样本,共有个单位构成样本,共有 种取法,样本中包含种取法,样本中包含 事件的个数事件的个数 是一个随机变量,则是一个随机变量,则 事件在样本中共事件在样本中共出现出现 次的取法有次的取法有 ,因此,因此 将其列入表将其列入表9-39-3中:中: 该分布称为超几何分布,它属于离散型随机变量的该分布称为超几何分布,它属于离散型随机变量的分布。分布。 NnnNCAxAkkn knN nC C()kn knN nnNC Cp xkC(0,1,2, )kn表9-3 超几何分布超几何分布 0 1 2 x( )p xknnN nnNCC11nnN nnNC CC22nnN nnNC CCkn knN nnNC CC1nNC 三、正态分布三、正态分布 它是属于连续型随机变量的分布。它是属于连续型随机变量的分布。 (一)正态分布的密度函数(一)正态分布的密度函数 式中:式中: 表示正态分布的平均数;表示正态分布的平均数; 表示正态分布的标准差;表示正态分布的标准差; 通常以通常以 表示正态分布。表示正态分布。 参数参数 的作用:若的作用:若 固定不变,由于密度函数曲固定不变,由于密度函数曲 01( )( )nxn xNN nnxNE xxp xxC CnpC22201()( )() nxn xNN nnxNxxp xxxC CC11nNnNnNnnnpqNNNN 22()21( )2x xf xex( ,)N xx 线对线对 轴的面积不随轴的面积不随 改变,永远等于改变,永远等于1 1,所以,所以 的不的不同取值,则有隆起和平坦等形状的密度曲线,如图同取值,则有隆起和平坦等形状的密度曲线,如图9-19-1所示。所示。 (二)正态分布的标准化(二)正态分布的标准化 正态分布函数:正态分布函数:图图9-1 9-1 正态分布图正态分布图 x22()21( )2xx xF xedxf0.512x 直接利用直接利用 对各类正态分布求某点或某区间的对各类正态分布求某点或某区间的概率是相当困难的。因为不同现象的随机变量可能有概率是相当困难的。因为不同现象的随机变量可能有不同的平均数和方差,甚至各平均数和方差的特征值不同的平均数和方差,甚至各平均数和方差的特征值的单位还会有所不同,这样对于不同的问题,就会有的单位还会有所不同,这样对于不同的问题,就会有不同的正态分布,所以要将一般正态分布标准化,使不同的正态分布,所以要将一般正态分布标准化,使不同的正态分布变换为期望值都为不同的正态分布变换为期望值都为0 0、方差都为、方差都为1 1的标的标准正态分布。下面对随机变量准正态分布。下面对随机变量 变换为新的随机变变换为新的随机变量量 : 22()21()2xx xxP xxxedx( )F xxtxxt( )( )0 xxE xxE tE222txxxxxxEEE22221()1E xx 因此,标准正态分布因此,标准正态分布 的密度函数和分布函的密度函数和分布函数分别为:数分别为: 利用标准正态分布函数可计算(利用标准正态分布函数可计算( )区间)区间的概率:的概率: (0,1)N221( )2tf te221( )2ttF tedt,xa xa2202()()2ttp xaxxap xxaedt 第五节第五节 抽样估计的优良标准抽样估计的优良标准 抽样指标作为统计量,它是随机变量,随着抽得抽样指标作为统计量,它是随机变量,随着抽得的样本不同,便有不同的估计值。为此,要判断某一的样本不同,便有不同的估计值。为此,要判断某一估计量的优劣,不能仅以某一次试验的结果来衡量,估计量的优劣,不能仅以某一次试验的结果来衡量,而应当经过多次重复试验后,才能判断该种估计量是而应当经过多次重复试验后,才能判断该种估计量是否充分趋近被估计参数的真值。从直观意义上来衡量,否充分趋近被估计参数的真值。从直观意义上来衡量,抽样指标对于总体指标是否具有良好的代表性,应当抽样指标对于总体指标是否具有良好的代表性,应当从样本的分布结构和总体的分布结构是否一致,抽选从样本的分布结构和总体的分布结构是否一致,抽选的变量是否都充分接近于总体的平均数来考察。从理的变量是否都充分接近于总体的平均数来考察。从理论上归纳,若抽样指标估计总体指标能满足以下四个论上归纳,若抽样指标估计总体指标能满足以下四个标准,通常认为该估计量为最优的。标准,通常认为该估计量为最优的。 一、无偏性一、无偏性 它是指各次抽样指标的平均数等于被估计的总体它是指各次抽样指标的平均数等于被估计的总体指标。换而言之,尽管单次抽样指标可能与未知的总指标。换而言之,尽管单次抽样指标可能与未知的总体指标存在一定的偏差,但是经过多次从总体中抽取体指标存在一定的偏差,但是经过多次从总体中抽取的所有可能的样本指标,要求其数学期望应该等于总的所有可能的样本指标,要求其数学期望应该等于总, 体参数的真值,即:就所有可能的抽样指标平均而言,体参数的真值,即:就所有可能的抽样指标平均而言,对总体指标的估计是无偏误的。无偏性的数学表达式对总体指标的估计是无偏误的。无偏性的数学表达式为:为: 式中:式中: 表示样本指标;表示样本指标; 表示总体指标。表示总体指标。 证明:样本平均数证明:样本平均数 是总体均值是总体均值 的无偏估计量。的无偏估计量。 证证 证明:样本成数证明:样本成数 是总体成数是总体成数 的无偏估计量。的无偏估计量。 证证 设容量为设容量为 的样本中各样本单位的标志值的样本中各样本单位的标志值( )的取值为:)的取值为: ( )ExX11111( )( )nniiiiE xExE xnXXnnnpPnix1,2,in1,0,ixii第 单位具有某一标志第 单位不具有某一标志 ,由此可知,抽样成数,由此可知,抽样成数 是是 分布分布平均数的表现形式。平均数的表现形式。 则则 二、一致性二、一致性 它是指抽样指标与总体指标的绝对离差小于任意它是指抽样指标与总体指标的绝对离差小于任意给定的小正数的极限概率等于给定的小正数的极限概率等于1 1。换而言之,当样本容。换而言之,当样本容量无限增大时,样本指标非常趋近未知的总体指标真量无限增大时,样本指标非常趋近未知的总体指标真值且几乎成为必然事件。一致性的数学表达式为:值且几乎成为必然事件。一致性的数学表达式为: 证明:样本平均数是总体均值的一致估计量证明:样本平均数是总体均值的一致估计量 证证 大数法则中的契比雪夫不等式为:大数法则中的契比雪夫不等式为: 11niipxxnp(0,1)1111( )( )( )nniiiiE pE xExE xnn110 (1)npppn lim()1nP 因而有因而有 当当 时,时, ,由概率性质知,概率,由概率性质知,概率 是不能超过是不能超过1 1的,故的,故 证明:样本成数证明:样本成数 是总体成数是总体成数 的一致估计量。的一致估计量。 证证 则则 22211( )P xXV xn22111P xXP xXn n 2210nP xXlim1nP xXpP2211(1)1( )1ppPpPV pn lim1nPpP 三、有效性三、有效性 它是指在它是指在 的一切无偏估计量的一切无偏估计量 ( )中,)中, 的方差最小,则的方差最小,则 称为称为 的有效估计量。就总体参的有效估计量。就总体参数的无偏估计量而言,通常不只一个,况且无偏性仅数的无偏估计量而言,通常不只一个,况且无偏性仅仅表明仅表明O O所有可能取值平均等于所有可能取值平均等于 ,它的取值也许大多,它的取值也许大多数与真值数与真值 相差很大。为了确保相差很大。为了确保 的取值能充分逼的取值能充分逼近近 ,必须要求,必须要求 的方差越小越好。有效性的数学表的方差越小越好。有效性的数学表达式为:达式为: ( )( ) 证明:简单随机抽样的抽样平均数证明:简单随机抽样的抽样平均数 是总体期望是总体期望值的有效估计量。值的有效估计量。 证证 简单随机抽样的抽样平均数简单随机抽样的抽样平均数 的方差为:的方差为: i1,2,in( )V( )iV1,2,inxx2( )V xn 从总体中任取一个单位从总体中任取一个单位 为总体均值的估计量,为总体均值的估计量,则则 ( 为总体方差)为总体方差) 显然显然 证明:抽样成数证明:抽样成数 是总体成数是总体成数 的有效估计量。的有效估计量。 证证 四、充分性四、充分性 它是指估计量能够充分地利用样本提供的所有相它是指估计量能够充分地利用样本提供的所有相关未知总体参数的信息资源,该估计量为充分估计量。关未知总体参数的信息资源,该估计量为充分估计量。如:样本平均数是总体期望值的充分估计量,而样本如:样本平均数是总体期望值的充分估计量,而样本众数、中位数均不是充分估计量。众数、中位数均不是充分估计量。 总之,若样本估计量不满足无偏性,则应该引人总之,若样本估计量不满足无偏性,则应该引人ix2()iV x222( )( )iV xV xnpP(1)( )( )(1)ippV pV xPPn 修正因子或改变抽样方式;样本容量充分大时才能满修正因子或改变抽样方式;样本容量充分大时才能满足一致性,一般要求样本容量足一致性,一般要求样本容量 ,即抽取大样本来,即抽取大样本来估计总体;通常有效性和充分性不作为不同统计量的估计总体;通常有效性和充分性不作为不同统计量的取舍标准。取舍标准。 30n 第六节第六节 抽样误差抽样误差 一、抽样误差的概念一、抽样误差的概念 抽样误差是指抽样估计值与被估计的总体参数的抽样误差是指抽样估计值与被估计的总体参数的未知真值之间的偏差。如:抽样平均数未知真值之间的偏差。如:抽样平均数 与总体平均与总体平均数数 之差之差 ;抽样成数;抽样成数 与总体成数与总体成数 之差之差 。 在统计调查过程中,产生统计误差的原因主要有在统计调查过程中,产生统计误差的原因主要有两类:一类是登记性误差,它是指统计调查中进行的两类:一类是登记性误差,它是指统计调查中进行的登记、过录、汇总、计算时出现的重复遗漏、瞒报、登记、过录、汇总、计算时出现的重复遗漏、瞒报、虚报、口径不一致等主客观原因所导致的调查误差。虚报、口径不一致等主客观原因所导致的调查误差。全面调查和非全面调查均会产生登记性误差。该类误全面调查和非全面调查均会产生登记性误差。该类误差只有通过提高调查技术人员的素质和严格执行统计差只有通过提高调查技术人员的素质和严格执行统计法规来将其降低到最低限度。二类是代表性误差,它法规来将其降低到最低限度。二类是代表性误差,它是指样本不能真正成为总体的缩影,样本单位结构分是指样本不能真正成为总体的缩影,样本单位结构分布与总体单位结构分布不一致。代表性误差又可以再布与总体单位结构分布不一致。代表性误差又可以再细分为:系统性误差和随机性误差。系统性误差是指细分为:系统性误差和随机性误差。系统性误差是指违反随机原则抽选样本单位而导致的偏差。违反随机原则抽选样本单位而导致的偏差。 xXxXpPpP 如经随机抽选的单位被主观放回若干个单位进行如经随机抽选的单位被主观放回若干个单位进行任意调换而产生人为的偏差。随机性误差是指遵循随任意调换而产生人为的偏差。随机性误差是指遵循随机原则抽选样本单位,由于偶然性或随机性因素的影机原则抽选样本单位,由于偶然性或随机性因素的影响,使样本结构分布与总体结构分布不尽一致,而导响,使样本结构分布与总体结构分布不尽一致,而导致的代表性的随机误差。全面调查不存在代表性误差,致的代表性的随机误差。全面调查不存在代表性误差,而重点调查和典型调查由于不要求推断总体,所以通而重点调查和典型调查由于不要求推断总体,所以通常也没有代表性误差。严格意义上讲,抽样调查的代常也没有代表性误差。严格意义上讲,抽样调查的代表性,既要求以样本作为一个整体来代表总体,又要表性,既要求以样本作为一个整体来代表总体,又要求每一个样本单位对相应类型组均具有代表性。求每一个样本单位对相应类型组均具有代表性。 登记性误差和代表性误差中的系统性误差均属于登记性误差和代表性误差中的系统性误差均属于统计调查的组织问题,可以采取措施避免或将其降低统计调查的组织问题,可以采取措施避免或将其降低到最低限度。从理论上讲,抽样误差是在没有登记性到最低限度。从理论上讲,抽样误差是在没有登记性误差的前提下,严格按照随机原则,因不同的随机样误差的前提下,严格按照随机原则,因不同的随机样本得到的相应不同的估计量与总体参数未知真值之间本得到的相应不同的估计量与总体参数未知真值之间的偏误,抽样误差是专指代表性误差中的随机误差。的偏误,抽样误差是专指代表性误差中的随机误差。 二、影响抽样误差的因素二、影响抽样误差的因素 (一)样本容量(一)样本容量( ) 通常,样本愈大,样本愈能反映总体的特征,其通常,样本愈大,样本愈能反映总体的特征,其代表性也就愈高,这样,抽样误差就会愈小。若全及代表性也就愈高,这样,抽样误差就会愈小。若全及总体单位全部抽取作为样本,则抽样调查就变成了全总体单位全部抽取作为样本,则抽样调查就变成了全面调查,这样随之就不存在抽样误差了;反之,样本面调查,这样随之就不存在抽样误差了;反之,样本愈小,则抽样误差就会愈大。然而,抽样调查的目的愈小,则抽样误差就会愈大。然而,抽样调查的目的本来就是为了尽量降低费用和节省时间而少调查一些本来就是为了尽量降低费用和节省时间而少调查一些单位,以达到准确推断总体数量特征的目的。若无止单位,以达到准确推断总体数量特征的目的。若无止境地对样本扩容,就会违背初愿。由此可见,不能认境地对样本扩容,就会违背初愿。由此可见,不能认为样本愈大愈好。样本尽可能地缩小,只能在允许的为样本愈大愈好。样本尽可能地缩小,只能在允许的抽样误差范围内进行。抽样误差范围内进行。 (二)总体被研究标志的变异程度(二)总体被研究标志的变异程度( ) 若总体单位间的差异程度(若总体单位间的差异程度( )较小,任意抽取的)较小,任意抽取的单位构成样本,这些样本单位对总体均会有较高的单位构成样本,这些样本单位对总体均会有较高的代代n 表性,样本能充分地反映总体特征。反之,若总体单表性,样本能充分地反映总体特征。反之,若总体单位间的差异程度(位间的差异程度( )较大,从总体中抽选的单位构成)较大,从总体中抽选的单位构成样本,这些样本单位的分布有可能与总体单位分布不样本,这些样本单位的分布有可能与总体单位分布不尽一致,从而会降低样本单位对总体所有单位的代表尽一致,从而会降低样本单位对总体所有单位的代表性,从而导致抽样误差增大。性,从而导致抽样误差增大。 (三)抽样组织形式和抽样方式(三)抽样组织形式和抽样方式 采用不同的抽样组织形式,所抽出的样本对于总采用不同的抽样组织形式,所抽出的样本