抽样组织设计和估计方法ync.pptx
第五章第五章第五章第五章 抽样估计抽样估计抽样估计抽样估计教学目的:通过对本章的学习,了解教学目的:通过对本章的学习,了解抽样估计的基本原理,掌握抽样估计抽样估计的基本原理,掌握抽样估计的基本方法。的基本方法。教学设计:对主要的知识点进行讲解,通过在线教学设计:对主要的知识点进行讲解,通过在线学习平台的学习平台的“教学辅导教学辅导”与与“参考资料参考资料”栏目获栏目获取相关知识,从而对重要的知识点有进一步的认取相关知识,从而对重要的知识点有进一步的认识,在此基础上通过练习来加深对相关问题的理识,在此基础上通过练习来加深对相关问题的理解,同时通过网上实时与非实时的答疑解决疑难解,同时通过网上实时与非实时的答疑解决疑难问题。问题。重难点讲解:抽样误差的概念及计算;抽样估计重难点讲解:抽样误差的概念及计算;抽样估计的方法的方法第五章第五章 抽样估计抽样估计第一节第一节 抽样推断的一般问题抽样推断的一般问题第二节第二节 抽样误差抽样误差第三节第三节 抽样估计的方法抽样估计的方法第四节第四节 抽样组织设计抽样组织设计统计调查方法统计调查方法 全面调查全面调查非非全面调查全面调查 普普 查查 抽样调查抽样调查 重点调查重点调查 典型调查典型调查相关知识回顾:相关知识回顾:统计报表统计报表 抽样调查抽样调查:按照按照随机原则随机原则,从总体中抽取一部,从总体中抽取一部分样本单位,根据对样本单位的调查结果来推分样本单位,根据对样本单位的调查结果来推断总体的数量特征。断总体的数量特征。一、抽样推断的意义一、抽样推断的意义 1 1、概念:、概念:抽样推断是在抽样调查的基础上,利用样抽样推断是在抽样调查的基础上,利用样本的实际资料计算样本指标,并据以推算总体本的实际资料计算样本指标,并据以推算总体相应数量特征的一种统计分析方法。相应数量特征的一种统计分析方法。第一节第一节 抽样推断的一般问题抽样推断的一般问题样样样样 本本本本总总总总 体体体体推断推断 2 2、特点、特点(1 1)由部分推算整体的一种方法;)由部分推算整体的一种方法;(2 2)抽样推断建立在随机抽样的基础上;)抽样推断建立在随机抽样的基础上;(3 3)抽样推断是运用概率估计的方法;)抽样推断是运用概率估计的方法;(4 4)抽样推断的误差可以计算并加以控制。)抽样推断的误差可以计算并加以控制。样样样样 本本本本(非唯一)(非唯一)(非唯一)(非唯一)总总总总 体体体体(唯一)(唯一)(唯一)(唯一)推断推断二、抽样推断的内容二、抽样推断的内容(一)参数估计(一)参数估计 用样本的观察资料来估计所研究现象总体的用样本的观察资料来估计所研究现象总体的水平、结构、规模等数量特征,这种推断方法称水平、结构、规模等数量特征,这种推断方法称为参数估计。为参数估计。(二)假设检验(二)假设检验 对总体的状况作出某种假设,然后根据样本对总体的状况作出某种假设,然后根据样本所提供的信息来判断总体未知参数事先所作的假所提供的信息来判断总体未知参数事先所作的假设是否成立的统计分析方法称为假设检验。设是否成立的统计分析方法称为假设检验。三三、抽样的几个基本概念、抽样的几个基本概念 1 1、总体、总体 也称全及总体,指所要认识的研究对象全也称全及总体,指所要认识的研究对象全体,由具有某种共同性质许多单位组成的集合体,由具有某种共同性质许多单位组成的集合体,一般用体,一般用N N表示。表示。无限总体、有限总体无限总体、有限总体 2 2、样本、样本 又称子样,是从全及总体中随机抽取出来,又称子样,是从全及总体中随机抽取出来,作为代表这一总体的那部分单位组成的集合体,作为代表这一总体的那部分单位组成的集合体,一般用一般用n n表示。表示。总总总总 体体体体样样样样 本本本本 3 3、随机抽样、随机抽样 按随机原则从总体中抽取样本单位。按随机原则从总体中抽取样本单位。4 4、非随机抽样、非随机抽样 根据市场调查者的主观分析判断来选取样本根据市场调查者的主观分析判断来选取样本单位。包括偶遇抽样、主观抽样、定额抽样。单位。包括偶遇抽样、主观抽样、定额抽样。5 5、参数、参数 根据总体各单位的标志值或标志特征计算根据总体各单位的标志值或标志特征计算的,反映总体数量特征的综合指标,称为全及的,反映总体数量特征的综合指标,称为全及指标,由总体各单位的标志值或标志特征所决指标,由总体各单位的标志值或标志特征所决定,全及指标的指标值是确定的,唯一的,称定,全及指标的指标值是确定的,唯一的,称为参数。为参数。对于总体中的品质标志:对于总体中的品质标志:由于不能用数量来表示,总体参数通常用成数由于不能用数量来表示,总体参数通常用成数P P表示。表示。成数:总体中具有某种性质的单位数在总体全部单位数成数:总体中具有某种性质的单位数在总体全部单位数中的比重,用中的比重,用P P表示。总体中不具有某种性质的单位数在表示。总体中不具有某种性质的单位数在总体中所占的比重,用总体中所占的比重,用Q Q表示表示。有有P+Q=1 P+Q=1 X:X:表示总体变量,有表示总体变量,有N N个单位,所以可以表示为个单位,所以可以表示为 当某种标志,它的标志表现只有是非两种,可当某种标志,它的标志表现只有是非两种,可 以用以用“1”“1”表示标志表现为表示标志表现为“是是”的标志的标的标志的标志表现,志表现,“0”“0”表示标志表现为表示标志表现为“非非”的标志的标志的标志表现,在此情况下的标志表现,在此情况下: 6 6、统计量、统计量 根据样本各单位标志值或标志属性计算的综根据样本各单位标志值或标志属性计算的综合指标称为统计量。样本统计量是用来估计总体合指标称为统计量。样本统计量是用来估计总体参数的。反映样本的数量特征。参数的。反映样本的数量特征。参数参数总总总总 体体体体统计量统计量样样样样 本本本本例题:某批产品共例题:某批产品共500500件,合格品件,合格品480480件,件,不合格品不合格品2020件,要求计算成数合格品率、件,要求计算成数合格品率、7 7、样本容量、样本容量 指一个样本所包含的单位数。指一个样本所包含的单位数。8 8、样本个数、样本个数 又称样本可能数目,是指从一个总体中可能又称样本可能数目,是指从一个总体中可能抽取的样本个数。抽取的样本个数。9 9、重复抽样、重复抽样 从总体从总体N N个单位中随机抽取样本容量为个单位中随机抽取样本容量为n n的样的样本,每次从总体中抽取一个,连续进行本,每次从总体中抽取一个,连续进行n n次实验次实验构成抽样样本。每次抽出一个单位把结果登记下构成抽样样本。每次抽出一个单位把结果登记下来又放回,重新参加下一次的抽选。共可抽取容来又放回,重新参加下一次的抽选。共可抽取容量为量为n n的样本的样本 个。个。1010、不重复抽样、不重复抽样 从总体从总体N N个单位中随机抽取容量为个单位中随机抽取容量为n n的样本,的样本,每次从总体中抽取一个,连续进行每次从总体中抽取一个,连续进行n n次实验构次实验构成抽样样本。但每次抽选出的单位就不再放回成抽样样本。但每次抽选出的单位就不再放回参加下一次抽选。共可抽取容量为参加下一次抽选。共可抽取容量为n n的样本的样本N(N-1)(N-2).(N-n+1)N(N-1)(N-2).(N-n+1)个。个。结论:总体单位数一致,在相同样本容量的情结论:总体单位数一致,在相同样本容量的情况下,重复抽样的样本个数大于不重复抽样的况下,重复抽样的样本个数大于不重复抽样的样本个数。样本个数。 第二节第二节 抽样误差抽样误差一、抽样误差的概念一、抽样误差的概念概念:概念:指由于随机抽样的偶然因素使样本各单指由于随机抽样的偶然因素使样本各单位的结构不足以代表总体各单位的结构,而引起位的结构不足以代表总体各单位的结构,而引起抽样指标和全及指标之间的绝对离差。抽样指标和全及指标之间的绝对离差。系统偏误与登记性误差可以防止或避免,抽样系统偏误与登记性误差可以防止或避免,抽样误差不可避免,只能加以控制。误差不可避免,只能加以控制。影响抽样误差大小的因素:影响抽样误差大小的因素:(1 1)总体各单位标志值的差异程度;)总体各单位标志值的差异程度;(2 2)样本单位数;)样本单位数;(3 3)抽样方法;)抽样方法;(4 4)抽样组织形式。)抽样组织形式。二、抽样平均误差二、抽样平均误差(抽样指标的标准差抽样指标的标准差)反映抽样误差一般水平的指标。是所有可能反映抽样误差一般水平的指标。是所有可能出现的样本指标和总体指标的平均离差。出现的样本指标和总体指标的平均离差。1 1、抽样平均数的平均误差,也可称为、抽样平均数的平均误差,也可称为抽样平均抽样平均数的标准差数的标准差(表明各样本均值与总体均值离差表明各样本均值与总体均值离差的一般水平)的一般水平)(1 1)重复抽样情况下)重复抽样情况下 例:设有三个数例:设有三个数8 8、1010、1212,这一总体的均值、标,这一总体的均值、标准差分别为:准差分别为:用重复抽样的方法,从用重复抽样的方法,从8 8、1010、1212三个数中抽两个数三个数中抽两个数构成样本,求样本的平均值,用以代表三个数的一构成样本,求样本的平均值,用以代表三个数的一般水平,所有可能的样本以及样本的平均值列表如般水平,所有可能的样本以及样本的平均值列表如下:下:样本个数样本个数样本变量样本变量样本均值样本均值 平均数离差平均数离差 离差平方离差平方 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 9 9 8 8 8 10 8 12 10 10 10 12 10 8 12 12 12 8 12 10 8 9 10 10 11 9 12 10 11-2-1 0 0 1 2 0 1-1 410014011 合合 计计 90 0 抽样平均数的标准差:抽样平均数的标准差:现在按重复抽样误差公式计算抽样平均误差现在按重复抽样误差公式计算抽样平均误差 几个基本关系:几个基本关系:a.a.样本平均数的平均数等于总体平均数;样本平均数的平均数等于总体平均数;b.b.抽样平均误差实质上就是抽样平均数的标准抽样平均误差实质上就是抽样平均数的标准差,也称为抽样标准误差;差,也称为抽样标准误差;c.c.抽样平均数的标准差(抽样平均误差)比总体标抽样平均数的标准差(抽样平均误差)比总体标准差小很多,仅为总体标准差的准差小很多,仅为总体标准差的 。d.d.可以通过调整样本单位数可以通过调整样本单位数n n来控制抽样平均误差来控制抽样平均误差。(2)(2)在不重复抽样的情况下在不重复抽样的情况下样本个数样本个数样本变量样本变量样本均值样本均值 平均数离差平均数离差 离差平方离差平方 1 1 2 2 3 3 4 4 5 5 6 6 8 10 8 12 10 12 10 8 12 8 12 10 9 10 11 9 10 11-10 1-1 0 1 101101 合合 计计 60 0 按不重复抽样误差公式计算抽样平均误差按不重复抽样误差公式计算抽样平均误差 某工厂有某工厂有15001500个工人,用简单随机重复抽样个工人,用简单随机重复抽样的方法抽取的方法抽取5050个工人作为样本,调查其工资水平,个工人作为样本,调查其工资水平,资料如下:资料如下:月平均工资月平均工资(元)(元)524524534534540540550550560560580580600600660660工人数工人数 (人)(人)4 46 69 910108 86 64 43 3计算样本平均数和抽样平均误差。计算样本平均数和抽样平均误差。2 2、抽样成数的平均误差(表明各样本成数与总、抽样成数的平均误差(表明各样本成数与总体成数绝对离差的一般水平)体成数绝对离差的一般水平)(1)(1)在重复抽样下在重复抽样下P P:总体成数:总体成数n:n:样本单位数样本单位数(2)(2)在不重复抽样下在不重复抽样下在实际计算中,用样本成数在实际计算中,用样本成数p p代替总体成数代替总体成数P P 从从20002000件产品中抽查件产品中抽查200200件,其中合格品件,其中合格品190190件,件,要求:计算样本合格率及其抽样平均误差。要求:计算样本合格率及其抽样平均误差。解:在重复抽样下:解:在重复抽样下:在不重复抽样下:在不重复抽样下: 某电子产品使用寿命在某电子产品使用寿命在30003000小时以下为不合格小时以下为不合格品。现在用简单随机抽样方法从品。现在用简单随机抽样方法从50005000个产品中抽取个产品中抽取100100个对其使用寿命进行调查,结果如下表所示个对其使用寿命进行调查,结果如下表所示 使用寿命(小时)使用寿命(小时)产品数量(个)产品数量(个)30003000以下以下3000300040004000400040005000500050005000以上以上2 2303050501818合计合计要求:要求:(1)按重复抽样和不重复抽样计算该产品平均)按重复抽样和不重复抽样计算该产品平均寿命的抽样平均误差;寿命的抽样平均误差;(2)按重复抽样和不重复抽样计算该产品合格)按重复抽样和不重复抽样计算该产品合格率的抽样平均误差。率的抽样平均误差。解:根据资料可算出解:根据资料可算出 使用寿命(小时)使用寿命(小时)组中值组中值 产品数量(个)产品数量(个)xfxf30003000以下以下3000300040004000400040005000500050005000以上以上25002500350035004500450055005500 2 2 30 30 50 50 18 18 500050001050001050002250002250009900099000 合计合计 100 三、抽样极限误差三、抽样极限误差 指变动的抽样指标与确定的总体指标之间指变动的抽样指标与确定的总体指标之间离差的可能范围,统计上称为抽样极限误差。离差的可能范围,统计上称为抽样极限误差。设设四、抽样误差的概率度四、抽样误差的概率度 对某市居民进行生活水平调查,现随机抽取对某市居民进行生活水平调查,现随机抽取100100户,结户,结果户月均收入为果户月均收入为482482元,标准差为元,标准差为5050元,要求该市居民户月元,要求该市居民户月均收入在均收入在472472492492元的范围内,试求抽样极限误差和抽样元的范围内,试求抽样极限误差和抽样概率度。概率度。 第三节第三节 抽样估计的方法抽样估计的方法 一、总体参数的点估计一、总体参数的点估计 根据总体指标的结构形式设计样本指标作为总体参数根据总体指标的结构形式设计样本指标作为总体参数的估计量,并以样本指标的实际值直接作为相应总体参数的估计量,并以样本指标的实际值直接作为相应总体参数的估计值,即直接以样本平均数、成数推断总体的平均数的估计值,即直接以样本平均数、成数推断总体的平均数和成数。和成数。 优良估计的标准:优良估计的标准:1 1、无偏性:以抽样指标估计总体指标要求抽样指、无偏性:以抽样指标估计总体指标要求抽样指 标值的平均数等于被估计的总体指标值本身。标值的平均数等于被估计的总体指标值本身。2 2、一致性:以抽样指标估计总体指标要求当样、一致性:以抽样指标估计总体指标要求当样本容量增大时,抽样指标也充分地靠近总体指标。本容量增大时,抽样指标也充分地靠近总体指标。3 3、有效性:以抽样指标值估计总体指标要求作为、有效性:以抽样指标值估计总体指标要求作为优良估计量的方差应该比其他估计量的方差小。优良估计量的方差应该比其他估计量的方差小。二、抽样估计的精度二、抽样估计的精度 估计精度估计精度1 1误差率误差率 三、抽样估计的置信度三、抽样估计的置信度 表明抽样指标和总体指标的误差不超过一定范表明抽样指标和总体指标的误差不超过一定范围的概率保证程度。围的概率保证程度。样本平均数样本平均数700700800800900900100010001100110012001200130013001400140015001500频数频数 f f1 12 21 12 24 42 21 12 21 1频率频率根据以上分布写出平均工资落在各种区间范围内的概率根据以上分布写出平均工资落在各种区间范围内的概率P P: 已经证明,当样本单位数大于或等于已经证明,当样本单位数大于或等于3030的条的条件下,抽样平均数的分布接近与正态分布。件下,抽样平均数的分布接近与正态分布。 该分布的特点是:该分布的特点是:(1 1)抽样平均数以总体平均数为中心,它大于或小于)抽样平均数以总体平均数为中心,它大于或小于总体平均数的概率分布完全呈对称分布;抽样平均总体平均数的概率分布完全呈对称分布;抽样平均数的正误差和负误差的可能性完全相等。数的正误差和负误差的可能性完全相等。(2 2)抽样平均数越接近总体平均数,其出现的概率越)抽样平均数越接近总体平均数,其出现的概率越大;越远离总体平均数,其出现的概率越小。大;越远离总体平均数,其出现的概率越小。 概率度与概率保证程度之间是函数关系,概概率度与概率保证程度之间是函数关系,概率保证程度是概率度的函数,即:率保证程度是概率度的函数,即: t与与F(t)之间的关系可以查正态分布概率表,之间的关系可以查正态分布概率表,附录三附录三四、总体参数的区间估计四、总体参数的区间估计 对于总体的被估计值(总体参数)对于总体的被估计值(总体参数)X X,找出两个,找出两个数值数值 使被估计指标使被估计指标X X落在区间落在区间 内的概率内的概率 为已知的。(用一个具有一为已知的。(用一个具有一定可靠程度的区间范围来估计总体参数)定可靠程度的区间范围来估计总体参数) 区间估计的两种方法区间估计的两种方法:1 1、根据已知的抽样误差范围(抽样极限误差)求、根据已知的抽样误差范围(抽样极限误差)求概率保证程度(置信度)。概率保证程度(置信度)。并给出相应的概率保证程度并给出相应的概率保证程度耐用时间耐用时间组中值组中值灯泡数灯泡数耐用时间耐用时间组中值组中值灯泡数灯泡数800850825359501000975103850900875127100010501025429009509251851050110010758(1 1)样本平均数及抽样平均误差)样本平均数及抽样平均误差以以99.7399.73的可靠程度推断这批灯泡的耐用时间在(的可靠程度推断这批灯泡的耐用时间在(919919小时,小时,933.8933.8小时)的范围内。小时)的范围内。 若已知样本灯泡的合格率为若已知样本灯泡的合格率为9595,要求合格率的误,要求合格率的误差范围不超过差范围不超过0.970.97,估计该批灯泡的合格率,并给出,估计该批灯泡的合格率,并给出相应的概率保证程度。相应的概率保证程度。2 2、给出置信度,求抽样极限误差的可能范围、给出置信度,求抽样极限误差的可能范围 以以68.2768.27的概率保证程度估计该批灯泡的合格的概率保证程度估计该批灯泡的合格率在(率在(94.03%94.03%,95.97%95.97%)范围内。)范围内。 某城市某街道所管辖的某城市某街道所管辖的1000010000户居民中,用户居民中,用单纯随机重复抽样方法抽取单纯随机重复抽样方法抽取200200户,对某种商品户,对某种商品的平均需求量和需求倾向进行调查,调查结的平均需求量和需求倾向进行调查,调查结果表明,每户居民对该商品的月平均需求量为果表明,每户居民对该商品的月平均需求量为500500克,标准差为克,标准差为100100克,表示一年内不选择其克,表示一年内不选择其他替代商品,继续消费该商品的居民户为他替代商品,继续消费该商品的居民户为9090,试对总体平均数,总体成数进行区间估计。试对总体平均数,总体成数进行区间估计。(1 1)当置信度)当置信度8585时时 该街道该街道1000010000户居民表示继续消费该商品的居民户居民表示继续消费该商品的居民户占户占87879393,估计的置信度为,估计的置信度为(2)(2)当置信度当置信度9595时时,该街道该街道1000010000户居民对该商品需求量为户居民对该商品需求量为486.1486.1513.9513.9克,置信度为克,置信度为总体参数的区间估计的三要素是:估计值、总体参数的区间估计的三要素是:估计值、抽样误差范围、概率保证程度。抽样误差范围、概率保证程度。该街道该街道1000010000户居民表示继续消费该商品的居户居民表示继续消费该商品的居民户占民户占86.186.193.993.9,置信度为,置信度为例例1 1:某工厂生产一种新型灯泡:某工厂生产一种新型灯泡50005000只,随机只,随机抽取抽取100100只作耐用时间实验,测试结果平均寿只作耐用时间实验,测试结果平均寿命为命为45004500小时,标准差为小时,标准差为300300小时,试在小时,试在95.4595.45概率保证下,估计该新式灯泡平均寿命区概率保证下,估计该新式灯泡平均寿命区间。间。例例2 2:某乡有:某乡有50005000农户,按随机原则重复抽取农户,按随机原则重复抽取100100户调查,得平均每户年纯收入户调查,得平均每户年纯收入1200012000元,标元,标准差准差20002000元,要求元,要求:(1):(1)以以9595的概率估计全乡的概率估计全乡平均每户年纯收入的区间;平均每户年纯收入的区间;(2)(2)以同样概率估以同样概率估计全乡农户年纯收入总额的区间范围。计全乡农户年纯收入总额的区间范围。 例例3 3:某学校进行一次英语测验,为了了解学生的:某学校进行一次英语测验,为了了解学生的考试情况,随机抽选部分学生进行调查,所得资考试情况,随机抽选部分学生进行调查,所得资料如下:料如下:考试成绩考试成绩6060以下以下6060707070708080808090909090100100学生人数学生人数10102020222240408 8试以试以95.4595.45的可靠性估计该学校英语考试的平的可靠性估计该学校英语考试的平均成绩的范围及该校学生成绩在均成绩的范围及该校学生成绩在8080分以上的学生分以上的学生所占的比重的范围。所占的比重的范围。解:该校学生英语考试的平均成绩解:该校学生英语考试的平均成绩标准差为标准差为平均成绩的抽样平均误差为平均成绩的抽样平均误差为平均成绩的抽样极限误差为平均成绩的抽样极限误差为该校学生考试的平均成绩的区间范围是该校学生考试的平均成绩的区间范围是样本中考试成绩在样本中考试成绩在80分以上的学生比重分以上的学生比重考试成绩在考试成绩在80分以上的学生比重分以上的学生比重在在95.45概率保证程度下,该校学生成绩在概率保证程度下,该校学生成绩在8080分以分以上的学生所占比重的范围在上的学生所占比重的范围在38.0138.0157.9957.99之间之间例例4:外贸公司出口一种茶叶,规定每包毛重不低于:外贸公司出口一种茶叶,规定每包毛重不低于100克,现用不重复抽样的方法抽取其中的克,现用不重复抽样的方法抽取其中的1 1进行进行检验,其结果如下:检验,其结果如下:每包重量(克)每包重量(克)包数包数9898999999991001001001001011011011011021021010202050502020合计合计100100试以试以99.73(t=3)的概率保证程度估计这批茶叶)的概率保证程度估计这批茶叶合格率范围。合格率范围。解:样本合格率为解:样本合格率为以以99.73的概率保证程度保证这批茶叶包装合格率在的概率保证程度保证这批茶叶包装合格率在56.383.7之间。之间。第四节第四节 抽样组织设计抽样组织设计一、抽样组织设计的基本原则一、抽样组织设计的基本原则1 1、保证随机性原则的实现、保证随机性原则的实现(1 1)要有合适的抽样框)要有合适的抽样框 抽样框:指编制抽样单位的目录。抽样框:指编制抽样单位的目录。(2 2)取样的实施问题)取样的实施问题2 2、考虑样本容量问题、考虑样本容量问题3 3、关于抽样的组织形式、关于抽样的组织形式4 4、必须重视调查经费、必须重视调查经费 二、几种常用的抽样组织形式二、几种常用的抽样组织形式 1 1、简单随机抽样(、简单随机抽样(最基本、最简单的抽样组织形式)最基本、最简单的抽样组织形式)直接从总体直接从总体N N个单位中随机抽取个单位中随机抽取n n个单位作为样本,个单位作为样本,适用于均匀总体。适用于均匀总体。类型类型 (1)(1)抽签法抽签法 (2)(2)随机数表法随机数表法简单随机抽样样本单位数的确定:简单随机抽样样本单位数的确定: a.a.在重复抽样下,由于样本平均数的抽样极限误差公式为:在重复抽样下,由于样本平均数的抽样极限误差公式为:b.b.在不重复抽样下,在不重复抽样下,由于样本平均数的抽样极限误差公式为:由于样本平均数的抽样极限误差公式为:c.c.在重复抽样下,由于样本成数的抽样极限误差公式为在重复抽样下,由于样本成数的抽样极限误差公式为d.d.在不重复抽样下,由于样本成数的抽样极限误差公式为在不重复抽样下,由于样本成数的抽样极限误差公式为 调查一批机械零件合格率,根据过去的资料,合格品率调查一批机械零件合格率,根据过去的资料,合格品率曾有过曾有过9999、9797、9595三种情况,现在要求误差不超过三种情况,现在要求误差不超过1 1,要求估计的把握程度为,要求估计的把握程度为9595,问需要抽查多少个零件,问需要抽查多少个零件?2 2、类型抽样(分层抽样)、类型抽样(分层抽样)设总体由设总体由N N个单位组成,把总体划分为个单位组成,把总体划分为K K组,每组,每组有组有 个单位个单位,然后从每组的然后从每组的 个单位中抽取个单位中抽取 个单位构成个单位构成样本容量为样本容量为n n的样本,使的样本,使 ,这种抽这种抽样方法称为类型抽样。样方法称为类型抽样。各组应抽样本单位数的确定:各组应抽样本单位数的确定:由各组的总体单位数在全部总体单位数中的比重由各组的总体单位数在全部总体单位数中的比重来确定。来确定。从从250250家百货公司中抽取家百货公司中抽取5050家进行本季度销售额的调查家进行本季度销售额的调查 分分 层层各层商店数各层商店数各层应抽样各层应抽样本单位数本单位数各层销售额各层销售额的样本均值的样本均值各层销售额各层销售额的样本方差的样本方差大型商店大型商店中型商店中型商店小型商店小型商店25751500.10.30.65153017008001202800698510850合合 计计 以上题为例,求样本平均销售额和抽样平均以上题为例,求样本平均销售额和抽样平均误差。误差。 类型抽样的抽样平均误差只取决于组内方差的类型抽样的抽样平均误差只取决于组内方差的平均水平,不受组间方差的影响。它小于简单随机平均水平,不受组间方差的影响。它小于简单随机抽样的抽样平均误差,因此在对总体进行分组时,抽样的抽样平均误差,因此在对总体进行分组时,应尽量扩大组间方差,缩小组内方差。(总方差应尽量扩大组间方差,缩小组内方差。(总方差组内方差组间方差)组内方差组间方差)3 3、整群抽样、整群抽样 将总体各单位划分为许多群,然后随机抽取部将总体各单位划分为许多群,然后随机抽取部分群,对中选群的所有单位进行全面调查的抽样组分群,对中选群的所有单位进行全面调查的抽样组织形式。织形式。 将总体的全部单位将总体的全部单位N N划分成划分成R R群,每群包括群,每群包括M M个单个单位位(假设每群的单位数是相等的假设每群的单位数是相等的),有,有RM=NRM=N,从总体,从总体R R群中随机抽取群中随机抽取r r群组成样本,并对中选的群组成样本,并对中选的r r群的所群的所有有M M单位进行调查。单位进行调查。第第i i群样本平均数群样本平均数 整群抽样对群而言是非全面调查,对被抽中的群内单位整群抽样对群而言是非全面调查,对被抽中的群内单位而言是全面调查,因此,整群抽样的误差取决于群间差异,而言是全面调查,因此,整群抽样的误差取决于群间差异,不受群内单位之间差异的影响,这就要求总体不受群内单位之间差异的影响,这就要求总体N个单位所形个单位所形成的各个群,尽量有相同或相近的群内结构;也就是说要尽成的各个群,尽量有相同或相近的群内结构;也就是说要尽量把总体方程转化为群内方差,缩小群间方差。量把总体方程转化为群内方差,缩小群间方差。例:某工厂生产某种灯泡,在连续生产例:某工厂生产某种灯泡,在连续生产720720小小时中,每隔时中,每隔2424小时抽取小时抽取1 1小时的全部产品加以小时的全部产品加以检查,根据抽样资料计算结果,灯泡平均使用检查,根据抽样资料计算结果,灯泡平均使用寿命寿命12001200小时,群间方差为小时,群间方差为6060小时,计算样本小时,计算样本平均数的抽样误差,并以平均数的抽样误差,并以9595的可靠程度推算的可靠程度推算该批灯泡的平均使用寿命。该批灯泡的平均使用寿命。 即该批灯泡的平均使用寿命在即该批灯泡的平均使用寿命在1197.291197.291202.721202.72小时之间。小时之间。 4 4、等距抽样、等距抽样 也称机械抽样或系统抽样。将总体各单位按某一标志进也称机械抽样或系统抽样。将总体各单位按某一标志进行排队,然后依一定顺序和间隔抽取样本单位的一种抽样组行排队,然后依一定顺序和间隔抽取样本单位的一种抽样组织形式。织形式。在总体在总体N N个单位按某一标志排队后,从头到尾编上个单位按某一标志排队后,从头到尾编上1 1至至N N的的号码,并等分成号码,并等分成n n断,每段含断,每段含K K个单位,个单位,N=nKN=nK,然后在第一段,然后在第一段的的K K个单位中个单位中随机抽取一个单位随机抽取一个单位(设为第设为第i i号号,)以后每隔以后每隔k k抽取下一个单位(如抽取下一个单位(如i+Ki+K号,号,i+2Ki+2K号,直至号,直至i+(n-i+(n-1)K1)K号号),),共共n n个单位构成样本。一共可抽取个单位构成样本。一共可抽取K K套样本。套样本。无关标志:和单位标志值的大小无关或不起主要的无关标志:和单位标志值的大小无关或不起主要的影响作用。如职工家计调查按其姓氏笔划、家庭门影响作用。如职工家计调查按其姓氏笔划、家庭门牌号等顺序排队。牌号等顺序排队。有关标志:和单位标志值的大小有密切的关系。如有关标志:和单位标志值的大小有密切的关系。如职工家计调查以职工的工资标志作为排队标志。职工家计调查以职工的工资标志作为排队标志。等距抽样的具体方式:(针对按有关标志排队)等距抽样的具体方式:(针对按有关标志排队)(1 1)半距中点取样)半距中点取样 如将总体分为如将总体分为n n段后,每段有段后,每段有K K个单位,第个单位,第1 1段段从从1.1.到到K,K,那么就取第那么就取第K/2K/2个单位,第个单位,第2 2段取段取段取段取 个单位个单位,第第3 3段取段取 个单位个单位.第第n n段取段取 个单位个单位,每单位的间隔都是每单位的间隔都是K K,共有,共有n n个个单位构成样本。单位构成样本。优点:最能代表总体的一般水平(每一个数值都能优点:最能代表总体的一般水平(每一个数值都能反映该段标志值的一般水平)。反映该段标志值的一般水平)。缺点:缺少随机性,只能抽一套样本缺点:缺少随机性,只能抽一套样本。(2)(2)对称等距抽样对称等距抽样 第一部分随机取第第一部分随机取第i i个单位,第二部分则取这部分个单位,第二部分则取这部分最终倒数第最终倒数第i i个单位,如此反复使两组保持对称等距。个单位,如此反复使两组保持对称等距。其基本思路是使低标志值的单位与高标志值的单位在其基本思路是使低标志值的单位与高标志值的单位在样本中对等出现。样本中对等出现。优点:实现随机原则,可以取得比较有代表性优点:实现随机原则,可以取得比较有代表性的样本,可抽取的样本,可抽取K K套样本。套样本。需注意的问题:需注意的问题:抽样间隔不能与现象本身的周期性规律重抽样间隔不能与现象本身的周期性规律重合,以免造成系统性偏差。合,以免造成系统性偏差。5 5、抽样方案的检查、抽样方案的检查 主要是准确性检查和代表性检查两个方面主要是准确性检查和代表性检查两个方面(一)准确性检查(一)准确性检查 用已掌握的资料检查其在一定概率保证下,实用已掌握的资料检查其在一定概率保证下,实际的极限误差是否超过方案所允许的误差范围。际的极限误差是否超过方案所允许的误差范围。(二)代表性检查二)代表性检查 用方案中的样本指标与过去已掌握的总体用方案中的样本指标与过去已掌握的总体同一指标同一指标 进行对比,看其比率是否超过规进行对比,看其比率是否超过规定的要求,如果符合要求,即认为代表性充足;定的要求,如果符合要求,即认为代表性充足;如果不符合要求,就认为代表性不充足。如果不符合要求,就认为代表性不充足。我国规定农产量的比率不超过我国规定农产量的比率不超过 ,居民,居民收入的比率不超过收入的比率不超过 即即 本章重点及难点:本章重点及难点:根据一个具体样本的观察资料计算如下样根据一个具体样本的观察资料计算如下样本指标:样本平均数、样本平均数的方差、样本指标:样本平均数、样本平均数的方差、样本成数、样本成数的方差;抽样误差、抽样平本成数、样本成数的方差;抽样误差、抽样平均误差的含义和计算公式,影响抽样误差大小均误差的含义和计算公式,影响抽样误差大小的因素,抽样平均误差、抽样极限误差与概率的因素,抽样平均误差、抽样极限误差与概率度的关系,在重复和不重复抽样条件下抽样平度的关系,在重复和不重复抽样条件下抽样平均误差、抽样极限误差的计算方法;对总体参均误差、抽样极限误差的计算方法;对总体参数的区间估计;在简单随机抽样中抽样单位数数的区间估计;在简单随机抽样中抽样单位数的计算方法。的计算方法。