抽样推断 (2)优秀课件.ppt
抽样推断第1页,本讲稿共68页第一节 推断方法概述 一、抽样的概念和特点1、抽样的概念一般所讲的抽样调查,即指狭义的抽样调查(随机抽样):按照随机原则从总体中抽取一部分单位进行调查,并运用数理统计的原理,用被抽取的那部分单位的指标数值,对总体的数量特征作出具有一定可靠程度的估计与推断,以达到认识总体的一种统计方法。第2页,本讲稿共68页v 2、抽样的特点v(1)抽样必须遵循随机原则。v(2)抽样推断从数量 上推断总体v(3)抽样 推断运用的是概率估计的方法v(4)误差可以事先计算并加以控制。v 3、抽样的作用(见书)第3页,本讲稿共68页二、抽样调查的基本概念(一)总体和样本1、总体(母体)总体是调查对象的全部单位构成的整体。对于某一具体问题来说,总体是客观存在的,是唯一确定的。2、样本总体(样本或子样)样本总体是从总体中按随机原则抽取的部分单位构成的集合体。其中被抽取的每一个单位称谓样本单位。第4页,本讲稿共68页v 样本来源于总体,是总体 中的一部分,但v 不是唯一 的,是不确定的,是可变的。v(二)总体容量和样本容量1、总本容量指总体所含总体单位的个数。用N表示 总体容量是唯一确定的2、样本容量指一个样本中所包含的单位数。样本的容量用n表示。n 30 大样本 n 30 小样本抽样比 f=n 样本容量与总体容量之比。N(三)样本个数:从总体中最多能抽取的不同样本 的总数 第5页,本讲稿共68页v(四)抽样的方法v 1、重复抽样(回置式抽样)v 有放回的抽取样本。抽中的样本再放回总体重复参加 以后多次抽取,总体中的单位数始终相同。v 重复抽样的特点(1)同一总体单位可能被重复抽中v(2)每个单位抽中的概率1/Nv(3)每个单位抽中的机会均等v 2、不重复抽样(不回置式抽样)v 不放回的抽取样本,每次抽取一个单位。凡被抽中的单位 不再放回到总体里,不参加下一次抽选。v 不重复抽样的特点(1)同一总体 单位不可能被重复抽中v(2)每个单位抽中的可能性各次不相等v(3)每次抽取不是独立的v 第6页,本讲稿共68页(五)总体指标和样本指标1.总体指标(总体参数或母体参数)总体指标又称全及指标,是根据全及总体各单位的标志值计算的,反映总体数量特征的综合指标。总体指标是唯一确定的,但也是未知的,是一个待估计值.常用的总体指标有:X 总体平均数 P 总体成数 2 总体方差 总体标准差第7页,本讲稿共68页 2 样本方差2、样本指标(样本统计量)样本指标是根据样本各单位的标志值计算的综合指标。样本指标是一个随机变量,是推断总体的依据。常用的样本指标有:样本平均数 p 样本成数 样本标准差第8页,本讲稿共68页第二节 抽样分布与抽样推断进行抽样调查目的在于抽样推断第9页,本讲稿共68页v 一、抽样分布v 在抽样推断中,样本统计量即样本平均数,样本方差,样本成数是一个随机变量。随机变量有两个特点:1、取值的随机性 2、取值的统计规律性,即可以确定随机变量取值的概率置信区间。v 抽样分布:就是指样本平均数,样本方差,样本成数v 的分布。v 二、三部份内容是介绍抽样推断的理论依据,通过数理统计证明:样本平均数和样本成数的抽样分布,都服从于正态分布。v 第10页,本讲稿共68页四、抽样平均误差和抽样极限误差 1、抽样误差的概念1、抽样误差的概念在统计调查中,调查资料与实际情况不一致,两者之间存在一定的差别,称为统计误差。第11页,本讲稿共68页抽样误差即指随机误差,这种误差是抽样的随机性而带来的偶然性代表误差,是抽样调查特有的,不可能通过任何方式消除的无法避免的误差。但是这种误差是可以运用概率与数理统计理论来计算并加以控制。抽样误差又可分为实际误差和抽样平均误差,实际误差是指一个样本与总体指标之间的误差,故是未知的不可计算。以下所讨论的抽样误差就是指抽样平均误差的概念和计算。第12页,本讲稿共68页2、抽样平均误差的概念和计算(1)抽样平均误差的概念 是样本指标(平均数或成数)的标准差。它反映的是所有可能出现的样本指标和总体指标之间的平均离散程度(平均离差)。通常用表示。现举例说明抽样平均数的抽样平均误差。第13页,本讲稿共68页(2)抽样平均误差的计算 计算平均数的抽样平均误差如前所述,抽样平均数的抽样平均误差就是抽样平均数的标准差,用公式表示 x=(xiX总)2(为定义式不可计算)n 根据数理统计知识证明抽样平均误差的计算式为 1.重复抽样(计算式即为等价公式)第14页,本讲稿共68页注意:在实际计算时为一个样本的标准差。N为一个样本的容量。第15页,本讲稿共68页 某灯泡厂从一天所生产的产品10,000个中抽取100个检查其寿命,得平均寿命为2000小时(一般为重复抽样),根据以往资料:=20小时,根据以往资料,产品质量不太稳定,若=200小时,例第16页,本讲稿共68页2.不重复抽样:(用校正因子修正)第17页,本讲稿共68页计算成数的抽样平均误差 已证明:成数的方差为p(1-p)第18页,本讲稿共68页 某玻璃器皿厂某日生产15000只印花玻璃杯,现按重复抽样方式从中抽取150只进行质量检验,结果有147只合格,其余3只为不合格品,试求这批印花玻璃杯合格率(成数)的抽样平均误差。例第19页,本讲稿共68页3、抽样极限误差的概念和计算v(1)抽样极限误差的概念v 抽样极限误差是抽样估计准确程度的v 误差范围。具体的说是样本指标与总体指标之间抽样误差的最大可能范围。这个范围的绝对值叫抽样极限误差。v 设 Xx-X x-XX x+Xv pp-P p-pPp+p第20页,本讲稿共68页v 上式表明,总体平均数是以抽样平均数为中心v 在X-XX+X之间变动,v 区间 X-X,X+X 称为平均数的估计区间(置信区间)。v 区间 P-P,P+P称为成数的估计区间v(置信区间)。第21页,本讲稿共68页v 例1 要估计某乡粮食亩产量及总产量从8000亩中用不重复抽样抽取400亩求得平均水平450v 公斤,如果抽样极限误差为5公斤,这就说明8000亩粮食亩产量在445455之间总产量就在8000X4508000X455即356364之间(万公斤)v 例2 要估计农作物的成活率,随机 抽取1000棵秧苗,其中死苗80棵,则秧苗成活率v P=920/1000=92%,如果抽样极限误差为2%v 则该农作物的成活率90%94%之间。第22页,本讲稿共68页v(2)抽样极限误差的计算v 基于概率估计的要求,通常以抽样平均误差为标准单位来衡量v 即用 t=Xt=PvXPv 得出相对数t,称为概率度,表示相对误差范围第23页,本讲稿共68页根据中心极限定理,得知当n足够大时,抽样总体为正态分布,根据正态分布规律可知,样本指标是以一定的概率落在某一特定的区间内,统计上把这个给定的区间叫抽样极限误差,也称置信区间,即在概率F(t)的保证下:抽样极限误差计算公式=t,(t为概率度)包含 X=tX P=tP第24页,本讲稿共68页v 4、抽样估计的可信程度v 抽样的误差范围不是固定不变的,要以调查的要求及把握程度(置信程度)来确定。所谓把握程度就是指总体指标包含在给定范围内的概率有多大。v 抽样估计的可信程度用F(t)表示。v其中,t 是概率度,用来估计可靠程度 的一个参数,用概率论和数理统计证明给定不同的t 可以计算出相应的F(t)。如下表。第25页,本讲稿共68页 t 1 1.28 1.64 1.96 2 2.58 3F(t)(%)68.27 80 90 95 95.45 99 99.73第26页,本讲稿共68页当F(t)=68.27%时,抽样极限误差等于抽样平均误差的1倍(t=1);当F(t)=95.45%时,抽样极限误差等于抽样平均误差的2倍(t=2);当F(t)=99.73%时,抽样极限误差等于抽样平均误差的3倍(t=3);可见,抽样极限误差,即扩大或缩小了以后的抽样误差范围。例第27页,本讲稿共68页v 例 某农场种植小麦5000亩抽取25亩实测,测v 得平均亩产500千克,标准差50千克。v 试求:5000亩小麦的平均亩产在480千克520千克 之间 的概率。第28页,本讲稿共68页v 例 在概率保证程度为95.45%的下,按简单v 随机抽样,总体平均数的区间为(9981002)v 总体方差是25,v 求(1)样本平均数,抽样平均误差v(2)样本数第29页,本讲稿共68页第三节 抽样估计的方法与应用一、点估计例第30页,本讲稿共68页v 衡量样本估计量是否是总体 参数的最优估计量,有三个评价标准,即所有的估计量应具有:无偏性,一致性和有效性v 1、无偏性 v 这是一个好的估计量应有的一条理想标准。即样本指标的数学期望等于总体参数,这个估计量称为被估计参数 的无偏估计量。v 则用数学表示:v E()=第31页,本讲稿共68页v 2、一致性 v 随着样本容量 n 的无限增大,样本估计值就越来越接近总体参数,这个估计量就是一致估计量。根据大数定律可知,0 有v lim p(xX)1v lim P(pp)1v 3、有效性v 要求样本指标做为优良估计量必须具有方差最小的性质。可以证明样本均值和中位数都是总体均值的无偏估计,但在相同容量下,样本均值更有效。v 数理统计知识证明,样本平均数和样本成数是总体平均数和总体成数的最优估计量。第32页,本讲稿共68页二、区间估计是根据样本指标和抽样误差去推断全及指标的可能范围。抽样估计的特点是,根据给定的概率保证程度的要求,利用实际抽样资料,指出总体被估计值的上限和下限,即指出总体参数可能存在的区间范围。总体参数的区间估计必须同时具备三个要素:估计值、概率保证程度和抽样误差范围,缺一不可。第33页,本讲稿共68页v 3、区间估计的步骤v(1)求样本估计量 X,Pv(2)求抽样平均误差 X,Pv(3)由概率可信程度F(t)t v 求抽样极限误差XPv(4)求出与置信度相对应的置信区间v(X-X,X+X)v(P-P,P+P)v第34页,本讲稿共68页 某农场进行小麦产量的抽样调查,该农场小麦播种面积为10000亩,采用不重复的简单随机抽样从中选100亩作为样本,进行实割实测,得到样本的平均亩产量为400千克,样本标准差为12千克。则:例1第35页,本讲稿共68页 某机械厂日产某种产品8000件,现采用纯随机不重复抽样方式(按重复抽样公式计算),从中抽取400件进行观察,其中有380件为一级品,试以概率95.45%的可靠程度推断全部产品的一级品率及一级品数量的范围。则:抽样一级品率:例2第36页,本讲稿共68页 第四节 抽样推断误差的控制 一、必要样本单位数的确定1、必要样本单位数的概念 必要样本单位数是指在一定概率保证下要使抽样误差不超过某一给定范围所必须的样本单位数。若样本容量过大或者过小,则达不到对估计精度和可靠程度的要求,所以确定必要的样本单位数即是抽样推断的重要环节又是控制推断 误差的基本手段。第37页,本讲稿共68页2、影响必要抽样单位数大小的因素1、总体各单位标志的变异程度(正比)2、抽样极限误差值的大小(反比)3、抽样推断把握程度(可靠性)高低(正比)4、抽样方法和抽样组织方式第38页,本讲稿共68页(一)简单随机抽样3、确定必要抽样数的计算公式第39页,本讲稿共68页v 说明:vv 推出修正公式vn0vn=1+n0v Nv 其中n0为重复抽样的样本容量,v n为不重复抽样的样本容量第40页,本讲稿共68页建筑工地打土方工人4000人,需测定平均每人工作量,要求误差范围不超过0.2M3,并需有99.73%保证程度。根据过去资料=1.5,求样本数应是多少?例1第41页,本讲稿共68页 某金笔厂月产10000支金笔,以前多次抽样调查一等品率为90%,现在要求误差范围在2%之内,可靠程度达95.45%,问必须抽取多少单位数?例2第42页,本讲稿共68页 二、抽样组织形式的选择 通常有以下四种组织形式:一、纯随机抽样(简单随机抽样)二、类型抽样(分层抽样)三、机械抽样(等距抽样)四、整群抽样五、阶段抽样(略)第43页,本讲稿共68页v 1、随机抽样(纯随机抽样)v 是按照随机的原则,直接从总体N个单位中抽取个单位的抽样方法。对总体单位不进行任何处理,即不分组,也不排队。v 简单随机 抽样是最基本最单纯的抽样方法,它适用 于均匀总体,抽取样本的具体方法有三种v(1)直接 抽取法v(2)抽签法v(3)随机数表法v 简单第44页,本讲稿共68页2、类型抽样(分层抽样)(一)类型抽样概述(1)先对总体各单位按一定标志加以分类(层)N=N1+N2+NK 分为K层(2)再从各类(层)中按随机原则抽取样本ni组成一个总的样本。则样本容量 n=n1+n2+nK 分类抽样运用了统计分组的原理缩小了组内差异,扩大了组间差异第45页,本讲稿共68页(二)类型抽样的好处是:样本代表性高、抽样误差小、抽样调查成本较低。如果抽样误差的要求相同的话则抽样数目可以减少。适用于单位之间差异大单位数较多的情况第46页,本讲稿共68页v(三)4、确定样本单位数的比例分配法v 按 ni NI 原则v n Nv 得公式v n nNiv i Nv 例 某市有3000个食品店,其中粮店750,v 付食品店1500,糖烟酒店450,其他店300v 现要抽取150个抽样调查,按比例分配法各v 抽取多少?第47页,本讲稿共68页 3、机械抽样(等距抽样)(一)机械抽样概述先将全及总体的所有单位按某一标志顺序排队,然后按相等的距离抽取样本单位。第48页,本讲稿共68页排列次序用的标志有两种:(1)选择标志与抽样调查所研究内容无关,称无关标志排队。(2)选择标志与抽样调查所研究的内容有关,称有关标志排队。研究工人的平均收入水平时,按工号排队。例研究工人的生活水平,按工人月工资额高低排队。例第49页,本讲稿共68页机械抽样按样本单位抽选的方法不同,可分为三种:(1)随机起点等距抽样k k k k+a 2k+a(n-1)k+aak(k为抽取间隔)示意图:第50页,本讲稿共68页(2)半距起点等距抽样k k kk(k为抽取间隔)示意图:第51页,本讲稿共68页(3)对称等距抽样示意图:k k k 2k-a 2k+a 4k-a 4k+aak(k为抽取间隔)第52页,本讲稿共68页(二)机械抽样的好处:(3)可以使抽样过程大大简化,减轻抽样的工作量;(1)能保证被抽取单位在总体中均匀分布(2)如果用有关标志排队,还可以缩小抽样误差,提高抽样推断效果。第53页,本讲稿共68页(三)机械抽样(等距抽样)的抽样平均误差 一般采用纯随机抽样方式计算第54页,本讲稿共68页4、整群抽样(1)整群抽样的概念 把总体划分为若干群,以群为单位随机抽取若干个群,对群中所有单位进行调查。(2)整群抽样的好处:组织工作比较简单方便,适用于一些特殊的研究对象。其不足之处是,一般比其它抽样方式的抽样误差大。第55页,本讲稿共68页v(3)整群抽样的步骤v 先把总体划分为R个群,每个群中含有M个v 单位,总体容量 N=RMv 再从R群中随机抽取r群 n=r M v 最后对 r 群的全部个体进行调查v 例 有100千克水泥,一昼夜产量14400袋,每分钟10袋v 为一个群,每隔144分钟抽取一分钟,在这种情况下v N=14400 M=10 R=N/M=1440群v r=24x60/144=10群v 第56页,本讲稿共68页v 说明:1、如果是类型抽样v 则(1)样本平均数是 X=Xininv 样本成数是 P=Pininv(2)平均指标的方差是组内方差的平均数v i2=i2 ninv 成数的方差是各组成数方差的加权平均数v P(1-P)=pi(1-pi)ninv v v 第57页,本讲稿共68页 某农场种小麦12000公顷,其中平原3600公顷,丘陵6000公顷,山地2400公顷,现用类型抽样法调查1200公顷,(1)以各种麦田占全农场面积的比重分配抽样面积数量。(2)计算麦田类型抽样的平均误差类 型全场播种面积(公顷)抽样调查面积(公顷)单位面积产量不均匀程度指标(千克)符 号 Ninii丘陵地区 6000 600 750 337500000平原地区 3600 360 840 254016000山 地 2400 240 1000 240000000合 计 12000 1200-831516000例第58页,本讲稿共68页第59页,本讲稿共68页 2、如果是整群抽样v则(1)样本平均数 X=Xirv 样本成数 P=Pir v(2)平均指标的方差是平均数的群间方差v 2=(xi-x)2 rv 成数的方差是成数的群间方差v 2=(pi-p)2rv v 第60页,本讲稿共68页 假如某一机器大量生产某一种零件,现每隔一小时抽取5分钟产品进行检验,用以检查产品的合格率,检查结果如下:合格率 群数r pipir80%2 0.80 1.6-0.0996 0.0198485%4 0.85 3.4-0.0496 0.0098490%12 0.90 10.8 0.0004(太小不计)95%3 0.95 2.85 0.0504 0.0076298%3 0.98 2.94 0.0804 0.01939合计 24-21.59-0.05669例第61页,本讲稿共68页v 一、填空题v 1、从变量的角度看,抽样指标是一个_变量v 全及指标是一个_变量v 2、抽样推断中,判断样本估计量是否优良的标v 准是_,_和_v 3、如果全及平均数X落在区间(960,1040)v 内的概率是95.45%,则抽样极限误差等于v 抽样平均误差等于_v 4、影响抽样误差大小的因素有,v 和抽样的组织形式。第62页,本讲稿共68页v 二、判断题v 1、成数抽样平均误差小于0.5()v 2、随机重复抽样,要使误差减少20%,其他v 条件不变,则样本容量应增加156%()v 3、抽样极限误差总是大于抽样平均误差()v 4、从全极总体(母体)中按随机原则抽取部分单位组成样本,只可能 组成 一个样本()v 5、样本单位数的多少与标志值的变异程度成正比,与极限误差大小成反比()第63页,本讲稿共68页v 三、单选题v 1、抽样调查中无法消除的误差是()v A登记性误差 B系统性误差v C随机误差 D责任心误差v 2、抽样成数是一个()v A比较相对数 B比例相对数v C强度相对数 D 结构相对数v 3、根据5%调查资料,甲企业工人平均工资方差v 为25,乙企业100,乙企业 工人数比甲企业多3倍v 则随机抽样平均误差()v A甲企业 大 B乙企业 大 C相同 D不能做结论v 4、比较重复与不重复纯随机抽样条件下抽样误差v 的大小,若不重复抽样为全及总体36%的情况下v 抽样误差比重复抽样情况下要小()v A 20%B 36%C 80%D 64%第64页,本讲稿共68页v 6、根据电信网100次通话,已知通话平均时间v 为4分钟,标准差为2分钟,在概率为95.45时v 通话平均时间的抽样极限误差()v A 0.2 B 0.4 C0.28 D 0.147、在随机抽样中不可避免的误差是()A 登记性误差 B 系统误差 C 计算误差 D 抽样误差8、抽样极限误差是样本指标与总体指标之间的()A 抽样误差的平均数 B 抽样误差的平均数 C 抽样误差的可靠程度 D 抽样误差的最大范围9、用纯随机抽样抽取样本单位,如果要使抽样平均误差降低50%,样本容量要扩大到原来的()A 2倍 B 3倍 C4倍 D 5倍第65页,本讲稿共68页v 四、多选题v 1、影响抽样误差大小的因素有()v A 样本容量的大小 B抽样总体的标志变异程度v C 抽样方法的不同 D抽样组织形式不同v E 被研究总体的标志变异程度 v 2、抽样的组织方式有()v A纯随机抽样 B机械抽样v C重复和不重复抽样 D整群抽样v E类型抽样v 3、从总体的1000个单位中,随机抽40个单位调查,v 以下说法正确的有()v A 样本单位数为40个 B 样本容量为40v C样本个数为40 个 D样本单位数1000个v E一个样本有40个单位第66页,本讲稿共68页v 4、其他条件不变时,抽样极限误差的大小与v 概率保证程度的关系是()v A极限误差范围越小,概率保证程度越大v B成反比关系 C成正比关系v D极限误差范围越小,概率保证程度越小v E极限误差范围越大,概率保证程度越小v 5、进行区间估计,应掌握的估计数据有()v A样本指标 B总体指标 C概率度v D总体单位数 E 抽样平均误差第67页,本讲稿共68页v 五、计算题v 1、成年男子身高成正态分布,又知身高平均v 值170Cm,标准差12cm:v(1)若抽查16人,有多大可能这16人的平均v 身高在167cm173cm之间v(2)对成年男子身高进行抽样调查,要求以v 95.45%的概率保证充许误差不超过3cm,则v 需抽查多少人?第68页,本讲稿共68页