《第八章+抽样推断.ppt》由会员分享,可在线阅读,更多相关《第八章+抽样推断.ppt(141页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第八章 抽样推断参数估计在统计方法中的地位本章学习目标 1、掌握抽样推断中的基本概念 2、了解抽样的基本方法 3、掌握参数估计的方法 分以下几节来讲 第一节 抽样推断概述 第二节 随机抽样方法与抽样误差 第三节 参数估计 第一节 抽样推断概述一、抽样推断的概念与过程总体总体样样本本样本统计量样本统计量样本统计量样本统计量例如:样本均例如:样本均值、比例、方值、比例、方差差总体均值、总体均值、总体均值、总体均值、比例、方差比例、方差比例、方差比例、方差一、抽样推断的涵义及特点1、涵义:在抽样调查的基础上,利用样本的实际资料计算样本指标并据以推算总体相应数量特征的一种统计方法。2、特点:是由部分推
2、算总体的一种认识方法;是一种建立在随机抽样基础上的统计方法;运用了概率估计的方法;抽样估计误差可以事先计算并加以控制。二、抽样推断的内容1、参数估计:依据所获得的样本资料观察对所研究现象总体的水平,结构规模等数量特征进行估计。参数估计包括许多内容:确定估计值和确定估计的优良标准加以判别求估计值和被估计值参数之间的误差范围计算在一定误差范围内所作推断的可靠程度。2、假设检验先对总体的状况作某种假设,然后再根据抽样推断的原理,根据样本资料对所作假设进行检验,来判断这种假设的真伪,以决定我们行动的取舍。三、抽样中的有关概念(一)总体、个体和样本 总体总体:在抽样推断中面临两个不同的总体,即 全及总体
3、 样本总体 全及总体也叫母体,简称总体,是所要认识的研究对象的全体,它由具有某种共同性质或特征的单位组成。全及总体的单位数用N表示。全及总体按其各单位标志的性质不同可分为变量总体属性总体 变量总体 构成变量总体的各个单位可以用一定的数量标志加以计量属性总体 只能用品质标志来描述的总体对于变量总体又可以按其包含的单位数以及相应的变量多少分为无限总体有限总体无限总体所包含的单位无限多,只能用抽样推断来研究。有限总体所包含的单位数则是有限的。样本总体又叫抽样总体、子样,简称样本,是从全及总体中随机抽选出来的单位所组成的小总体。样本总体的单位数称样本容量,用n表示。与全及总体的单位数N相比,n则是个很
4、小的数。个体个体:组成总体的每个元素 样本样本:从总体中所抽取的部分个体所构成的小的总体,当中所包含的单位数用“n”表示,称为“样本容量”。样本可分为:大样本 小样本(二)全及指标与样本指标 (参数与统计量)1、全及指标:说明全及总体的综合数量 特征,是唯一的,又称为“参数”。(1)变量总体全及总体平均数 、全及总体标准差 方差 )。设总体变量X有N个,取值则:(2)属性总体全及总体成数P、全及总体标准差(方差 )。设总体 个单位中,有 个单位具有某种属性,个单位不具有某种属性,且 ,则:属性总体标准差 2、样本指标说明样本的综合数量特征,随着样本的变化而变化,不唯一的,是随机变量,又称为“统
5、计量”。(1)对于变量样本,样本指标有:设样本总体有 个变量:则:样本平均数样本标准差修正样本标准差 样本方差修正样本方差(2)属性样本:设样本总体 个单位中有 个单位具有某种属性,个单位不具有某种属性,且则:样本标准差(三)样本容量与样本可能数目 1、样本容量样本容量:样本中所含个体的数量,用“n”表示。当n30时,称为大样本,否则称 为小样本。n/N称为抽样比例 2、样本可能数目:从N个个体中随机抽取n个 构成样本,有多种可能,它取决于样本 容量和抽样方法。(四)抽样方法:重复抽样与不重复抽样1、重复抽样:又叫“重置抽样”,是有放回 抽样。样本可能数目为2、不重复抽样:又叫“不重置抽样”,
6、是无 放回抽样。样本可能数目为 (五)抽样组织方式1、纯随机抽样:又叫简单随机抽样,是对总体N个单位不分组不排序,随机从中抽取n个单位构成样本进行调查。具体方法有:抽签法 用随机数字表 2、机械抽样:又叫等距抽样或系统抽样 做法:对N个单位按一定标志排序并编号 按相等的间隔抽取样本单位构成样本3、类型抽样:又叫分层抽样。先将总体按 某一主要标志分组,然后在各组内抽 取一定数目的单位构成样本。4、整群抽样:先将总体划分为若干组(或 群),然后从中成批地抽取样本单位 构成样本。第二节 随机抽样方法与抽样平均误差的计算 一、抽样误差的概念(一)统计调查误差种类按产生的原因分,统计调查误差可分为登记性
7、误差登记性误差代表性误差代表性误差登记性误差是指统计调查时,由于主观原因在登记、汇总、计算、过录中所产生的误差。登记性误差不论全面调查或非全面调查都可能产生。代表性误差代表性误差又可分为两种:系统性误差系统性误差随机误差随机误差系统性误差又称偏差,它是由于抽样调查没有遵循随机原则而产生的误差。只要遵循随机原则就可以避免。随机误差又称偶然的代表性误差,它是指没有登记性误差的前提下,又遵循了随机原则所产生的误差。随机误差是抽样调查固有的误差。抽样误差是指这种随机误差。抽样误差抽样误差包括抽样实际误差抽样实际误差抽样平均误差抽样平均误差抽样实际误差是指某一样本指标与被它估计的总体指标产差数。抽样误差
8、=样本指标-全及指标二、抽样平均误差抽样误差也是一个随机变量,它随着样本的不同而不同。这就需要计算抽样平均误差来反映误差的一般水平概念:抽样平均误差,抽样平均误差是指所有可能组成的样本的抽样平均数或抽样成数与总体平均数或成数的平均误差。简称平均误差。从一般意义上说是所有抽样实际误差的平均水平。确切地说,抽样平均误差是所有样本指标(样本平均数和样本成数)的标准差。基本计算公式:三、抽样方法与抽样平均误差的计算(一)重复抽样 1、概念:重复简单随机抽样又称重置抽样,是从具有N个单位的总体中随机抽取n个单位为样本,每次从总体中抽取一个单位登记其序号或标志值之后,又将它重新放回总体参加下一次抽选,连续
9、进行n次抽选便构成了一个容量为n的样本。该抽样方法的特点是:第一,总共可以构成 个可能的样本个数,每个样本被抽取的概率都是相同的;第二,由于是重复抽样,因此在n次抽样中,总体中每个单位在各次抽样中被抽取的概率都相同,n次抽样就是n次相互独立的试验。例例:总体为2、3、4,从总体中按重复抽样抽出两个单位组成样本。求抽样平均误差就是求所有可能样本平均数的标准差。序号样本总量样本平均数12122212232.50.25324304322.50.25533306343.50.25742308433.50.259444110333用计算器求2、2.5、3、2.5、3、3.5、3、3.5、4的标准差得即为
10、抽样平均误差。当N、n较大时,样本不可能一一列举,这样根据抽样平均误差的基本公式,以及重复抽样的特点,可得出抽样平均误差的简化计算公式:(二)不重复简单随机抽样和抽样分布 不重复简单随机抽样也称不重置简单随机抽样,是从具有N个单位的总体中随机抽取一个容量为n的样本,但每一次抽取一个单位登记其序号或标志值之后,不再将其重新放回总体参加下一次的抽选,因此这种抽样方法实际上也就是一次同时从总体中抽取n个单位组成一个样本。该种抽样方法的特点是:(1)总共可构成个可能的样本个数,每个样本被抽取的概率都是相同的。(2)由于是不重复抽样,每抽样一次,总体就少了一个单位数,因此在n次抽样中,每个单位在各次抽样
11、中被抽取的概率不同,n次抽样不是相互独立的n次试验。四、影响抽样平均误差的因素全及总体标志的变动程度()全及总体标志变异程度大,抽样平均误差大;反之,全及总体标志变异程度小,抽样平均误差小。样本单位标志的变异程度(S)样本容量(n)的多少样本容量愈大,抽样平均误差愈小;反之,样本容量愈小,抽样平均误差愈小。抽样组织的方式有简单随机抽样、类型抽样、整群抽样、机械抽样等。例例:从40、50、70、80中抽取3个组成样本,在重复抽样下,求抽样平均误差。求总体标准差,直接用计算器统计功能键可以求出:求抽样平均误差在不重复抽样下抽样平均误差例例:从40、50、70、80中抽取3个组成样本,在不重复抽样下
12、,求抽样平均误差。求总体标准差,直接用计算器统计功能键可以求出:求样本平均数和样本成数的抽样平均误差。使用时间(小时)抽查灯泡个数(个)组中值900以下2875900-9504925950-1000119751000-10507110251050-11008410751100-11501811251150-1200711751200以上31225合计200求灯泡平均使用时间、标准差和灯泡合格率(样本)求灯泡使用时间抽样平均误差:在重复抽样下抽样平均误差在不重复抽样下抽样平均误差求灯泡合格率的抽样平均误差:在重复抽样下抽样平均误差在不重复抽样下抽样平均误差通过对本单元的学习,能够在样本指标和抽样
13、平均误差计算的基础上,在一定的概率保证下对总体参数进行区间估计,并且对抽样的具体方式有一个更深入的把握。第三节第三节 参数估计参数估计 一、参数估计1、概念:参数估计是用样本统计量估计总体参数的方法,即以计算的样本指标来估计相应全及指标的方法。2、参数估计的方法有两种:点估计:不考虑误差的存在区间估计:考虑误差的存在二、点估计1、概念:点估计也称定值估计,是用样本的统计量直接估计和代表总体参数,即用样本指标直接代表总体指标的参数估计方法,不考虑误差的存在。例如用样本平均数 直接估计总体平均数 ,用样本成数p直接估计总体成数P,用修正样本方差 ,直接估计总体方差 。点估计简单易行,但不考虑抽样误
14、差及可靠程度,只适用于推断的准确程度与可靠程度要求不高的情况。用样本统计量估计总体参数,有的可能效果很好,有的可能效果不好,如何进行评价?作为一个优良的估计量应该符合以下三个标准。(1)无偏性。如果估计量 的数学期望值等于总体参数,即E=()=,则 是的无偏估计量。例如,样本平均数 就是总体平均数 的无偏估计量,E()=a=;修正样本方差 是总体方差 的无偏估计量,E()=(2)有效性。如果对比任何一个估计量 ,有最小方差,即 ,则 是的有效估计量。例如:样本平均数 是总体平均数 最为有效的估计量,因为修正样本方差 是总体方差最为有效的估计量。(3)一致性:如果估计量 ,随着样本容量n的增大而
15、趋近于,即(是个任意小的正数),则 是的一致估计量。例如:所以样本平均数 是总体数学期望a=的一致估计量。例如:所以样本方差 是总体方差 的一致估计量。又因为当n时,即 所以修正样本方差 是总体方差 的一致估计量。三、区间估计概念:区间估计就是用点估计量和它的标准误差(抽样平均误差)构成的区间估计总体参数,并说明总体参数落在这样一个区间的可能性或置信度。区间估计必须具备三个基本要素:一是点估计量,可以是样本的平均数 也可以是样本成数p;二是误差范围,即抽样极限误差,通常都用样本指标(点估计量)抽样极限误差来表示总体指标的估计的区间,这个区间也叫做置信区间;三是置信度F(t)=(1-)表示总体指
16、标落入估计区间有百分之几概率保证。可以用数学公式简洁地表示区间估计:P(样本指标-极限误差总体指标样本指标十极限误差)F(t)=1-1、抽样极限误差:又称为抽样允许误差,抽样极限误差可以用概率度t和抽样平均误差相乘得到,即:=t t:称为概率度,可以通过查正态分布概率表得到。当F(t)=0.9500时,查正态分布概率表t=1.96;当F(t)=0.9545时,t2;当F(t)=0.9973时,t=3。2、F(t):称为概率,置信度有时也称为把握度,即有多大的把握保证总体参数存在于这样的区间。t与F(t)的关系:t越大,表示允许的误差范围越大,即在样本指标的基础上上下浮动的范围越大,置信区间越宽
17、,总体参数存在于该区间的可能性越大,即F(t)越高。(三)总体平均数的区间估计 用区间估计的方法来估计总体平均数,必须具备三要素:点估计量即样本平均数 、平均数的抽样极限误差和置信度F(t)。公式如下:式中:例:从某校全部学生中,随机抽取100名学生,平均体重 =58kg,抽样平均误差 =1,用95.45的置信度来对全部学生平均体重作出区间估计。解:已知 =58千克,抽样平均误差 1,置信度F(t)=95.45 则查正态分布概率表得t=2 抽样极限误差 因此有:即有95.45的把握使全部学生的平均体重位于56kg至60kg之间。(四)总体成数的区间估计用区间估计的方法来估计总体成数P,同样必须
18、具备三要素:点估计量即样本成数p,成数的抽样极限误差p和置信度F(t)。公式如下:式中:例:从某校全部学生中,随机抽取100名学生,戴眼镜者占40%,抽样平均误差 =1%,用99.73%的置信度来对总体成数P进行区间估计。解:已知:p=40%,=1%,F(t)=99.73%,查正态分布概率表得t=3。抽样极限误差 所以,P(37%P43%)=99.73%即有99.73%的把握使总体成数P处于37%至43%之间。例:某乡水道总面积2000亩,从中随机抽取40亩(重复抽样),每亩产量资料如下:每亩产量(斤)亩数xxf400-450500-550450-500550-600600-650650-70
19、0700-750750-8001020501101006030204254755255756256757257754250950026250632506250040500217501550033856035912035280012716025600261360403680551120合计4002435002419400要求:极限误差不超过8斤,试估计全乡水稻单产和总产量,并指出到达这一要求的概率保证程度。解:(1)计算样本平均数和标准差 (2)计算抽样平均误差(3)(4)进行参数估计 点估计:以95.45%的概率保证该乡水稻平均亩产为609斤,总产量为121.8万斤(2000609)。区间估计
20、:下限 上限 故以95.45%概率保证,该乡水稻平均亩产在601617斤之间,总产量在120.2万斤123.4万斤之间(2000601,2000617)四 样本容量的确定和对总量指标的推算一、必要样本容量的确定影响必要样本容量的因素总体各单位标志变异程度即总体方差 或p(1-p)的大小。总体标志变异程度大,要求样本容量大一些;反之,总体标志变异程度小,样本容量可以小些。允许的极限误差 或 的大小允许的极限误差越大,样本容量越小;反之,极限误差越小,样本容量越大。抽样方法在其它条件相同的情况下,重置抽样比不重置抽样要抽取多一些样本单位。抽样方式例如,采用类型抽样的样本容量要小于简单随机抽样的样本
21、容量。抽样推断的可靠程度即概率度F(t)的大小推断的可靠程度要求越高即F(t)越大,样本容量越多;反之,推断的可靠程度要求越低,样本容量越少。必要样本容量的计算公式重置抽样的必要样本容量平均数的必要样本容量,由成数的必要样本容量,由不重置抽样的必要样本容量平均数的必要样本容量,由成数的必要样本容量,由例例:从某企业400名工人中随机抽取10%进行调查,获得日产零件资料如下:日产零件数(件)工人数(人)100以下4100-2001020-30020300以上6合计40已知样本方差要求:在不重复抽样情况下以95.45%(t=2)的可靠性估计平均每位工人的日产零件的置信区间。若在其它条件不变的情况下
22、,使极限误差减少20%,则至少应抽多少工人进行调查。解:已知:N=400人,n=40人,(1)在不重复抽样情况下以95.45%(t=2)的可靠性估计平均每位工人的日产零件的置信区间的区间范围:214.72,225.28(2)在其它条件不变的情况下,使极限误差减少20%,则至少应抽60名工人进行调查。(二)总体总量指标的推算即用样本指标或总体指标(总体平均数和总体成数)的区间估计值乘以总体单位数来推算总体总量指标的立法。样本指标值乘以总体单位数,即,PN是总体总量指标的点估计值。总体指标的区间估计值乘以总体单位数,即,是总体总量指标的区间估计值。例上,求40名工人总产零件的置信区间:40214.
23、72,225.28=8588.80,9011.2第四节 抽样组织方式一、抽样设计的基本原则保证实现抽样随机性的原则保证实现最大的抽样效果原则二、简单随机抽样简单随机抽样又称纯随机抽样,它是按照随机的原则直接从总体中随机地抽出一部份单位作为样本,在抽取样本时保证每一个单位都有同等的被抽的机会。简单随机抽样最符合随机原则。抽签法随机数字法简单随机抽样的方法简便易行,并且符合抽样的随机原则。但,如果全及总体的单位数较多,并要从中抽出较多的单位,则采用简单随机抽样法就不太方便。例如,要从40000个全及总体单位中随机抽20个单位,就很不方便,首先要将全及总体各个单位编号,编完号后再抽样,比较耗时间。特
24、别地如对正在连续大量生产的产品进行质量检验,就不可能将产品编号。三、机械抽样机械抽样以称等距抽样或系统抽样,是将全及总体各单位按某一标志排列,然后按固定顺序和间隔来抽选样本单位的一种抽样组织形式。在类型抽样的情况下,因为从各类型组都抽取了样本单位,所以,对各类型组来说是全面调查,因此,组间方差是可以不考虑的。影响抽样误差的总方差是组内方差。在机械抽样中,可按“有关标志”将全及总体各单位进行排队,如职工生活水平的调查,将职工按“平均工资”排队;按“有关标志”进行机械抽样,每一间隔可以视为一个类型组即一个特殊的类型抽样,可以用类型抽样误差的公式来计算抽样误差。也可以按“无关标志”将全及总体各单位排
25、队,如职工生活水平调查,将职工按“姓氏笔划”排队、将职工按“地理位置”排队。按“无关标志”进行机械抽样,是不重复抽样,其抽样平均误差的计算公式为:四、类型抽样类型抽样又称分类抽样或分层抽样,是将全及总体所有单位先按主要标志分组,然后在各组中按随机原则抽取样本单位的方法。类型抽样在实际工作中应用广泛,如在了解企业生产经营情况的抽样调查中,先将企业按行业分组,再在各组中抽选样本单位。设全及总体由N个单位组成,把全及总体按主要标志分成K个组,各组的单位数分别为:,然后从各组的单位 中随机抽取 个单位。显然:类型抽样通常采用等比例抽样法,要求各组中样本数与各组单位数之比等于各组单位数与总体单位数之比。
26、列式如下:显然:有关样本指标计算如下:全样本的样本平均数式中 为各组内抽样平均数全样本的样本成数式中 为各样本组内成数3)重复抽样时的全样本的抽样平均误差式中 为各组内方差的平均数,而 为各组内方差4)不重复抽样时的全样本的抽样平均误差五、整群抽样 整群抽样是将总体划分为由总体单位的组成的若干群,然后以群为抽样单位,抽取若干群作为样本,对群内所有单位进行抽样的方法。影响整群抽样误差大小的是群间方差。整体抽样一般是采用不重复抽样,影响抽样误差的总方差是群间方差,群内方差不影响抽样误差。设总体的全部单位被划分为R群,每群含M个单位,从R群中随机抽取r群组成样本,并对所抽中的r群的所有单位(rM个)
27、单位进行调查。有关指标的计算公式如下:1)全样本平均数式中 为第i群样本平均数2)全样本成数式中 为第i群样本成数3)抽样平均数的平均误差4)抽样成数的平均误差 第三节 参数估计一、概念 估计、推算 样本指标 全及指标 (统计量)(参数)二、方法 点估计 区间估计(一)点估计 又叫“定值估计”,是用样本指标直接 估计和代表全及指标,即不考虑误差。全及指标=样本指标 方法有:矩估计法 极大似然估计法 顺序统计量法 最小二乘法 对估计量的评价:无偏性 一致性 有效性(二)区间估计 根据样本指标和抽样误差来推断全及指标的可能范围,并说明全及指标落在这个区间的可能性或置信度。进行区间估计必须具备三个基
28、本要素:1、样本指标 2、抽样误差:允许误差范围 全及指标的可能范围为:样本指标 3、置信度:全及指标存在上述区间的可能性 (概率),用F(t)表示即:P(样本指标-全及指标样本指标+)=F(t)图示如下:样本统计量样本统计量样本统计量样本统计量 (点估计点估计点估计点估计)置信区间置信区间置信区间置信区间置信下限置信下限置信下限置信下限置信上限置信上限置信上限置信上限被估计的总体参数总体参数总体参数符号表示符号表示用于估计的用于估计的样本统计量样本统计量一个一个总总体体均值比例方差两个总体两个总体均值之差比例之差方差比【例】【例】【例】【例】从一个正态总体中随机抽取一个样本,从一个正态总体中
29、随机抽取一个样本,n n=25=25 ,其均值其均值 x x=5050 ,标准差标准差 s s=8=8。建立总体均值建立总体均值 的的95%95%的置信区间。的置信区间。解解解解:已已 知知 N N(,2 2),x x=50,50,s s=8=8,n n=25,F(t)=95%=25,F(t)=95%查表得查表得t t=1.96 =1.96 总体均值的可能范围为(50-3.136,50+3.136)习题1、某进出口公司出口一种名茶,规定每包规格重量不低于150克,现在用不重复抽样的方法抽取1%进行检验,结果如下:(1)以99.73%的概率保证估计这批茶叶平均每包重量的可能范围(2)以同样的概率保证估计这批茶叶包装的合格率的可能范围每包重量(克)包数149以下101491502015015150151以上202、某地种植农作物6000亩,按照随机抽样,调查了300亩。调查结果如下:平均亩产量为650公斤,标准差为15公斤。根据上述资料,试求:(1)利用点估计,推算农作物的总产量(2)利用区间估计,在0.9545的概率保证下估计全部农作物的平均亩产量(3)在同样的概率保证下求这6000亩农作物的总产量的可能范围。
限制150内