统计学抽样与抽样分布 (2).ppt
《统计学抽样与抽样分布 (2).ppt》由会员分享,可在线阅读,更多相关《统计学抽样与抽样分布 (2).ppt(70页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、关于统计学抽样与抽样分布(2)1现在学习的是第1页,共70页24.1 抽样的基础知识一、几个概念二、抽样误差三、常用的抽样方法现在学习的是第2页,共70页3一、几个概念(一)全及总体与总体指标(一)全及总体与总体指标全及总体全及总体。简称总体简称总体(Population)(Population),是指所要研究的对象的全,是指所要研究的对象的全体,它是由所研究范围内具有某种共同性质的全部单位所组成的体,它是由所研究范围内具有某种共同性质的全部单位所组成的集合体。总体单位总数用集合体。总体单位总数用N N表示。(举例)表示。(举例)总体指标总体指标(参数)。在抽样估计中,用来反映总体数量特征的(
2、参数)。在抽样估计中,用来反映总体数量特征的指标称为总体指标,也叫总体参数。指标称为总体指标,也叫总体参数。研究目的一经确定,总体也唯一地确定了,所以总体指研究目的一经确定,总体也唯一地确定了,所以总体指标的数值是客观存在的、确定的,但又是未知的,需要标的数值是客观存在的、确定的,但又是未知的,需要用样本资料去估计用样本资料去估计。现在学习的是第3页,共70页4通常所要估计的总体指标有通常所要估计的总体指标有:变量总体变量总体总体平均数总体平均数 (或记为或记为)总体标准差总体标准差或方差或方差总体标志总量总体标志总量 (N )(N )属性总体属性总体总体比率(成数)总体比率(成数)P(P(或
3、或 )总体比率标准差总体比率标准差P P或或 方差方差P P 总体中具有某一属性的单位总总体中具有某一属性的单位总数数(NP)(NP)等。等。XX现在学习的是第4页,共70页5一、几个概念(二)样本总体与样本指标(二)样本总体与样本指标样本总体样本总体。简称样本(。简称样本(SampleSample),它是按照随机原则,从),它是按照随机原则,从总体中抽取的部分总体单位的集合体总体中抽取的部分总体单位的集合体 。样本容量样本容量:样本中所包含的个体的数量,一般用:样本中所包含的个体的数量,一般用n n表示。表示。在实际工作中,人们通常把在实际工作中,人们通常把n30n30的样本称为大样本的样本
4、称为大样本,而把,而把n30n30的样本称为小样本的样本称为小样本。对于某一既定的总体,由于抽样的方式方法不同,样本容量也对于某一既定的总体,由于抽样的方式方法不同,样本容量也可大可小,因而,可大可小,因而,样本是不确定的、而是可变的样本是不确定的、而是可变的。现在学习的是第5页,共70页6一、几个概念(二)样本总体与样本指标(二)样本总体与样本指标样本指标(统计量)样本指标(统计量)。在抽样估计中,用来反映。在抽样估计中,用来反映样样本总体本总体数量特征的指标数量特征的指标称为样本指标,也称为样本统称为样本指标,也称为样本统计量或估计量,是根据样本资料计算的、用以估计或计量或估计量,是根据样
5、本资料计算的、用以估计或推断相应总体指标的综合指标。推断相应总体指标的综合指标。现在学习的是第6页,共70页7常见的样本统计量有:常见的样本统计量有:变量总体变量总体:样本平均数样本平均数样本标准差样本标准差S S或或 样本方差样本方差SS样本统计量样本统计量不含未知参数不含未知参数,它是随样本不同而不同的随它是随样本不同而不同的随机变量机变量。属性总体:属性总体:样本比样本比率率(也称样本(也称样本 成数)成数)p p样本比样本比率率标准差标准差p p或或 方差方差p p x现在学习的是第7页,共70页8二、抽样误差(一)抽样误差的概念(一)抽样误差的概念抽样误差是统计调查误差的一种形式。统
6、计调查误差,是指调查所得结果与总体真实数值之统计调查误差,是指调查所得结果与总体真实数值之间的差异。在抽样调查中,误差的来源有两大类:间的差异。在抽样调查中,误差的来源有两大类:登记性误差登记性误差。是任何一种统计调查都可能产生。是任何一种统计调查都可能产生.代表性误差代表性误差 系统性误差系统性误差 随机误差随机误差现在学习的是第8页,共70页9二、抽样误差系统性误差,系统性误差,是由于非随机因素引起的样本代表是由于非随机因素引起的样本代表性不足而产生的误差,表现为样本估计量的值系性不足而产生的误差,表现为样本估计量的值系统性偏高或偏低,故也称偏差;统性偏高或偏低,故也称偏差;随机误差随机误
7、差:又称偶然性误差,是指:又称偶然性误差,是指遵循随机原则抽遵循随机原则抽样,但由于样本各单位的结构不足以代表总体各单样,但由于样本各单位的结构不足以代表总体各单位的结构而引起的样本估计量与总体参数之间的误位的结构而引起的样本估计量与总体参数之间的误差差。这就是抽样估计中所谓的抽样误差。这就是抽样估计中所谓的抽样误差 。现在学习的是第9页,共70页10二、抽样误差实际应用中,有三个密切联系而又相互区别的抽实际应用中,有三个密切联系而又相互区别的抽样误差的概念样误差的概念 实际抽样误差实际抽样误差 抽样平均误差抽样平均误差 抽样极限误差抽样极限误差现在学习的是第10页,共70页11二、抽样误差(
8、二)抽样平均误差(抽样标准误(二)抽样平均误差(抽样标准误)抽样平均误差是反映抽样误差一般水平的指标(抽样平均误差是反映抽样误差一般水平的指标(因为抽样因为抽样误差是一个随机变量,它的数值随着可能抽取的样本不同而或误差是一个随机变量,它的数值随着可能抽取的样本不同而或大或小,为了总的衡量样本代表性的高低,就需要计算抽样误大或小,为了总的衡量样本代表性的高低,就需要计算抽样误差的一般水平差的一般水平)。通常用)。通常用样本估计量的标准差样本估计量的标准差来反映来反映所有可所有可能样本估计值与其中心值的平均离散程度。能样本估计值与其中心值的平均离散程度。现在学习的是第11页,共70页12二、抽样误
9、差(二)抽样平均误差(二)抽样平均误差22()()()x E xxxMMn抽样平均误差可衡量样本对总体的代表性大小抽样平均误差可衡量样本对总体的代表性大小。即。即:抽样平均误越小,则样本估计量的分布就越集中在总抽样平均误越小,则样本估计量的分布就越集中在总体参数的附近,平均来说,样本估计值与总体参数之体参数的附近,平均来说,样本估计值与总体参数之间的抽样误差越小,样本对总体的代表性越大。间的抽样误差越小,样本对总体的代表性越大。现在学习的是第12页,共70页13抽样平均误的计算公式抽样平均误的计算公式在总体方差在总体方差 已知,总体单位总数为已知,总体单位总数为N N,样本容量为,样本容量为n
10、 n,简单随机抽样条件下,抽样平均误的计算公式为简单随机抽样条件下,抽样平均误的计算公式为:重复抽样重复抽样 不重复抽样不重复抽样估计均值估计均值估计成数估计成数22()xnn2()1nxnN(1)()pppn(1)()1ppnpnN现在学习的是第13页,共70页14二、抽样误差(三)抽样极限误差(三)抽样极限误差抽样极限误差是指抽样极限误差是指一定概率下一定概率下抽样误差的抽样误差的可能范围可能范围,也称为,也称为允许误差允许误差。用。用表示,由定义知其表达式:表示,由定义知其表达式:在一定概率下,在一定概率下,上式表示,在一定概率下可认为样本估计量与相应的总体参数上式表示,在一定概率下可认
11、为样本估计量与相应的总体参数的误差的绝对值不超过的误差的绝对值不超过 。现在学习的是第14页,共70页15抽样极限误差抽样极限误差用用 、分别表示平均数和比率(成数)的抽样极限误差,则在分别表示平均数和比率(成数)的抽样极限误差,则在一定概率下有:一定概率下有:估计均值的置信区间:估计均值的置信区间:估计成数(比例)的置信区间:估计成数(比例)的置信区间:xpxXxpPpxxxXx pppPp 现在学习的是第15页,共70页16对抽样极限误差的解释:抽样极限误差抽样极限误差是抽样误差的是抽样误差的可能范围可能范围,而不是完全肯定的,而不是完全肯定的范围。所以,这一可能范围的大小是与其估计的可靠
12、程度范围。所以,这一可能范围的大小是与其估计的可靠程度的大小(即概率)紧密联系的。在抽样估计中,这个概率的大小(即概率)紧密联系的。在抽样估计中,这个概率叫置信度,习惯上也称为可靠程度、把握程度或概率保证叫置信度,习惯上也称为可靠程度、把握程度或概率保证程度等,用程度等,用1-1-表示。表示。显然在其他条件不变的情况下,抽样极显然在其他条件不变的情况下,抽样极限误差越大,相应的置信度也就越大。限误差越大,相应的置信度也就越大。现在学习的是第16页,共70页17抽样抽样误差率:误差率:与抽样极限误差相关的两个概念是与抽样极限误差相关的两个概念是:抽样误差率和抽样估计精度抽样误差率和抽样估计精度抽
13、样误差率抽样误差率=(抽样极限误差(抽样极限误差/估计量)估计量)100%100%抽样估计精度抽样估计精度=100%-=100%-抽样误差率抽样误差率现在学习的是第17页,共70页18估计精度(准确性)与可靠程度的关系:估计精度与估计的可靠程度是矛盾的。也就是说,如果估计精度与估计的可靠程度是矛盾的。也就是说,如果精精度很高度很高,则会由于估计区间太窄而使错误估计的可能性大增,从,则会由于估计区间太窄而使错误估计的可能性大增,从而大大降低估计的可靠程度,使估计结果没有多大的作用;如果而大大降低估计的可靠程度,使估计结果没有多大的作用;如果置信度很高置信度很高,则意味着允许误差范围较大,而使估计
14、精度太低,则意味着允许误差范围较大,而使估计精度太低 ,这时尽管估计的可靠程度接近或等于这时尽管估计的可靠程度接近或等于100%100%,但抽样估计本身也,但抽样估计本身也会失去意义。会失去意义。实际中,只能依据具体情况,先满足一方面,然后确定实际中,只能依据具体情况,先满足一方面,然后确定另一方面。另一方面。现在学习的是第18页,共70页19三、抽样方法在实际应用中,抽样方法主要有两种在实际应用中,抽样方法主要有两种 概率抽样概率抽样 非概率抽样非概率抽样1 1、概率抽样也叫随机抽样概率抽样也叫随机抽样,是指按随机原则抽取样本。所谓,是指按随机原则抽取样本。所谓随机原则,就是排除主观意识的干
15、扰,使总体的每一个单随机原则,就是排除主观意识的干扰,使总体的每一个单位都有一定的概率被抽选为样本单位,每个单位能否入选位都有一定的概率被抽选为样本单位,每个单位能否入选是随机的。是随机的。概率抽样最基本的组织形式有概率抽样最基本的组织形式有:简单随机抽样、分层抽样、等距抽样和整群抽样。简单随机抽样、分层抽样、等距抽样和整群抽样。现在学习的是第19页,共70页20三、抽样方法1 1、概率抽样概率抽样特点特点:概率抽样能有效地避免主观选样带来的倾向性误差:概率抽样能有效地避免主观选样带来的倾向性误差(系统偏差),使得抽样估计和推断得以建立在概率论(系统偏差),使得抽样估计和推断得以建立在概率论和
16、数理统计的科学理论之上。从而使样本资料一方面能和数理统计的科学理论之上。从而使样本资料一方面能够用于估计和推断总体的数量特征;够用于估计和推断总体的数量特征;另一方面可以计算和控制抽样误差,说明估计的可靠程度。另一方面可以计算和控制抽样误差,说明估计的可靠程度。2 2、非概率抽样也叫非随机抽样非概率抽样也叫非随机抽样,是指从研究目的出发,根据是指从研究目的出发,根据调查者的经验或判断,从总体中调查者的经验或判断,从总体中有意识地有意识地抽取若干单位构成抽取若干单位构成样本。样本。现在学习的是第20页,共70页21三、抽样方法由于一般的抽样推断都是建立在概率抽样的基础上,由于一般的抽样推断都是建
17、立在概率抽样的基础上,因此,主要介绍四种常见的抽样组织形式。因此,主要介绍四种常见的抽样组织形式。简单随机抽样类型抽样等距抽样整群抽样现在学习的是第21页,共70页22(一)简单随机抽样(一)简单随机抽样简单随机抽样又称简单随机抽样又称纯随机抽样纯随机抽样,它是对总体单位不进行任何,它是对总体单位不进行任何划分或排队,划分或排队,完全随机地直接完全随机地直接从总体中抽取样本单位,使从总体中抽取样本单位,使每个总体单位都有完全均等的机会被抽中。每个总体单位都有完全均等的机会被抽中。纯随机抽样常采用的纯随机抽样常采用的抽选方法抽选方法有抽签法、利用随机数表取数有抽签法、利用随机数表取数法和电子计算
18、机取数法。它只需对总体单位进行编号,而不法和电子计算机取数法。它只需对总体单位进行编号,而不需要事先掌握更多的总体信息。需要事先掌握更多的总体信息。现在学习的是第22页,共70页23(一)简单随机抽样(一)简单随机抽样纯随机抽样有两种纯随机抽样有两种抽取单位抽取单位的具体方法,即:的具体方法,即:重复抽样重复抽样,又称回置抽样,是指从总体的,又称回置抽样,是指从总体的N N个单位中,每次抽取一个单位后,个单位中,每次抽取一个单位后,再将其放回总体中参加下一次抽选,这样连续抽再将其放回总体中参加下一次抽选,这样连续抽n n次,即得到一个样本。次,即得到一个样本。其特点是其特点是:样本是由:样本是
19、由n n次次相互独立相互独立的连续试验构成的,每次试验是在的连续试验构成的,每次试验是在完全相完全相同同的条件下进行,每个单位中选的机会在各次都完全相等。的条件下进行,每个单位中选的机会在各次都完全相等。“重抽重抽”(考虑顺序)可能的样本数目(从总体中可能抽取的样本个数,(考虑顺序)可能的样本数目(从总体中可能抽取的样本个数,用用M M表示)为:表示)为:N Nn n个。个。不重复抽样不重复抽样,也叫不回置抽样,是指抽中的单位不再放回总体中,下一,也叫不回置抽样,是指抽中的单位不再放回总体中,下一个样本单位只能从余下的总体单位中抽取。个样本单位只能从余下的总体单位中抽取。其特点是其特点是:样本
20、由:样本由n n次连续抽取次连续抽取的结果构成,实际上等于一次同时从总体中抽的结果构成,实际上等于一次同时从总体中抽取取n n个样本单位。个样本单位。可能的样本数目(考虑顺序):可能的样本数目(考虑顺序):N(N-1)(N-2)N(N-1)(N-2)(N-n+1)(N-n+1)个。个。现在学习的是第23页,共70页24(一)简单随机抽样(一)简单随机抽样优缺点:纯随机抽样比较适用于总体单位数不多,总体单纯随机抽样比较适用于总体单位数不多,总体单位标志值的差异不很大,或对抽样推断的要求不十分高位标志值的差异不很大,或对抽样推断的要求不十分高的情况下使用。但由于纯随机抽样的估计效率比较低,的情况下
21、使用。但由于纯随机抽样的估计效率比较低,进行大规模的抽样调查时,其组织工作也不宜开展,故进行大规模的抽样调查时,其组织工作也不宜开展,故大规模抽调常采用其他三种组织形式。大规模抽调常采用其他三种组织形式。现在学习的是第24页,共70页25(二)分层抽样(二)分层抽样分层抽样分层抽样又称类型抽样或分类抽样。这种抽样方式是先对总又称类型抽样或分类抽样。这种抽样方式是先对总体各单位按体各单位按主要标志主要标志加以分组,然后再从各组中按随机原则抽加以分组,然后再从各组中按随机原则抽选一定单位构成样本。如城市职工收入调查,可按行业将全部选一定单位构成样本。如城市职工收入调查,可按行业将全部职工分类,再从
22、各行业中分别抽取若干职工进行调查。职工分类,再从各行业中分别抽取若干职工进行调查。类型抽样总的抽样误差与组间差异无关,仅取决于各类型抽样总的抽样误差与组间差异无关,仅取决于各组内组内的抽样误差,而组内的抽样误差又取决于各组内的方差水平。的抽样误差,而组内的抽样误差又取决于各组内的方差水平。所以,类型抽样所以,类型抽样应该尽可能扩大组间方差,缩小组内方差,应该尽可能扩大组间方差,缩小组内方差,这样就可以减少抽样误差,以提高抽样效果。这样就可以减少抽样误差,以提高抽样效果。现在学习的是第25页,共70页26(二)分层抽样(二)分层抽样分层抽样的优点:1、不仅能对总体进行估计,而且也可对各层子总体进
23、行估计。2、能使抽样的组织和实施都比较方便。因为分层时可按自然区域或行政区域进行。3、能使样本在总体中的分布比较均匀。因为类型抽样是对所有的层进行全面抽样。4、估计精度高。因为分层抽样的误差只与组内方差有关,因此,若分类效果好,则可减少抽样误差。现在学习的是第26页,共70页27(三)等距抽样(三)等距抽样等距抽样也称机械抽样。它是等距抽样也称机械抽样。它是先先将总体所有单位按将总体所有单位按某一标志顺序某一标志顺序排列,排列,然然后后按按相等相等的距离抽取样本单位。的距离抽取样本单位。排列的标志可以是排列的标志可以是无关标志无关标志也可以是也可以是有关标志有关标志。(1 1)无关标志无关标志
24、,指和单位标志值的大小无关或不起主要的影响作用。指和单位标志值的大小无关或不起主要的影响作用。(2 2)有关标志有关标志,指作为排队顺序的标志和单位标志值的大小有密切的关系。指作为排队顺序的标志和单位标志值的大小有密切的关系。其中,按有关标志顺序排队,并将样本单位加以其中,按有关标志顺序排队,并将样本单位加以n n等份后,对每一部分抽取一个样本等份后,对每一部分抽取一个样本单位有两种方法单位有两种方法 半距中点取样半距中点取样 对称等距取样对称等距取样 应该指出的是,等距取样间隔的确定,要避免与想象中的应该指出的是,等距取样间隔的确定,要避免与想象中的周期性节奏重合周期性节奏重合,引起系统误差
25、的影响。引起系统误差的影响。现在学习的是第27页,共70页28(三)等距抽样(三)等距抽样等距抽样的优点:等距抽样的优点:1 1、简便易行。相对于简单随机抽样而言。简便易行。相对于简单随机抽样而言。2 2、误差相对而言,比简单随机抽样的要小。因为等距抽、误差相对而言,比简单随机抽样的要小。因为等距抽样的样本在总体中的分布一般比较均匀(针对有关标志样的样本在总体中的分布一般比较均匀(针对有关标志排队而言)排队而言)。现在学习的是第28页,共70页29(四)整群抽样(四)整群抽样整群抽样整群抽样又称又称群体抽样群体抽样。它是将总体各单位划分成许多群,它是将总体各单位划分成许多群,然后从中随机抽取部
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学抽样与抽样分布 2 统计学 抽样 分布
限制150内