抽样估计与样本量确定课件.ppt
《抽样估计与样本量确定课件.ppt》由会员分享,可在线阅读,更多相关《抽样估计与样本量确定课件.ppt(43页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、抽样估计与样本量确定1第1页,此课件共43页哦101 引言引言估计估计就是根据从样本中收集的信息对就是根据从样本中收集的信息对总体未知量进行推断的过程。总体未知量进行推断的过程。抽样估计涉及的重要问题:抽样估计涉及的重要问题:一个样本单元的一个样本单元的设计权数设计权数设计权数设计权数问题问题。抽样估计抽样估计抽样估计抽样估计,包括总体总量、均值和比例以及抽包括总体总量、均值和比例以及抽样误差的估计。样误差的估计。样本量的确定样本量的确定样本量的确定样本量的确定构成抽样设计程序的重要步骤和构成抽样设计程序的重要步骤和内容。同时,样本量的确定与样本估计值的精内容。同时,样本量的确定与样本估计值的
2、精度密不可分。度密不可分。2第2页,此课件共43页哦102 加权及权数调整加权及权数调整 设计权数设计权数设计权数是指每个样本单元所代表的调查总体的单元数,设计权数是指每个样本单元所代表的调查总体的单元数,它是由抽样设计所决定的,通常以它是由抽样设计所决定的,通常以wd表示。确定设计权表示。确定设计权数是估计的第一步。数是估计的第一步。加权估计加权估计设计权数其实就是样本单元的入样概率的倒数。假如入设计权数其实就是样本单元的入样概率的倒数。假如入样概率是样概率是1/10,那么每个入选样本代表总体中的,那么每个入选样本代表总体中的10个单个单元,此时设计权数即为元,此时设计权数即为10。不同样本
3、单元的设计权数可能不同,这取决于抽样设计。不同样本单元的设计权数可能不同,这取决于抽样设计。因此,加权估计应区分等概率抽样的加权和不等概率抽因此,加权估计应区分等概率抽样的加权和不等概率抽样的加权。样的加权。3第3页,此课件共43页哦等概率抽样的加权等概率抽样的加权 当每个单元都有相同的入样概率时,所有样当每个单元都有相同的入样概率时,所有样本单元的设计权数都相同,这种抽样就是本单元的设计权数都相同,这种抽样就是自自加权设计加权设计。SRS抽样和抽样和SYS抽样都属于自加权设计,比例分抽样都属于自加权设计,比例分层抽样也是自加权设计。层抽样也是自加权设计。另外,另外,PPS等也可以设计为一个自
4、加权抽样。等也可以设计为一个自加权抽样。对于自加权抽样设计,如果无需对权数调整,对于自加权抽样设计,如果无需对权数调整,则在计算比例、均值等估计量时可将其忽略,则在计算比例、均值等估计量时可将其忽略,对总值估计也仅需将样本总值乘上某个倍数。对总值估计也仅需将样本总值乘上某个倍数。(例例P215)4第4页,此课件共43页哦不等概率抽样的加权不等概率抽样的加权 自加权设计并不总是可行的。如,在使用分层抽样进行一自加权设计并不总是可行的。如,在使用分层抽样进行一个全国调查时,可能需要采用纽曼分层。个全国调查时,可能需要采用纽曼分层。当所采用的抽样设计不是等概率时,正确地使用设计权数就显得当所采用的抽
5、样设计不是等概率时,正确地使用设计权数就显得尤为重要。尤为重要。例例102 有关各层总体数和样本数资料见表有关各层总体数和样本数资料见表10-1。对于这项调。对于这项调查,被调查者的设计权数是多少呢?查,被调查者的设计权数是多少呢?收入层次各层单位数样本数量设计权数高收入层200033.3wd,1N1/n1=2000/33.3=60.1 中收入层12000133.3wd,2N2/n2=12000/133.3=90.0 低收入层600033.3wd,3N3/n3=6000/33.3=180.2 5第5页,此课件共43页哦设计权数的调整 上述等概率抽样的加权和不等概率抽样的加权都是加权的基本形式。
6、权数估计常会遇到更真实和复杂的情况:考虑无回答的情况,然后对权数做出调整;考虑来自其他渠道的、更具权威性的某些辅助信息,将它们合并到权数中。6第6页,此课件共43页哦对无回答的权数调整对无回答的权数调整 单元无回答单元无回答单元无回答单元无回答是指一个样本单元几乎所有的数据都缺失。简单的处理办法是忽略它。然而,如果发现忽略单元无回答是不适当的,则应该对权数进行调整。即,设计权数无回答调整因子=无回答的调整权数 无回答调整因子无回答调整因子无回答调整因子无回答调整因子是原样本单元的权数和与给出回答的单元的权数和的比值。对于自加权设计,该比值可用原样本的单元数与给出回答的单元数的比值来表示。无回答
7、权数调整应区分两种不同情况:等概率抽样不等概率抽样7第7页,此课件共43页哦对无回答的权数调整对无回答的权数调整(SRS)例例103 从一个N=100人的总体中抽取一个n25人的简单随机样本。记回答单元的数量为nr,结果显示只有20个人提供了所需的信息。那么,此时无回答的调整权数是多少?步骤步骤1:计算设计权数。:计算设计权数。入样概率p为:P=n/N=25/100=1/4 故,每个样本单元的设计权数为4。步骤步骤2:计算无回答调整因子。:计算无回答调整因子。由于在n25人中只有nr=20人提供了所需的信息,最终样本量应为20。假定回答单元不仅能代表回答单元且能代表无回答单元,计算无回答调整因
8、子为:n/nr=25/20=1.25步骤步骤3:计算无回答的调整权数。:计算无回答的调整权数。无回答的调整权数wnr等于设计权数与无回答调整因子的乘积:8第8页,此课件共43页哦对无回答的权数调整对无回答的权数调整(STR)例例104 对于一项公共交通系统调查,总体由1100人组成,并按城乡分为两个层。分层及样本数据如表10-2所示。那么,回答者的权数是多少?表10-2 公交系统调查的分层数据层总体大小样本量回答者数量城市N11000n1200nr,1150农村N2100n250nr,240步骤步骤1:各层的设计权数为:各层的设计权数为:城市层城市层 wd,1N1/n1=5 农村层农村层 wd
9、,2N2/n2=2步骤步骤2:调整以弥补无回答。各层的无回答调整因子计算如下:调整以弥补无回答。各层的无回答调整因子计算如下:城市层城市层:n1/nr,1=200/150=1.33 农村层农村层:n2/nr,2=50/40=1.25步骤步骤3:无回答的调整权数等于设计权数与无回答调整因子的乘积:无回答的调整权数等于设计权数与无回答调整因子的乘积:城市层城市层:农村层农村层:9第9页,此课件共43页哦使用辅助信息调整权数使用辅助信息调整权数 为什么要使用辅助信息来调整权数呢?首先,使调查的估计值与已知总体总值相匹配。例如,使用最新的人口普查数据来调整估计值,以确保这些估计值(如年龄、性别分布等)
10、的一致性。二是为了提高估计值的精度。将辅助信息与抽样设计相结合,将有助于提高估计的精度。要想在调查设计阶段使用辅助信息,抽样框中的所有单元都必须具备这个辅助信息。否则,就只能在数据收集上来后,在估计阶段利用辅助信息提高估计值的精度。10第10页,此课件共43页哦使用辅助信息调整权数使用辅助信息调整权数 例例105 为得到某公司职员是否有吸烟习惯的信息,进行了一项调查。从N=780人的名录中抽出了一个n=100人的简单随机样本。在收集有关吸烟习惯信息时,收集了每个回答者的年龄和性别情况,且100人都做出了回答,由此得到样本数据的分布如表10-3所示:事后分层估计值 男性 女性 总计 吸烟人数 1
11、64 47 211 总人数 360 420 780 吸烟者比例 0.455 0.111 0.271回答者数量男性女性总计吸烟人数25530总人数5545100(nr)调查的估计值男性女性总计吸烟人数19539234总人数429351780吸烟者的比例0.4550.1110.30表10-5 利用辅助信息对抽样调查估计值的调整 表10-3 某公司吸烟习惯抽样调查数据表10-4 根据某公司吸烟习惯抽样计算的估计值11第11页,此课件共43页哦103 抽样分布与抽样误差抽样分布与抽样误差 抽样调查的目的是要对总体做出推断。了解统计推断的理论基础,首先注意区分三种不同性质的分布:总体分布样本分布抽样分布
12、 同时,特别注意总体分布与抽样分布的关系。12第12页,此课件共43页哦三种不同性质的分布 总体分布总体分布总体分布总体分布:总体各单位的观察值所形成的频数分布,总体分布通常是未知的。样本分布样本分布样本分布样本分布:一个样本中各个观察值所形成的频数分布就叫做样本分布。当样本容量n逐渐增大时,样本分布逐渐接近总体的分布。抽样分布抽样分布抽样分布抽样分布:样本统计量的抽样分布,是指在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布。抽样分布是一种理论分布。抽样分布提供了样本统计量长远而稳定的信息,是进行推断的理论基础。分布类型均值比例标准差总体分布样本分布抽样分布 X P S
13、表10-6 各种分布的均值、比例和标准差的符号表示 13第13页,此课件共43页哦样本均值的抽样分布样本均值的抽样分布,是指在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布。例例106设一个总体,含有4个元素,即总体单位数N=4。4个个体分别为x1=1,x2=2,x3=3,x4=4。则总体分布如图10-1。现在从总体中有放回地抽取n2的简单随机样本,则样本均值的抽样分布如图10-2。14第14页,此课件共43页哦均值抽样分布的规律比较样本均值的分布与总体分布比较样本均值的分布与总体分布,得出如下结论:(1)样本均值的数学期望 等于总体均值,即E()=。(2)在重复抽样条件
14、下,样本均值的方差等于总体方差的1/n,或者说,样本均值的标准误 。(3)如果总体服从正态分布,即xN(,2),那么样本均值也服从正态分布,即 N(,2/n)。(4)如果总体不服从正态分布,那么当样本量足够大时,样本均值 也服从正态分布。中心极限定理中心极限定理,概括为:设从均值为、方差为 2的一个任意总体中随机抽取容量为n的样本,当n足够大(n 30)时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分布。15第15页,此课件共43页哦样本比例的抽样分布 样本比例的抽样分布样本比例的抽样分布样本比例的抽样分布样本比例的抽样分布,是在重复抽取容量为n的样本时,由样本比例的所有可能取值形成
15、的相对频数分布。比较样本比例的分布与总体分布,得出如下结论:当样本容量足够大时,样本比例的抽样分布近似地服从正态分布,样本比例的数学期望等于总体比例,即E(p)=;在重复抽样条件下,样本比例的方差为总体方差的1/n,即 样本比例的中心极限定理样本比例的中心极限定理样本比例的中心极限定理样本比例的中心极限定理设从比例为、方差为 2的一个任意总体中随机抽取容量为n的样本,当n足够大(n 30)时,样本比例的抽样分布近似服从比例为、方差为(1-)/n的正态分布。样本比例样本比例的方差的方差:样本比例样本比例的标准误:的标准误:16第16页,此课件共43页哦正态分布及标准值Z正态分布有以下几个重要特征
16、:正态曲线呈钟形,曲线下的面积等于1,表明它包括了所有的调查结果。在正态曲线下任意两个变量值之间的面积,等于在这一范围内随机抽取一个观察对象的概率。例如,任意抽取一个样本单元,IQ分数落在55-145之间的概率是99.72%,即图10-3中正态曲线下55-145之间的面积。所有的正态分布在平均数1个标准差之间的面积相同,都占曲线下方面积的6826。这是正态分布的比例性,为统计推断提供了基础。一个正态分布的特殊性由其平均数和标准差决定。17第17页,此课件共43页哦标准正态分布标准正态分布是一种平均值等于0、标准差等于1的正态分布(如图10-4)。研究者可以将任何正态变量X转换为标准正态变量值(
17、标准值)Z。计算方法就是,用将要进行转换的值中减去均值,然后再除以标准差。即求出标准值Z之后,就可以查阅正态分布表(附录B-2),得到Z值的标准正态分布曲线下的面积(概率)。式中,x 变量值;平均数的假设或预期值;变量的标准差。18第18页,此课件共43页哦104 参数估计参数估计 参数估计就是根据从样本中收集的信息对总体参数进行推断的过程。样本估计量(如样本均值、比例等)都是随机变量,在具有特定概率(抽样)分布的样本之间有所变化。参数估计就是根据推断理论所阐明的抽样分布与总体分布之间的关系,由样本统计量的具体值估计总体参数(如总体均值、比例和方差等)。参数估计有两种估计方法:点估计区间估计1
18、9第19页,此课件共43页哦总体参数的点估计总体参数的点估计点估计就是用样本的估计量直接作为总体参数的估计值。例如,用样本均值直接作为总体均值的估计,或者用两个样本均值之差直接作为总体均值之差的估计。点估计是容易做到的,但是,点估计没有给出估计值接近总体参数程度的信息。当样本均值与总体均值不完全相同时,样本均值与实际总体均值就存在着差距,形成抽样误差。20第20页,此课件共43页哦总体参数的区间估计总体参数的区间估计区间估计:在点估计的基础上,对总体参数的区间或范围进行估计。区间估计不仅要说明区间大小,还要说明点估计值在区间内的概率,即置信度。置信度是一个百分比,用来说明结果正确的长期概率。被
19、估计的区间则被称为置信区间。根据样本统计量的抽样分布理论,总体参数的区间范围是在一定的概率度下,由样本统计量加减抽样误差而得到。21第21页,此课件共43页哦总体均值的区间估计在SRS抽样情况下,样本统计量的抽样分布均服从正态分布。可使用正态分布统计量Z来描述总体均值的区间估计,将总体均值区间估计表达为:=在上式中,在上式中,代表一定置信度下的代表一定置信度下的Z值。值。注意,注意,应除以应除以2,以便确定均值的每一边所包含曲线下区域的百分比。以便确定均值的每一边所包含曲线下区域的百分比。代表样本均值的标准误,代表样本均值的标准误,当当未知,用未知,用S来估计来估计,样本均值的标准误:,样本均
20、值的标准误:当当已知,样本均值的标准误的估计公式已知,样本均值的标准误的估计公式:22第22页,此课件共43页哦总体均值的区间估计t-分布分布若调查从总体中随机抽取一个很小样本(n 30),则样本均值的抽样分布服从自由度为(n-1)的t-分布(较正态分布平坦和分散)。随着自由度增大,t分布也逐渐趋于正态分布。在上述假设条件下,使用 t 分布统计量(附录B-3)来估计总体均值的置信区间。t分布条件下总体均值置信区间的估计方法与正态分布条件下非分布条件下总体均值置信区间的估计方法与正态分布条件下非常类似,只是查常类似,只是查t分布表需要考虑自由度为分布表需要考虑自由度为(n-1)。统计量统计量 t
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 抽样 估计 样本 确定 课件
限制150内