《抽样技术》全书ppt完整版课件最全电子教案正本书教学教程.pptx
《《抽样技术》全书ppt完整版课件最全电子教案正本书教学教程.pptx》由会员分享,可在线阅读,更多相关《《抽样技术》全书ppt完整版课件最全电子教案正本书教学教程.pptx(569页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、抽样技术抽样技术第 1 章 绪论1.1 调查与抽样调查调查与抽样调查n调查(调查(survey):通过使用明确的概念、方:通过使用明确的概念、方法和程序,依据专门设计的调查方案指导的法和程序,依据专门设计的调查方案指导的方式,从一个总体全部或部分单元中搜集感方式,从一个总体全部或部分单元中搜集感兴趣的指标信息,并将这些信息综合整理成兴趣的指标信息,并将这些信息综合整理成数据系列的有关活动。数据系列的有关活动。n例:调查北京市民对出租车行业的满意度调查全面全面调查与调查与非全面非全面调查调查根据根据“调查是否针对总体的所有单元调查是否针对总体的所有单元”划分:划分:l全面调查全面调查:普查普查l
2、非全面调查非全面调查非全面调查相对于全面调查的优点:(1)时间短速度快;(2)费用少成本低;(3)调查结果比较准确;(4)应用范围广泛。应用前提抽样调查的基本概念n抽样调查抽样调查(sampling survey)是一种非全面的调查,指从研究对象的全体(总体)中抽取一从研究对象的全体(总体)中抽取一部分单元作为样本,根据对所抽取的样本进行部分单元作为样本,根据对所抽取的样本进行调查,获得有关总体目标量的了解调查,获得有关总体目标量的了解。n抽样调查的作用抽样调查的作用n1节约费用节约费用 n2时效性强时效性强 n3可以承担全面调查无法胜任的项目可以承担全面调查无法胜任的项目 n4有助于提高调查
3、数据的质量有助于提高调查数据的质量 根据根据“单元是否按照一定的概率入样”划分:划分: 概率抽样和概率抽样和 非概率抽样非概率抽样n随机抽样是指按照概率概率原则,从总体中抽取一定数目的单位作为样本进行观察,随机抽样使总体中每个单位都有一定的概率被选入样本,从而使根据样本所做出的结论对总体具有充分的代表性。n非随机抽样是以方便为出发点或根据研究者主方便为出发点或根据研究者主观的判断观的判断来抽取样本。非随机抽样主要依赖研究者个人的经验和判断,它无法估计和控制抽样误差,无法用样本的量化数据来推断总体。 l概率抽样调查概率抽样调查l非概率抽样调查非概率抽样调查优点:能够保证样本的代表性,避免人为因素
4、的干扰;用概率抽样取得的样本去估计总体特征时,可以对由抽样产生的抽样误差进行估计。缺点:难以评价样本的代表性无法估计抽样误差偏倚往往较大概率(随机)抽样概率(随机)抽样(probability sampling )非概率(非随机)抽样非概率(非随机)抽样(non- probability sampling ) 抽样调查应用领域抽样调查应用领域 n社会经济现象的调查社会经济现象的调查 n社会性的民意调查社会性的民意调查 n市场调查市场调查 1.2 基本概念基本概念 n目标总体与抽样总体目标总体与抽样总体n 抽样框与抽样单元抽样框与抽样单元 n 总体参数与统计量总体参数与统计量 n估计量方差、偏差
5、、均方误差估计量方差、偏差、均方误差 n抽样误差与非抽样误差抽样误差与非抽样误差 n精度与费用精度与费用 目标总体与抽样总体目标总体与抽样总体n总体总体n目标总体也可简称为总体,是指所要研究对象目标总体也可简称为总体,是指所要研究对象的全体,或者说是希望从中获取信息的总体,的全体,或者说是希望从中获取信息的总体,它是由研究对象中所有性质相同的个体所组成它是由研究对象中所有性质相同的个体所组成n组成总体的各个个体称作总体单元或单位。组成总体的各个个体称作总体单元或单位。 n抽样总体是指从中抽取样本的总体。抽样总体是指从中抽取样本的总体。 抽样框与抽样单元抽样框与抽样单元n抽样总体的具体表现是抽样
6、框。通常抽样框是一份包含所有抽样单元的名单。n抽样框的形式:名单、手册、地图、数据包等等。n抽样框的要求:n(1)抽样框必须是有序的,即抽样单元必须编号,且根据某种顺序进行了排列。n(2)抽样框中包含的抽样单元务必要“不重不漏”,否则将出现抽样框误差。n抽样单元分级:n初级单元次级单元三级单元四级单元基本抽样单元。总体参数和(样本)统计量总体参数和(样本)统计量n总体参数:总体是调查的客体,而总体参数是总体某个特征或属性的数量表现。n常见的总体参数有4种:(1)总体总值;(2)总体均值;(3)总体比例;(4)总体比率。n总体总值、总体均值、总体比例三者是统一的,它们都可以用总体均值来表示。wh
7、y统计量和估计方法统计量和估计方法n统计量是根据样本的统计量是根据样本的n个单元的变量值计算出的个单元的变量值计算出的一个量,也叫估计量,用于对总体参数的估计。一个量,也叫估计量,用于对总体参数的估计。n估计量是随机变量,比如样本均值n估计方法:最常见的估计方法是简单线性估计,除此之外,还可以借助于辅助变量。n辅助变量必须满足的两个条件:(1)与要估计的变量高度相关;(2)其总体信息已知。估计量方差、偏差、均方误差估计量方差、偏差、均方误差n估计量分布的方差称为估计量分布的方差称为估计量方差估计量方差,它,它是从平均的意义上说明估计值与待估参是从平均的意义上说明估计值与待估参数的差异状况数的差
8、异状况,也是我们对抽样方案进行评价的标准之一。 n估计量方差表达式: n偏差偏差是指按照某一抽样方案反复进行抽是指按照某一抽样方案反复进行抽样,估计值的数学期望与待估参数之间样,估计值的数学期望与待估参数之间的离差。的离差。 n偏差的表达式 :n对于无偏估计量 ,偏差为零 。估计量方差、偏差、均方误差估计量方差、偏差、均方误差n均方误差均方误差(Mean Square Error, MSE )指所指所有可能的估计值与待估参数之间离差平方的均有可能的估计值与待估参数之间离差平方的均值,它等于估计量方差加偏差的平方。值,它等于估计量方差加偏差的平方。 EEE2=估计量方差、偏差、均方误差估计量方差
9、、偏差、均方误差抽样误差与非抽样误差抽样误差与非抽样误差抽样误差是由于抽取样本的随机性造成的样本值与总体值之间的差异,只要采用抽样调查,抽样误差就不可避免。n抽样误差是一个一般的概念,它可以用不同的量值来表示。例如:估计量方差或估计量标准差。n非抽样误差:是相对于抽样误差而言的,它不是由于抽样的随机性,而是由于其它多种原因引起的估计值与总体参数之间的差异。 包括:抽样框误差、计量误差、无回答误差等精度与费用精度与费用n调查的费用是一个与样本量有关的函数,最简单的是线性费用函数。n最优抽样设计:指以最小的费用达到要求的精度或者在给定费用的情况下达到最大的精度样本容量抽样误差n精度由误差来表现。n
10、抽样误差与样本量有关,样本量越大,在其它条件相同情况下,抽样误差就越小,抽样调查的精度就越高。几种基本的抽样方式 概率抽样调查概率抽样调查 非概率抽样调查非概率抽样调查简单随机抽样简单随机抽样分层抽样分层抽样系统抽样系统抽样整群抽样整群抽样多阶段抽样多阶段抽样 判断抽样判断抽样(包括包括典型调查和重点调查典型调查和重点调查)便利抽样便利抽样自愿样本自愿样本滚雪球抽样滚雪球抽样配额抽样等配额抽样等简单随机抽样n简单随机抽样(simple random sampling)又称纯随机抽样,考虑一个包含N个单位的母体,从中抽取n个单位作为样本。如果抽样是不放回的,即同一个单位不能在样本中重复出现,那么
11、总共有C(N,n) 种不同的取法,也就是说共有C(N,n)个可能的不同样本。如果每个样本被抽中的概率都相等,则称这种抽样方法为简单随机抽样,所得到的样本叫做简单随机样本(SRS)。 n例题:某大学欲了解该校研究生中打算报考托福人数的比例,全校研究生共有570人,随机抽取了100人,其中有14人准备参加托福考试,试以95%的把握程度对研究生中欲报考托福人数的比例作出估计。 简单随机抽样分层抽样n 分层抽样(stratified sampling)又称类别抽样,它是先将总体所有单位按某些重要标志进行分类(层),然后在各类(层)中采用简单随机抽样或系统抽样方式抽取样本单位的一种抽样方式。例如,对员工
12、收入状况进行调查,就可将员工按职业不同,分为生产人员、商业人员、服务性工作人员等各层,再从各层中抽取员工。n等比例抽样n不等比例抽样n优点n更为精确n对每层的推论 分层抽样系统抽样n 系统抽样是将N个总体单位按一定顺序排列,先随机抽取一个单位作为样本的第一个单位,然后按某种确定的规则抽取样本的其它单位。n其中最简单也是最常用的规则是等间隔抽取。所以系统抽样又称等距抽样。系统抽样n排列顺序与调查项目无关n排列顺序与调查项目有关n例如,从600名大学生中抽选50名大学生n利用学校现有名册按顺序编号排序,从第001号编至600号。n抽选距离=N/n=600/50=12(人)n如从第一个12人中用简单
13、随机抽样方式,抽取第一个样本单位,如抽到的是8号,依次抽出的是20号,32号,44号等。 系统抽样n优点n均匀地分布 n简单易行 n缺点n抽样误差计算较为复杂 n周期性重合时会影响调查的精确度n需要较为详细、具体的相关资料 整群抽样n整群抽样是先将总体划分成许多不相重合的子总体或群,然后以群为抽样单位,按某种随机方式从中抽取若干个群,形成一个“群”的随机样本,对抽中的群内所有单位都进行调查。n例如,某大学要调查学生的视力,可以将班做为一个群,随机抽取几个班,对这些班的全部学生进行调查。 整群抽样n一是没有总体最终单位的抽样框n实施便利、节省费用n影响整群抽样误差的主要是群间方差。分群时使群内方
14、差尽可能大,使群间方差尽可能小。 n整群抽样的估计精度一般低于简单随机抽样 多阶段抽样多阶段抽样( (multi multi stage sampling)stage sampling) 多阶段抽样是指抽取样本单位时分几个阶段进行:n首先在总体中按随机原则抽取若干初级(一级)单位,n然后再从被抽中的初级单位中抽取若干次级(二级)单位,这种抽样称为二阶段抽样。n如果每个次级单位又可以进一步分为更小的三级单位,那么在每个被抽中的二级单位中再抽取三级单位,这称为三阶段抽样,n以此类推,可以定义更多阶段的抽样。多阶段抽样n例如,全国性调查,省;市或县;街道、镇、或乡,等等。n在大规模的抽样调查中,特别
15、是当抽样单位为各级行政单位时,通常都采用多阶段抽样。n优点:n样本单位相对集中,实施调查比较方便,可以节省调查费用。n抽样时并不需要全部低级单位的抽样框非随机抽样技术 n原因:v1受客观条件限制,无法进行严格的随机抽样;v2为了快速获得调查结果;v3在调查对象不确定,或无法确定的情况下采用,例如,对某一突发(偶然)事件进行现场调查等;v4总体各单位间离散程度不大,且调查员具有丰富的调查经验时。n方便抽样n根据调查者的方便与否来抽取样本,“街头拦人法” n判断抽样n凭研究人员的主观意愿、经验和知识,从总体中选择具有典型代表性样本作为调查对象n平均型”或“多数型”n按照一定标准,主观选取样本非随机
16、抽样技术 n配额抽样n事先要对总体中所有单位按其属性、特征分为若干类型,这些属性、特征称为“控制特征”。如被调查者的姓名、年龄、收入、职业、教育程度等;n然后,按照各个控制特征分配样本数额。n简单易行,样本具有较高的代表性n雪球抽样n前提:是总体单位之间具有一定的联系,非随机抽样技术 1.4 抽样抽样步骤步骤n(1) 确定调研问题确定调研问题n(2) 抽样方案设计抽样方案设计n(3) 问卷设计问卷设计 n(4) 实施调查过程实施调查过程 n(5) 数据处理分析数据处理分析n(6) 撰写调查报告撰写调查报告 n第一、确定抽样调查的目的、任务和要求;n第二、确定调查对象的范围和抽样单位;n第三、确
17、定抽取样本方法;n第四、确定必要的样本数;n第五、对主要抽样指针的精度提出要求;n第六、确定总体目标量的估算方法;n第七、制订实施总体方案的办法和步骤。 第第2章章 简单随机抽样(简单随机抽样(SRS)2.1 概述2.2 简单估计量及其性质2.3 比率估计量及其性质2.4 回归估计量及其性质2.5 简单随机抽样的实施2.1 概述概述n简单随机抽样也称为纯随机抽样。n从含有 N 个单元的总体中抽取 n 个单元组成样本,如果抽样是不放回的,则所有可能的样本有 个,若每个样本被抽中的概率相同,都为 ,这种抽样方法就是简单随机抽样。n具体抽样时,通常是逐个抽取样本单元,直到抽满n个单元为止。 CNn有
18、限放回简单随机抽样与不放回简单随机抽样n放回简单随机抽样(SRS with replacement)n当从总体N个抽样单元中抽取n个抽样单元时,如果依次抽取单元时,不管以前是否被抽中过,每次都从N个抽样单元中随机抽取,这时,所有可能的样本为 ? 个(考虑样本单元的顺序),n每个样本被抽中的概率为?n放回简单随机抽样在每次抽取样本单元时,都将前一次抽取的样本单元放回总体,因此,总体的结构不变,抽样是进行的,这一点是它与不放回简单随机抽样的主要不同之处。n放回简单随机抽样的样本量不受总体大小的限制,可以是任意的。n除非特别说明,简单随机抽样指的是不放回简单随机抽样【例例2.1】n设总体有5个单元(
19、1、2、3、4、5),按放回简单随机抽样的方式抽取2个单元,则所有可能的样本为25个(考虑样本单元的顺序):1,12,13,14,15,11,22,23,24,25,21,32,33,34,35,31,42,43,44,45,41,52,53,54,55,5n不放回简单随机抽样n当从总体N个抽样单元中依次抽取n个抽样单元时,每个被抽中的单元不再放回总体,而是从总体剩下的单元中进行抽样。n不放回简单随机抽样的样本量要受总体大小的限制。n在实际工作中,更多的采用不放回简单随机抽样。 【例例2.2】n设总体有5个单元(1、2、3、4、5),按不放回简单随机抽样的方式抽取2个单元,则所有可能的样本为个
20、:1,22,33,44,51,32,43,5 1,42,5 1,5 n简单随机抽样的抽取原则:n(1)按随机原则取样;n(2)每个抽样单元被抽中的概率都是已知的或事先确定的;n(3)每个抽样单元被抽中的概率都是相等的。所有可能样本每个样本被抽中的概率相同所有可能样本每个样本被抽中的概率相同符号 n大写符号表示总体的标志值,n小写符号表示样本的标志值 NNiiYYYYY211nniiyyyy211NYYYYNYNNii2111nyyyynynnii2111NiiYNNAP1110或iYniiynnap1110或iyXYXYXYRNiiNii11xyxyRniinii112122111NNYYNS
21、Niiniiyyns12211总体样本n数理统计中的任何参数估计问题都是抽样调查涵盖的范围,理论上人们一般只关注四个方面的总体特征:n总体均值n总体总值n总体比率n总体比率2.2 简单估计量及其性质简单估计量及其性质n 判断下面要估计的总体目标量分别属于什么类型?n调查城市居民家庭平均用电量。n估计湖中鱼的数量。n测试日光灯的寿命。n估计居民家庭用于做饭菜及饮用的用水量占家庭总用水量的比重。n估计婴儿出生性别比。n检测食盐中碘含量。 一、对总体均值的估计一、对总体均值的估计 以样本均值作为总体均值的估计n性质性质1 1:对于简单随机抽样, 是 的无偏估计。 ynyiin11y例设总体为0,1,
22、3,5,6,计算总体均值=3、总体方差=5.2和=6.5;给出全部的样本,并验证及。Y22S2n E yY22E sSyY1010.5-2.50.52031.5-1.54.53052.5-0.512.540630185132-126153087163.50.512.58354129364.51.54.510平均565.52.50.5306.5方差1.95样本编号单元1单元2样本均值-样本方差 证明 性质性质1 1 n对于固定的有限总体,估计量的期望是对所有可能样本求平均得到的,因此n总体中每个特定的单元 在不同的样本中出现的次数。 证明 性质性质1 1(对称性论证法)(对称性论证法) n由于每
23、个单元出现在总体所有可能样本中的次数相同,因此 一定是 的倍数,且这个倍数就是 , 性质性质2:n对于有限总体的方差定义 :n性质性质2:对于简单随机抽样, 的方差式中: 为抽样比, 为有限总体校正系数。 2211NYYiiNSNYYiiN22111yfn N1 f证明性质性质2(对称论证法): n 中的求和是对 项的,n 中的求和是对 项的 2121YynEYyEyVnii)( )(1)(1)(12212212YyYyEnYyEnYyEnjjiiniinii2121)()(YYNnYyENiinii)( )() 1() 1()( )(YYYYNNnnYyYyEjjiijjii)( )(YyY
24、yEjjii)( )(YYYYjjii2) 1( nn2) 1(NN )( )(1)(12212YyYyEnYyEnyVjjiiniijijiNiiYYYYNNnnnYYNnn)() 1() 1(1)(12212jijiNiiYYYYNnYYnN)(11)(1212121)(11)(11YYNnYYNnNiiNii2121)(11)(1111YYNnYYNnnNNiiNii2121)(111)(11YYNNnNnYYNnNnNNiiNii221SnfSnNnN每个特定单位被选入样本的概率:=P(i)=故其定义为:*不放回抽样*每个样本被抽中的概率为*每个单位被选入样本的概率NnNnNn)()(
25、1111)(1Nn) 1() 1()()(2222NNnnNnNni利用无限总体理论),(jiPijMean=随机变量证明性质性质2简单随机抽样下,简单估计量估计精度影响因素: n估计量的方差 是衡量估计量精度的度量。影响估计量方差的因素主要是样本量 。n通常N很大,当f0.5 ,比率估计比简单估计更为精确比率估计的其他问题n为何不对 的分子、分母各自按简单估计获得置信区间,然后根据两个区间的上下限构造R的区间边界n为何不对每个样本点计算ri,然后使用 估计R呢?n是否存在具有无偏性的比率估计量?2.4 回归估计量及其性质n回归估计的性质 假如研究发现,Y和X之间存在近似的线性关系,但这(直)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 抽样技术 抽样 技术 全书 ppt 完整版 课件 电子 教案 正本 教学 教程
限制150内