抽样设计2.pptx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《抽样设计2.pptx》由会员分享,可在线阅读,更多相关《抽样设计2.pptx(95页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、打开几扇窗户看世界打开几扇窗户看世界 -如何做抽样设计如何做抽样设计1/15/20221 知识目录知识目录 抽样过程与选择抽样过程与选择 抽样方法抽样方法 抽样的基本条件抽样的基本条件* (选讲)(选讲) 抽样误差抽样误差 抽样容量抽样容量1/15/20222 目录目录 抽样过程与选择抽样过程与选择 抽样方法抽样方法 抽样条件抽样条件 抽样误差抽样误差 案例研究案例研究1/15/20223提问:生活中个人决策使用小样本例子?提问:生活中个人决策使用小样本例子?1/15/20224名词库:抽样的名词库:抽样的專有名詞專有名詞概念概念 母体:研究调查对象。 基本单位:母体中的个别单位。 样本:母体
2、的一部分。 参数:母体某一属性或变量数值。 统计量:根据样本数据求得,用以估计参数的数值 抽样框:可得之抽样单位名册。 抽样偏误:抽到特殊特征之单位。 抽样误差:减损样本代表性。1/15/20225Lapin 1978 (一)经济性(一)经济性 (二)时效性(二)时效性 (三)母体过大(三)母体过大 (四)母体中某些基本单位难以接触(四)母体中某些基本单位难以接触 (五)破坏性调查(五)破坏性调查 (六)正确性(六)正确性抽样的原因抽样的原因1/15/20226抽样的过程抽样的过程定义同质总体定义同质总体选择资料收集方法选择资料收集方法购置抽样框购置抽样框选择抽样方法选择抽样方法决定样本量决定
3、样本量建立和详细建立和详细选择样本的选择样本的可操作性计划可操作性计划执行可操作性执行可操作性的样本计划的样本计划评估抽样结果评估抽样结果1/15/20227 二、二、抽样框抽样框(Yates 1953) (一)足夠 (二)完整 (三)不重複 (四)正確 (五)便利1/15/20228目目 录录 抽样概论抽样概论 抽样方法抽样方法 抽样条件抽样条件 抽样误差抽样误差 案例研讨案例研讨1/15/20229抽样方法抽样方法抽样方法(sample survey)非概率抽样(probability sampling)概率抽样方便抽样判断抽样配额抽样滚雪球抽样简单随机抽样系统抽样分层抽样整群抽样多层抽样
4、1/15/202210请辨别下列的抽样设计:200个娱乐场光顾者的名单是上月娱乐场光顾者的名单中抽出来的,对他们进行问卷调查电台节目主持人请听众打电话进来,就禁止核武器问题以“是”“否”的方式发表意见一个狗食制造商想测试一个狗食新产品,他决定选择100个用罐装食品喂养狗的狗主人,选择100个使用干食喂养的狗主人和100个用半湿食品喂养狗的狗主人,进行调查。就对退休老人的生活询问了在公园散步的老人,在通过他们推荐,进行调查。1/15/202211抽样方法抽样方法总论总论 随机抽样1/15/202212抽样方法抽样方法总论总论 非随机抽样1/15/202213抽样方法抽样方法分论分论一、简单随机抽
5、样Simple random Sampling 实施方法 优缺点 适用情境(Boyed Jr ., Westfall , & Stasch 1985 ) 1. 成本高 2. 详细完备的最新抽样框 3. 统计效率低 4. 管理困难 (补)5。无法排除极具代表性的样本(Boyed Jr ., Westfall , & Stasch 1985 ) 1. 母体小 2. 有适当的抽样框 3. 单位访问成本不受距离影响 4. 无其它有关母体的信息1/15/202214手把手教你手把手教你随机数表依机率抽取。随机数表依机率抽取。 假定由名调查对象,以随机数表随机抽取名样本,其抽样步骤如下: ()将名调查对象
6、,由编至等个连续编号。 ()由随机数表,利用抽签方法选取号码开始点。例如选取为第十五行第四列。 ()由设定之起始点,选取号码,选取号码以调查对象之编号位数相同:即,有效号码样本以下。 ()若抽样单位与随机数表抽样号码条件相同即为样本,大于调查编号,跳过不取。 ()若逢重复号码,亦应跳过。 ()依上述方法,连续采用个号码,即为完成样本选用。 1/15/202215抽样方法抽样方法分论分论(二)机械抽样 实施方法 优缺点 适用情境 限制: 1. 抽样偏误 2. 随机偏误 适用情境: 抽样单位以随机次序编列1/15/202216抽样方法抽样方法分论分论(二)机械抽样 实施方法 优缺点 适用情境 限制
7、: 1. 抽样偏误 2. 随机偏误 适用情境: 抽样单位以随机次序编列1/15/202217抽样方法抽样方法分论分论(三)分层抽样 实施方法 【圖示】:分層抽樣方法 母 體樣 本* * * * * * * *抽 樣第一層第二層第三層1/15/202218抽样方法抽样方法分论分论(三)分层抽样 优缺点優點: 1. 可靠性高 2. 利於比較1/15/202219抽样方法抽样方法分论分论(三)分层抽样Stratified Sampling 关注要素1. 分层基础 2. 层级数目 不超过六层(Cochran 1963) 3. 等比例或不等比例样本 1/15/2022201/15/202221抽样方法抽
8、样方法分论分论(四)整群抽样Cluster Sampling 实施方法(图示) * *抽 樣* *1/15/202222案例:案例:歌曲著作權使用費的分配歌曲著作權使用費的分配 美国作曲家组织(ASCAP)每年向广播电台收取播曲权利金$ 435百万(每年播放53百万小时歌曲),将分配给作曲家会员。 将所有电台依小区种类(都会区、乡村等) 、地区(新英格兰、太平洋等)及付出权利金额度(反应电台听众数)等特性分成432层。 每层随机选几台随机录音数小时,共录音60,000小时。由专家辨认所有歌曲的作曲作词者,记录后依比例分配权利金。1/15/202223抽样方法抽样方法分论分论(四)整群抽样 优缺
9、点(图示) 優點: 1. 經濟 2. 簡便 缺點:抽樣偏差1/15/202224 (五)多级抽样1/15/202225非概率抽样非概率抽样 方便抽样(任意抽样) 任意抽样又称为便利抽样法。它是调查人员按工作的方便,随意抽选样本的一种抽样方法。运用任意抽样技术进行抽样,一般由调研人员从工作方便出发,在调研对象范围内随意抽选一定数量的样本进行调查。“街头拦人法”和“空间抽样法”是任意抽样的两种最常见的方法1/15/202226 任意抽样技术简便易行,可以及时取得所需的资料,节约时间和费用。这种方法适用于探测性调查,或调查前的准备工作。一般在调查总体中每一个体都是同质时,才能采用此类方法。但是,实践
10、中并非所有总体中每一个体都是相同的,所以抽样结果偏差较大,可信程度较低,它的样本没有足够的代表性。1/15/202227 判断抽样 判断抽样又称为目的抽样法。这是一种根据调查人员的经验或某些有见解的专家选定样本的抽样方法。1/15/202228 判断抽样法具有简便、易行、及时,符合调查目的和特殊需要,可以充分利用调查样本的已知资料,被调查者配合较好,资料回收率高等优点。但是,这种方法易发生主观判断产生的抽样误差,同时由于判断抽样中各个调查个体被抽取的概率不知道,因而无法计算抽样误差和可信程度。如果调查者的经验丰富,知识面广,判断能力强,抽取的样本代表性就大,反之则小。1/15/202229(三
11、)配额抽样 配额抽样是按照一定标准,分配样本数额,然后在规定数额内由调查人员任意抽选样本的一种抽样方法。 配额抽样是非概率抽样中最流行的一种。运用配额抽样技术进行抽样,要按照一定标准分配样本数额,并在规定数额内由调查人员任意抽选样本。1/15/202230案例分析案例分析 在某项调查中,确定样本总数为180个,可单独选择消费者收人、年龄、性别三个标准中的一个进行抽样。按独立控制配额抽样,其各个标准样本配额比例及配额数如表所示。年龄年龄人数人数18-294030-406041-557056以上以上30合计合计200性别性别人数人数男男100女女100合计合计200收入收入人数人数高高36中中74
12、低低90合计合计2001/15/202231最终配额表格最终配额表格 高高中中低低 合计合计男男女女男男女女男男女女18-2934789940(20%)30-40651111131460(30%)41-55661313161670(35%)56以上以上33657630(15%)小计小计181837374545 200合计合计36 (18% )74 (37%)90(45%)1/15/202232 相互控制配额抽样对每一个控制特性所需分配的样本数都做了具体规定,调查者必须按规定在总体中抽取调查个体,由于调查面较广,从而克服了独立控制配额抽样的缺点,提高了样本的代表性。1/15/202233 4、滚
13、雪球抽样 滚雪球抽样的主要目标是分析调研总体的稀有特征。 滚雪球技术的主要优点表现在,通过对调研总体设定期望的特征,从而增强了样本个体的相似性。因此,采用这种方法所产生的抽样误差比较小,成本比较低。 1/15/202234走向实践:央视收视率网的建设走向实践:央视收视率网的建设 1999年,央视索福瑞公司为建立一个收视率调查网(人员测量仪技术),需要调查一个有代表性的n=2000户的样本,采用了分层多级pps整群抽样技术。根据以往研究,知道非农业人口的比例是一个显著影响指标。 因此将电视观众分为三大区域: (1)城市域:行政区划中的所有地级市(只含非农业人口在50%的市辖区的家庭户) (2)中
14、间域:行政区划中的所有地级市(只含非农业人口在30 近似正态近似正态(2) 的总体均数为的总体均数为, 标准差标准差 =/xxxxn1/15/202253正态分布与标准正态分布正态分布与标准正态分布1/15/202254正态分布的特点正态分布的特点 呈钟形且只有一个众数 关于平均值对称 一个正态分布的特殊性是由平均数和标注差决定的 正态曲线下方的面积等于1,表明它包括的所有的调查结果 正态分布下方在任意两个变量值之间的面积,等于在这个范围内随机抽取一个观察对象的概率。 所有的正态分布在平均数 个标准差之间的面积相等,都占曲线下方面积的68.26%,或者是占全部调查对象总体结果的68.26%。这
15、称为正态分布的比例性。这是统计推断的基础。11/15/202255XZX随机变量随机变量X XN N( , 2 2)标准正态分布标准正态分布N N(0 0,1 12 2)Z变换均数均数标准正态分布标准正态分布N N(0 0,1 12 2)XZn),(2nN1,nvSXnSXtXStudent Student t t分布分布自由度:自由度:n n-1-1t 分布分布(t-distribution)1/15/202256抽样推断抽样推断pSX、 总体均数的点估计(总体均数的点估计(point estimationpoint estimation)与区间估计()与区间估计(interval inte
16、rval estimationestimation)参数的估计参数的估计点估计点估计:由样本统计量:由样本统计量 直接估计直接估计 总体参数总体参数区间估计区间估计:在一定:在一定可信度可信度(Confidence level) 下下,同时考虑抽样误差,同时考虑抽样误差、 按预先给定的概率按预先给定的概率(1 ), 确定一个包含未知总体参数的范确定一个包含未知总体参数的范围。这一范围称为参数的可信区间或置信区间围。这一范围称为参数的可信区间或置信区间(confidence interval,CI)1/15/202257可信区间的定义可信区间的定义按一定的概率或可信度(1-)用一个区间来估计总体
17、参数所在的范围,该范围通常称为参数的可信区间或者置信区间(confidence interval,CI),预先给定的概率(1-)称为可信度或者置信度(confidence level),常取95%或99%。 可信区间(CL, CU )是一开区间 CL、CU 称为可信限1/15/202258可信区间的两个要素可信区间的两个要素 可信度(Confidence):准确性,可靠性,即1-。 一般取90%,95,可人为控制 精确性(Precision):区间的大小,越小越好。 必须二者兼顾1/15/20225995%可信区间的含义可信区间的含义-2 -1 0 1 2 按这种方法构建的可信区间,理论上平均
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 抽样 设计
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内