(精品)07第七章抽样.ppt
《(精品)07第七章抽样.ppt》由会员分享,可在线阅读,更多相关《(精品)07第七章抽样.ppt(55页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第七章 抽样调查1/10/20231第七章 抽样调查第一节 抽样调查的概念及其分类一、几个概念1、抽样调查从研究的总体中按随机原则抽取部分单位为样本,进行观察研究,并根据样本的调查结果推断总体,以达到认识总体的统计调查方法。(以很小的样本来推断很大的总体)2、总体 N(全及总体:全及总体:Total population/Parent population)(有限总体、无限总体)1/10/20232第七章 抽样调查全及总体全及总体又称“母体母体”,简称“总体总体”,是指所要认识对象的全体,总体是由具有某种共同性质的许多单位组成的,因此,总体也就是具有同一性质的许多单位的集合体。通常全及总体的单
2、位数用大写的英文字母N来表示。作为全及总体,单位数N即使有限,但总是很大,大到几千,几万,几十万,几百万。对无限总体的认识只能采用抽样的方法,而对于有限总体的认识,理论上虽可以应用全面调查来搜集资料,但实际上往往由于不可能或不经济而借助抽样的方法以求得对有限总体的认识1/10/20233第七章 抽样调查3、样本 n(抽样总体抽样总体)(大(小)样本)(样本单位数达到或超过30个称为大样本,而在30个以下称为小样本)不唯一性;抽样总体的确定原则:1)相关性是指抽样总体与抽样目标相关。2)完整性是指抽样总体的内容能全面反映项目的实际情况。3)经济性是指抽样总体的确定应符合成本效益原则1/10/20
3、234第七章 抽样调查4、总体指标 根据总体各个单位的标志值或标志特征计算的、反映总体某种属性的综合指标,称为“总体指标指标”。全及指标也称为“母体参数母体参数”或“总体参数总体参数”。唯一性:由于全及总体是唯一确定的,所以总体指标也是唯一确定的。常用的总体指标有:总体平均数、总体成数、总体方差和标准方差。1/10/20235第七章 抽样调查5、样本指标样本指标样本指标又称“抽样指标抽样指标”、“样本统计量样本统计量”,由样本总体各单位标志值计算出来反映样本特征,用来估计总体指标的综合指标。统计量是样本变量的函数,用来估计总体参数,因此与总体参数相对应,统计量有样本平均数(或抽样成数)、样本标
4、准差(或样本方差)。对于一个问题总体是唯一确定的,所以总体指标也是唯一确定的,总体指标也称为参数,它是待估计的数。而统计量则是随机变量,它的取值随样本的不同而发生变化。1/10/20236第七章 抽样调查在预测美国的总统选举中:总体:全体合法选民样本:部分选民推断:根据部分对整体做出归纳指标:1、全体合法选民的平均年龄 2、当前登记投票的全体合法选民的百分比以上总体指标是不能精确测定的,仅能根据统计量和样本指标来估计举例:举例:1/10/20237第七章 抽样调查 美国1936年选举 Roosevelt的百分比Gallup预言摘要的预测结果 44摘要预测的选举结果(240万人)43Gallup
5、预测的选举结果 (59万人)56选举结果 62(注:上述百分比仅用主要政党所得选票计算,选举中约有2%的选票投向小党的候选人)(由于选择偏倚和不回答偏倚造成摘要的预测差错)1/10/20238第七章 抽样调查美国1948年的选举候选人 Crossley Gallup Roper 结果Tromam 45 44 38 50Dewey 50 50 53 45Thurmond 2 2 5 3Wallace 3 4 4 2(由于访问员自由挑选时无意的共和党偏性造成预测差错)1/10/20239第七章 抽样调查Gallup在St.Louis定额抽样13对象规定:6人住近郊,7人住在市中心男的7人:3人40
6、岁以下,4人40岁以上 1名黑人,6名白人 6名白人支付的月租又做了以下的规定:1人的支付金额不少于44.01美元 3人的支付金额在18.01-44.00美元 2人的支付金额不超过18美元女的6人1/10/202310第七章 抽样调查Gallup民意测验在1948年后的总统选举中的记录(采用概率抽样调查)年份年份 样本容量样本容量 获胜候选人获胜候选人 GallupGallup民意民意 选举结果选举结果 误差误差 测验预测值测验预测值1952 5385 1952 5385 艾森豪威尔艾森豪威尔 51 55.4 +4.451 55.4 +4.41956 8144 1956 8144 艾森豪威尔艾
7、森豪威尔 59.5 57.8 -1.759.5 57.8 -1.71960 8015 1960 8015 肯尼迪肯尼迪 51 50.1 +0.951 50.1 +0.91964 6625 1964 6625 约翰逊约翰逊 64 61.3 -2.764 61.3 -2.71968 4414 1968 4414 尼克松尼克松 43 43.5 +0.543 43.5 +0.51972 3689 1972 3689 尼克松尼克松 62 61.8 -0.262 61.8 -0.21976 3439 1976 3439 卡特卡特 49.5 51.1 +1.649.5 51.1 +1.61980 3500
8、1980 3500 里根里根 55.3 51.6 -3.755.3 51.6 -3.71984 3456 1984 3456 里根里根 59.0 59.2 +0.259.0 59.2 +0.21988 4089 1988 4089 布什布什 56.0 53.9 -0.256.0 53.9 -0.2(注注:误差误差=预测预测-实际实际)1/10/202311第七章 抽样调查二、抽样的理论依据二、抽样的理论依据大数定律大数定律契比雪夫定理:当契比雪夫定理:当样本容量样本容量n足够大足够大时,独立同时,独立同分布的一系列随机变量的分布的一系列随机变量的算术平均数算术平均数接近接近(依概依概率率p收敛
9、于收敛于)数学期望值,即随机变量平均数具数学期望值,即随机变量平均数具有稳定性,有稳定性,该定律提供了用样本平均数估计总该定律提供了用样本平均数估计总体平均数的理论依据。体平均数的理论依据。即:即:1/10/202312第七章 抽样调查贝努里定理:当试验贝努里定理:当试验次数次数n足够大时,事足够大时,事件件A发生的频率接近发生的频率接近(依概率收敛于依概率收敛于)事件事件A发生的概率,即频率具有一定的稳定性,发生的概率,即频率具有一定的稳定性,该定理也说明,在试验不变的条件下,该定理也说明,在试验不变的条件下,重复进行很多次时,随机事件的频率在重复进行很多次时,随机事件的频率在它的概率附近摆
10、动。它的概率附近摆动。如:投硬币如:投硬币即:即:1/10/202313第七章 抽样调查大数定理在抽样中的作用:A、理论基础B、通过偶然现象揭示必然性和规律性的工具1/10/202314第七章 抽样调查中心极限定理中心极限定理(独立同分布)如果随机变量(独立同分布)如果随机变量x1,x2,.xn,独立且服从同一分布,且存在数学期望独立且服从同一分布,且存在数学期望E(xi)=X和方差和方差D(xi)=2,则当样本容量,则当样本容量n趋于趋于无穷大时,随机变量无穷大时,随机变量均值均值 趋于期望值为趋于期望值为X、标、标准差为准差为 的正态分布,即当的正态分布,即当n时,时,1/10/20231
11、5第七章 抽样调查(棣莫弗-拉普拉斯)设随机变量xn(n=1,2,)服从二项分布B(n,p),则对于任意实数z,有1/10/202316第七章 抽样调查中心极限定理表明,中心极限定理表明,不论总体服从何不论总体服从何种分布,种分布,只要存在只要存在数学期望和方差数学期望和方差,从中抽取容量为从中抽取容量为n的样本,则当的样本,则当n足够足够大时大时(n 30),样本样本均值均值趋于正态分布。趋于正态分布。1/10/202317第七章 抽样调查大数定律与中心极限定理大数定律与中心极限定理相同点是,都是通过极限理论来研究概率问题,相同点是,都是通过极限理论来研究概率问题,研究对象都是随机变量序列,
12、解决的问题都是研究对象都是随机变量序列,解决的问题都是概率论中的基本问题,因而在概率论中具有重概率论中的基本问题,因而在概率论中具有重要意义;要意义;两者不同点是,大数定律研究的是概率或平均两者不同点是,大数定律研究的是概率或平均值的极限,而中心极限定理研究的是随机变量值的极限,而中心极限定理研究的是随机变量总和或总和或平均值平均值的分布极限。的分布极限。1/10/202318第七章 抽样调查三、概率论1/10/202319第七章 抽样调查 二、抽样调查的分类 概率调查 简单随机抽样 (随机抽样)类型抽样 等距抽样 整群抽样 多阶段抽样 非概率调查 重点抽样 典型抽样 随意抽样 定额抽样1/1
13、0/202320第七章 抽样调查第二节 随机抽样的基本原理一、样本的可能数目1、概念2、计算方法(1)考虑顺序的重复纯随机抽样的样本的可能数目(2)不考虑顺序的不重复纯随机抽样的样本的可能数目(3)考虑顺序的不重复(不考虑顺序的重复)纯随机抽样的样本数目?1/10/202321第七章 抽样调查 二、代表性平均误差(一)几个概念1、代表性误差(以部分推断总体)2、代表性平均误差 或3、极限误差(可能误差的范围)极限误差:在一定观测条件下偶然误差的绝对值不应超过的限值或在同一个测试条件下,按给定置信度预期达到的最大误差。1/10/202322第七章 抽样调查(二)平均误差的估计1、简单随机抽样平均
14、误差的估计(1)按重复简单随机抽样方式估计平均误差成数指标:1/10/202323第七章 抽样调查(2)按不重复简单随机抽样方式估计平均误差成数指标:3、举例运用 P192-193.1/10/202324第七章 抽样调查(三)影响代表性平均误差的因素总体标志的变动程度;总体标志的变动程度;抽样单位的多少抽样单位的多少;受不同抽样方法的影响(抽样方法受不同抽样方法的影响(抽样方法:不重复抽:不重复抽样的平均误差一般会小于重复抽样);样的平均误差一般会小于重复抽样);受不同受不同抽样组织方式抽样组织方式的影响。(简单随机抽样。的影响。(简单随机抽样。)。)1/10/202325第七章 抽样调查第三
15、节 置信度与置信区间一、概念1、置信区间:在一定的概率保证程度下,某总体指标所在的区间范围区间估计。置信区间是指在某一置信水平下,样本统计值与总体参数值间误差范围。置信区间越大,置信水平越高。1/10/202326第七章 抽样调查2、置信度:总体指标在某一区间内的概率保证程度,F(t)。所谓置信度,也叫置信水平。它是指特定个体对待特定命题真实性相信的程度,也就是概率。置信水平是指总体参数值落在样本统计值某一区内的概率。1/10/202327第七章 抽样调查3、概率度t:抽样极限误差除以抽样平均误差得到的相对数.公式:或1/10/202328第七章 抽样调查二、确定置信区间的方法1、条件:需知置
16、信度F(t),样本平均数或样本成数,平均误差估计量。2、方法:(1)由F(t)查t分布表或标准正态分布表得t值。(2)计算平均误差估计量 或 。(3)计算极限误差 的值。(4)写出置信区间并加以说明。1/10/202329第七章 抽样调查三、确定置信度的方法1、条件:需知置信区间,样本平均数或样本成数,平均误差估计量。2、方法:(1)由求出t值。(2)由t分布表或标准正态分布表得置信度F(t)。1/10/202330第七章 抽样调查eg.某大型股份公司设有5个工资级别,该公司人员的月平均工资为5000元,标准差为1421元,(1)是否可以认为,在这5个级别的人员中,95%的人所挣工资在2215
17、7785元之间?为什么?(2)以下说法是否正确:如果反复地从这些级别中每次抽取100人的简单随机样本,这些人的平均工资有95.45%的概率在47185282元之间。(3)以下说法是否正确:如果反复地从这些级别中每次抽取10000人的简单随机抽样,这些人的平均工资有99.73%的概率在47185282元之间。1/10/202331第七章 抽样调查解:(1)已知:下限 上限 则可以认为。!(2)(1)已知:上限 下限 1/10/202332第七章 抽样调查说法是对的!(3)已知:下限上限1/10/202333第七章 抽样调查说法是错误的!1/10/202334第七章 抽样调查估计量的标准无偏性:样
18、本指标所有可能取值的平均 数等于估计总体指标的属性。样本平均数是总体平均数的无偏估计样本方差 是总体方差 有偏估计;但是 是总体方差 的无偏估计。1/10/202335第七章 抽样调查有效性:方差最小的属性。(两个样本,其中一个的方差比另一个的方差小,说明小方差的样本更有效)一致性:样本指标逐渐趋于总体指标的属性。(大数定律)(P196)1/10/202336第七章 抽样调查不同情况下总体均值的区间估计总体分布样本量方差已知方差未知正态分布大样本()小样本()非正态分布 大样本()1/10/202337第七章 抽样调查第四节 随机抽样调查的组织形式一、随机抽样调查的概念及特点1、随机抽样的概念
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 精品 07 第七 抽样
限制150内