《第五章抽样估计.pptx》由会员分享,可在线阅读,更多相关《第五章抽样估计.pptx(73页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第一节 抽样估计的基本知识 抽样推断建立在随机抽样的基础上 样本的选取根据随机原则,(用样本估计总体)一定有误差 抽样推断运用概率估计的方法,总体不是100%相信,在大概率区间相信,90%、95%、99%相信。样本特征值叫统计量,总体特征值叫参数。抽样误差可以事先计算并加以控制第1页/共73页二、抽样估计的内容(一)参数估计1.概念:所谓参数估计就是用样本统计量去估计总体的参数。2.包括的内容:点估计和区间估计(二)假设检验 概念:假设 的情况,再 证明假设是否对。三、有关抽样的基本概念(一)抽样法的理论基础:大数法则、中心极限定理第2页/共73页(二)抽样的基本概念1.总体和样本(1)总体概
2、念:全及总体,所要研究对象的全体。特点:a.同质性 b.大量性 c.数量性 d.变异性 e.唯一性表示方法:N全及总体、母体,也表示总体包含多少单位数总体的分类:变量总体(数量标志)a.按总体各单位标志的性质不同分 属性总体(品质标志)有限总体b.按总体单位数多少分 无限总体总体指标:用来反映总体特征的统计指标叫参数。第3页/共73页(2)样本概念:总体中随机抽取的一部分单位叫样本。样本总体是 抽出许多个样本的集合体,样本不是唯一的,有多个。特点:不是唯一的,有许多样本。表示方法:用小 n表示,也表示样本中包含多少个单位数 大样本 n30样本的分类 小样本 n30样本指标:用来反映样本特征的统
3、计指标,叫统计量,不是 唯一的,因为有多个值所以需要统计。第4页/共73页(三)参数和统计量 1.参数(1)概念:总体的数量特征值,也叫全及指标、总体指标。(2)特点:全及指标是总体变量的函数,其数值是由总体各单位标志 值或标志属性决定的。参数是确定的,唯一的。未知的,需要用样本指标估计的。第5页/共73页(3)种类:变量总体的参数 a.总体均值 b.总体方差 c.标准差 属性总体的参数:变成交替标志 “是”“不是”,成数问题、比重、比率问题 a.总体均值 b.总体方差 c.标准差第6页/共73页2.统计量(1)概念:样本的数量特征值(多个样本组成样本总体)叫样本总体指标。(2)特点:样本指标
4、叫统计量,是样本变量的函数。统计量是有多个,不是唯一的,是已知的,可以计算。是随机变量,用它来估计参数,有的误差大些,有的误 差小些,有些有正误差,有些有负误差。第7页/共73页(3)种类:与总体参数相对应。对变量样本总体的统计量 a.样本均值 b.样本方差 c.样本标准差 属性样本总体的统计量 a.样本均值 b.样本方差 c.样本标准差第8页/共73页(四)样本容量和样本个数 1.样本容量:(1)概念:是指一个样本所包含的单位数,必要样本单位数(2)样本容量的重要性:一个样本包含多少个单位合适,是 抽样设计必须认真考虑的问题,样本容量大小关系到抽 样调查的效果和抽样方法的应用,抽取的样本能不
5、能代 表总体很重要,现在许多人在研究。大样本n30(3)样本容量大小 小样本n30 2.样本个数,又称样本可能数目(1)概念:是指从总体中可能抽取的样本个数,如n=3的样本 重置抽样:重复、回置(2)抽样方法 不重置抽样:不重复、不回置第9页/共73页第二节 对一个变量总体的参数均值和比例 进行区间估计抽样估计就是根据样本信息,对总体的某些特征进行估计或推断。样本特征值叫统计量,不是唯一的,多个,已知的,估计总体。总体特征值叫参数,是唯一的,确定的,未知的,需要样本估计。用样本特征值估计总体特征值叫参数估计。可分成点估计和区间估计。第10页/共73页一、点估计1.概念:也叫定值估计,是直接以样
6、本特征值估计总体参数。2.优点:简单易行,缺点:可信度值得怀疑,不能说明总体。3.种类:矩估计法、极大似然估计法 第11页/共73页4.最好估计量的标准(1)无偏性:是指样本估计量的均值应等于总体参数。(2)有效性:是指作为优良的估计量,除满足于无偏性外,其方差应最小,最有效。(3)一致性:随样本单位数充分大,样本估计量以总体参数 为极限。有了以上三条,我们才可以用 第12页/共73页二、区间估计:双侧1.概念:是根据样本估计量以一定的可靠程度推断总体参数 所在的区间范围 。置信区间 置信度概率2.区间估计三要素:(1)样本估计值(2)抽样平均误差 (3)概率(正态分布表给出应记住)第13页/
7、共73页3.区间估计的种类 正态总体:小样本 已知 用Z统计量 非正态总体:大样本 总体均值的区间估计 正态总体:小样本用t 统计量 未知 非正态总体:大样本用Z统计量 总体成数的区间估计:都是大样本,用Z统计量第14页/共73页(一)总体均值的区间估计 总体服从正态分布,小样本也服从正态分布 1.总体方差 已知时 总体不知什么分布,但大样本,样本也服从正态分布(1)定理:设总体 ,是其中一个简单随机样 本,则样本平均数 也符合正态分布,(2)定理:若总体平均数 和方差 有限,当样本容量n充分 大时,无论总体分布形式如何,样本平均数 第15页/共73页 (3)统计量:置信区间:变形:第16页/
8、共73页置信区间步骤:(1)总体方差已知 (2)统计量 (3)置信区间概率 (4)置信区间上限下限第17页/共73页 总体服从正态分布,小样本时,服从t分布2.总体方差 未知时 大样本时,服从正态分布 Z定理:设总体 ,是其中一个简 单随机样本,样本均值为 ,样本标准差为s,则统计量 大样本时,故常用第18页/共73页 统计量:置信区间:变形:第19页/共73页置信区间步骤:(1)总体方差未知 (2)统计量 (3)置信区间概率 (4)置信区间上限下限第20页/共73页(二)总体比例的区间估计1.定理:N1N 比例问题 N0 当总体服从二项分布 ,从总体中抽取容量为n的样本,样本也服从二项分布
9、,当 时,样本比例近似服从正态分布 。第21页/共73页 统计量:置信区间:变形:置信区间步骤:(1)总体比例未知(2)统计量 (3)置信区间概率(4)置信区间上限下限第22页/共73页第三节 抽样组织设计 一、抽样组织设计的基本原则1.确保随机原则的实现(1)考虑合适的抽样框(2)随机抽样的实施问题2.考虑样本的容量和结构问题3.抽样的组织形式,不同形式有不同的抽样误差,效果就不同4.调查费的问题,抽样误差越小,调查费用就多第23页/共73页二、抽样的组织形式 简单随机抽样、类型抽样、等距抽样、整群抽样(一)简单随机抽样1.概念:随机原则体现在总体中,大家都有同等机会2.适用范围:适用于均匀
10、总体,即具有某种特征的单位均匀 地分布于总体的各个部份,使总体各部分都同分布。前面 讲的都以简单抽样为例,是最基本、最简单的抽样组织形 式。第24页/共73页3.必要样本单位数的计算:必要样本容量(1)估计总体平均数需要抽取的样本单位数 重置抽样:不重置抽样 第25页/共73页(2)估计总体成数需要抽取的样本容量 重置抽样 不重置抽样 4.抽样误差与样本单位数的关系 抽样误差指抽样允许误差,抽样平均误差。,与样本单位数(样本容量)有关系。结论:抽样允许误差大,样本单位数少些;抽样允许误差小,样本单位数要多些。第26页/共73页(二)类型抽样 1.概念:又称分层抽样,先对总体各单位按主要标志分组
11、,然后再从各组中按随机原则按比例抽取。2.随机原则体现在每一类中,每类中的各单位机会均等。3.优点(1)把分组与随机原则结合起来。(2)标志值比较接近的分为一组,减少组内的差异程度,组内均匀。(3)哪里体现随机原则,哪里就有抽样误差,所以抽样误 差最小。(4)按比例抽取,每个组(类)都有代表,所以代表性强。第27页/共73页4.适用范围:适用总体单位标志值大小悬殊情况下,比简单随机抽样更准确,而且抽样误差又小,是所有随机抽样方法中最好的。5.总方差=组内方差+组间方差 随机原则:抽样平均误差 类型抽样分组时尽量扩大组间方差,减少组内方差,提高抽样效果。第28页/共73页(三)等距抽样1.概念:
12、又叫机械抽样或系统抽样,它先按某一标志排 队,然后按一定顺序和间隔来抽取样本单位。2.随机原则体现在第一个抽取谁。3.特点:(1)随机原则体现在第一个单位抽取谁,第一个单位定 了,以后各单位都决定了,没有选择的余地。(2)等距离。使样本单位均匀的分配在总体中,提高样本 的代表性。(3)抽样误差比类型抽样大,与简单随机抽样差不多(4)等距离的选择,不要与事物本身的节奏性、周期性相 重合,这样会产生系统性误差。第29页/共73页4.排队(1)无关标志排队:如工资表与姓名无关(2)有关标志排队:如:全国GDP按高低5.抽取样本的方法(1)半距中点取样:=(2)对称等距取样:两头取第30页/共73页(
13、四)整群抽样1.概念:又叫集团抽样,将总体各单位划分为许群,然后随机原则抽取若干群。2.整群抽样的随机原则:体现在选哪一群。3.群的划分:(1)按地域:如省、街道 (2)按隶属关系:如机械局4.特点:(1)随机原则体现在选哪一群(2)在群内做全面调查,小范围的全面调查(3)样本单位集中、节约、方便第31页/共73页(4)由于样本集中在某一部份,限制了样本在总体分配的 均匀性,所以代表性低,抽样误差在所有方法中最大。(5)在应用中要多抽一些样本单位,多抽几个群,以提高 抽样的准确性(6)抽时要注意,扩大群内差异,缩小群间差异。第32页/共73页 第四节 对两个变量总体参数:均值之差和比例之差 进
14、行区间估计 对于两个总体,我们所关心的参数:()两个总体均值之差 ()两个总体比率之差 第33页/共73页一 两个总体均值之差的估计:独立样本(一)独立样本的概念:如果两个样本是从两个总体中独立地抽取的,即一个样本中的元素与另一个样本中的元素相互独立,则称独立样本.(二)两个变量总体方差已知 已知,总体符合正态分布,抽取小样本,用Z统计量,查正态分布表 已知,总体不知符合什么分布,但抽取大样本,用Z统计量,查正态分布表第34页/共73页1、总体方差 和 已知时,两总体都符合正态分布,抽取小样本:例1、某零件长度服从正态分布 ,从中抽取 测得样本均值为22mm。进行工艺改革,零件长度仍服从正态分
15、布 抽取 ,测得样本 ,求两 个总体均值之差95%的置信区间?解:(1)已知两个总体方差 =mm =mm第35页/共73页(2)统计量(3)置信区间概率 第36页/共73页4)置信区间下限 上限所以两个总体均值之差95%的置信区间是0.97,1.13第37页/共73页2.总体方差 已知,总体不知符合什么分布,但抽取大样本;例,某地区教育委员会想估计两所中学的学生高考英语平均分数之差,为此两所中学独立抽取两个随机样本,有关数据如下:中学1 中学2确定两所中学高考英语平均分数之差的95%的置信区间?第38页/共73页解:(1)已知 ,已知大样本 (2)统计量第39页/共73页(3)置信区间概率第4
16、0页/共73页(4)置信区间下限 上限所以 两所中学高考英语平均分数之差在95%的置信区间5.03,10.97即5分,11分第41页/共73页(三)总体方差未知,内容复杂一些 总体符合正态分布,抽取小样本,用t统计量,查t分布表 总体不知符合什么分布,但抽取大样本,用Z统计量,查正态分布表1、总体方差未知,符合正态分布,抽取小样本,两个总体方差都相等,做以下假设:两个总体都服从正态分布 两个总体方差都相等 两个随机样本独立分别抽自两个总体例1 为估计两种方法组装产品所需时间差异,分别对两种不同的组装方法各随机安排12个工人,每个工人组装一件产品所需时间如下表:方法1 28.3 30.1 29
17、37.6 32.1 28.8 36 37.2 38.5 34.4 28 30方法2 27.6 22.2 31 33.8 20 30.2 31.7 26 32 31.2 33.4 26.5 第42页/共73页假定两种组装产品的时间服从正态分布,且方差相等,试以95%的置信水平确定两种方法组装产品所需平均时间差值的置信区间?解 总体方差未知,总体服从正态分布,小样本(两个总体的方差未知但相等,则需要用两个样本方差 来估计,这是将两个样本的数据组合在一起以给出总体方差的估计量,用来表示)第43页/共73页方差合并估计量统计量 第44页/共73页置信区间概率第45页/共73页置信区间下限 上限所以两种
18、方法组装产品所需平均时间差值的95%置信区间为0.14分,7.26分第46页/共73页2、总体方差未知,抽取小样本,总体方差不等时例:接上例,假定第一种方法随机安排12个工人,第二种方法随机安排8个工人,所得数据如下;方法1 28.3 30.1 29 37.6 32.1 28.8 36 37.2 38.5 34.4 28 30方法2 27.6 22.2 31 33.8 20 30.2 31.7 26.5同时假设两个总体方差不等,试以95%的置信水平确定两种方法组装产品所需平均时间差值的置信区间?解 总体方差未知,两个样本均值之差经标准化后近似服从自由度为u的t分布。第47页/共73页统计量第4
19、8页/共73页置信区间的概率第49页/共73页置信区间下限上限所以两种方法组装产品所需平均时间差值的95%置信区间为0.192分,9.058分第50页/共73页3、两个总体均值之差的匹配样本 作用:指派两组工人可能会出现方法1的工人都是工作好的工人,方法2的工人都是工作不好的工人,这样指派是不公平的,可能会掩盖两种方法组装产品所需时间的真正差异。为解决这一问题,可以使用匹配样本。匹配样本概念:一个样本中的数据与另一个样本的数据相对应。如先指定12个工人用第一种方法组装产品,再用这12个工人用第二种方法组装产品,这样得到的两组组装产品的数据就是匹配数据。匹配样本可以消除由于样本指定不公平造成的两
20、种方法组装时间上的差异。在大样本情况下,在 置信水平下,置信区间上下限 d 表示两个匹配样本对应数值的差值 表示各差值的均值 表示各差值的标准差,当总体 未知时,可以用样本差值的标准差 来代替第51页/共73页在小样本情况下,假定两个总体各观测值的配对差服从正态分布。两个总体均值之差 在 的置信水平下的置信区间为:置信区间下限 置信区间上限例:由10个学生组成一个随机样本,让他们分别用A、B两套高考模拟试题测试,取得成绩如下表:第52页/共73页学生编号 试卷A试卷B差值178717-4162634419864372611100489845-636591741763664951-2-13169
21、7685513248766016525985778-3910553916525第53页/共73页试建立两种试卷平均分数之差的95%的置信区间?解:置信区间下限置信区间上限所以两种试卷平均分数之差的95%的置信区间6.33分,15.67分第54页/共73页二 两个总体比率之差的区间估计两个总体比率之差的区间估计都是大样本,用Z统计量,查正态分布表。例,在某个电视节目的收视率调查中,农村 人,有32%的人收看该节目,城市 人,有45%的人收看该节目,试以95%的置信水平估计城市与农村收视率差别的置信区间?解 都是大样本统计量第55页/共73页 置信区间概率第56页/共73页置信区间下限置信区间上限
22、所以以95%的置信水平估计城市与农村收视率差别的置信区间为6.68%,19.32%第57页/共73页作业:例1、从两个正态总体中分别抽取两个独立的随机样本,它们的均值和标准差如下表;已知 总体 总体求 90%的置信区间?第58页/共73页解 已知,总体正态分布,抽取小样本,总体符合正态分布。统计量置信区间概率第59页/共73页 置信区间下限上限所以两个总体均值之差在90%的置信区间2.25,17.55第60页/共73页 例2 已知两个样本均值和标准差,总体方差相等 且符合正态分布。总体 总体求 95%的置信区间?第61页/共73页 已知 总体方差未知,小样本,分别抽自两个独立样本。方差合并估计
23、量统计量 第62页/共73页置信区间概率第63页/共73页置信区间下限 上限所以两个总体均值之差在90%的置信区间-1.98,5.98第64页/共73页例3 按例2,并未知,求 95%的置信区间?解 已知 并未知,两样本之 差经标准化后近似服从自由度为 的t分布。第65页/共73页统计量置信区间的概率第66页/共73页置信区间下限上限所以 的95%置信区间为,第67页/共73页例4 由4对观测值组成的随机样本,具体数据如下:求 95%的置信区间?配对号来自总体A的样本来自总体B的样本差值1202257-2310644853第68页/共73页解:置信区间下限置信区间上限所以 的95%的置信区间-2.43,5.94第69页/共73页例5 从两个总体中各抽取 的独立随机样本,求 90%的置信区间?解 大样本 统计量 第70页/共73页 置信区间概率第71页/共73页置信区间下限置信区间上限所以 以90%的置信水平估计 的置信区间为3%,17%第72页/共73页感谢您的观看!第73页/共73页
限制150内