统计学07抽样推断.pptx
《统计学07抽样推断.pptx》由会员分享,可在线阅读,更多相关《统计学07抽样推断.pptx(148页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、引言森林管理森林的现有储量森林以往的生长情况森林未来的生长情况第1页/共148页几个基本概念总体和样本;样本容量参数和统计量新技术下日光灯的寿命候选人的支持率第2页/共148页7.1 抽样推断概述抽样推断的涵义以抽样调查为基础用样本资料估计和判断总体资料抽样推断的特征按随机的原则抽取样本以样本指标推算总体指标抽样误差可以事先计算和控制第3页/共148页7.1 抽样推断概述A公司人事部经理被分配一项任务,为公司2500名管理人员制定一份简报,其中包括管理人员的平均薪金和公司中已完成管理培训程序的管理人员所占比率。如果没有2500管理人员具体的信息,假定选取30名管理人员组成一个样本进行研究分析第
2、4页/共148页7.1 抽样推断概述:抽样的组织方式1.简单随机抽样直接抽选法标签法随机数码表法2.类型抽样(分层抽样)等比例分类抽样不等比例分类抽样第5页/共148页3.等距抽样的:亦叫机械抽样 先将总体各单位按某一标志排队 然后按等距离抽取样本单位7.1 抽样推断概述:抽样的组织方式第6页/共148页等距抽样的操作程序:第一步:编制抽样框将全及总体按有关标志(x)从低到高顺序排队 列出辅助标志(f)将辅助标志依次累计第7页/共148页例某村民小组有30户农户,若调查该村民小组所有农户2005年人均收入水平,可编制成如下抽样框:第8页/共148页序号序号1234567891011121314
3、1520042004年人均收入年人均收入(十元)(十元)x x185187190198201218256260274290295325340366368人口数(人)人口数(人)f f425343345421543人口数累计人口数累计4611141821242833373940454952抽中户抽中户序号序号16171819202122232425262728293020042004年人均收入年人均收入(十元)(十元)x x370371388402410446453470477490499502503516520人口数(人)人口数(人)f f423344243454335人口数累计人口数累计56
4、586164687274788185909497100105抽中户抽中户抽样框第9页/共148页第二步:计算抽样距离(K)如果抽取6户进行调查,则:抽样距离K=105617.5第10页/共148页第三步:抽取调查单位半距起点、等距抽样第11页/共148页u 半距起点、等距抽样以第一个抽样距离的一半处作为第一个调查单位以后毎隔一个抽样距离抽取一个调查单位直到最后一个调查单位抽出为止第12页/共148页以抽取6户为例,抽取的户数依次为:第1户 n1=17.528.75 为第3号户第2户 n2=8.75+17.5=26.25 为第8号户第3户 n3=26.25+17.5=43.75 为第13号户第4
5、户 n4=43.75+17.5=61.25 为第19号户第5户 n5=61.25+17.5=78.75 为第24号户第6户 n6=78.75+17.5=96.25 为第28号户抽中户的位置可用图形表示如下:n1n2n3n4n5n65k6k4k3k2k1k第13页/共148页第四步:对抽中单位进行代表性检查计算样本平均数与全及平均数之比值其比值以人均收入水平上下不超过3%为有代表性。第14页/共148页现以半距起点、等距抽取的6户为例,检查其代表性30户的人均收入xf/f=37990105 361.8(十元)6户的人均收入x/n (190+260+340+402+477+503)6 362(十元
6、)二者比值为:362/361.8100.06可以看出,抽中的6户有足够的代表性,可以作为样本进行调查。第15页/共148页4、整群抽样将总体单位划分成若干群(R)以群为单位,从中随机抽取一部分群(r)对中选群的所有单位进行全面调查。例如:对某镇农户进行家计调查,以自然村庄划分群,抽取若干个自然村庄,对中选村庄的所有农户都进行调查。D村庄L村庄M村庄N村庄J村庄A村庄B村庄C村庄E村庄F村庄G村庄H村庄K村庄第16页/共148页7.1 抽样推断概述:抽样的组织方式5.多阶段抽样类型抽样和整群抽样的结合第17页/共148页7.1 抽样推断概述:抽样方法重复抽样亦称回置抽样每抽出一个单位在登记后仍放
7、回去同一个单位有多次被重复抽中的可能不重复抽样亦称不回置抽样已经被抽出的单位不再放回每个单位只有被抽中一次的可能第18页/共148页7.2 抽样分布及抽样推断理论依据基础知识概率随机变量(概率)分布正态分布第19页/共148页7.2 抽样分布及抽样推断理论依据基础知识:概率概率是0和1之间的一个数目,表示某个事件发生的可能性或经常程度。你买彩票中大奖的机会很小(接近0)但有人中大奖的概率几乎为1你被流星击中的概率很小(接近0)但每分钟有流星击中地球的概率为1你今天被汽车撞上的概率几乎是0但在北京每天发生车祸的概率是1。第20页/共148页7.2 抽样分布及抽样推断理论依据基础知识:概率发生概率
8、很小的事件称为小概率事件(small probability event);小概率事件不那么可能发生,但它往往比很可能发生的事件更值得研究。在某种意义上,新闻媒体的主要注意力大都集中在小概率事件上。第21页/共148页7.2 抽样分布及抽样推断理论依据基础知识:随机变量试验试验随机变量随机变量可能的取值可能的取值抽查100个产品取到次品的个数0,1,2,100一家餐馆营业一天顾客数0,1,2,抽查一批电子原件使用寿命X0新建一座住宅楼半年完成工程的百分比0X 100第22页/共148页7.2 抽样分布及抽样推断理论依据基础知识:概率分布随机变量取一切可能值或范围的概率或概率的规律称为概率分布(
9、probability distribution,简称分布)。概率分布可以用各种图或表来表示;一些可以用公式来表示。概率分布是关于总体的概念。有了概率分布就等于知道了总体。第23页/共148页7.2 抽样分布及抽样推断理论依据基础知识:正态分布取连续值的变量,如高度、长度、重量、时间、距离等等;它们被称为连续变量(continuous variable)。换言之,一个随机变量如果能够在一区间(无论这个区间多么小)内取任何值,则该变量称为在此区间内是连续的,其分布称为连续型概率分布。它们的概率分布很难准确地用离散变量概率的条形图表示。第24页/共148页7.2 抽样分布及抽样推断理论依据基础知识
10、:正态分布想象连续变量观测值的直方图;如果其纵坐标为相对频数,那么所有这些矩形条的高度和为1;完全可以重新设置量纲,使得这些矩形条的面积和为1。不断增加观测值及直方图的矩形条的数目,直方图就会越来越像一条光滑曲线,其下面的面积和为1。该曲线即所谓概率密度函数(probability density function,pdf),简称密度函数或密度。下图为这样形成的密度曲线。第25页/共148页逐渐增加矩形条数目的直方图和一个形状类似的密度曲线。第26页/共148页7.2 抽样分布及抽样推断理论依据基础知识:正态分布正态分布的密度曲线是一个对称的钟型曲线(最高点在均值处)。正态分布也是一族分布,各
11、种正态分布根据它们的均值和标准差不同而有区别。一个正态分布用N(,)表示;其中为均值,而为标准差。也常用N(,2)来表示,这里2为方差(标准差的平方)。第27页/共148页7.2 抽样分布及抽样推断理论依据基础知识:正态分布标 准 差 为 1的 正 态 分 布 N(0,1)称 为 标 准 正 态 分 布(standard normal distribution)。标准正态分布的密度函数用f(x)表示。任何具有正态分布N(m,s)的随机变量X都可以用简单的变换(减去其均值m,再除以标准差s):Z=(X-m)/s,而成为标准正态随机变量。这种变换和标准得分的意义类似。第28页/共148页两条正态分
12、布的密度曲线。左边是N(-2,0.5)分布,右边是N(0,1)分布 第29页/共148页正态分布当然,和所有连续变量一样,正态变量落在某个区间的概率就等于在这个区间上,密度曲线下面的面积。比如,标准正态分布变量落在区间(0.51,1.57)中的概率,就是在标准正态密度曲线下面在0.51和1.57之间的面积。很容易得到这个面积等于0.24682;也就是说,标准正态变量在区间(0.51,1.57)中的概率等于0.24682。如果密度函数为f(x),那么这个面积为积分第30页/共148页标准正态变量在区间(0.51,1.57)中的概率第31页/共148页7.2 抽样分布及抽样推断理论依据基础知识:参
13、数与统计量总体参数总体均值,总体成数,总体标准差,总体方差统计量抽样平均数,抽样成数,样本标准差,样本方差第32页/共148页7.2 抽样分布及抽样推断理论依据P200 三种分布总体分布样本分布抽样分布第33页/共148页1.所有样本指标(如均值、成数、方差等)所形成的分布称为抽样分布2.是一种理论概率分布3.随机变量是 样本统计量样本均值,样本成数等4.结果来自容量相同的所有可能样本抽样分布(概念要点)第34页/共148页样本均值的抽样分布(一个例子)【例】设一个总体,含有4个元素(个体),即总体单位数N=4。4 个个体分别为X1=1、X2=2、X3=3、X4=4。总体的均值、方差及分布如下
14、均值和方差均值和方差总体分布总体分布1 14 42 23 30 0.1.1.2.2.3.3第35页/共148页样本均值的抽样分布(一个例子)现从总体中抽取n2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果如下表n3,4n3,3n3,2n3,1n3n2,4n2,3n2,2n2,1n2n4,4n4,3n4,2n4,1n4n1,4n4n1,3n3n2n1n1,2n1,1n1n第二个观察值n第一个n观察值n所有可能的n=2 的样本(共16个)第36页/共148页样本均值的抽样分布(一个例子)计算出各样本的均值,如下表。并给出样本均值的抽样分布n3.5n3.0n2.5n2.0n3
15、n3.0n2.5n2.0n1.5n2n4.0n3.5n3.0n2.5n4n2.5n4n2.0n3n2n1n1.5n1.0n1n第二个观察值n第一个n观察值n16个样本的均值(x)样本均值的抽样分布样本均值的抽样分布1.01.00 0.1.1.2.2.3.3P P(x x)1.51.53.03.04.04.03.53.52.02.02.52.5x x第37页/共148页所有样本均值的均值和方差式中:M为样本数目比较及结论:1.样本均值的均值(数学期望)等于总体均值 2.样本均值的方差等于总体方差的1/n第38页/共148页样本均值的分布与总体分布的比较抽样分布抽样分布 =2.5 2=1.25总体
16、分布总体分布1 14 42 23 30 0.1.1.2.2.3.3P P(x x)1.01.00 0.1.1.2.2.3.31.51.53.03.04.04.03.53.52.02.02.52.5x x第39页/共148页7.2 抽样分布及抽样推断理论依据大数定律大数定律是阐述大量随机变量的平均结果具有稳定性的一系列定律的总称独立同分布贝奴利大数定律意义:随着抽样单位数的增加,样本平均数有接近于总体平均数的趋势第40页/共148页样本均值的抽样分布与中心极限定理 =50=50=50 =10=10=10X XX总体分布总体分布总体分布n n=4=4抽样分布抽样分布抽样分布Xn n=16=16当总
17、体服从正态分布N (,2)时,来自该总体的所有容量为n的样本的均值X也服从正态分布,X 的数学期望为,方差为2/n。即XN(,2/n)第41页/共148页正态分布均匀分布总体分布样 本 均 值分布(n=2)样 本 均 值分布(n=10)样 本 均 值分布(n=30)指数分布第42页/共148页中心极限定理当样本容量足够当样本容量足够大时大时(n n 30)30),样本均值的抽样样本均值的抽样分布逐渐趋于正分布逐渐趋于正态分布态分布中心极限定理:设从均值为,方差为 2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分布一个任意分一个任意分布的
18、总体布的总体X X第43页/共148页1.抽样调查的主要目的在于()。A.计算和控制误差 B.了解总体单位情况.用样本来推断总体 D.对调查单位作深入的研究2.抽样调查所必须遵循的基本原则是()。A.随意原则 B.可比性原则 .准确性原则 D.随机原则3.在下列情况下,计算不重复抽样的抽样平均误差可以采用重复抽样公式()。A.总体单位数很多 B.抽样单位数很少.抽样单位数对总体单位数的比重很小;D.抽样单位数对总体单位数的比重较大。第44页/共148页4.一般所说的大样本是指样本容量()。A.小于10 B.不大于10 .小于30 D.不小于305.将总体单位按一事实上标志排队,并按固定距离抽选
19、样本点的方法是()。A.类型抽样 B.等距抽样.整群抽样 D.简单随机抽样6.按地理区域划片所进行的区域抽样,其抽样方法属于()。A.纯随机抽样 B.等距抽样 .类型抽样 D.整群抽样 第45页/共148页7.4 参数估计7.4.1 抽样误差概念7.4.2 影响抽样误差大小的影响因素7.4.3 抽样平均误差的计算7.4.4 抽样极限误差第46页/共148页7.4.1 抽样误差的概念抽样误差是样本指标和总体指标之间数量上的差别。以数学符号表示:第47页/共148页理解抽样误差可以从两方面着手:抽样误差是指由于抽样的随机性而产生的那一部分代表性误差,不包括登记性误差。也不包括可能发生的偏差。第48
20、页/共148页误差登记性误差代表性误差在调查过程中由于主客观原因引起的登记、汇总或计算等方面的差错而造成的误差由于样本结构和总体结构不同,样本总体不能完全代表总体而产成的样本指标与总体指标的误差偏差随机误差破坏了抽样的随机原则而产生的误差实际误差抽样平均误差是样本指标与总体指标的差别所有可能出现的样本指标的标准差遵守随机原则但可能抽到各种不同的样本而产生的误差第49页/共148页样本统计量总体未知参数样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量的某可能值抽样分布样本统计量所有可能值的概率分布主要样本统计量平均数比率(成
21、数)方差第50页/共148页抽样平均误差是反映抽样误差一般水平的指标,其实质是指抽样平均数的标准差,它反映了是指样本指标与总体指标的平均离差程度,也就是样本指标与总体指标的标准差,通常用 来表示。抽样平均误差第51页/共148页可以作为衡量样本指标对于全及指标代表性程度的一个尺度。是计算样本指标与全及指标之间变异范围的一个根据。在组织抽样调查中,也是确定抽样单位数多少的计算依据之一。抽样平均误差第52页/共148页7.1.2 影响抽样平均误差的因素1.总体各单位标志值的差异程度;2.样本的单位数;3.抽样的方法;4.抽样调查的组织形式。差异越大,抽样误差越大单位数越多,抽样误差越小重复抽样的抽
22、样误差比不重复抽样的大第53页/共148页1.重复抽样的条件下 式中,n为样本容量;为总体标准差。一般情况下是未知,可用样本标准差替代 。第54页/共148页 式中,n为样本容量;为总体成数标准差,一般情况下是未知,可用样本成数标准差替代 。.第55页/共148页2.不重复抽样的条件下 式中,N为总体单位数;n为样本容量;X2 为总体方差。一般情况下是未知,可用样本方差替代x 2。式中,N为总体单位数;n为样本容量;P2 为总体成数的方差。一般情况下是未知,可用样本成数方差替代p2。第56页/共148页抽样平均数的平均误差例题:某工厂有1500个工人,用简单随机重复抽样的方法抽出50个工人作为
23、样本,调查其工资水平资料如下月平均工资月平均工资524524534534540540550550560560580580600600660660工人数工人数4 46 69 910108 86 64 43 3计算样本平均数和抽样平均误差。第57页/共148页解:先列表 xfxf5244209612965184534632046764056540948604003600550105500100100056084480005806348040024006004240016006400660319801000030000502800052640第58页/共148页计算平均数即平均工资:第59页/共14
24、8页抽样成数的平均误差例题:某钢铁厂生产某种钢管,现从该厂某月生产的500根产品中抽取一个容量为100根的样本。已知一级品率为60%,试求样本一级品率的抽样平均误差。解:已知p=60%、n=100、N=500第60页/共148页练习:要估计某高校10000名在校生的近视率,现随机从中抽取400名,检查有近视眼的学生320名,试计算样本近视率的抽样平均误差。解:根据已知条件:1)在重复抽样条件下,样本近视率的抽样平均误差:第61页/共148页2)在不重复抽样条件下,样本近视率的抽样平均误差:计算结果表明,用样本的近视率来估计总体的近视率其抽样平均误差为2左右(即用样本的近视率来估计总体的近视率其
25、误差的绝对值平均说来在2左右)。第62页/共148页7.1.4 抽样极限误差抽样极限误差是指用绝对值形式表示的样本指标与总体指标偏差可允许的最大范围。即:或 maxmax第63页/共148页上面两式可改写成以下两个不等式,即:为总体平均数的估计区间(置信区间)为总体成数的估计区间(置信区间)第64页/共148页例:要估计某乡粮食亩产量和总产量,从该乡2万亩粮食作物中抽取400亩,求得其平均亩产量为400公斤。如果确定抽样极限误差为5公斤,试估计该乡粮食亩产量和总产量所在的置信区间。第65页/共148页即该乡粮食亩产量的区间落在4005公斤的范围内,即在395405公斤之间。粮食总产量在2000
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 07 抽样 推断
限制150内