统计学-07抽样推断.ppt
《统计学-07抽样推断.ppt》由会员分享,可在线阅读,更多相关《统计学-07抽样推断.ppt(149页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、统计学统计学从数据到结论从数据到结论王二威王二威第七章第七章 抽样推断抽样推断引言引言n森林管理森林管理n森林的现有储量森林的现有储量n森林以往的生长情况森林以往的生长情况n森林未来的生长情况森林未来的生长情况几个基本概念几个基本概念n总体和样本;样本容量总体和样本;样本容量n参数和统计量参数和统计量n新技术下日光灯的寿命新技术下日光灯的寿命n候选人的支持率候选人的支持率7.1 抽样推断概述抽样推断概述n抽样推断的涵义抽样推断的涵义以抽样调查为基础以抽样调查为基础用样本资料估计和判断总体资料用样本资料估计和判断总体资料n抽样推断的特征抽样推断的特征q按随机的原则抽取样本按随机的原则抽取样本q以
2、样本指标推算总体指标以样本指标推算总体指标q抽样误差可以事先计算和控制抽样误差可以事先计算和控制7.1 抽样推断概述抽样推断概述nA公司人事部经理被分配一项任务,为公司公司人事部经理被分配一项任务,为公司2500名管理人员制定一份简报,其中包括管理名管理人员制定一份简报,其中包括管理人员的平均薪金和公司中已完成管理培训程序人员的平均薪金和公司中已完成管理培训程序的管理人员所占比率。的管理人员所占比率。n如果没有如果没有2500管理人员具体的信息,假定选取管理人员具体的信息,假定选取30名管理人员组成一个样本进行研究分析名管理人员组成一个样本进行研究分析7.1 抽样推断概述:抽样的组织方式抽样推
3、断概述:抽样的组织方式n1.简单随机抽样简单随机抽样q直接抽选法直接抽选法q标签法标签法q随机数码表法随机数码表法n2.类型抽样(分层抽样)类型抽样(分层抽样)q等比例分类抽样等比例分类抽样q不等比例分类抽样不等比例分类抽样n3.等距抽样的等距抽样的:亦叫机械抽样亦叫机械抽样 先将总体各单位按某一标志排队先将总体各单位按某一标志排队 然后按等距离抽取样本单位然后按等距离抽取样本单位7.1 抽样推断概述:抽样的组织方式抽样推断概述:抽样的组织方式n等距抽样的操作程序:等距抽样的操作程序:第一步:编制抽样框第一步:编制抽样框将全及总体按有关标志(将全及总体按有关标志(x)从低到高顺)从低到高顺序排
4、队序排队 列出辅助标志(列出辅助标志(f)将辅助标志依次累计将辅助标志依次累计某村民小组有某村民小组有30户农户,若调查该村民小组所有户农户,若调查该村民小组所有农户农户2005年人均收入水平,可编制成如下抽样框:年人均收入水平,可编制成如下抽样框:序号序号12345678910111213141520042004年人均收入年人均收入(十元)(十元)x x185187190198201218256260274290295325340366368人口数(人)人口数(人)f f425343345421543人口数累计人口数累计4611141821242833373940454952抽中户抽中户序号
5、序号16171819202122232425262728293020042004年人均收入年人均收入(十元)(十元)x x370371388402410446453470477490499502503516520人口数(人)人口数(人)f f423344243454335人口数累计人口数累计56586164687274788185909497100105抽中户抽中户抽样框第二步:第二步:计算抽样计算抽样距离(距离(K)如果抽取如果抽取6户进行调查,则:户进行调查,则:抽样距离抽样距离K=105617.5第三步:抽取调查单位第三步:抽取调查单位n半距起点、等距抽样半距起点、等距抽样u 半距起点、
6、等距抽样半距起点、等距抽样以第一个抽样距离的以第一个抽样距离的一半处一半处作为第一个调查单作为第一个调查单位位以后毎以后毎隔一个抽样距离隔一个抽样距离抽取一个调查单位抽取一个调查单位直到最后一个调查单位抽出为止直到最后一个调查单位抽出为止以抽取以抽取6户为例,抽取的户数依次为:户为例,抽取的户数依次为:n第第1户户 n1=17.528.75 为第为第3号户号户n第第2户户 n2=8.75+17.5=26.25 为第为第8号户号户n第第3户户 n3=26.25+17.5=43.75 为第为第13号户号户n第第4户户 n4=43.75+17.5=61.25 为第为第19号户号户n第第5户户 n5=
7、61.25+17.5=78.75 为第为第24号户号户n第第6户户 n6=78.75+17.5=96.25 为第为第28号户号户抽中户的位置可用图形表示如下:抽中户的位置可用图形表示如下:n1n2n3n4n5n65k6k4k3k2k1k第四步第四步:对抽中单位进行代表性检查:对抽中单位进行代表性检查计算样本平均数与全及平均数之计算样本平均数与全及平均数之比值比值其比值以人均收入水平上下不超过其比值以人均收入水平上下不超过3%为有代表为有代表性。性。现以半距起点、等距抽取的现以半距起点、等距抽取的6户为例,检查其代表性户为例,检查其代表性n30户的人均收入户的人均收入xf/f=37990105
8、361.8(十元)(十元)n6户的人均收入户的人均收入x/n (190+260+340+402+477+503)6 362(十元)(十元)n二者比值为:二者比值为:362/361.8100.06n可以看出,抽中的可以看出,抽中的6户有足够的代表性,可以作为样本进户有足够的代表性,可以作为样本进行调查。行调查。4、整群抽样、整群抽样将总体单位划分成若干群(将总体单位划分成若干群(R)以群为单位,从中随机抽取一部分群(以群为单位,从中随机抽取一部分群(r)对中选群的所有单位进行全面调查。对中选群的所有单位进行全面调查。例如:对某镇农户进行家计调查,以自然村庄划分群,例如:对某镇农户进行家计调查,以
9、自然村庄划分群,抽取若干个自然村庄,对中选村庄的所有农户都进行抽取若干个自然村庄,对中选村庄的所有农户都进行调查。调查。D村庄村庄L村庄M村庄N村庄村庄J村庄A村庄B村庄C村庄E村庄F村庄G村庄H村庄K村庄7.1 抽样推断概述:抽样的组织方式抽样推断概述:抽样的组织方式n5.多阶段抽样多阶段抽样n类型抽样和整群抽样的结合类型抽样和整群抽样的结合7.1 抽样推断概述:抽样方法抽样推断概述:抽样方法n重复抽样重复抽样q亦称回置抽样亦称回置抽样q每抽出一个单位在登记后仍放回去每抽出一个单位在登记后仍放回去q同一个单位有多次被重复抽中的可能同一个单位有多次被重复抽中的可能n不重复抽样不重复抽样q亦称不
10、回置抽样亦称不回置抽样q已经被抽出的单位不再放回已经被抽出的单位不再放回q每个单位只有被抽中一次的可能每个单位只有被抽中一次的可能7.2 抽样分布及抽样推断理论依据抽样分布及抽样推断理论依据基础知识基础知识n概率概率n随机变量随机变量n(概率)分布(概率)分布n正态分布正态分布7.2 抽样分布及抽样推断理论依据抽样分布及抽样推断理论依据基础知识:基础知识:概率概率n概概率率是是0 0和和1 1之之间间的的一一个个数数目目,表表示示某某个个事事件发生的可能性或经常程度。件发生的可能性或经常程度。n你买彩票中大奖的机会很小你买彩票中大奖的机会很小(接近接近0)0)n但有人中大奖的概率几乎为但有人中
11、大奖的概率几乎为1 1n你被流星击中的概率很小你被流星击中的概率很小(接近接近0)0)n但每分钟有流星击中地球的概率为但每分钟有流星击中地球的概率为1 1n你今天被汽车撞上的概率几乎是你今天被汽车撞上的概率几乎是0 0n但在北京每天发生车祸的概率是但在北京每天发生车祸的概率是1 1。7.2 抽样分布及抽样推断理论依据抽样分布及抽样推断理论依据基础知识:基础知识:概率概率n发生概率很小的事件称为小概率事件(small probability event);n小概率事件不那么可能发生,但它往往比很可能发生的事件更值得研究。n在某种意义上,新闻媒体的主要注意力大都集中在小概率事件上。7.2 抽样分布
12、及抽样推断理论依据抽样分布及抽样推断理论依据基础知识:基础知识:随机变量随机变量试验试验随机变量随机变量可能的取值可能的取值抽查100个产品取到次品的个数0,1,2,100一家餐馆营业一天顾客数0,1,2,抽查一批电子原件使用寿命X0新建一座住宅楼半年完成工程的百分比0X 1007.2 抽样分布及抽样推断理论依据抽样分布及抽样推断理论依据基础知识:基础知识:概率分布概率分布n随随机机变变量量取取一一切切可可能能值值或或范范围围的的概概率率或或概概率率的的规规律律称称为为概概率率分分布布(probability(probability distributiondistribution,简称分布,
13、简称分布)。n概概率率分分布布可可以以用用各各种种图图或或表表来来表表示示;一一些可以用公式来表示。些可以用公式来表示。n概概率率分分布布是是关关于于总总体体的的概概念念。有有了了概概率率分布就等于知道了总体。分布就等于知道了总体。7.2 抽样分布及抽样推断理论依据抽样分布及抽样推断理论依据基础知识:基础知识:正态分布正态分布n取取连连续续值值的的变变量量,如如高高度度、长长度度、重重量量、时时间间、距距离离等等等等;它它们们被被称称为为连连续续变变量量(continuous variable)。n换换言言之之,一一个个随随机机变变量量如如果果能能够够在在一一区区间间(无无论论这这个个区区间间
14、多多么么小小)内内取取任任何何值值,则则该该变变量量称称为为在在此此区区间间内内是是连连续续的的,其其分分布布称称为为连连续续型型概概率分布。率分布。n它它们们的的概概率率分分布布很很难难准准确确地地用用离离散散变变量量概概率率的的条形图表示。条形图表示。7.2 抽样分布及抽样推断理论依据抽样分布及抽样推断理论依据基础知识:基础知识:正态分布正态分布n想想象象连连续续变变量量观观测测值值的的直直方方图图;如如果果其其纵纵坐坐标标为为相相对对频频数数,那那么么所所有有这这些些矩矩形形条条的的高高度度和和为为1;完完全全可可以以重重新新设设置置量量纲纲,使使得得这这些些矩矩形形条条的的面面积积和和
15、为为1。n不不断断增增加加观观测测值值及及直直方方图图的的矩矩形形条条的的数数目目,直直方方图图就就会会越越来来越越像像一一条条光光滑滑曲曲线线,其其下下面面的的面面积积和和为为1。n该该曲曲线线即即所所谓谓概概率率密密度度函函数数(probability density function,pdf),简简称称密密度度函函数数或或密密度度。下下图图为为这这样形成的密度曲线。样形成的密度曲线。逐渐增加矩形条数目的直方图和一个逐渐增加矩形条数目的直方图和一个形状类似的密度曲线。形状类似的密度曲线。7.2 抽样分布及抽样推断理论依据抽样分布及抽样推断理论依据基础知识:基础知识:正态分布正态分布n正正态
16、态分分布布的的密密度度曲曲线线是是一一个个对对称称的的钟钟型型曲曲线线(最最高高点点在在均均值值处处)。正正态态分分布布也也是是一一族族分分布布,各各种种正正态态分分布布根根据据它它们们的的均均值值和和标准差不同而有区别。标准差不同而有区别。n一一个个正正态态分分布布用用N(,)表表示示;其其中中 为为均均值值,而而 为为标标准准差差。也也常常用用N(,2 2)来来表表示示,这这里里 2 2为方差(标准差的平方)。为方差(标准差的平方)。7.2 抽样分布及抽样推断理论依据抽样分布及抽样推断理论依据基础知识:基础知识:正态分布正态分布n标标准准差差为为1的的正正态态分分布布N(0,1)称称为为标
17、标准准正正态态分布分布(standard normal distribution)。n标准正态分布的密度函数用标准正态分布的密度函数用f(x)表示。表示。n任任何何具具有有正正态态分分布布N(m,s)的的随随机机变变量量X都都可可以以用用简简单单的的变变换换(减减去去其其均均值值m,再再除除以以标标准准差差s):Z=(X-m)/s,而而成成为为标标准准正正态态随随机机变量。这种变换和标准得分的意义类似。变量。这种变换和标准得分的意义类似。两条正态分布的密度曲线。左边是两条正态分布的密度曲线。左边是N(-2,0.5)分布,右边是分布,右边是N(0,1)分布分布 正态分布n当当然然,和和所所有有连
18、连续续变变量量一一样样,正正态态变变量量落落在在某某个个区区间间的的概率就等于在这个区间上,密度曲线下面的面积。概率就等于在这个区间上,密度曲线下面的面积。n比比如如,标标准准正正态态分分布布变变量量落落在在区区间间(0.51,1.57)中中的的概概率率,就就是是在在标标准准正正态态密密度度曲曲线线下下面面在在0.51和和1.57之之间间的的面积。面积。n很很容容易易得得到到这这个个面面积积等等于于0.24682;也也就就是是说说,标标准准正正态态变变量量在在区区间间(0.51,1.57)中中的的概概率率等等于于0.24682。如如果果密密度函数为度函数为f f(x),那么这个面积为积分,那么
19、这个面积为积分标准正态变量在区间标准正态变量在区间(0.51,1.57)中中的概率的概率7.2 抽样分布及抽样推断理论依据抽样分布及抽样推断理论依据基础知识:基础知识:参数与统计量参数与统计量n总体参数总体参数q总总体体均均值值,总总体体成成数数,总总体体标标准准差差,总总体体方差方差n统计量统计量q抽抽样样平平均均数数,抽抽样样成成数数,样样本本标标准准差差,样样本方差本方差7.2 抽样分布及抽样推断理论依据抽样分布及抽样推断理论依据P200 三种分布三种分布n总体分布总体分布n样本分布样本分布n抽样分布抽样分布1.所有样本指标(如均值、成数、方差等)所所有样本指标(如均值、成数、方差等)所
20、形成的分布称为抽样分布形成的分布称为抽样分布2.是一种理论概率分布是一种理论概率分布3.随机变量是随机变量是 样本统计量q样本均值样本均值,样本成数等样本成数等4.结果来自结果来自容量相同的所有可能容量相同的所有可能样本样本抽样分布抽样分布(概念要点)(概念要点)样本均值的抽样分布样本均值的抽样分布(一个例子)(一个例子)【例例】设设一一个个总总体体,含含有有4个个元元素素(个个体体),即即总总体体单单位位数数N=4。4 个个个个体体分分别别为为X1=1、X2=2、X3=3、X4=4。总体的均值、方差及分布如下总体的均值、方差及分布如下均值和方差均值和方差均值和方差均值和方差总体分布总体分布总
21、体分布总体分布1 14 42 23 30 0.1.1.2 2.3.3样本均值的抽样分布样本均值的抽样分布(一个例子)(一个例子)现现从从总总体体中中抽抽取取n2的的简简单单随随机机样样本本,在在重重复复抽抽样样条条件件下下,共共有有42=16个个样样本本。所所有有样样本本的的结结果果如下表如下表n3,4n3,3n3,2n3,1n3n2,4n2,3n2,2n2,1n2n4,4n4,3n4,2n4,1n4n1,4n4n1,3n3n2n1n1,2n1,1n1n第二个观察值n第一个n观察值n所有可能的所有可能的n=2 的样本(共的样本(共16个)个)样本均值的抽样分布样本均值的抽样分布(一个例子)(一
22、个例子)计算出各样本的均值,如下表。并给出样本均值的抽样分布n3.5n3.0n2.5n2.0n3n3.0n2.5n2.0n1.5n2n4.0n3.5n3.0n2.5n4n2.5n4n2.0n3n2n1n1.5n1.0n1n第二个观察值n第一个n观察值n16个样本的均值(x)样本均值的抽样分布样本均值的抽样分布样本均值的抽样分布样本均值的抽样分布1.01.00 0.1.1.2.2.3.3P P(x x)1.51.53.03.04.04.03.53.52.02.02.52.5x x所有样本均值的均值和方差所有样本均值的均值和方差式中:式中:M为样本数目为样本数目比较及结论:比较及结论:1.样本均值
23、的均值(数学期望)等于总体均值样本均值的均值(数学期望)等于总体均值 2.样本均值的方差等于总体方差的样本均值的方差等于总体方差的1/n样本均值的分布与总体分布的比较样本均值的分布与总体分布的比较抽样分布抽样分布抽样分布抽样分布 =2.5 2=1.25总体分布总体分布总体分布总体分布1 14 42 23 30 0.1.1.2.2.3.3P P(x x)1.01.00 0.1.1.2.2.3.31.51.53.03.04.04.03.53.52.02.02.52.5x x7.2 抽样分布及抽样推断理论依据抽样分布及抽样推断理论依据大数定律大数定律n大数定律是阐述大量随机变量的平均结果具有大数定律
24、是阐述大量随机变量的平均结果具有稳定性的一系列定律的总称稳定性的一系列定律的总称n独立同分布独立同分布n贝奴利大数定律贝奴利大数定律n意义:随着抽样单位数的增加,样本平均数有意义:随着抽样单位数的增加,样本平均数有接近于总体平均数的趋势接近于总体平均数的趋势样本均值的抽样分布样本均值的抽样分布与中心极限定理与中心极限定理 =50=50=50 =10=10=10X X X总体分布总体分布总体分布总体分布总体分布总体分布n n=4=4抽样分布抽样分布抽样分布抽样分布抽样分布抽样分布Xn n=16=16当当总总体体服服从从正正态态分分布布N (,2)时时,来来自自该该总总体体的的所所有有容容量量为为
25、n的的样样本本的的均均值值 X也也服服从从正正态态分分布布,X 的的数学期望为数学期望为,方差为方差为2/n。即即 XN(,2/n)正态分布均匀分布总体分布样 本 均 值分布(n=2)样 本 均 值分布(n=10)样 本 均 值分布(n=30)指数分布中心极限定理中心极限定理当当样本容量足够样本容量足够大时大时(n n 30)30),样本均值的抽样样本均值的抽样分布逐渐趋于正分布逐渐趋于正态分布态分布中中心心极极限限定定理理:设设从从均均值值为为,方方差差为为 2的的一一个个任任意意总总体体中中抽抽取取容容量量为为n的的样样本本,当当n充充分分大大时时,样样本本均均值值的的抽样分布近似服从均值
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 07 抽样 推断
限制150内