统计学抽样推断 (2)精品文稿.ppt
统计学抽样推断统计学抽样推断第1页,本讲稿共149页第七章第七章 抽样推断抽样推断第2页,本讲稿共149页引言引言n森林管理森林管理n森林的现有储量森林的现有储量n森林以往的生长情况森林以往的生长情况n森林未来的生长情况森林未来的生长情况第3页,本讲稿共149页几个基本概念几个基本概念n总体和样本;样本容量总体和样本;样本容量n参数和统计量参数和统计量n新技术下日光灯的寿命新技术下日光灯的寿命n候选人的支持率候选人的支持率第4页,本讲稿共149页7.1 抽样推断概述抽样推断概述n抽样推断的涵义抽样推断的涵义q以抽样调查为基础以抽样调查为基础q用样本资料估计和判断总体资料用样本资料估计和判断总体资料n抽样推断的特征抽样推断的特征q按随机的原则抽取样本按随机的原则抽取样本q以样本指标推算总体指标以样本指标推算总体指标q抽样误差可以事先计算和控制抽样误差可以事先计算和控制第5页,本讲稿共149页7.1 抽样推断概述抽样推断概述nA公司人事部经理被分配一项任务,为公司公司人事部经理被分配一项任务,为公司2500名管理人员制定一份简报,其中包括管理名管理人员制定一份简报,其中包括管理人员的平均薪金和公司中已完成管理培训程序人员的平均薪金和公司中已完成管理培训程序的管理人员所占比率。的管理人员所占比率。n如果没有如果没有2500管理人员具体的信息,假定选取管理人员具体的信息,假定选取30名管理人员组成一个样本进行研究分析名管理人员组成一个样本进行研究分析第6页,本讲稿共149页7.1 抽样推断概述:抽样的组织方式抽样推断概述:抽样的组织方式n1.简单随机抽样简单随机抽样q直接抽选法直接抽选法q标签法标签法q随机数码表法随机数码表法n2.类型抽样(分层抽样)类型抽样(分层抽样)q等比例分类抽样等比例分类抽样q不等比例分类抽样不等比例分类抽样第7页,本讲稿共149页n3.等距抽样的等距抽样的:亦叫机械抽样亦叫机械抽样 先将总体各单位按某一标志排队先将总体各单位按某一标志排队 然后按等距离抽取样本单位然后按等距离抽取样本单位7.1 抽样推断概述:抽样的组织方式抽样推断概述:抽样的组织方式第8页,本讲稿共149页n等距抽样的操作程序:等距抽样的操作程序:第一步:编制抽样框第一步:编制抽样框将全及总体按有关标志(将全及总体按有关标志(x)从低到高顺序排)从低到高顺序排队队 列出辅助标志(列出辅助标志(f)将辅助标志依次累计将辅助标志依次累计第9页,本讲稿共149页某村民小组有某村民小组有30户农户,若调查该村民小组所有农户户农户,若调查该村民小组所有农户2005年人均收入水平,可编制成如下抽样框:年人均收入水平,可编制成如下抽样框:第10页,本讲稿共149页序号1234567891011121314152004年人均收入(十元)x185187190198201218256260274290295325340366368人口数(人)f425343345421543人口数累计4611141821242833373940454952抽中户序号1617181920212223242526272829302004年人均收入(十元)x370371388402410446453470477490499502503516520人口数(人)f423344243454335人口数累计56586164687274788185909497100105抽中户抽样框第11页,本讲稿共149页第二步:第二步:计算抽样计算抽样距离(距离(K)如果抽取如果抽取6户进行调查,则:户进行调查,则:抽样距离抽样距离K=105617.5第12页,本讲稿共149页第三步:抽取调查单位第三步:抽取调查单位n半距起点、等距抽样半距起点、等距抽样第13页,本讲稿共149页u 半距起点、等距抽样半距起点、等距抽样以第一个抽样距离的以第一个抽样距离的一半处一半处作为第一个调查单作为第一个调查单位位以后毎以后毎隔一个抽样距离隔一个抽样距离抽取一个调查单位抽取一个调查单位直到最后一个调查单位抽出为止直到最后一个调查单位抽出为止第14页,本讲稿共149页以抽取以抽取6户为例,抽取的户数依次为:户为例,抽取的户数依次为:n第第1户户 n1=17.528.75 为第为第3号户号户n第第2户户 n2=8.75+17.5=26.25 为第为第8号户号户n第第3户户 n3=26.25+17.5=43.75 为第为第13号户号户n第第4户户 n4=43.75+17.5=61.25 为第为第19号户号户n第第5户户 n5=61.25+17.5=78.75 为第为第24号户号户n第第6户户 n6=78.75+17.5=96.25 为第为第28号户号户抽中户的位置可用图形表示如下:抽中户的位置可用图形表示如下:n1n2n3n4n5n65k6k4k3k2k1k第15页,本讲稿共149页第四步第四步:对抽中单位进行代表性检查:对抽中单位进行代表性检查计算样本平均数与全及平均数之计算样本平均数与全及平均数之比值比值其比值以人均收入水平上下不超过其比值以人均收入水平上下不超过3%为有代表为有代表性。性。第16页,本讲稿共149页现以半距起点、等距抽取的现以半距起点、等距抽取的6户为例,检查其代表性户为例,检查其代表性n30户的人均收入户的人均收入xf/f=37990105 361.8(十元)(十元)n6户的人均收入户的人均收入x/n (190+260+340+402+477+503)6 362(十元)(十元)n二者比值为:二者比值为:362/361.8100.06n可以看出,抽中的可以看出,抽中的6户有足够的代表性,可以作为样本进行户有足够的代表性,可以作为样本进行调查。调查。第17页,本讲稿共149页4、整群抽样、整群抽样将总体单位划分成若干群(将总体单位划分成若干群(R)以群为单位,从中随机抽取一部分群(以群为单位,从中随机抽取一部分群(r)对中选群的所有单位进行全面调查。对中选群的所有单位进行全面调查。例如:对某镇农户进行家计调查,以自然村庄划分群,抽取若例如:对某镇农户进行家计调查,以自然村庄划分群,抽取若干个自然村庄,对中选村庄的所有农户都进行调查。干个自然村庄,对中选村庄的所有农户都进行调查。D村庄L村庄M村庄N村庄J村庄A村庄B村庄C村庄E村庄F村庄G村庄H村庄K村庄第18页,本讲稿共149页7.1 抽样推断概述:抽样的组织方式抽样推断概述:抽样的组织方式n5.多阶段抽样多阶段抽样n类型抽样和整群抽样的结合类型抽样和整群抽样的结合第19页,本讲稿共149页7.1 抽样推断概述:抽样方法抽样推断概述:抽样方法n重复抽样重复抽样q亦称回置抽样亦称回置抽样q每抽出一个单位在登记后仍放回去每抽出一个单位在登记后仍放回去q同一个单位有多次被重复抽中的可能同一个单位有多次被重复抽中的可能n不重复抽样不重复抽样q亦称不回置抽样亦称不回置抽样q已经被抽出的单位不再放回已经被抽出的单位不再放回q每个单位只有被抽中一次的可能每个单位只有被抽中一次的可能第20页,本讲稿共149页7.2 抽样分布及抽样推断理论依据抽样分布及抽样推断理论依据基础知识基础知识n概率概率n随机变量随机变量n(概率)分布(概率)分布n正态分布正态分布第21页,本讲稿共149页7.2 抽样分布及抽样推断理论依据抽样分布及抽样推断理论依据基础知识:基础知识:概率概率n概概率率是是0 0和和1 1之之间间的的一一个个数数目目,表表示示某某个个事事件件发发生的可能性或经常程度。生的可能性或经常程度。n你买彩票中大奖的机会很小你买彩票中大奖的机会很小(接近接近0)0)n但有人中大奖的概率几乎为但有人中大奖的概率几乎为1 1n你被流星击中的概率很小你被流星击中的概率很小(接近接近0)0)n但每分钟有流星击中地球的概率为但每分钟有流星击中地球的概率为1 1n你今天被汽车撞上的概率几乎是你今天被汽车撞上的概率几乎是0 0n但在北京每天发生车祸的概率是但在北京每天发生车祸的概率是1 1。第22页,本讲稿共149页7.2 抽样分布及抽样推断理论依据抽样分布及抽样推断理论依据基础知识:基础知识:概率概率n发生概率很小的事件称为小概率事件(small probability event);n小概率事件不那么可能发生,但它往往比很可能发生的事件更值得研究。n在某种意义上,新闻媒体的主要注意力大都集中在小概率事件上。第23页,本讲稿共149页7.2 抽样分布及抽样推断理论依据抽样分布及抽样推断理论依据基础知识:基础知识:随机变量随机变量试验随机变量可能的取值抽查100个产品取到次品的个数0,1,2,100一家餐馆营业一天顾客数0,1,2,抽查一批电子原件使用寿命X0新建一座住宅楼半年完成工程的百分比0X 100第24页,本讲稿共149页7.2 抽样分布及抽样推断理论依据抽样分布及抽样推断理论依据基础知识:基础知识:概率分布概率分布n随随机机变变量量取取一一切切可可能能值值或或范范围围的的概概率率或或概概率率的的规规 律律 称称 为为 概概 率率 分分 布布(probability(probability distributiondistribution,简称分布,简称分布)。n概概率率分分布布可可以以用用各各种种图图或或表表来来表表示示;一一些些可可以用公式来表示。以用公式来表示。n概概率率分分布布是是关关于于总总体体的的概概念念。有有了了概概率率分分布就等于知道了总体。布就等于知道了总体。第25页,本讲稿共149页7.2 抽样分布及抽样推断理论依据抽样分布及抽样推断理论依据基础知识:基础知识:正态分布正态分布n取取连连续续值值的的变变量量,如如高高度度、长长度度、重重量量、时时间间、距距离离等等;它们被称为连续变量等等;它们被称为连续变量(continuous variable)。n换换言言之之,一一个个随随机机变变量量如如果果能能够够在在一一区区间间(无无论论这这个个区区间间多多么么小小)内内取取任任何何值值,则则该该变变量量称称为为在在此此区区间间内内是是连连续的,其分布称为连续型概率分布。续的,其分布称为连续型概率分布。n它它们们的的概概率率分分布布很很难难准准确确地地用用离离散散变变量量概概率率的的条条形形图图表表示。示。第26页,本讲稿共149页7.2 抽样分布及抽样推断理论依据抽样分布及抽样推断理论依据基础知识:基础知识:正态分布正态分布n想想象象连连续续变变量量观观测测值值的的直直方方图图;如如果果其其纵纵坐坐标标为为相相对对频频数数,那那么么所所有有这这些些矩矩形形条条的的高高度度和和为为1;完完全全可可以以重重新新设置量纲,使得这些矩形条的面积和为设置量纲,使得这些矩形条的面积和为1。n不不断断增增加加观观测测值值及及直直方方图图的的矩矩形形条条的的数数目目,直直方方图图就会越来越像一条光滑曲线,其下面的面积和为就会越来越像一条光滑曲线,其下面的面积和为1。n该该曲曲线线即即所所谓谓概概率率密密度度函函数数(probability density function,pdf),简简称称密密度度函函数数或或密密度度。下下图图为为这这样样形成的密度曲线。形成的密度曲线。第27页,本讲稿共149页逐渐增加矩形条数目的直方图和一个形状类似的密度曲线。第28页,本讲稿共149页7.2 抽样分布及抽样推断理论依据抽样分布及抽样推断理论依据基础知识:基础知识:正态分布正态分布n正正态态分分布布的的密密度度曲曲线线是是一一个个对对称称的的钟钟型型曲曲线线(最最高高点点在在均均值值处处)。正正态态分分布布也也是是一一族族分分布布,各各种种正态分布根据它们的均值和标准差不同而有区别。正态分布根据它们的均值和标准差不同而有区别。n一一个个正正态态分分布布用用N(,)表表示示;其其中中 为为均均值值,而而 为为标标准准差差。也也常常用用N(,2 2)来来表表示示,这这里里 2 2为方差(标准差的平方)。为方差(标准差的平方)。第29页,本讲稿共149页7.2 抽样分布及抽样推断理论依据抽样分布及抽样推断理论依据基础知识:基础知识:正态分布正态分布n标标准准差差为为1的的正正态态分分布布N(0,1)称称为为标标准准正正态态分分布布(standard normal distribution)。n标准正态分布的密度函数用标准正态分布的密度函数用f(x)表示。表示。n任任何何具具有有正正态态分分布布N(m,s)的的随随机机变变量量X都都可可以以用用简简单单的的变变换换(减减去去其其均均值值m,再再除除以以标标准准差差s):Z=(X-m)/s,而而成成为为标标准准正正态态随随机机变变量量。这这种种变变换换和标准得分的意义类似。和标准得分的意义类似。第30页,本讲稿共149页两条正态分布的密度曲线。左边是N(-2,0.5)分布,右边是N(0,1)分布 第31页,本讲稿共149页正态分布n当当然然,和和所所有有连连续续变变量量一一样样,正正态态变变量量落落在在某某个个区区间间的的概概率率就就等于在这个区间上,密度曲线下面的面积。等于在这个区间上,密度曲线下面的面积。n比比如如,标标准准正正态态分分布布变变量量落落在在区区间间(0.51,1.57)中中的的概概率率,就是在标准正态密度曲线下面在就是在标准正态密度曲线下面在0.51和和1.57之间的面积。之间的面积。n很很容容易易得得到到这这个个面面积积等等于于0.24682;也也就就是是说说,标标准准正正态态变变量量在在区区间间(0.51,1.57)中中的的概概率率等等于于0.24682。如如果果密密度度函函数数为为f f(x),那么这个面积为积分,那么这个面积为积分第32页,本讲稿共149页标准正态变量在区间(0.51,1.57)中的概率第33页,本讲稿共149页7.2 抽样分布及抽样推断理论依据抽样分布及抽样推断理论依据基础知识:基础知识:参数与统计量参数与统计量n总体参数总体参数q总体均值,总体成数,总体标准差,总体方差总体均值,总体成数,总体标准差,总体方差n统计量统计量q抽抽样样平平均均数数,抽抽样样成成数数,样样本本标标准准差差,样样本本方方差差第34页,本讲稿共149页7.2 抽样分布及抽样推断理论依据抽样分布及抽样推断理论依据P200 三种分布三种分布n总体分布总体分布n样本分布样本分布n抽样分布抽样分布第35页,本讲稿共149页1.所有样本指标(如均值、成数、方差等)所所有样本指标(如均值、成数、方差等)所形成的分布称为抽样分布形成的分布称为抽样分布2.是一种理论概率分布是一种理论概率分布3.随机变量是随机变量是 样本统计量q样本均值样本均值,样本成数等样本成数等4.结果来自结果来自容量相同的所有可能容量相同的所有可能样本样本抽样分布抽样分布(概念要点)(概念要点)第36页,本讲稿共149页样本均值的抽样分布样本均值的抽样分布(一个例子)(一个例子)【例】设一个总体,含有4个元素(个体),即总体单位数N=4。4 个个体分别为X1=1、X2=2、X3=3、X4=4。总体的均值、方差及分布如下均值和方差均值和方差均值和方差均值和方差总体分布总体分布总体分布总体分布1 14 42 23 30 0.1.1.2 2.3.3第37页,本讲稿共149页样本均值的抽样分布样本均值的抽样分布(一个例子)(一个例子)现从总体中抽取n2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果如下表n3,4n3,3n3,2n3,1n3n2,4n2,3n2,2n2,1n2n4,4n4,3n4,2n4,1n4n1,4n4n1,3n3n2n1n1,2n1,1n1n第二个观察值n第一个n观察值n所有可能的n=2 的样本(共16个)第38页,本讲稿共149页样本均值的抽样分布样本均值的抽样分布(一个例子)(一个例子)计计算算出出各各样样本本的的均均值值,如如下下表表。并并给给出出样样本本均均值值的的抽抽样分布样分布n3.5n3.0n2.5n2.0n3n3.0n2.5n2.0n1.5n2n4.0n3.5n3.0n2.5n4n2.5n4n2.0n3n2n1n1.5n1.0n1n第二个观察值n第一个n观察值n16个样本的均值(x)样本均值的抽样分布样本均值的抽样分布样本均值的抽样分布样本均值的抽样分布1.01.00 0.1.1.2.2.3.3P P(x x)1.51.53.03.04.04.03.53.52.02.02.52.5x x第39页,本讲稿共149页所有样本均值的均值和方差所有样本均值的均值和方差式中:M为样本数目比较及结论:1.样本均值的均值(数学期望)等于总体均值 2.样本均值的方差等于总体方差的1/n第40页,本讲稿共149页样本均值的分布与总体分布的比较样本均值的分布与总体分布的比较抽样分布抽样分布抽样分布抽样分布 =2.5=2.5 2=1.25=1.25总体分布总体分布总体分布总体分布1 14 42 23 30 0.1.1.2.2.3.3P P(x x)1.01.00 0.1.1.2.2.3.31.51.53.03.04.04.03.53.52.02.02.52.5x x第41页,本讲稿共149页7.2 抽样分布及抽样推断理论依据抽样分布及抽样推断理论依据大数定律大数定律n大数定律是阐述大量随机变量的平均结果具有大数定律是阐述大量随机变量的平均结果具有稳定性的一系列定律的总称稳定性的一系列定律的总称n独立同分布独立同分布n贝奴利大数定律贝奴利大数定律n意义:随着抽样单位数的增加,样本平均数有意义:随着抽样单位数的增加,样本平均数有接近于总体平均数的趋势接近于总体平均数的趋势第42页,本讲稿共149页样本均值的抽样分布样本均值的抽样分布与中心极限定理与中心极限定理 =50=50=50 =10=10=10X X X总体分布总体分布总体分布总体分布总体分布总体分布n n=4=4抽样分布抽样分布抽样分布抽样分布抽样分布抽样分布Xn n=16=16当当总总体体服服从从正正态态分分布布N (,2)时时,来来自自该该总总体体的的所所有有容容量量为为n的的样样本本的的均均值值 X也也服服从从正正态态分分布布,X 的的数数学学期期望为望为,方差为,方差为2/n。即。即 XN(,2/n)第43页,本讲稿共149页正态分布均匀分布总体分布样 本 均 值分布(n=2)样 本 均 值分布(n=10)样 本 均 值分布(n=30)指数分布第44页,本讲稿共149页中心极限定理中心极限定理当样本容量足够当样本容量足够大时大时(n n 30)30),样本均值的抽样样本均值的抽样分布逐渐趋于正分布逐渐趋于正态分布态分布中中心心极极限限定定理理:设设从从均均值值为为,方方差差为为 2的的一一个个任任意意总总体体中中抽抽取取容容量量为为n的的样样本本,当当n充充分分大大时时,样样本本均均值值的的抽抽样样分分布布近近似服从均值为似服从均值为、方差为、方差为2/n的正态分布的正态分布一个任意分一个任意分布的总体布的总体X X第45页,本讲稿共149页n1.抽样调查的主要目的在于(抽样调查的主要目的在于()。)。A.计算和控制误差计算和控制误差 B.了解总体单位情况了解总体单位情况.用样本来推断总体用样本来推断总体 D.对调查单位作深入的研究对调查单位作深入的研究n2.抽样调查所必须遵循的基本原则是(抽样调查所必须遵循的基本原则是()。)。A.随意原则随意原则 B.可比性原则可比性原则 .准确性原则准确性原则 D.随机原则随机原则n3.在下列情况下,计算不重复抽样的抽样平均误差可以采用重复抽样公在下列情况下,计算不重复抽样的抽样平均误差可以采用重复抽样公式(式()。)。A.总体单位数很多总体单位数很多 B.抽样单位数很少抽样单位数很少.抽样单位数对总体单位数的比重很小;抽样单位数对总体单位数的比重很小;D.抽样单位数对总体单位数的比重较大。抽样单位数对总体单位数的比重较大。第46页,本讲稿共149页n4.一般所说的大样本是指样本容量(一般所说的大样本是指样本容量()。)。A.小于小于10 B.不大于不大于10 .小于小于30 D.不小于不小于30n5.将总体单位按一事实上标志排队,并按固定距离抽选样本点的方法是(将总体单位按一事实上标志排队,并按固定距离抽选样本点的方法是()。)。A.类型抽样类型抽样 B.等距抽样等距抽样.整群抽样整群抽样 D.简单随机抽样简单随机抽样n6.按地理区域划片所进行的区域抽样,其抽样方法属于(按地理区域划片所进行的区域抽样,其抽样方法属于()。)。A.纯随机抽样纯随机抽样 B.等距抽样等距抽样 .类型抽样类型抽样 D.整群抽样整群抽样 第47页,本讲稿共149页7.4 参数估计参数估计n7.4.1 抽样误差概念抽样误差概念n7.4.2 影响抽样误差大小的影响因素影响抽样误差大小的影响因素n7.4.3 抽样平均误差的计算抽样平均误差的计算n7.4.4 抽样极限误差抽样极限误差第48页,本讲稿共149页7.4.1 抽样误差的概念n抽样误差是样本指标和总体指标之间数抽样误差是样本指标和总体指标之间数量上的差别。以数学符号表示:量上的差别。以数学符号表示:第49页,本讲稿共149页理解抽样误差可以从两方面着手:n抽样误差是指由于抽样的随机性而产抽样误差是指由于抽样的随机性而产生的那一部分生的那一部分代表性误差代表性误差,不包括不包括登记登记性误差性误差。也不包括可能发生的也不包括可能发生的偏差偏差。第50页,本讲稿共149页误误差差登记性误差登记性误差代表性误差代表性误差代表性误差代表性误差在调查过程中由于主客观原因引起的登记、汇总或计算等方面的差错而造成的误差由于样本结构和总体结构不同,样本总体不能完全代表总体而产成的样本指标与总体指标的误差偏差偏差偏差偏差随机误差随机误差破坏了抽样的随机原则而产生的误差实际误差实际误差实际误差实际误差抽样平均误差抽样平均误差抽样平均误差抽样平均误差是样本指标与总体指标的差别所有可能出现的样本指标的标准差遵守随机原则但可能抽到各种不同的样本而产生的误差第51页,本讲稿共149页样本统计量总体未知参数样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量的某可能值抽样分布抽样分布样本统计量所有可能值的样本统计量所有可能值的概率分布概率分布主要样本主要样本统计量统计量平均数比率(成数)方差平均数比率(成数)方差第52页,本讲稿共149页抽样平均误差抽样平均误差是反映抽样误差一般水平的指是反映抽样误差一般水平的指标,标,其实质是指抽样平均数的标准差其实质是指抽样平均数的标准差,它反,它反映了是指样本指标与总体指标的平均离差程映了是指样本指标与总体指标的平均离差程度,也就是样本指标与总体指标的标准差,度,也就是样本指标与总体指标的标准差,通常用通常用 来表示。来表示。抽样平均误差第53页,本讲稿共149页n可以作为衡量样本指标对于全及指标代表性程可以作为衡量样本指标对于全及指标代表性程度的一个尺度。度的一个尺度。n是计算样本指标与全及指标之间变异范围的一是计算样本指标与全及指标之间变异范围的一个根据。个根据。n在组织抽样调查中,也是确定抽样单位数多少在组织抽样调查中,也是确定抽样单位数多少的计算依据之一。的计算依据之一。抽样平均误差第54页,本讲稿共149页7.1.2 影响抽样平均误差的因素影响抽样平均误差的因素1.1.总体各单位标志值的差异程度;总体各单位标志值的差异程度;2.2.样本的单位数;样本的单位数;3.3.抽样的方法;抽样的方法;4.4.抽样调查的组织形式。抽样调查的组织形式。差异越大,抽样误差越大单位数越多,抽样误差越小重复抽样的抽样误差比不重复抽样的大第55页,本讲稿共149页1.重复抽样的条件下重复抽样的条件下 式中,式中,n n为样本容量;为样本容量;为总体标准差。一为总体标准差。一般情况下是未知,可用样本标准差替代般情况下是未知,可用样本标准差替代 。第56页,本讲稿共149页 式中,式中,n为样本容量;为样本容量;为总体成数标准差,一般情为总体成数标准差,一般情况下是未知,可用样本成数标准差替代况下是未知,可用样本成数标准差替代 。.第57页,本讲稿共149页2.不重复抽样的条件下不重复抽样的条件下 式中,式中,N为总体单位数;为总体单位数;n为样本容量;为样本容量;X2 为总体方差。一般情况下是未知,为总体方差。一般情况下是未知,可用样本方差替代可用样本方差替代x 2。式中,式中,N为总体单位数;为总体单位数;n为样本容量;为样本容量;P2 为总体成数的方差。为总体成数的方差。一般情况下是未知,可用样本成数方差替代一般情况下是未知,可用样本成数方差替代p2。第58页,本讲稿共149页抽样平均数的平均误差例题:某工厂有某工厂有15001500个工人,用简单随机重复抽样的方法个工人,用简单随机重复抽样的方法抽出抽出5050个工人作为样本,调查其工资水平资料如下个工人作为样本,调查其工资水平资料如下月平均工资524534540550560580600660工人数469108643计算样本平均数和抽样平均误差。第59页,本讲稿共149页解:先列表 xfxf5244209612965184534632046764056540948604003600550105500100100056084480005806348040024006004240016006400660319801000030000502800052640第60页,本讲稿共149页计算平均数即平均工资:第61页,本讲稿共149页抽样成数的平均误差例题:某钢铁厂生产某种钢管,现从该厂某月生产的500根产品中抽取一个容量为100根的样本。已知一级品率为60%,试求样本一级品率的抽样平均误差。解:已知解:已知p=60%p=60%、n=100n=100、N=500N=500第62页,本讲稿共149页练习:要估计某高校练习:要估计某高校10000名在校生的近视率,现随机从中名在校生的近视率,现随机从中抽取抽取400名,检查有近视眼的学生名,检查有近视眼的学生320名,试计算样本近视率名,试计算样本近视率的抽样平均误差。的抽样平均误差。解:根据已知条件:解:根据已知条件:1 1)在重复抽样条件下,)在重复抽样条件下,样本近视率的抽样平均误差:样本近视率的抽样平均误差:第63页,本讲稿共149页2)在不重复抽样条件下,样本近视率的抽样平均误差:计算结果表明,用样本的近视率来估计总体的近视率其抽样平均误差为2左右(即用样本的近视率来估计总体的近视率其误差的绝对值平均说来在2左右)。第64页,本讲稿共149页7.1.4 抽样极限误差n抽样极限误差是指用绝对值形式表示的样本指标与总抽样极限误差是指用绝对值形式表示的样本指标与总体指标偏差可允许的最大范围。即:体指标偏差可允许的最大范围。即:或或 maxmax第65页,本讲稿共149页上面两式可改写成以下两个不等式,即:为总体平均数的估计区间(置信区间)为总体成数的估计区间(置信区间)第66页,本讲稿共149页例:要估计某乡粮食亩产量和总产量,从该例:要估计某乡粮食亩产量和总产量,从该乡乡2万亩粮食作物中抽取万亩粮食作物中抽取400亩,求得其平均亩,求得其平均亩产量为亩产量为400公斤。如果确定抽样极限误差公斤。如果确定抽样极限误差为为5公斤,试估计该乡粮食亩产量和总产量所公斤,试估计该乡粮食亩产量和总产量所在的置信区间。在的置信区间。第67页,本讲稿共149页即该乡粮食亩产量的区间落在即该乡粮食亩产量的区间落在4005公斤的范围内,即在公斤的范围内,即在395405公斤之间。公斤之间。粮食总产量在粮食总产量在20000(4005)公斤,)公斤,即在即在790810万公斤之间万公斤之间第68页,本讲稿共149页例:要估计某高校例:要估计某高校10000名在校生的近视名在校生的近视率,现随机从中抽取率,现随机从中抽取400名,计算的近视率名,计算的近视率为为80,如果确定允许误差范围为,如果确定允许误差范围为4,试,试估计该高校在校生近视率所在的置信区间。估计该高校在校生近视率所在的置信区间。n该校学生近视率的区间落在该校学生近视率的区间落在804的范围内,的范围内,即在即在7684之间。之间。第69页,本讲稿共149页抽样误差的概率度n基于概率估计要求,抽样极限误差基于概率估计要求,抽样极限误差x x或或p p 通常需要以抽样平均误差通常需要以抽样平均误差xx或或pp为标为标准单位来衡量。准单位来衡量。n把抽样极限误差把抽样极限误差x x或或p p分别除以分别除以xx或或pp得相对数得相对数t t,表示误差范围为抽样平均表示误差范围为抽样平均误差的误差的t t倍。倍。t t是测量抽样估计可靠程度的是测量抽样估计可靠程度的一个参数,一个参数,称为抽样误差的概率度。称为抽样误差的概率度。第70页,本讲稿共149页即,抽样极限误差是抽样平均误差的多少倍。我们把倍数t称为抽样误差的概率度第71页,本讲稿共149页参数估计一、总体参数的点估计一、总体参数的点估计二、总体参数的区间估计二、总体参数的区间估计第72页,本讲稿共149页总体参数的点估计(一)参数点估计的基本特点(一)参数点估计的基本特点(二)抽样估计的优良标准(二)抽样估计的优良标准第73页,本讲稿共149页(一)参数点估计的基本特点(一)参数点估计的基本特点 基本特点:根据总体指标的结构形式设计样本指标作为总体参数的估计量,并以样本指标的实际值直接作为相应总体参数的估计值。例如,样本平均值代表总体平均数;以抽样调查所获得的人口结构代表总体的人口结构等。第74页,本讲稿共149页(二)抽样估计的优良标准(二)抽样估计的优良标准 无偏性 作为总体参数估计量的样本统计量,要求其期望值作为总体参数估计量的样本统计量,要求其期望值(平均数)等于被估计的总体参数。这样的估计量称为(平均数)等于被估计的总体参数。这样的估计量称为无偏估计量。无偏估计量。有效性 以抽样指标估计总体指标要求作为优良估计量的以抽样指标估计总体指标要求作为优良估计量的方差应比其它估计量的方差小。方差应比其它估计量的方差小。一致性 作为优良估计量的样本容量充分大时,抽样指标也应充作为优良估计量的样本容量充分大时,抽样指标也应充分地靠近总体指标。分地靠近总体指标。即方差越小的估计量就越有效一般情况下均可满足第75页,本讲稿共149页总体参数的区间估计总体参数的区间估计(一)区间估计的基本特点及要素(一)区间估计的基本特点及要素(二)总体平均数(二)总体平均数(成数成数)的区间估计的区间估计第76页,本讲稿共149页(一)区间估计的基本特点及要素(一)区间估计的基本特点及要素 区间估计的基本特点 根据给定的概率保证度,利用实际抽样资料,根据给定的概率保证度,利用实际抽样资料,指出总体参数可能存在的区间范围。这个区间称指出总体参数可能存在的区间范围。这个区间称为置信区间。为置信区间。区间估计必须具备的三个要素 (1)估计值)估计值 (2)抽样误差范围)抽样误差范围 (3)概率保证程度)概率保证程度 第77页,本讲稿共149页抽样估计的置信度n抽样估计的置信度就是表明样本指标与抽样估计的置信度就是表明样本指标与总体指标的误差不超过一定范围的概率保总体指标的误差不超过一定范围的概率保证程度,它一般用证程度,它一般用F F(t t)表示。又称抽样估表示。又称抽样估计的概率保证程度。计的概率保证程度。第78页,本讲稿共149页1、总体平均数抽样估计的置信度2、总体成数抽样估计的置信度第79页,本讲稿共149页(二)总体平均数(二)总体平均数(成数成数)的区间估计的区间估计表表达达式式其中,为极限误差成成数数其中,为极限误差第80页,本讲稿共149页(二)总体平均数(二)总体平均数(成数成数)的区间估计的区间估计1.计算抽样平均数和标准差:或抽样成数平均数和成数标准差:简单随机抽样下的一般步骤2.计算平均误差:5.结果3.计算极限误差:4.计算区间的上下限:如:可以在如:可以在m%m%的概率保的概率保证程度下,估计证程度下,估计*在在*之间。之间。如果给定的是概率度,则如果给定的是概率度,则可查正态分布概率表可查正态分布概率表获得。获得。这是上面所计算这是上面所计算的上下限的上下限第81页,本讲稿共149页练习:某制造厂的产品重量服从正态分布,练习:某制造厂的产品重量服从正态分布,其总体标准差其总体标准差15千克,平均重量未知。千克,平均重量未知。现随机抽取一个现随机抽取一个n=250的样本,计算结果是的样本,计算结果是 65千克。以千克。以95的置信度估计总体平的置信度估计总体平均重量的置信区间。均重量的置信区间。n解:本题已知条件为:样本容量解:本题已知条件为:样本容量n=250,XN(65,15);置信水平为;置信水平为95;查正态概率双;查正态概率双侧临界值表有:侧临界值表有:t=1.96第82页,本讲稿共149页x=tx=1.960.9487=1.86则,651.8665+1.86即95%的估计区间为:63.1466.86计算结果说明,我们有95的把握程度认为总体平均数介于63.14千克到66.86千克之间。第83页,本讲稿共149页练习练习2:对某批成品按重复抽样方法抽选:对某批成品按重复抽样方法抽选200件检查,其中废品件检查,其中废品8件,以件,以95的把握程的把握程度估计该批成品的废品率范围。度估计该批成品的废品率范围。第84页,本讲稿共149页从某厂生产的5000只灯泡中,随机重复抽取100只,对其使用寿命进行调查,调查结果如表 使用寿命(小时)组中值x产品数量fx f3000以下3000 40004000 50005000以上25003500450055002305018500010500022500099000-1480-8401601160677120021168000128000024220800合 计10043400053440000第85页,本讲稿共149页又该厂质量规定使用寿命在又该厂质量规定使用寿命在3000小时以下为小时以下为不合格品。不合格品。(1)按重复抽样方法,以)按重复抽样方法,以95.45%的概率保证程的概率保证程度估计该批灯泡的平均使用寿命;度估计该批灯泡的平均使用寿命;(2)按重复抽样方法,以)按重复抽样方法,以68.27%的置信度估计的置信度估计该批灯泡的合格率。该批灯泡的合格率。第86页,本讲稿共149页必要抽样数目的确定确定适当样本容量的意义确定适当样本容量的意义1.1.在一定的误差允许下,样本容在一定的误差允许下,样本容量太大,则会增大工作量,造成量太大,则会增大工作量,造成人力、财力和时间的浪费。人力、财力和时间的浪费。2.2.如查改变了对误差的要求,则如查改变了对误差的要求,则可以通过增减样本容量来控制抽可以通过增减样本容量来控制抽样误差的大小。样误差的大小。第87页,本讲稿共149页样本容量的确定样本容量的确定由于由于第88页,本讲稿共149页判断判断n1.抽样误差的产生是由于破坏了随机原则所造成的。(抽样误差的产生是由于破坏了随机原则所造成的。()n2.在其他条件不变的情况下,抽样平均误差要减少为原来的在其他条件不变的情况下,抽样平均误差要减少为原来的1/3,则样本容量必须增大到,则样本容量必须增大到9倍。(倍。()n3.样本指标是一个客观存在的常数。(样本指标是一个客观存在的常数。()n4.抽样误差产生的原因是抽样调查时违反了随机原则。抽样误差产生的原因是抽样调查时违反了随机原则。()n5.抽样平均误差就是总体指标的标准差。(抽样平均误差就是总体指标的标准差。()n6.同样条件下,重复抽样误差一定大于不重复抽样误差。同样条件下,重复抽样误差一定大于不重复抽样误差。()第89页,本讲稿共149页7.5 假设检验假设检验n7.5.1 假设检验与参数估计假设检验与参数估计n7.5.2 假设检验的流程假设检验的流程n7.5.3 单个总体平均数的假设检验单个总体平均数的假设检验n7.5.4 两个总体均值的假设检验