第七章 抽样推断.pptx
第七章第七章 抽样推断抽样推断1 通过本章的教学,学生应达到下列要求:通过本章的教学,学生应达到下列要求:(1)(1)了解抽样推断的内涵、特点、理论基础了解抽样推断的内涵、特点、理论基础(2)(2)掌握抽样误差的内涵、主要影响因素掌握抽样误差的内涵、主要影响因素(3)(3)掌握抽样估计的内涵掌握抽样估计的内涵(4)(4)掌握抽样平均误差、极限误差与概率度的内掌握抽样平均误差、极限误差与概率度的内涵及相互之间的关系涵及相互之间的关系(5(5)具备基本的抽样方案设计能力)具备基本的抽样方案设计能力2 v抽样推断的一般问题抽样推断的一般问题v抽样推断中的几个基本概念抽样推断中的几个基本概念v抽样误差抽样误差v抽样估计的方法抽样估计的方法v抽样方案设计抽样方案设计3 为了为了实现本章教学目的,在教学过程中应以下列内实现本章教学目的,在教学过程中应以下列内容作为本章教学重点:容作为本章教学重点: 1)抽样估计的理论依据)抽样估计的理论依据2)参数估计的优良标准)参数估计的优良标准3)抽样误差的影响因素)抽样误差的影响因素4)抽样平均误差和极限误差的含义及计算)抽样平均误差和极限误差的含义及计算5)各种抽样方案的设计)各种抽样方案的设计4 1)抽样推断的两个理论依据)抽样推断的两个理论依据2)抽样平均误差、抽样极限误差与概率度之)抽样平均误差、抽样极限误差与概率度之间的关系及其运用间的关系及其运用3)如何根据实际情况设计相应的抽样方案)如何根据实际情况设计相应的抽样方案5关键词关键词:抽样:抽样:sample,sampling; 样本:样本:sample;样本统计量:样本统计量:sample statistic;样本值:样本值:sample value;样本(平)均值:样本(平)均值:sample mean;样本平均数:样本平均数:sample average;随机抽样:随机抽样:sampling at random;样本方差:样本方差:sample variance;抽样误差:抽样误差:sampling error;样本标准差:样本标准差:sample standard deviation6质质量量质质现象的数现象的数量方面量方面指标指标统计调查、统计调查、统计整理和统计整理和分组分组总量指标总量指标相对指标相对指标平均指标平均指标现象数量特征现象数量特征的动态对比的动态对比动态数列、动态数列、统计指数统计指数现象之间关系的分析现象之间关系的分析相关关系分析相关关系分析通过抽样反映现象的数量特征通过抽样反映现象的数量特征抽样推断抽样推断7第一节第一节 抽样推断的一般问题抽样推断的一般问题v抽样推断的特点抽样推断的特点:1)是一种由部分推断总体的认识方法)是一种由部分推断总体的认识方法2)是建立在随机原则基础上的)是建立在随机原则基础上的3)运用的是概率估计的方法)运用的是概率估计的方法样本均值总体均值;xXxaX4)抽样误差可以事先计算并加以控制)抽样误差可以事先计算并加以控制8v抽样推断的理论基础抽样推断的理论基础大数定律大数定律、中心极限中心极限定理定理样本单位数样本平均数,大数定律:nxXxpiin1)()1lim1)大数定律大数定律随着试验次数的随着试验次数的增多增多,某事件发,某事件发生的频率逐渐稳定于某个生的频率逐渐稳定于某个常数常数2)中心极限定理中心极限定理是研究是研究变量和变量和分布的。如果总分布的。如果总体变量存在有限的数学期望和方差,无论总体的变体变量存在有限的数学期望和方差,无论总体的变量具有怎样的分布,只要满足现有的条件,那么,量具有怎样的分布,只要满足现有的条件,那么,当当n很大很大时时,它们的和它们的和就就近似地服从正态分布近似地服从正态分布。9总体分布总体分布正态分布正态分布非正态分布非正态分布大样本大样本小样本小样本大样本大样本小样本小样本正态分布正态分布正态分布正态分布非正态分布非正态分布抽样均值的抽样分布与总体分布的关系抽样均值的抽样分布与总体分布的关系10的正态分布,方差为逼近数学期望为则样本平均数),足够大(一般要求只要样本容量的总体,方差为均数为对任意一个具有总体平nxnn2230),(2nNx)(xEx样本均值11总体总体N样本容量为样本容量为n的的所有样本所有样本计算出每一个计算出每一个样本的均值样本的均值xx的抽样分布的抽样分布抽样分布的形成过程抽样分布的形成过程12第二节第二节 抽样推断中的几个基本概念抽样推断中的几个基本概念13v总体和样本总体和样本1、总体(全及总体)、总体(全及总体)要认识的研究对象的全要认识的研究对象的全体。有体。有有限总体有限总体和和无限总体无限总体之分。之分。N有限总体的总体单位数有限总体的总体单位数在时间、地点一定的条件下,被推断的总体是在时间、地点一定的条件下,被推断的总体是确定确定的、唯一的。的、唯一的。2、样本样本从全及总体中随机抽取的部分单位所从全及总体中随机抽取的部分单位所组成的集合体。用组成的集合体。用n表示样本单位数。表示样本单位数。样本不具有唯一性、是不确定的,但样本一旦抽定样本不具有唯一性、是不确定的,但样本一旦抽定就是已知的就是已知的14v参数和统计量参数和统计量1、参数参数反映总体数量特征的指标反映总体数量特征的指标就特定的总体,其参数具有就特定的总体,其参数具有唯一性唯一性、确定性确定性和和未知性未知性特征特征FXFNXX或总体平均数(均值):常用的统计参数有:FFXXNXX222)()(或总体方差:15QPPXPNNQNNPpp2011;:是非标志的均值和方差;是非标志:2、统计量统计量根据样本值计算的综合指标,是反映根据样本值计算的综合指标,是反映样本数量特征的指标样本数量特征的指标1)统计量是样本变量的函数;)统计量是样本变量的函数;2)统计量本身是一个随机变量;)统计量本身是一个随机变量;3)当抽定一个样本时,就能计算相应的统计量值,)当抽定一个样本时,就能计算相应的统计量值,所以统计量是已知的(还可根据需要构造统计量)所以统计量是已知的(还可根据需要构造统计量)16122*222nxxsffxxnxxsfxfnxx)(样本修正方差:)(或)(样本方差:或样本均值:)1 (,21pppnnxpp方差:样本抽样成数的均值、17v样本容量和样本个数样本容量和样本个数、样本容量样本容量一个样本所包含的单位数,用一个样本所包含的单位数,用表示,是有限的表示,是有限的常用),称为小样本(试验中用大样本);称为大样本(实际中常30,30nn 、样本个数(样本可能数目)样本个数(样本可能数目)从一个特定从一个特定的总体中可能抽出多少个样本。样本个数的多少的总体中可能抽出多少个样本。样本个数的多少与样本容量和抽样方法等因素直接相关与样本容量和抽样方法等因素直接相关v重复抽样和不重复抽样重复抽样和不重复抽样18 第三节第三节 抽样误差抽样误差19一、抽样误差一、抽样误差在随机原则条件下,由于偶然性因素致使在随机原则条件下,由于偶然性因素致使样本各单位的结构与总体的单位结构不同而引样本各单位的结构与总体的单位结构不同而引起的样本指标值与总体值之间的绝对离差。起的样本指标值与总体值之间的绝对离差。误误差差登记性误差登记性误差存在于全面、非全面调存在于全面、非全面调查中。理论上可以消除查中。理论上可以消除代表性误差代表性误差(只存在于非只存在于非全面调查中全面调查中)系统性误差系统性误差非概率抽非概率抽样引起的样引起的抽样误差抽样误差概率抽样概率抽样(难以消除,但可控制)(难以消除,但可控制)20二、影响抽样误差大小的主要因素二、影响抽样误差大小的主要因素1)样本容量的大小。)样本容量的大小。n越大,抽样误差越小。越大,抽样误差越小。2)总体各单位变量值离散程度的大小。)总体各单位变量值离散程度的大小。 小,抽小,抽样误差就小。样误差就小。3)抽样方式的不同。重复抽样的误差要比不重)抽样方式的不同。重复抽样的误差要比不重复抽样的大。复抽样的大。4)抽样的组织形式)抽样的组织形式三、三、抽样平均误差抽样平均误差样本指标的标准差样本指标的标准差主要介绍抽样平均数和抽样成数的平均误差主要介绍抽样平均数和抽样成数的平均误差21抽样平均误差抽样平均误差抽样平均数(成数)的标准差,抽样平均数(成数)的标准差,反映了抽样误差的一般水平反映了抽样误差的一般水平1)是抽样平均数(成数)与是抽样平均数(成数)与其均值其均值之间的平均之间的平均差异程度差异程度2)反映了抽样平均数(成数)与反映了抽样平均数(成数)与总体平均数总体平均数(总体成数)之间的平均离散程度(总体成数)之间的平均离散程度可能的样本数目抽样平均数的标准差)(抽样平均误差)差、抽样平均数的平均误MMxExxx2122间的平均离散程度样本均值与总体均值之)(,)(由于:MXxXxEx2的平方根成反比与样本容量差成正比;抽样平均误差与总体方)在重复抽样条件下:(nnx1差位数来控制抽样平均误)可以通过调整样本单的仅为比总体标准差小得多,)抽样平均数的标准差三者的关系:2112n23来代估计量未知时,则用它的无偏注:总体方差)(很大时:当)(不重复抽样条件下:2*22211)2(sNnnNNnNnxx)()()不重复抽样时:()()重复抽样时:()()(抽样平均误差)、抽样成数的平均误差NnnPPnPPMPpMpEppppp11211222当当总体总体成数未成数未知时,知时,则用样则用样本成数本成数替代。替代。24四、四、抽样极限误差抽样极限误差(也称允许误差范围)也称允许误差范围)是按要求确定的误差的可能范围,是个误是按要求确定的误差的可能范围,是个误差区间。差区间。ppppppxxxxxxpPpPpPPpxXxXxXXx等价于:表示:抽样成数的极限误差用等价于:表示:用抽样平均数的极限误差25五、五、概率度概率度txxxxnXxtnXxXNnxnNx;而)(标准化过程),(),(根据中心极限定理:10 求得的求得的t值,查标准正态分布表后可得到相应值,查标准正态分布表后可得到相应的概率的概率F(t)26)()();()(tFtPpPtFtXxPpxt=1:F(t)=68.27%;t=1.64:F(t)=90%;t=1.96:F(t)=95%; t=2:F(t)=95.45%;t=3时,时,F(t)=99.73%27六、六、抽样估计的精度抽样估计的精度抽样误差越大,样本值与总体值之间的误抽样误差越大,样本值与总体值之间的误差就大,估计的精度就越低。差就大,估计的精度就越低。相同的允许误差范围,对高低水平不同的现相同的允许误差范围,对高低水平不同的现象来说,反映的意义是不同的。象来说,反映的意义是不同的。,;表示:或估计精度用;(抽样误差系数)或误差率相对误差范围ppxxpxppxxpxAAAApxXxx1128第四节抽样估计的方法第四节抽样估计的方法一、抽样估计一、抽样估计即以样本的实际资料为依即以样本的实际资料为依据,计算相应的样本指标(统计量),对总据,计算相应的样本指标(统计量),对总体作出数量上的估计和判断。体作出数量上的估计和判断。抽样抽样估计估计点估计点估计用样本统计量直接估计用样本统计量直接估计总体参数总体参数区间估计区间估计用一个区间及其出现用一个区间及其出现的概率来估计总体参数的概率来估计总体参数2911.1302122122122)(得:)(其中:)(已知,则:,且总体方差服从正态分布或布定理可知:如果总体由样本平均数的抽样分区间:如:总体平均数的置信xxxxZxXZxPZXxZPXxZZZZPn 即用同样方法构造的总体参数的多个区间中,包含即用同样方法构造的总体参数的多个区间中,包含总体参数的区间比例为总体参数的区间比例为100( )301130212212)(得:。其中:而:)(分布:则抽样平均数服从知,且正态分布的方差未如果xxxxtxXtxPnXxttttPtn 即:即:用同样方法构造的总体参数的多个区间中,有用同样方法构造的总体参数的多个区间中,有100( )的区间比例包含了总体平均数)的区间比例包含了总体平均数31二、抽样估计的特点:二、抽样估计的特点:)在逻辑上运用归纳推理)在逻辑上运用归纳推理)在方法上运用不确定的概率估计方法)在方法上运用不确定的概率估计方法)估计的结论存在一定的抽样误差)估计的结论存在一定的抽样误差三、抽样估计的优良标准三、抽样估计的优良标准)无偏性无偏性经过多次反复抽样,则多个样经过多次反复抽样,则多个样本指标值的平均数应该等于总体指标值本指标值的平均数应该等于总体指标值如抽样平均数、抽样成数、样本修正方差就如抽样平均数、抽样成数、样本修正方差就是无偏估计量是无偏估计量3222*;)()(等于总体方差:样本修正方差的平均数;)(总体成数:样本成数的平均数等于于总体平均数:样本平均数的平均数等sEPpEXxE2)一致性一致性根据大数定律,当样本容量根据大数定律,当样本容量n充分大时,则样本值无限接近总体值充分大时,则样本值无限接近总体值1,lim)(即:具有“一致性”的要求体平均数的估计量如:抽样平均数作为总XxPn333)有效性有效性用样本指标估计总体时,要求用样本指标估计总体时,要求作为优良估计量的方差应比其他估计量(非优作为优良估计量的方差应比其他估计量(非优良估计量)的方差小良估计量)的方差小更有效比),则称()(,有:对于固定的,都是总体的无偏估计量和如果两个统计量:212121DDn在在选择估计量时,一般应首先考虑选择估计量时,一般应首先考虑“无偏估无偏估计量计量”,然后再进一步选择,然后再进一步选择“有效估计量有效估计量”;对于大样本则考虑选择对于大样本则考虑选择“一致估计量一致估计量”样本平均数具有:无偏性、有效性和一致性样本平均数具有:无偏性、有效性和一致性34四、两种具体的抽样估计方法四、两种具体的抽样估计方法v已知抽样误差范围,求概率保证程度和置已知抽样误差范围,求概率保证程度和置信区间信区间计对总体参数进行区间估)(及求:;已知、样本的)2 ;) 12*tFtsxxx例例1:对某型号的电子元件进行耐用性能检查,对某型号的电子元件进行耐用性能检查,抽查的资料如下表。要求耐用时数的允许误差抽查的资料如下表。要求耐用时数的允许误差范围范围x=10.5小时。试估计该批电子元件的平小时。试估计该批电子元件的平均耐用时数。(重复抽样)均耐用时数。(重复抽样)35耐用时数(小时)耐用时数(小时)元件数(元件数(f)组中值(组中值(x)900小时以下小时以下9009509501000100010501050110011001150115012001200小时以上小时以上126354393187592597510251075112511751225 合合 计计100某某电子元件耐用时数统计表电子元件耐用时数统计表36(小时)(小时)(小时)2 . 510091.5191.515 .10551001055502nffxxfxfxx解:解:1)根据抽样资料计算样本平均数和标)根据抽样资料计算样本平均数和标准差,由此可得到抽样平均误差准差,由此可得到抽样平均误差2)根据给定的误差范围和平均误差求解)根据给定的误差范围和平均误差求解t及及概率概率37%66.959566.002.2191.55 .10,即概率为)(得:,查标准正态分布概率表根据公式,可得:tFtxx3)根据给定的允许误差范围和平均误差,确定)根据给定的允许误差范围和平均误差,确定总体参数置信区间的上下限:总体参数置信区间的上下限:小时上限小时下限即:10665 .105 .105510455 .105 .1055xxxxxx说明:有说明:有95.66%的的概率保证(或把握程度)认为概率保证(或把握程度)认为该该批电子元件的平均耐用时数在批电子元件的平均耐用时数在10451066小时之间。小时之间。38例例2:仍利用例:仍利用例1的资料:设该厂的产品质量检验标的资料:设该厂的产品质量检验标准规定,元件耐用时数达准规定,元件耐用时数达1000小时与上为合格品,小时与上为合格品,要求合格率估计的误差范围不超过要求合格率估计的误差范围不超过5%。试估计该批。试估计该批电子元件的合格率电子元件的合格率解:解:1)计算样本合格率和方差,可得抽样平均误差:)计算样本合格率和方差,可得抽样平均误差:%86. 21000819. 0)1 (0819. 009. 091. 0)1 (%911009121nppppnnppp39%96%5%91%86%5%91xxpp上限下限限:求出总体合格率的上下已计算的平均误差,根据给定的极限误差和%16.9276. 1%86. 2%5)(,查表得:求概率:tFtpp说明:有概率说明:有概率92.16%的保证程度认为该批电子元件的的保证程度认为该批电子元件的合格率在合格率在86%96%之间之间40v给出概率或概率度,求解抽样极限误差和置给出概率或概率度,求解抽样极限误差和置信区间信区间例例3:某城市进行居民家计调查。随机抽取:某城市进行居民家计调查。随机抽取400户居民家庭,调查得到年均每户耐用品消费支户居民家庭,调查得到年均每户耐用品消费支出为出为20000元,标准差为元,标准差为8000元。要求以元。要求以95%的概率估计该城市居民家庭年均每户的耐用品的概率估计该城市居民家庭年均每户的耐用品消费支出。(消费支出。(N未知,按重复抽样计算未知,按重复抽样计算)(元)则:,已知4004008000800020000nxx解:解:1)4196. 195. 02ttF查表得:,)()根据给定的置信度元上限元下限则置信区间的上下限:元:20784784200001921678420000)(78440096.1)3xxt说明:说明:有有95%的概率保证程度认为该市居民家庭年均的概率保证程度认为该市居民家庭年均耐用消费品支出在耐用消费品支出在1951620784元之间。元之间。42练习练习1:为了了解某市电信营业厅大客户对:为了了解某市电信营业厅大客户对该电信的服务的满意状况,调查人员随机该电信的服务的满意状况,调查人员随机访问了访问了30名去该电信营业厅办理业务的大名去该电信营业厅办理业务的大客户,发现受访的大客户中有客户,发现受访的大客户中有9人认为营业人认为营业厅的服务质量比两年前好。试在厅的服务质量比两年前好。试在95%(t=1.96)的置信水平下对大客户中认为营的置信水平下对大客户中认为营业厅现在的服务质量比两年前好的比率进业厅现在的服务质量比两年前好的比率进行区间估计。行区间估计。 (N未知,按重复抽样计算未知,按重复抽样计算)43解:解:164. 008367. 096. 1:08367. 0307 . 03 . 0)1 (%;30309ppptnppp则上限上限=30%+16.4%=46.4%下限下限=30-16.4%=13.6% 有有95%的把握认为:大客户认为该电信营的把握认为:大客户认为该电信营业厅的服务质量比两年前好的比率在业厅的服务质量比两年前好的比率在13.6%至至46.4%之间。之间。44练习练习2:A企业生产一种新型灯泡企业生产一种新型灯泡5000只,随只,随机抽取机抽取100只作耐用时间测试。测试结果:平只作耐用时间测试。测试结果:平均寿命为均寿命为4500小时,标准差为小时,标准差为300小时。小时。1)试在)试在90%概率保证下估计该新型灯泡平均概率保证下估计该新型灯泡平均寿命区间(不重复抽样);寿命区间(不重复抽样);3 .44517 .4845007 .45487 .4845007 .48698.2964.1698.2950001001100300164.1%90)(122xxxxxxxtNnnttF下限置信区间上限)()(,):解:解:45 以以90%的把握程度认为该新式灯泡的平均的把握程度认为该新式灯泡的平均寿命落在寿命落在4451.34548.7小时之间。小时之间。2)假定概率保证程度提高到)假定概率保证程度提高到95%,允许误差,允许误差范围缩小一半,试问应抽取多少只灯泡进行范围缩小一半,试问应抽取多少只灯泡进行测试?(离散程度不变:测试?(离散程度不变:300)(只)52242.12)50001 (300)1 (42.1296. 135.2435.2427 .482,96. 1%95)(: )2*2*2*nnnNnntttFxxxxx46 即即需需抽取约抽取约522只新式灯泡进行测试才能满只新式灯泡进行测试才能满足现有的要求足现有的要求52230096. 135.24500030096. 150002222222222*tNNtnx或:或:47练习练习3:1)样本粮食平均亩产)样本粮食平均亩产=750公斤,又知抽样平公斤,又知抽样平均误差均误差=15公斤,求总体粮食亩产在公斤,求总体粮食亩产在725775公斤之间的估计置信度是多少?公斤之间的估计置信度是多少?9051. 06667. 11525252725775775725,15,750) 1)(查正态分布表,可得:之间间在总体粮食亩产的置信区tFtxxxxx即即总体粮食平均亩产在总体粮食平均亩产在725775公斤之间的概率保证公斤之间的概率保证程度为程度为90.51%。489545. 0)2(, 21530,30:)2Ftxxx置信区间:置信区间:75030(720780)公斤)公斤2)如果现在允许误差范围扩大到)如果现在允许误差范围扩大到30公斤,公斤,求总体平均亩产的置信区间及可靠程度。求总体平均亩产的置信区间及可靠程度。49第五节第五节 抽样方案设计抽样方案设计进行抽样设计的基本原则:进行抽样设计的基本原则:1)必须按随机原则进行抽样)必须按随机原则进行抽样2)保证实现最大的抽样效果原则。即在一定的)保证实现最大的抽样效果原则。即在一定的抽样费用条件下,选择抽样误差最小的方案;抽样费用条件下,选择抽样误差最小的方案;或在给定精确度的要求下做到调查费用最少或在给定精确度的要求下做到调查费用最少3)视现象本身的差异性而定)视现象本身的差异性而定常用的抽样组织形式常用的抽样组织形式:简单随机抽样、类型抽样、机械抽样、整群抽简单随机抽样、类型抽样、机械抽样、整群抽样、阶段抽样样、阶段抽样50一、简单随机抽样(或纯随机抽样)一、简单随机抽样(或纯随机抽样)直接从总体直接从总体N个单位中随机地抽取个单位中随机地抽取n个单位个单位作为样本。保证作为样本。保证N个单位都有被抽中的可能。个单位都有被抽中的可能。适用条件适用条件:相对的均匀总体均匀总体(出租车司机佩戴安(出租车司机佩戴安全带、中高档商场内职业女装的市场调研、城区的降雪量全带、中高档商场内职业女装的市场调研、城区的降雪量等)等)平均误差的计算公式与前面一致:平均误差的计算公式与前面一致:)(;不重复抽样:重复抽样:Nnnnxx1) 1251)()(不重复抽样:;)(重复抽样:本单位数:抽样成数:应抽取的样;不重复抽样:重复抽样:样本单位数:抽样平均数:应抽取的pptNppNtnpptntNNtntnppxx111)22222222222222注:一个总体如果同时需要满足抽样平均数和注:一个总体如果同时需要满足抽样平均数和抽样成数对样本单位数的要求时,则按抽样成数对样本单位数的要求时,则按“多多”的单位数进行抽样。的单位数进行抽样。52例:对生产的某型号电池进行电流强度检验。以往例:对生产的某型号电池进行电流强度检验。以往电流强度的标准差电流强度的标准差=0.4安培,而合格率为安培,而合格率为90%。现。现用重复抽样的方式,要求在用重复抽样的方式,要求在95.45%的概率保证下抽的概率保证下抽样平均电流强度的极限误差不超过样平均电流强度的极限误差不超过0.08安培,抽样安培,抽样合格率的极限误差不超过合格率的极限误差不超过5%,问必要的抽样单位数,问必要的抽样单位数应为多少?应为多少?(个)(抽样成数的单位数(个)数解:抽样平均数的单位14405. 01 . 09 . 02110008. 04 . 022222222222pxpptt即即同一总体的两个抽样指标所要求的单位数不同,为同一总体的两个抽样指标所要求的单位数不同,为满足两方的要求,应抽满足两方的要求,应抽144个电池个电池。53二、类型抽样(分层抽样)二、类型抽样(分层抽样)将总体按一定的标志进行分组后,从各组将总体按一定的标志进行分组后,从各组中按随机原则从中抽取一定的样本单位中按随机原则从中抽取一定的样本单位适用条件:适用条件:变量值离散程度较大的总体变量值离散程度较大的总体目的:使样本内在结构更接近于总体结构,从目的:使样本内在结构更接近于总体结构,从而减小抽样误差而减小抽样误差抽样推断的方法:抽样推断的方法:1)总体单位数N,分组后:N1+N2+Nk=N542)按比例(按比例(n/N)抽取样本单位数:抽取样本单位数:n1+n2+nk=nNnNnNnNnkk2211即:3)样本平均数的求解样本平均数的求解:nxnnxnjkinxxijiiiiiji或)样本的总平均数(),;,(每组的样本平均数:22121) 1 (554)类型抽样的平均误差)类型抽样的平均误差只取决于组内方只取决于组内方差,与组间方差无关差,与组间方差无关)1 (;21222222Nnnnnnkinxxiixixiiiiiji不重复:重复:(组内方差的平均数),()(组的方差:第5)根据要求确定置信区间和概率)根据要求确定置信区间和概率56例:某高校例:某高校2年级共年级共1000名学生,现按分层抽名学生,现按分层抽样抽取样抽取100名学生,目的是了解全校名学生,目的是了解全校2年级学生年级学生英语学习成绩水平。抽取的结果如下英语学习成绩水平。抽取的结果如下(每组按每组按10%的比例抽取单位数):的比例抽取单位数):成绩成绩总人数总人数N抽样抽样 n各组样本各组样本均值均值各组样本各组样本方差方差9010080907080607060分以下分以下50200450260405204526494.482.874.26450.57.447.7610.966.6423.44合计合计1000100ix2i57要求:用要求:用95.45%的概率估计全校的概率估计全校2年级学生的英年级学生的英语平均成绩语平均成绩解:解:1)根据抽样结果,样本的第)根据抽样结果,样本的第1组成绩分别组成绩分别是:是:x11=95、x12=98、x13=90、x14=93、x15=9644. 754 .94964 .94984 .94954 .94596939098951222211)()()(组的样本均值则:第x 第第2组抽了组抽了20名,则根据所抽得的名,则根据所抽得的20名学生成名学生成绩可计算出第绩可计算出第2组的平均成绩及其方差:组的平均成绩及其方差:58 其余组一样可计算出各自的组平均数和组内其余组一样可计算出各自的组平均数和组内方差(具体值见前表)。由此可得:方差(具体值见前表)。由此可得:求平均)(各组样本值直接加总或样本均值nxnnxxijii33.7310045 .502664452 .74208 .8254 .9476. 78 .82202222;jxx5971.7262.33.7395.7362. 033.73262. 031. 0229545. 0431. 010052. 932xxxxixxxtttFn下限上限绩置信区间年级学生的英语平均成所以全校,)()(分)即:有即:有95.45%的把握认为该校的把握认为该校2年级学生的英语年级学生的英语平均成绩在平均成绩在72.7173.95分之间分之间52. 9100444.232664. 64596.102076. 7544. 7222nniii组内方差均值)各组方差的平均数(60明确明确类型类型抽样的两个重要结论:抽样的两个重要结论:1)类型抽样的平均误差一般小于简单随机抽)类型抽样的平均误差一般小于简单随机抽样误差样误差2)总体方差一定,则在进行类型抽样时,应)总体方差一定,则在进行类型抽样时,应尽量缩小组内方差,从而减小类型抽样的平均尽量缩小组内方差,从而减小类型抽样的平均误差误差61练习:某地区有练习:某地区有1000家商店,按大中小分为三家商店,按大中小分为三层,其商店数量分别是:层,其商店数量分别是:N1=200,N2=300,N3=500。现按现按比例抽取一个容量为比例抽取一个容量为n=100的分的分层随机抽样,平均年营业额分别为层随机抽样,平均年营业额分别为1200万元、万元、750万元和万元和400万元,各层的样本方差分别是:万元,各层的样本方差分别是:440、180、50。试求该地区平均每家商店年营。试求该地区平均每家商店年营业额的置信度为业额的置信度为95%的置信区间。的置信区间。万元,解:6651005040030750201200503020%101001000321nnxxnnnNnnNii62万元29. 110016716710050503018020440222nnnixiii)(47.66253. 266553.66753. 266553. 229. 196. 196. 1%95万元下限置信区间的上限(万元),)(xxxxxxtttF 即即有有95%的概率保证该地区商店的年均营业的概率保证该地区商店的年均营业额落在额落在662.47667.53万元之间万元之间63教材教材p221:警察局长想了解盗抢案的平均经济损失,分警察局长想了解盗抢案的平均经济损失,分别从南山、罗湖和福田区公安分局当年案件别从南山、罗湖和福田区公安分局当年案件中按中按10%的比例各抽的比例各抽30件、件、40件和件和50件件进行调查,发现平均每案件经济损失分别是进行调查,发现平均每案件经济损失分别是5000元、元、4000元和元和6000元,标准差分元,标准差分别是别是1000元、元、800元和元和1200元。元。要求:在要求:在95.45%的概率保证下,盗抢案的概率保证下,盗抢案平均经济损失的置信区间有多大?平均经济损失的置信区间有多大? 64一个分层随机样本的资料如下,试求总体均值的一个分层随机样本的资料如下,试求总体均值的置信度为置信度为95%的置信区间的置信区间(不重复抽样)(不重复抽样)层层Nn样本均值样本均值样本方差样本方差150050601027007075203100010010035合计合计220022095.8222010010070755060nnxxii解:样本均值6554.24220100357020501022nniii组内方差均值32. 02200220122054.24)1 (2)(抽样平均误差Nnnix62. 032. 096. 1xxt极限误差66所以:所以:置信区间上限置信区间上限=82.95+0.32=83.27 下限下限=82.95-0.32=82.6367三、等距抽样(机械抽样、系统抽样)三、等距抽样(机械抽样、系统抽样)总体按一定的标志排队,然后按固定顺序或固总体按一定的标志排队,然后按固定顺序或固定间隔来抽选调查单位的一种抽样形式定间隔来抽选调查单位的一种抽样形式固定顺序(固定间隔)固定顺序(固定间隔)两个被抽单位之间的距离两个被抽单位之间的距离是相等的是相等的排队标志有:排队标志有:无关标志无关标志和和有关标志有关标志之分之分等距抽样估计的方法近似于简单随机抽样(按无关等距抽样估计的方法近似于简单随机抽样(按无关标志排队,为不重复抽样)标志排队,为不重复抽样)68kninknikikiii)(个样本单位号:即:第)(,序号:等距抽样的样本单位顺”号,则如果第一组内抽取了“112:nkkniknknnkkikkkiknNnN,)(,)(,)(部分顺序号为:第,第二部分顺序号为:,第一部分顺序号为。个单位就抽取一个单位隔由于是等距抽样,则每个单位构成一个样本,需抽总体单位总数1121122132169例例1:某企业:某企业100名职工按姓氏笔画排队:名职工按姓氏笔画排队:1,2,100。现进行等距抽样,以了解该企。现进行等距抽样,以了解该企业职工的工资状况,业职工的工资状况,n=20问题:问题:1)等距抽样的随机性体现在哪?)等距抽样的随机性体现在哪?2)属重复抽样还是不重复抽样?)属重复抽样还是不重复抽样?3)N=100,n=30,按顺序号进行等距抽样时按顺序号进行等距抽样时会出现什么情况?会出现什么情况?解:解:k=100/20=5 即每隔即每隔5个号个号抽取一个单位抽取一个单位70各组顺序号:各组顺序号:1,2,3,4,5|6,7,8,9,10|假定第一次抽中假定第一次抽中i=4号,则第号,则第2 个号:个号:4+5=9号,号,第第20号为:号为:4+(20-1)*5=4+95=99号号例例2:假定对全及总体:假定对全及总体2000单位进行单位进行5%的机械的机械抽样,试确定:抽样,试确定:1)全及总体划分为多少同等)全及总体划分为多少同等部分?部分?解:解:1)n=2000*5%=100,即有即有100个同等部分个同等部分 答:答:k=2000/100=20,每隔每隔20个抽取一个单位个抽取一个单位2)抽选的间隔有多大?)抽选的间隔有多大?71答:每部分的单位数是答:每部分的单位数是20个。个。第第1号:号:i=12号;第号;第2号:号:12+20=32号;号;第第n号号=12+99*20=1992号号3)每部分的单位数是多少?能否说出抽取单)每部分的单位数是多少?能否说出抽取单位的号码和单位数的总数?位的号码和单位数的总数?72定期存款额(元)定期存款额(元)户数(户)户数(户)01000010000300003000050000500008000080000100000581502006214 合合 计计484例例3:年终在某储蓄所中按定期储蓄存款帐号:年终在某储蓄所中按定期储蓄存款帐号进行每隔进行每隔5户的机械抽样,资料如下:户的机械抽样,资料如下:要求以要求以0.9545的概率估计:的概率估计:1)平均定期存款的置信区间:)平均定期存款的置信区间:7392.3264908.16063425608.3586208.16063425604.160604.8032204.803)24204841 (4843 .390149810下限上限间平均定期存款的置信区(元),(元)xxt解:解:N=n*5=484*5=24202 .197523 .3901498103425648416580000:) 12,元平均定期存款fxfx74%02. 4%01. 22%01. 20201. 02 . 014842451. 02451. 04298. 05702. 01%02.574842764841462200300002pppptppp)(或)()(元以上的比重:则:存款则:存款3万元以上比重的置信区间上限万元以上比重的置信区间上限=57.02%+4.02%=61.04%;下限下限=57.02%-4.02%=53%2)定期存款)定期存款3万元以上比重的置信区间:万元以上比重的置信区间:75四、整群抽样(集团抽样)四、整群抽样(集团抽样) 将总体各单位划分成若干个组(群),将总体各单位划分成若干个组(群),然后以组(群)为单位,从各群中随机抽取若然后以组(群)为单位,从各群中随机抽取若干个群,对抽出的群进行干个群,对抽出的群进行全面调查全面调查的一种抽样的一种抽样方式。方式。方法:总体单位数分为方法:总体单位数分为R群,从中随机抽出群,从中随机抽出r群群rxxMxxrMxxriirrjrj11111样本平均数群的样本平均数第,群的样本平均数第76整群抽样的抽样误差只与群间方差有关,与整群抽样的抽样误差只与群间方差有关,与组内方差无关组内方差无关)1()(222RrRrrxxxi例:某厂大量连续生产,为了掌握本月例:某厂大量连续生产,为了掌握本月A产品产品的一级品比率,决定抽取的一级品比率,决定抽取5%的产品,即在全的产品,即在全月连续生产的月连续生产的720小时中,每隔小时中,每隔20小时抽取小时抽取1小