《抽样分布与参数估计概述.pptx》由会员分享,可在线阅读,更多相关《抽样分布与参数估计概述.pptx(101页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、统计学导论统计学导论曾五一曾五一 肖红叶肖红叶 主编主编3-1第五章第五章 抽样分布与参数估计抽样分布与参数估计 n第一节第一节 抽样的基本概念与数学原理抽样的基本概念与数学原理 n第二节第二节 抽样分布抽样分布 n第三节第三节 参数估计参数估计n第四节第四节 样本容量的确定样本容量的确定 n第五节第五节 EXCEL在参数估计中的应用在参数估计中的应用 2第一节第一节 抽样的基本概念与数学原理抽样的基本概念与数学原理n一、有关抽样的基本概念一、有关抽样的基本概念n二、大数定理与中心极限定理二、大数定理与中心极限定理3一、有关抽样的基本概念一、有关抽样的基本概念n(一)样本容量与样本个数(一)样
2、本容量与样本个数 1.样本容量。样本是从总体中抽出的部分样本容量。样本是从总体中抽出的部分单位的集合,这个集合的大小称为样本容量,单位的集合,这个集合的大小称为样本容量,一般用一般用n表示,它表明一个样本中所包含的单表示,它表明一个样本中所包含的单位数。位数。 一般地,样本单位数大于一般地,样本单位数大于30个的样本称个的样本称为大样本,不超过为大样本,不超过30个的样本称为小样本。个的样本称为小样本。 2.样本个数。样本个数又称样本可能数目,样本个数。样本个数又称样本可能数目,它是指从一个总体中可能抽取多少个样本。它是指从一个总体中可能抽取多少个样本。4n(二)总体参数与样本统计量(二)总体
3、参数与样本统计量 1.总体参数。总体分布的数量特征就是总总体参数。总体分布的数量特征就是总体的参数,也是抽样统计推断的对象。体的参数,也是抽样统计推断的对象。 常见的总体参数有:总体的平均数指标,常见的总体参数有:总体的平均数指标,总体成数总体成数(比例比例)指标,总体分布的方差、标准指标,总体分布的方差、标准差等等。它们都是反映总体分布特征的重要差等等。它们都是反映总体分布特征的重要指标。指标。 5 2.样本统计量。样本统计量是样本的一个样本统计量。样本统计量是样本的一个函数。它们是随机变量。我们利用统计量来函数。它们是随机变量。我们利用统计量来估计和推断总体的有关参数。估计和推断总体的有关
4、参数。 常见的样本统计量有:样本平均数,样常见的样本统计量有:样本平均数,样本比例,样本的方差、标准差。本比例,样本的方差、标准差。6n(三)概率抽样及其组织形式(三)概率抽样及其组织形式 所谓概率抽样,就是要求对总体的每一所谓概率抽样,就是要求对总体的每一次观察(每一次抽取)都是一次随机试验,次观察(每一次抽取)都是一次随机试验,并且有和总体相同的分布。按这样的要求对并且有和总体相同的分布。按这样的要求对总体观测(抽取)总体观测(抽取)n次,可得到容量为次,可得到容量为n的样的样本。本。 789n(四)放回抽样与不放回抽样(四)放回抽样与不放回抽样1011n(五)抽样分布(五)抽样分布 从总
5、体中可以随机地抽取许多样本,由从总体中可以随机地抽取许多样本,由每一个样本都可以计算样本统计量的观测值,每一个样本都可以计算样本统计量的观测值,所有可能的样本观测值及其所对应的概率便所有可能的样本观测值及其所对应的概率便是所谓的抽样分布。因此,抽样分布也可以是所谓的抽样分布。因此,抽样分布也可以称为样本统计量的概率分布。称为样本统计量的概率分布。 抽样分布可能是精确地服从某种已知分布抽样分布可能是精确地服从某种已知分布(所谓已知分布,例如我们在第四章介绍过(所谓已知分布,例如我们在第四章介绍过的各种常见分布),也可能是以某种已知分的各种常见分布),也可能是以某种已知分布为极限分布。在实际应用中
6、,后者更为多布为极限分布。在实际应用中,后者更为多见。见。121314第第 二二 次次 抽抽 取取 可可 能能 被被 抽抽 中中 的的 人人 员员12345678910第第 一一 次次 抽抽 取取 可可 能能 被被 抽抽 中中 的的 人人 员员 11,1(1)1,2(1.5)1,3(2)1,4(2.5)1,5(3)1,6(3.5)1,7(4)1,8(4.5)1,9(5)1,10(5.5)22,1(1.5)2,2(2)2,3(2.5)2,4(3)2,5(3.5)2,6(4)2,7(4.5)2,8(5)2,9(5.5)2,10(6)33,1(2)3,2(2.5)3,3(3)3,4(3.5)3,5(
7、4)3,6(4.5)3,7(5)3,8(5.5)3,9(6)3,10(6.5)44,1(2.5)4,2(3)4,3(3.5)4,4(4)4,5(4.5)4,6(5)4,7(5.5)4,8(6)4,9(6.5)4,10(7)55,1(3)5,2(3.5)5,3(4)5,4(4.5)5,5(5)5,6(5.5)5,7(6)5,8(6.5)5,9(7)5,10(7.5)66,1(3.5)6,2(4)6,3(4.5)6,4(5)6,5(5.5)6,6(6)6,7(6.5)6,8(7)6,9(7.5)6,10(8)77,1(4)7,2(4.5)7,3(5)7,4(5.5)7,5(6)7,6(6.5)7,
8、7(7)7,8(7.5)7,9(8)7,10(8.5)88,1(4.5)8,2(5)8,3(5.5)8,4(6)8,5(6.5)8,6(7)8,7(7.5)8,8(8)8,9(8.5)8,10(9)99,1(5)9,2(5.5)9,3(6)9,4(6.5)9,5(7)9,6(7.5)9,7(8)9,8(8.5)9,9(9)9,10(9.5)1010,1(5.5)10,2(6)10,3(6.5)10,4(7)10,5(7.5)10,6(8)10,7(8.5)10,8(9)10,9(9.5)10,10(10)表表5-310人中有放回抽二人的全部可能样本人中有放回抽二人的全部可能样本15n表表5-4
9、任职年限样本均值分布数列任职年限样本均值分布数列1617二、大数定理与中心极限定理二、大数定理与中心极限定理18n 大数定理表明:尽管个别现象受偶然因大数定理表明:尽管个别现象受偶然因素影响,有各自不同的表现。但是,对总体素影响,有各自不同的表现。但是,对总体的大量观察后进行平均,就能使偶然因素的的大量观察后进行平均,就能使偶然因素的影响相互抵消,消除由个别偶然因素引起的影响相互抵消,消除由个别偶然因素引起的极端性影响,从而使总体平均数稳定下来,极端性影响,从而使总体平均数稳定下来,反映出事物变化的一般规律。反映出事物变化的一般规律。 1920 从正态分布的再生定理可以看出,只要总体变量服从正
10、态分布,则从中抽取的样本,不管n是多少,样本平均数都服从正态分布。但是在客观实际中,总体并非都是正态分布。对于从非正态分布的总体中抽取的样本平均数的分布问题,需要由中心极限定理来解决。212223第二节第二节 抽样分布抽样分布n一、样本平均数的抽样分布一、样本平均数的抽样分布n二、样本比例的抽样分布二、样本比例的抽样分布24一、样本平均数的抽样分布一、样本平均数的抽样分布n(一)样本平均数的期望值与方差(一)样本平均数的期望值与方差25262728n(二)样本平均数的分布规律(二)样本平均数的分布规律293031 例例 题题1、某地区职工家庭的人均年收入平均为、某地区职工家庭的人均年收入平均为
11、60000元,标准差为元,标准差为8000元。若知该地区家庭的人元。若知该地区家庭的人人均年收入服从正态分布,现采用重复抽样人均年收入服从正态分布,现采用重复抽样从总体中随机抽取从总体中随机抽取25户进行调查,求:户进行调查,求:(1)样本平均数的数学期望、样本平均数的标)样本平均数的数学期望、样本平均数的标准差。准差。(2)样本平均数等于或超过)样本平均数等于或超过62000元的可能性元的可能性有多大?有多大?32 例例 题题n2、某公司、某公司1000名职工的人均年奖金为名职工的人均年奖金为20000元,标准差元,标准差5000元,从中不放回随机抽取元,从中不放回随机抽取36人作为样本进行
12、调查,求:人作为样本进行调查,求:(1)样本平均数的数学期望和标准差)样本平均数的数学期望和标准差(2)样本的人均年奖金在)样本的人均年奖金在1900022000元的概元的概率有多大?率有多大?33二、样本比例的抽样分布二、样本比例的抽样分布 n(一一)样本比例的期望值与方差样本比例的期望值与方差34353637n(二)样本比例的分布规律(二)样本比例的分布规律38表5-5 用正态分布来近似时对样本量的要求总 体参 数0.500.450.400.350.300.250.200.150.1010.500.550.600.650.700.750.800.850.90样本量至少为n363738404
13、348577110039 n例:某企业生产的一种产品,根据以往的经例:某企业生产的一种产品,根据以往的经验,合格率为验,合格率为95%。现从生产线上随机抽取。现从生产线上随机抽取100件产品进行检验,问样本合格率大于等于件产品进行检验,问样本合格率大于等于90%的概率是多少?的概率是多少?40 n例:一种电子元件的合格率是例:一种电子元件的合格率是98%。随机抽。随机抽取取800个元件,其合格率超过个元件,其合格率超过96%的概率是多的概率是多少?如果在这次抽样中发现样本合格率低于少?如果在这次抽样中发现样本合格率低于96%,你对这种元件的生产会做出怎样的判,你对这种元件的生产会做出怎样的判断
14、?断?41 n练习题练习题1:n某商场推销一种洗发水。据统计,本年度购某商场推销一种洗发水。据统计,本年度购买此种洗发水的有买此种洗发水的有10万人,其中万人,其中6万是女性。万是女性。如果按不重复随机抽样方法,从购买者中抽如果按不重复随机抽样方法,从购买者中抽出出100人进行调查,问样本中女性比例超过人进行调查,问样本中女性比例超过50%的可能性有多大?的可能性有多大?42n(三)样本方差的抽样分布(三)样本方差的抽样分布4344第三节第三节 参数估计参数估计 n一、参数估计概述一、参数估计概述n二、总体均值的估计二、总体均值的估计n三、总体比例的估计三、总体比例的估计n四、总体方差的估计四
15、、总体方差的估计45一、参数估计概述一、参数估计概述n(一)参数估计的定义与种类(一)参数估计的定义与种类 所谓参数估计,就是用样本统计量去估所谓参数估计,就是用样本统计量去估计总体的未知参数(或参数的函数)。例如,计总体的未知参数(或参数的函数)。例如,估计总体均值,估计总体比例和总体方差等估计总体均值,估计总体比例和总体方差等等。等。 参数估计有两种基本形式:点估计和区间参数估计有两种基本形式:点估计和区间估计。前者是用一个数值作为未知参数估计。前者是用一个数值作为未知参数的估的估计值,后者则是给出具体的上限和下限,把计值,后者则是给出具体的上限和下限,把 包括在这个区间内。下面分别介绍点
16、估计与包括在这个区间内。下面分别介绍点估计与区间估计的有关概念。区间估计的有关概念。46n(二)点估计(二)点估计 点估计就是根据总体参数与点估计就是根据总体参数与样本统计量之间的内在联系样本统计量之间的内在联系,直接直接以样本统计量作为相应总体参数以样本统计量作为相应总体参数的估计量的估计量,点估计又称为定值估计点估计又称为定值估计.47n(三)估计量的优良标准(三)估计量的优良标准2. 有效性。又称最小方差性。 48*()f*()E( )f估计值偏倚偏倚 概 率 密 度49 概 率 密 度 *()f( )f估计值504. 充分性。估计量包含了样本中关于的全部信息。51n(四)区间估计与估计
17、的精度和可靠性(四)区间估计与估计的精度和可靠性525354n二、总体均值的估计二、总体均值的估计5556575859606162例:例: 为了研究居民用于报刊消费的支出,某城为了研究居民用于报刊消费的支出,某城市的统计部门抽取了市的统计部门抽取了64户居民进行调查,得户居民进行调查,得到平均用于报刊的消费支出为到平均用于报刊的消费支出为290元元/年,假设年,假设总体服从正态分布总体服从正态分布,且总体的标准差为且总体的标准差为100元元/年年.。对该城市居民户均用于报刊的消费支出。对该城市居民户均用于报刊的消费支出做区间估计做区间估计(置信水平为置信水平为95% )。63n例例:某大学为了
18、估计学校在校学生的平均体重,某大学为了估计学校在校学生的平均体重,随机抽取了随机抽取了64名学生,测得平均体重为名学生,测得平均体重为69千千克,假设总体服从正态分布克,假设总体服从正态分布,且标准差为且标准差为12千千克。以克。以95%的置信水平求该学校在校学生的的置信水平求该学校在校学生的平均体重的置信区间。平均体重的置信区间。64n(二)总体方差(二)总体方差2未知的情形未知的情形652. 区间估计666768n【例例5-4】在例在例5-3中,若总体方差未知,但通过抽中,若总体方差未知,但通过抽取的取的6个样本测得的样本方差为个样本测得的样本方差为0.0025,试在,试在0.95的置信度
19、下,求该产品直径的均值置信区间。的置信度下,求该产品直径的均值置信区间。69n例例:某大学为了估计学校在校学生的平均体重,某大学为了估计学校在校学生的平均体重,随机抽取了随机抽取了64名学生,测得平均体重为名学生,测得平均体重为69千千克,假设总体总体服从正态分布克,假设总体总体服从正态分布,且样本标准且样本标准差为差为8千克。以千克。以95%的置信水平求该学校在校的置信水平求该学校在校学生的平均体重的置信区间。学生的平均体重的置信区间。70n三、总体比例的估计三、总体比例的估计717273n某工厂要估计一批总数某工厂要估计一批总数5000件的产品的废品件的产品的废品率,于是随机抽出率,于是随
20、机抽出400件产品进行检测,发现件产品进行检测,发现有有32件废品。试给出该批产品的废品率的区件废品。试给出该批产品的废品率的区间估计(置信度间估计(置信度90%)。)。74n三、总体方差的估计三、总体方差的估计75(二)区间估计7677第四节第四节 样本容量的确定样本容量的确定n一、问题的提出一、问题的提出n二、估计总体均值时样本容量的确定二、估计总体均值时样本容量的确定n三、估计总体比例时样本容量的确定三、估计总体比例时样本容量的确定n四、使用上述公式应注意的问题四、使用上述公式应注意的问题78 由前面的论述,我们已知参数估计中的由前面的论述,我们已知参数估计中的精度要求与可靠性要求常常是
21、一对矛盾,但精度要求与可靠性要求常常是一对矛盾,但是,通过增加样本容量是,通过增加样本容量n有可能降低样本平均有可能降低样本平均数的标准差,从而实现既保证一定的估计精数的标准差,从而实现既保证一定的估计精度,又具有较高的置信度的目的。这时,需度,又具有较高的置信度的目的。这时,需要考虑在给定的置信度与极限误差的前提下,要考虑在给定的置信度与极限误差的前提下,样本容量样本容量n究竟取多大合适?这就是所谓样本究竟取多大合适?这就是所谓样本容量的确定问题。容量的确定问题。 一、问题的提出一、问题的提出79二、估计总体均值时样本容量的确定二、估计总体均值时样本容量的确定808182三、估计总体比率时样
22、本容量的确定三、估计总体比率时样本容量的确定83四、使用上述公式应注意的问题四、使用上述公式应注意的问题n 1计算样本容量时,总体的方差与成数计算样本容量时,总体的方差与成数常常是未知的,这时可用有关资料替代:一常常是未知的,这时可用有关资料替代:一是用历史资料已有的方差与成数代替;二是是用历史资料已有的方差与成数代替;二是在进行正式抽样调查前进行几次试验性调查,在进行正式抽样调查前进行几次试验性调查,用试验中方差的最大值代替总体方差;三是用试验中方差的最大值代替总体方差;三是比率方差在完全缺乏资料的情况下,就用比比率方差在完全缺乏资料的情况下,就用比例方差的最大可能值例方差的最大可能值0.2
23、5代替。代替。84n 2.如果进行一次抽样调查,需要同时估计如果进行一次抽样调查,需要同时估计总体均值与比率,可用上面的公式同时计算总体均值与比率,可用上面的公式同时计算出两个样本容量,取其中较大的结果,同时出两个样本容量,取其中较大的结果,同时满足两方面的需要。满足两方面的需要。 85n 3.上面的公式计算结果如果带小数,这时上面的公式计算结果如果带小数,这时样本容量不按四舍五入法则取整数,取比这样本容量不按四舍五入法则取整数,取比这个数大的最小整数代替。例如计算得到:个数大的最小整数代替。例如计算得到:n=56.03,那么,样本容量取,那么,样本容量取57,而不是,而不是56。868788
24、8990第五节第五节 Excel在参数估计中的应用在参数估计中的应用n【例例5-9】用用Excel完成本章思考与练习计算题完成本章思考与练习计算题的第的第1题。题。 解:操作步骤如下。解:操作步骤如下。 1构造工作表。如图构造工作表。如图5-3所示,所示,A、B列为原列为原始输入数据,始输入数据,A2:A16存放的是关于最大飞行存放的是关于最大飞行速度的数据,图中未完全显示出来。速度的数据,图中未完全显示出来。C、D列列为计算结果,分别在为计算结果,分别在C2、D2单元格存放置信单元格存放置信下限和上限。下限和上限。 91 2定义变量名。将定义变量名。将A列命名为列命名为“x”,将,将B2单单
25、元格命名为元格命名为“置信水平置信水平”。 3计算置信上、下限。计算置信上、下限。 分别在分别在C2、D2中输入如下的公式:中输入如下的公式: =AVERAGE(x)-TINV(1-置信水平置信水平, COUNT(x)-1)*STDEV(x)/SQRT(COUNT(x) =AVERAGE(x)+TINV(1-置信水平置信水平, COUNT(x)-1)*STDEV(x)/SQRT(COUNT(x) 92本章小结本章小结9394 5 5所谓估计就是构造适当的样本统计量,所谓估计就是构造适当的样本统计量,来充当总体参数的估计量。好的统计量的理来充当总体参数的估计量。好的统计量的理想性质包括:无偏性、
26、有效性、一致性和充想性质包括:无偏性、有效性、一致性和充分性。分性。 6 6估计包括点估计与区间估计。估计包括点估计与区间估计。 7 7在给定的置信度与极限误差的前提下,在给定的置信度与极限误差的前提下,样本容量样本容量n n可利用极限误差、临界值与抽样标可利用极限误差、临界值与抽样标准差三者间的数量关系去计算。准差三者间的数量关系去计算。 8 8在在ExcelExcel中可使用各种函数按照有关中可使用各种函数按照有关公式实现区间估计的运算。公式实现区间估计的运算。951、某地区职工家庭的人均年收入平均为、某地区职工家庭的人均年收入平均为60000元,标准差为元,标准差为8000元。若知该地区
27、家庭的人元。若知该地区家庭的人人均年收入服从正态分布,现采用重复抽样人均年收入服从正态分布,现采用重复抽样从总体中随机抽取从总体中随机抽取25户进行调查,求:户进行调查,求:(1)样本平均数的数学期望、样本平均数的标)样本平均数的数学期望、样本平均数的标准差。准差。(2)样本平均数等于或超过)样本平均数等于或超过62000元的可能性元的可能性有多大?有多大?96n2、某公司、某公司1000名职工的人均年奖金为名职工的人均年奖金为20000元,标准差元,标准差5000元,从中随机抽取元,从中随机抽取36人作为人作为样本进行调查,求:样本进行调查,求:(1)样本平均数的数学期望和标准差)样本平均数
28、的数学期望和标准差(2)样本的人均年奖金在)样本的人均年奖金在1900022000元的概元的概率有多大?率有多大?97n3、在某天生产的、在某天生产的500袋食品中,按重复抽样袋食品中,按重复抽样方法随机抽取方法随机抽取25袋进行调查,测得平均每袋袋进行调查,测得平均每袋的重量为的重量为996克。已知该种袋装食品的重量服克。已知该种袋装食品的重量服从正态分布,且标准差为从正态分布,且标准差为20克。试以克。试以95%的的置信度估计该种食品平均重量的置信区间。置信度估计该种食品平均重量的置信区间。98n4、某工厂要估计一批总数、某工厂要估计一批总数5000件的产品的废件的产品的废品率,于是不放回
29、地随机抽出品率,于是不放回地随机抽出400件产品进行件产品进行检测,发现有检测,发现有32件废品。试给出该批产品的件废品。试给出该批产品的废品率的区间估计(置信度是废品率的区间估计(置信度是90%)。)。99例:例: 为了研究居民用于报刊消费的支出,某城为了研究居民用于报刊消费的支出,某城市的统计部门抽取了市的统计部门抽取了64户居民进行调查,得户居民进行调查,得到平均用于报刊的消费支出为到平均用于报刊的消费支出为290元元/年,假充年,假充总体的标准差是总体的标准差是100元元/年,置信水平为年,置信水平为95%。对该城市居民户均用于报刊的消费劫支出做对该城市居民户均用于报刊的消费劫支出做区间估计。区间估计。100n某大学经济系的学生,为了估计学校在校学某大学经济系的学生,为了估计学校在校学生的平均体重,随机抽取了生的平均体重,随机抽取了64名学生,测得名学生,测得平均体重为平均体重为69千克,假设总体标准差为千克,假设总体标准差为12千千克。以克。以95%的置信水平求该学校在校学生的的置信水平求该学校在校学生的平均体重的置信区间。平均体重的置信区间。101
限制150内