《抽样与参数估计-1(3).ppt》由会员分享,可在线阅读,更多相关《抽样与参数估计-1(3).ppt(46页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、统统 计计 学学李春红1内容简介(51+17)第第1章章 统计与统计数据统计与统计数据第第2章章 数据的图表展示数据的图表展示第第3章章 数据的概括性度量数据的概括性度量第第4章章 抽样与参数估计抽样与参数估计第第6章章 相关与回归分析相关与回归分析第第7章章 时间序列分析和预测时间序列分析和预测第第8章章 指数指数复习答疑复习答疑23分析数据方式分析数据方式4平均数平均数平均数平均数标准差标准差标准差标准差比例比例比例比例参数参数参数参数 统计量统计量统计量统计量 x xs sp p 总体总体总体总体 样本样本样本样本根据样本数据提供的信息来根据样本数据提供的信息来推断总体的参数推断总体的参
2、数5样样本本总体总体样本统计量样本统计量例如:样本均例如:样本均值、比例、方值、比例、方差差总体均值、总体均值、比例、方差比例、方差参数估计的过程参数估计的过程6 第第4章章 抽样与参数估计抽样与参数估计主要内容:主要内容:4.1 抽样与抽样分布抽样与抽样分布4.2 参数估计的基本原理参数估计的基本原理4.3 总体均值的区间估计总体均值的区间估计4.4 总体比例的区间估计总体比例的区间估计4.5 样本量的确定样本量的确定74.1 抽样与抽样分布抽样与抽样分布4.1.1 概率抽样方法概率抽样方法4.1.2 抽样分布抽样分布8抽样方法抽样方法概率抽样方法概率抽样方法非概率抽样方法非概率抽样方法一般
3、的抽样推断都是建立在一般的抽样推断都是建立在概率概率抽样抽样的基础上的基础上9概率抽样概率抽样10指遵循随机原则进行的抽样,总体中的指遵循随机原则进行的抽样,总体中的每个个体都有被抽到的可能,完全排除每个个体都有被抽到的可能,完全排除人的主观因素的影响。人的主观因素的影响。简单随机抽样简单随机抽样分层抽样分层抽样整群抽样整群抽样系统抽样系统抽样11总总体体随机样本随机样本简单随机抽样:简单随机抽样:从总体从总体N个元素中随机地个元素中随机地抽取抽取n个元素作为样本,每个元素入抽样个元素作为样本,每个元素入抽样本的概率是相等的。本的概率是相等的。最基本的抽样方法,是其他抽样方法的基础两种抽取元素
4、的具体方法:重复抽样、不重复抽样分层抽样:抽样前先将总体的元素分层抽样:抽样前先将总体的元素按不同按不同特征划分为若干特征划分为若干层层(strata),在每一层中抽在每一层中抽取一定的元素组成一个样本。取一定的元素组成一个样本。性别、行业、年龄等性别、行业、年龄等优点:优点:分层抽样的样本分布在各个层内,分层抽样的样本分布在各个层内,使样本在总体中的分布比较均匀,样本更使样本在总体中的分布比较均匀,样本更具代表性,精度高。具代表性,精度高。12整群抽样:整群抽样:将总体划分为若干将总体划分为若干群,群,以群为以群为单位随机抽取几个群,再对抽中的各个群单位随机抽取几个群,再对抽中的各个群中所包
5、含的中所包含的所有元素所有元素进行观察。进行观察。自然(行政)区域自然(行政)区域优点:优点:由于群内各单位比较集中,对样本由于群内各单位比较集中,对样本进行调查比较方便,节约费用。进行调查比较方便,节约费用。13系统抽样(等距抽样):系统抽样(等距抽样):先将总体各单位先将总体各单位按某种顺序排列,并按某种规则确定一个按某种顺序排列,并按某种规则确定一个随机起点,然后每隔一定的间隔抽取一个随机起点,然后每隔一定的间隔抽取一个单位,直至抽取单位,直至抽取n个形成一个样本。个形成一个样本。14 优点:优点:具有简单随机抽样的特征,能比具有简单随机抽样的特征,能比较均匀地抽到总体中各个部分的单位,
6、较均匀地抽到总体中各个部分的单位,简单易行。简单易行。非概率抽样非概率抽样15根据研究人员的主观判断来抽取样本,根据研究人员的主观判断来抽取样本,研究人员有意识地选取样本单位,样本研究人员有意识地选取样本单位,样本单位的抽取不是随机的。单位的抽取不是随机的。方便抽样方便抽样判断抽样判断抽样自愿抽样自愿抽样滚雪球抽样滚雪球抽样方便抽样:方便抽样:根据调查人员最方便的根据调查人员最方便的途径来选定样本。途径来选定样本。节省经费,实施方便,速度快;抽样误节省经费,实施方便,速度快;抽样误差大,结果可靠性差。差大,结果可靠性差。适用于预备性调查研究。适用于预备性调查研究。16 判断抽样:判断抽样:根据
7、专家的经验和判断,或根据专家的经验和判断,或调查人员的主观决定选取样本的方法。调查人员的主观决定选取样本的方法。典型调查和重点调查典型调查和重点调查适合特殊需要,调查回收率高,过程简适合特殊需要,调查回收率高,过程简单,但容易因研究人员主观判断偏差而导单,但容易因研究人员主观判断偏差而导致误差。致误差。17自愿抽样自愿抽样有偏,反映某类群体的一般看法。有偏,反映某类群体的一般看法。滚雪球抽样滚雪球抽样特定群体的研究。特定群体的研究。18概率抽样与非概率抽样的比较概率抽样与非概率抽样的比较概率抽样依据概率抽样依据随机随机原则抽取样本,可用原则抽取样本,可用于对总体给出很准确的估计情况于对总体给出
8、很准确的估计情况非概率抽样得到的统计量的分布是不确非概率抽样得到的统计量的分布是不确定的,因而定的,因而不能用于总体参数的推断不能用于总体参数的推断,可用于探索性的研究可用于探索性的研究194.1 抽样与抽样分布抽样与抽样分布4.1.1 概率抽样方法概率抽样方法4.1.2 抽样分布抽样分布20三种不同性质的分布三种不同性质的分布总体分布总体分布样本分布样本分布抽样分布:样本统计量的概率分布。抽样分布:样本统计量的概率分布。结结果来自容量相同的所有可能样本。果来自容量相同的所有可能样本。21频数分布表、图等频数分布表、图等117 122 124 129 139 107 117 130 122 1
9、25108 131 125 117 122 133 126 122 118 108110 118 123 126 133 134 127 123 118 112112 134 127 123 119 113 120 123 127 135137 114 120 128 124 115 139 128 124 12122某生产车间某生产车间50名工人日加工零件数如下(单位:个)名工人日加工零件数如下(单位:个)按零件数分组按零件数分组频数(人)频数(人)频率(频率(%)105110110115115120120125125130130135135140合计合计某车间某车间50名工人日加工零件数分
10、组表名工人日加工零件数分组表35814106461016282012850100百分比百分比(%)24为为研研究究广广告告市市场场的的状状况况,一一家家广广告告公公司司在在某某城城市市随随机机抽抽取取200人人就就广广告告问问题题做做了了邮邮寄寄问问卷卷调调查查,其其中中的的一一个个问问题题是是“您您比比较较关关心心下下列列哪哪一一类类广广告?告?”1商商品品广广告告;2服服务务广广告告;3金金融融广广告告;4房房地地产产广广告告;5招招生生招招聘聘广广告告;6其其他他广告。广告。广告类型广告类型人数人数(人人)商品广告商品广告 服务广告服务广告 金融广告金融广告 房地产广告房地产广告 招生招
11、聘广告招生招聘广告 其他广告其他广告11251916102合计合计200某城市居民关注广告类型的频数分布某城市居民关注广告类型的频数分布 56.025.54.58.05.01.0100.0某百货公司连续四十天的商品销售额如下某百货公司连续四十天的商品销售额如下(单位:万元(单位:万元)2541412525292947473838343430303838424240404646363645453737373736364545444433334444353528284646333330302323444426263838444442423636373737374949393942423232363
12、63535以此推断一年以此推断一年365天的销售额情况?天的销售额情况?分组分组频数频数分组分组频数频数20-2520-251 135-4035-40141425-3025-304 440-4540-459 930-3530-356 645-5045-506 6抽样分布抽样分布1.1.样本统计量的概率分布样本统计量的概率分布2.2.例如:样本均值、比例、方差的分布例如:样本均值、比例、方差的分布3.3.结果来自容量相同的所有可能样本结果来自容量相同的所有可能样本4.4.一种理论分布一种理论分布2627【例例】设设设设一一一一个个个个总总总总体体体体,含含含含有有有有4 4个个个个元元元元素素素
13、素(个个个个体体体体),即即即即总总总总体体体体单单单单位位位位数数数数N N=4=4。4 4 个个个个个个个个体体体体分分分分别别别别为为为为X X1 1=1=1、X X2 2=2=2、X X3 3=3=3、X X4 4=4=4。总体的均值、方差?。总体的均值、方差?。总体的均值、方差?。总体的均值、方差?均值和方差均值和方差2.51.2528 现现现现从从从从总总总总体体体体中中中中抽抽抽抽取取取取n n2 2的的的的简简简简单单单单随随随随机机机机样样样样本本本本,在在在在重重重重复复复复抽样条件下,所有样本的均值如何分布?抽样条件下,所有样本的均值如何分布?抽样条件下,所有样本的均值如
14、何分布?抽样条件下,所有样本的均值如何分布?所有可能的所有可能的n=2 的样本(共的样本(共16个个)第一个第一个观察值观察值第二个观察值第二个观察值1 12 23 34 41 11,11,11,21,21,31,31,41,42 22,12,12,22,22,32,32,42,43 33,13,13,23,23,33,33,43,44 44,14,14,24,24,34,34,44,4共有共有共有共有4 42 2=16=16个样本:个样本:个样本:个样本:29 计算出各样本的均值,如下表计算出各样本的均值,如下表16个样本均值(个样本均值()第一个第一个观察值观察值第二个观察值第二个观察值1
15、 12 23 34 41 11.01.01.51.52.02.02.52.52 21.51.52.02.02.52.53.03.03 32.02.02.52.53.03.03.53.54 42.52.53.03.03.53.54.04.030给出样本均值的抽样分布给出样本均值的抽样分布样本均值的抽样分布样本均值的抽样分布1.01.0P P(x x)1.51.53.03.04.04.03.53.52.02.0 2.52.5x x个数个数概率概率P()1.011/161.522/162.033/162.544/163.033/163.522/164.011/1631式中:式中:式中:式中:MM为样
16、本数目,为样本数目,为样本数目,为样本数目,n n 为样本容量为样本容量为样本容量为样本容量比较及结论:比较及结论:1.样本均值的均值(数学期望)等于总体均值样本均值的均值(数学期望)等于总体均值 2.样本均值的方差等于总体方差的样本均值的方差等于总体方差的1/n所所所所有有有有均均均均值值值值的的的的均均均均值值值值和和和和方方方方差差差差样本均值的抽样分布样本均值的抽样分布p 不重复抽样不重复抽样 :样本均值的方差则需要用样本均值的方差则需要用修正系数修正系数(N-n/N-1)去修正样本均值的方差;去修正样本均值的方差;p 对于无限总体或有限总体当对于无限总体或有限总体当N很大时,不重复抽
17、样可以很大时,不重复抽样可以按照重复抽样来处理;按照重复抽样来处理;32u如果原有总体是正态分布,那么无论样本如果原有总体是正态分布,那么无论样本容量大小,样本均值的抽样分布均服从正容量大小,样本均值的抽样分布均服从正态分布;态分布;u如果原有总体是如果原有总体是非非正态分布,则要看样本正态分布,则要看样本容量的大小而定。容量的大小而定。33抽样分布与总体分布的关系抽样分布与总体分布的关系总体分布总体分布总体分布总体分布正态分布正态分布非正态分布非正态分布大样本大样本大样本大样本大样本大样本小样本小样本小样本小样本小样本小样本样本均值样本均值非正态分布非正态分布小样本小样本小样本小样本小样本小
18、样本大样本大样本大样本大样本大样本大样本样本均值样本均值正态分布正态分布样本均值样本均值正态分布正态分布中心极限定理中心极限定理(Central Limit Theorem)35 从从均均值值为为,方方差差为为2的的一一个个任任意意总总体体中中抽抽取取容容量量为为n的的样样本本,当当n充充分分大大时时(通通常常要要求求n30),样样本本均均值值的的抽抽样样分分布布近近似似服服从从均均值值为为、方差为、方差为2/n的正态分布。的正态分布。36Exercises1.1.从均从均值为值为200200、标标准差准差为为5050的的总总体中,抽取体中,抽取n=100n=100的的简简单单随机随机样样本,
19、用本,用样样本均本均值值估估计总计总体均体均值值。(1 1)样样本均本均值值的数学期望是多少?的数学期望是多少?(2 2)样样本均本均值值的的标标准差是多少?准差是多少?(3 3)样样本均本均值值的抽的抽样样分布是什么?分布是什么?2.2.假定假定总总体共有体共有10001000个个单单位,均位,均值为值为3232,标标准差准差为为5 5。从中抽取一个容量从中抽取一个容量为为3030的的简单简单随机随机样样本用于本用于获获得得总总体体信息。信息。(1 1)样样本均本均值值的数学期望是多少?的数学期望是多少?(2 2)样样本均本均值值的的标标准差是多少?准差是多少?正态分布函数的性质正态分布函数
20、的性质1.1.图图形形是是关关于于x=对对称称钟钟形形曲曲线线,且且峰峰值值在在x=处处2.2.均均值值 和和标标准准差差 一一旦旦确确定定,分分布布的的具具体体形形式也唯一确定式也唯一确定3.3.正正态态随随机机变变量量在在特特定定区区间间上上的的取取值值概概率率由由正正态态曲曲线线下下的的面面积积给给出出,而而且且其其曲曲线线下下的的总总面面积等于积等于1 正态分布的概率概率是曲线下的概率是曲线下的面积面积面积面积!a ab bx xf f(x x)X X 一般正态分布一般正态分布一般正态分布一般正态分布一般正态分布一般正态分布 11Z标准正态分布标准正态分布标准正态分布标准正态分布标准正
21、态分布标准正态分布 一般正态分布一般正态分布X N(,2)标准正态分布标准正态分布)1,0(NXz -标准化的例子P(2.9 X 7.1)5 =102.97.1X一般正态分布一般正态分布一般正态分布一般正态分布标准正态分布标准正态分布标准正态分布标准正态分布标准正态分布标准正态分布0 0 =1=1-.21-.21Z Z.21.21.1664.1664.1664.0832.0832.0832.0832.0832.0832一般正态分布一般正态分布X N(,2)标准正态分布标准正态分布41)1,0(NXz -58.2,96.1,645.1005.0025.005.0 zzz0/2/21-aa1.64
22、590%0.101.9695%0.052.5899%0.01中心极限定理中心极限定理42 从从均均值值为为,方方差差为为2的的一一个个任任意意总总体体中中抽抽取取容容量量为为n的的样样本本,当当n充充分分大大时时(通通常常要要求求n30),样样本本均均值值的的抽抽样样分分布布近近似似服服从从均均值值为为、方差为、方差为2/n的正态分布。的正态分布。43一般正态分布一般正态分布X N(,2)标准正态分布标准正态分布样本统计量的分布:样本统计量的分布:)1,0(NXz -经验法则经验法则经验法则表明:当一组数据对称分布时经验法则表明:当一组数据对称分布时约有约有68.27%的数据在平均数加减的数据
23、在平均数加减1个标准差的范围之内个标准差的范围之内约有约有95.45%的数据在平均数加减的数据在平均数加减2个标准差的范围之内个标准差的范围之内约有约有99.73%的数据在平均数加减的数据在平均数加减3个标准差的范围之内个标准差的范围之内4458.2,96.1,645.1005.0025.005.0 zzz99.73%95.45%68.27%)1,0(NXz -X95%95%-1.96-1.96 +1.96+1.96 99%99%-2.58-2.58 +2.58+2.58 90%90%-1.65-1.65 +1.65+1.65 )1,0(NXz -x95%95%的样本的样本的样本的样本 -1.96-1.96 x x +1.96+1.96 x x99%99%的样本的样本的样本的样本 -2.58-2.58 x x +2.58+2.58 x x90%90%的样本的样本的样本的样本 -1.65-1.65 x x +1.65+1.65 x x58.2,96.1,645.1005.0025.005.0 zzz
限制150内