统计推断专项课程.pptx
《统计推断专项课程.pptx》由会员分享,可在线阅读,更多相关《统计推断专项课程.pptx(272页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、本资料来源统计推断抽样与分布估计与检验方差分析回归分析时间序列列联分析第四章抽样与抽样分布第一节常用的抽样方法基本概念总体和样本概率抽样和非概率抽样抽样误差概率抽样的组织方式简单随机抽样分层抽样等距抽样整群抽样(一)总体与样本总体总体:根据研究目的确定的所要研究的同类事物的全体,是所要说明其数量特征的研究对象。总体单位/个体:构成总体的个别事物(基本单元)。总体容量:总体单位的数量。总体指标/总体参数:在抽样估计中,用来反映总体数量特征的指标。总体平均数、总体比例P、总体标准差、总体方差2样本样本:从总体中抽取的部分总体单位所构成的整体。样本容量:样本所包含的总体单位个数。在实际工作中,通常把
2、n30的样本称为大样本,把n30的样本称为小样本。样本指标/样本统计量/估计量:根据样本资料计算的、用以估计和推断相应总体指标的综合指标。样本平均数、样本比例p、样本标准差s、样本方差s2总体参数是唯一的,往往未知的;样本统计量是不唯一的,随着抽取的样本的不同而不尽相同。(二)概率抽样与非概率抽样概率抽样/随机抽样定义:按照随机原则抽取样本的抽样方法。组织方式:简单随机抽样、分层抽样、等距抽样、整群抽样特点:1.抽样推断必须遵循抽样调查的随机原则2.抽样推断是以样本指标数值去推断总体指标数值3.抽样推断中产生的误差可以事先计算加以控制。作用:1.对于不可能进行全面调查的总体数量特征的推断2.对
3、于某些不必要进行全面调查的总体数量特征的推断3.对于全面调查的资料进行评价和修正非概率抽样定义:从研究目的出发,根据调查者的经验或判断,从总体中有意识地抽取若干单位构成样本的抽样方法。组织方式:典型调查、重点调查、配额抽样、方便抽样等(三)抽样误差登记性误差:在调查和汇总过程中由于观察、测量、登记、计算等方面的差错或被调查者提供虚假资料而造成的误差。代表性误差:用样本指标推断总体指标时,由于样本结构与总体结构不一致、样本不能完全代表总体而产生的误差。系统误差:由于非随机因素引起的样本代表性不足而产生的误差。随机误差/偶然性误差:由于随机因素(偶然性因素)引起的代表性误差。抽样估计中的抽样误差,
4、即这种误差。二、概率抽样的组织方式简单随机抽样/纯随机抽样在从总体抽取n个单位作为样本时,要使得每个总体单位都有相同的机会被抽中的抽样方式。重复抽样和不重复抽样分层抽样/分类抽样在抽样之前先将总体的单位划分为若干层(类),然后从各个层中抽取一定数量的单位组成一个样本,这样的抽样方式称为分层抽样。在分层或分类时,应使层内各单位的差异尽可能小,而使层与层之间的差异尽可能大。等距抽样/系统抽样/机械抽样在抽样中,先将总体各单位按某种顺序排列,并按某种规则确定一个随机起点,然后,每个一定的间隔抽取一个单位,直至抽取n个单位形成一个样本。样本在总体中的分布一般较均匀。整群抽样调查时先将总体划分成若干群,
5、然后在以群作为调查单位从中抽取部分群,进而对抽中的各个群中所包含的所有个体单位进行调查或观察,这样的抽样方式称为整群抽样。群内结构特征与总体越接近,抽样推断效果越好。第二节抽样分布一、抽样分布的概念由样本统计量的全部可能取值和与之相应的概率(频率)组成的分配数列。在实际应用中,统计量的抽样分布是通过教学推导或在计算机上利用程序进行模拟而得到的。分析总体是什么?总体均值等于多少?总体是4个学生。总计均值即4名学生的平均成绩=(1+2+3+4)/4=2.5总体容量?样本容量?样本个数?总体容量=4,样本容量=2样本个数=42=16计算各个样本的均值?总体均值与样本均值的区别?总体均值是唯一的,样本
6、均值是随机的。样本均值的概率分布?样本均值的抽样分布的特点抽样分布的形式与原有总体的分布和样本容量n的大小有关。如果原有总体是正态分布,那么,无论样本容量的大小,样本均值的抽样分布都服从正态分布;如果原有总体分布是非正态分布,而样本容量n30,则随着样本容量的增大,样本均值的抽样分布将趋于正态分布;如果原有总体分布是非正态分布,而样本容量n0,当n时,则称 是的一致估计量。点估计的方法点估计是直接以样本统计量作为相应总体参数的估计量。因此我们希望样本统计量应尽可能满足优良估计量的标准。经数学证明,样本平均数是总体平均数的优良估计量;样本成数是总体成数的优良估计量;样本方差是总体方差的无偏估计量
7、。点估计完全正确的概率通常为0。因此,我们更多的是考虑用样本统计量去估计总体参数的范围 区间估计区间估计第二节一个总体参数的区间估计参数区间估计的含义:估计总体参数的区间范围,并给出区间估计成立的概率值。其中:1-(01)称为置信度/置信水平,称为区间估计的显著性水平,其取值大小由实际问题确定,经常取1%、5%和10%。注意:对置信度的理解!区间估计的内容:总体均值的区间估计总体成数P的区间估计总体方差2的区间估计区间估计的计算步骤1.计算样本指标2.计算抽样平均误差3.查表得统计量临界值4.计算抽样极限误差5.计算置信区间总体均值区间估计的要素:总体分布是否正态?总体方差是否已知?大样本还是
8、小样本?要素影响抽样分布总体分布总体方差样本情况服从分布置信区间正态总体2已知大样本服从N(0,1)小样本2未知大样本近似服从N(0,1)小样本服从t(n-1)非正态总体或分布未知2已知大样本近似服从N(0,1)例1某企业从长期实践得知,其产品直径x是一随机变量,服从方差为0.05的正态分布。从某日产品中随机抽取6个,测得其直径分别为14.8,15.3,15.1,15,14.7,15.1(单位:厘米)。在0.95的置信度下,试求该产品直径的均值的置信区间。1.计算样本指标2.计算抽样平均误差3.查表得统计量4.计算抽样极限误差5.计算置信区间解:正态总体、方差已知、小样本1.计算样本指标2.计
9、算抽样平均误差3.查表得统计量4.计算抽样极限误差5.计算置信区间例2对某型号的电子元件进行耐用性能检查,抽查资料分组如下表,要求估计该批电子元件的平均耐用时数的置信区间(置信度95%)。1.计算样本指标2.计算抽样平均误差3.查表得统计量4.计算抽样极限误差5.计算置信区间解:正态总体、方差未知、大样本1.计算样本指标2.计算抽样平均误差3.查表得统计量4.计算抽样极限误差5.计算置信区间例3某商场从一批袋装食品中随机抽取10袋,测得每袋重量(单位:克)分别为:789、780、794、762、802、813、770、785、810、806,要求以95%的把握程度,估计这批食品的平均每袋重量的
10、区间范围。1.计算样本指标2.计算抽样平均误差3.查表得统计量4.计算抽样极限误差5.计算置信区间解:正态总体、方差未知、小样本1.计算样本指标2.计算抽样平均误差3.查表得统计量4.计算抽样极限误差5.计算置信区间总体成数的区间估计由于总体的分布是(0,1)分布,只有在大样本的情况下,样本成数才服从正态分布。总体成数可以看成是一种特殊的平均数,类似于总体平均数的区间估计,总体成数的区间估计的上下限是:注意:在实践中,由于总体成数常常未知,这时,抽样平均误差公式中的总体成数用样本成数代替。大样本的条件:np5且n(1-p)5例:某厂对一批产品的质量进行抽样检验,采用重复抽样抽取样品200只,样
11、本优质品率为85%,试计算当把握程度为90%时优质品率的区间范围。1.计算样本指标2.计算抽样平均误差3.查表得统计量4.计算抽样极限误差5.计算置信区间解:1.计算样本指标2.计算抽样平均误差3.查表得统计量4.计算抽样极限误差5.计算置信区间总体方差的区间估计大样本情况下,样本标准差s的分布近似服从正态分布N(,2/2n),所以,总体标准差的置信度为1-的置信区间近似为小样本情况下,若总体呈正态分布而其均值和方差未知,则总体方差的置信区间由如下的统计量的分布确定。所以,总体方差2的置信度为1-的置信区间为例从某车间加工的同类零件中抽取了16件,测得零件的平均长度为12.8厘米,方差为0.0
12、023。假定零件的长度服从正态分布,试求方差的置信区间(置信度为95%)。解所以,总体方差2的置信区间为四、抽样样本容量确定问题的提出确定样本容量公式:估计总体均值时样本容量的确定重复抽样不重复抽样估计总计成数时样本容量的确定重复抽样不重复抽样四、抽样样本容量确定确定样本容量应注意的问题1、计算样本容量时,一般总体的方差与成数都是未知的,可用有关资料替代:一是用历史资料已有的方差与成数代替;二是在进行正式抽样调查前进行几次试验性调查,用试验中方差的最大值代替总体方差;三是成数方差在完全缺乏资料的情况下,就用成数方差的最大值0.25代替。2、如果进行一次抽样调查,同时估计总体均值与成数,用上面的
13、公式同时计算出两个样本容量,可取一个最大的结果,同时满足两方面的需要。3、上面的公式计算结果如果带小数,这时样本容量不按四舍五入法则取整数,取比这个数大的最小整数代替。例:对某批木材进行检验,根据以往经验,木材长度的标准差为0.4米,而合格率为90%。现采用重复抽样方式,要求在95.45%的概率保证程度下,木材平均长度的极限误差不超过0.08米,抽样合格率的极限误差不超过5%,问必要的样本单位数应该是多少?解:样本平均数的单位数:样本成数的单位数:根据计算结果,取样本数较大者。即n=144棵。第六章假设检验第一节假设检验的基本问题假设检验/显著性检验事先对总体参数或总体分布形式作出一个假设,然
14、后利用样本信息来判断原假设是否合理,即判断样本信息与原假设是否有显著差异,从而决定应接受或否定原假设。假设检验分为两类:参数检验、非参数检验/自由分布检验假设检验的基本思想假设检验所采用的逻辑推理方法是带有概率性质的反证法。假设检验中的合理与否,所依据的是“小概率事件实际不可能发生的原理”。第一节假设检验的基本问题假设检验的步骤1.提出原假设和备择假设;2.选择适当的统计量,并确定其分布形式;3.选择显著性水平,确定临界值;4.作出结论假设检验的两类错误第一类错误/拒真错误:当原假设为真,但由于样本的随机性使样本统计量落入了拒绝区域;第二类错误/取伪错误:当原假设为不真,但由于样本的随机性使样
15、本统计量落入了接受区域。第二节一个总体参数的检验例:消费者协会接到消费者投诉,指控品牌纸包装饮料存在容量不足,有欺骗消费者之嫌。包装上标明的容量为250毫升。消费者协会从市场上随机抽取50盒该品牌纸包装饮品,测试发现平均含量为248毫升,小于250毫升。这是生产中正常的波动,还是厂商的有意行为?消费者协会能否根据该样本数据,判定饮料厂商欺骗了消费者呢?另根据历史资料,该品牌饮料容量总体的标准差是4毫升。我们通过检验总体均值是否小于250毫升,来判断饮料厂商是否欺骗了消费者。第一步:确定原假设与备择假设:250;:1020单侧检验与双侧检验用单侧检验还是双侧检验,使用左侧检验还是右侧检验,决定于
16、备选假设中的不等式形式与方向。与“不相等”对应的是双侧检验,与“小于”相对应的是左侧检验,与“大于”相对应的是右侧检验。/21/2-Z/2Z/2Z00Z双侧检验左侧检验右侧检验继续:总体均值的参数检验例2:一种罐装饮料采用自动生产线生产,每罐的容量是255ml,标准差为5ml。为检验每罐容量是否符合要求,质检人员在某天生产的饮料中随意抽取了40罐进行检验,测得每罐平均容量为255.8ml。检验该天生产的饮料容量是否符合标准要求。H0:255 H1:255第二步:选择适当的统计量,并确定其分布形式正常情况下,饮料的容量服从正态分布若正态总体的方差已知,则其样本平均数也服从正态分布,即:可用z作为
17、检验统计量。第三步:选择显著性水平,确定临界值通常显著性水平由实际问题确定,我们这里取=0.05,双侧检验,拒绝域在左右两边,查标准正态分布表得临界值:Z/2=Z0.025=1.96拒绝域是|Z|1.96。第四步:判断,作出结论 Z=1.01 Z/2=1.96样本统计量的取值落入接受域。接受原假设,拒绝备选假设,即认为没有足够的证据证明该天的生产不符合标准要求。例1消费者协会接到消费者投诉,指控品牌纸包装饮料存在容量不足,有欺骗消费者之嫌。包装上标明的容量为250毫升。消费者协会从市场上随机抽取50盒该品牌纸包装饮品,测试发现平均含量为248毫升,小于250毫升。这是生产中正常的波动,还是厂商
18、的有意行为?消费者协会能否根据该样本数据,判定饮料厂商欺骗了消费者呢?另根据历史资料,该品牌饮料容量总体的标准差是4毫升。我们通过检验总体均值是否等于250毫升,来判断饮料厂商是否欺骗了消费者。H0:250 H1:250第二步:选择适当的统计量,并确定其分布形式正态总体、方差已知可用z作为检验统计量。第三步:选择显著性水平,确定临界值通常显著性水平由实际问题确定,我们这里取=0.05,左侧检验,拒绝域安排在左边,查标准正态分布表得临界值:-=-1.645,拒绝域是z-1.645。第四步:判断,作出结论 Z=-3.54 1020第二步:选择适当的统计量,并确定其分布形式正态总体、方差已知,可用z
19、作为检验统计量。第三步:选择显著性水平,确定临界值通常显著性水平由实际问题确定,我们这里取=0.05,右侧检验,拒绝域安排在右边,查标准正态分布表得临界值:Z=1.645,拒绝域是Z 1.645。第四步:判断,作出结论 Z=2.4 Z=1.65样本统计量的取值落入拒绝域。拒绝原假设,接受备选假设,即认为有足够的证据证明这批产品的使用寿命确有显著提高。注意!总体方差未知时用t统计量:但是,在大样本场合,t-统计量与标准正态分布统计量近似,通常用Z检验代替t检验。例4某厂采用自动包装机分装产品,假定每包产品的重量服从正态分布,每包标准重量为1000克。某日随机抽查9包,测得样本平均重量为986克,
20、样本标准差为24克。试问在0.05的显著性水平上,能否认为这天自动包装机工作正常?解正态分布、方差未知、小样本H0:1000 H1:1000 =0.05 查表得t/2(n-1)=t0.025(8)=2.306|t|=1.75 30%。以上的备选假设是企业自我声明的结论,我们希望该企业说的是实话。因此使用右侧检验。第二步:构造z检验统计量当样本容量较大时,下列统计量服从标准正态分布:上式中,代表总体的成数,p代表样本的成数。第三步:确定拒绝域显著水平=0.05,查标准正态分布表得临界值:=1.645,拒绝域是z1.645。第四步:计算检验统计量的数值样本成数p=220/600=0.37,总体假设
21、的成数=0.3,代入z检验统计量得:第五步:判断检验统计量的样本取值z=3.51.645,落入拒绝域。拒绝原假设,接受备选假设,认为样本数据证明该企业声明属实。总体方差的假设检验例:根据长期正常生产的资料可知,某厂所产维尼纶的纤维服从正态分布,其方差为0.0025。现从某日产品中随机抽出20根,测得样本方差为0.0042。试判断该日纤度的波动与平时有无显著差异(取=0.10)解:P-值检验p-值检验就是通过计算p-值,再将它与显著性水平作比较,决定拒绝还是接受原假设。所谓p-值就是拒绝原假设所需的最低显著性水平。p-值判断的原则是:如果p-值小于给定的显著性水平,则拒绝原假设;否则,接受原假设
22、。或者,更直观来说就是:如果p-值很小,拒绝原假设,p-值很大,接受原假设。z检验的检验的p-值的计算公式值的计算公式:第三节非参数检验非参数检验是对总体的分布不作任何限制的统计检验。故非参数检验又称为自由分布检验。自由分布检验概述自由分布检验概述符号检验符号检验秩和检验秩和检验一、自由分布检验概述一、自由分布检验概述自由分布检验的优点:首先,检验条件比较宽松,适应性强。其次,自由分布检验的方法比较灵活,用途广泛。再次,自由分布检验的计算相对简单。自由分布检验的缺点:由于它对原始数据中包含的信息利用得不够充分,检验的功效相对较弱。二、符号检验符号检验是建立在以正、负号表示样本数据与假设参数值差
23、异关系基础上的检验。该方法既适用于单样本场合,也适用于配对样本场合。1、单样本场合的符号检验在单样本的场合,可以用符号检验方法,检验总体的中位数是否在某一指定的位置。原理:假设总体中位数的真值是A,即,再从样本观测结果:x1,x2,xn样本每个数据都减去A,只记录其差数的符号,即当xiA时,记正号;当xi13。第五步:判断第五步:判断样本落入拒绝域,所以拒绝原假设,认为样本数据不能证明总体中位数等于160件。第七章方差分析第一节方差分析的基本问题问题:消费者与供应厂商间经常出现纠纷。纠纷发生后,消费者经常会向消费者协会投诉。消协对以下几个行业分别抽取几家企业,统计最近一年中投诉次数,以确定这几
24、个行业的服务质量是否有显著的差异。结果如右表:观测值行业零售业旅游业航空业家电制造业15768314426639495134929216544045347753456405865351744方差分析:是对多于2个总体的均值是否相等进行检验的一种统计方法。它是通过检验各总体的均值是否相等来判断分类型自变量对数值型变量是否有显著影响。H0:H1:不全等。术语因素和水平在方差分析中,所要研究的对象称为因素。因素的不同表现,成为水平。单因素方差分析和双因素分析方差分析只针对一个因素称为单因素分析;方差分析同时针对多个因素称为多因素分析。交互影响和无交互影响在方差分析中,如果因子间存在相互影响,称之为“
25、交互影响”;如果因子间是相互独立的,则称为无交互影响。交互影响有时也称为交互作用,是对实验结果产生作用的一个新因素,分析过程中,有必要将它的影响作用也单独分离开来。方差分析的原理观测值之间若存在差异,差异的产生来自两个方面,一个方面是由因素的不同水平造成的,成为系统性差异;另一个方面是由抽选样本的随机性而产生的差异。前者差异可以用水平间的方差计量,差异的原因包括系统性原因和随机性原因;后者差异可以用水平内部的方差计量,差异的原因尽包括随机型原因。所以,可以用两种方差的比值来判断观测值的差异是否包括系统性因素。如果比值接近1,说明差异的主要原因是随机因素;如果比值显著大于1,说明因素的不同水平对
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计 推断 专项 课程
限制150内