随机样本和统计量ppt课件.ppt
1第六章第六章 样本及其分布样本及其分布一、随机样本及统计量一、随机样本及统计量二、数理统计中的常用分布二、数理统计中的常用分布三、抽样分布定理三、抽样分布定理2 数理统计学是运用概率论的知识数理统计学是运用概率论的知识,对所要研究的随机现象进行多次观察对所要研究的随机现象进行多次观察或试验或试验,研究如何合理地获得数据资料研究如何合理地获得数据资料,对所关心的问题作出估计与检验的一对所关心的问题作出估计与检验的一门学科门学科 本章主要介绍随机样本、统计量等本章主要介绍随机样本、统计量等基本概念,并着重介绍几个常用的统计基本概念,并着重介绍几个常用的统计量和抽样分布。量和抽样分布。3第6.1节 随机样本和统计量一、总体与个体一、总体与个体、随机样本、随机样本二、频率分布和直方图二、频率分布和直方图三、三、经验分布函数经验分布函数四、四、统计量统计量4一、总体与个体,随机样本 一一个统计问题总有它明确的研究对象个统计问题总有它明确的研究对象.研究对象的全体称为研究对象的全体称为总体总体(母体母体),总体中每个成员称为总体中每个成员称为个体个体.研究某批灯泡的质量研究某批灯泡的质量考察国产考察国产 轿车的质量轿车的质量总体总体总体总体5 然而在统计研究中,人们往往关心每个然而在统计研究中,人们往往关心每个个体的一项个体的一项(或几项或几项)数量指标和该数量指标数量指标和该数量指标在总体中的分布情况在总体中的分布情况. 这时,每个个体具有这时,每个个体具有的数量指标的全体就是的数量指标的全体就是总体总体.该批灯泡寿命的该批灯泡寿命的全体就是总体全体就是总体灯泡的寿命灯泡的寿命国产轿车每公里国产轿车每公里的耗油量的耗油量所有国产轿车每公里耗所有国产轿车每公里耗油量的全体就是总体油量的全体就是总体6 由于每个个体的出现带有随机性,即相应的数量指标值的出现带有随机性。从而可把此种数量指标看作随机变量,我们用一个随机变量或其分布来描述总体。为此常用随机变量的符号或分布的符号来表示总体。 通常,我们用随机变量X , Y , Z, 等表示总体。当我们说到总体,就是指一个具有确定概率分布的随机变量。7如如:研究某批灯泡的寿命时,我们关心的数研究某批灯泡的寿命时,我们关心的数量指标就是量指标就是寿命寿命,那么,此总体就可以用随,那么,此总体就可以用随机变量机变量X表示,或用其分布函数表示,或用其分布函数F(x)表示表示.总体总体某批某批灯泡的寿命灯泡的寿命寿命寿命X可用一概可用一概率分布来刻划率分布来刻划F(x)8 因此, 在统计学中,总体这个概念的要旨是: 总体就是一个概率分布.9 某工厂某工厂10月份生产的灯泡寿命所组成的月份生产的灯泡寿命所组成的总体中总体中, 个体的总数就是个体的总数就是10月份生产的灯泡数月份生产的灯泡数, 这是一个有限总体这是一个有限总体; 而该工厂生产的所有灯泡寿而该工厂生产的所有灯泡寿命所组成的总体可命所组成的总体可近似地近似地看成一个无限总体看成一个无限总体, 它它包括以往生产和今后生产的灯泡寿命包括以往生产和今后生产的灯泡寿命. 有限总体和无限总体有限总体和无限总体实例实例 当有限总体包含的个体的当有限总体包含的个体的总数很大时总数很大时, 可近似地将它看可近似地将它看成是无限总体成是无限总体.101. 样本的定义样本的定义 为推断总体的分布及各种特征,按一定的规则从总体中抽取若干个体进行观察试验,以获得有关总体的信息.这一抽取过程称为“抽样”. 所抽取的部分个体称为样本.通常记为样本中所包含的个体数目n称为样本容量.),(21nXXX11 容量为n的样本可以看作n维随机变量.但是,一旦取定一组样本,得到的是n个具体的数 ,称此为样本的一次观察值,简称样本值.简单随机样本简单随机样本 抽取样本的目的是为了利用样本对总体进行统计推断,这就要求样本能很好的反映总体的特性且便于处理.为此,需对抽样提出一些要求,通常有两条:),(21nxxx12满足上述两条性质的样本称为简单随机样本.简称为随机样本.获得简单随机样本的抽样方法称为简单随机抽样. 为了使大家对总体和样本有一个明确的概念,我们给出如下定义:定义定义6.16.1一个随机变量X或其相应的分布函数F(x)称为一个总体.1. 代表性代表性: X1,X2, Xn中每一个与所考察的中每一个与所考察的总体总体X有相同的分布有相同的分布.2. 独立性独立性: X1,X2, Xn是相互独立的随机变量是相互独立的随机变量.13.,)(,)(,)(2121本本简简称称样样的的简简单单随随机机样样本本中中抽抽取取的的容容量量为为或或总总体体为为从从总总体体则则称称随随机机变变量量、相相互互独独立立的的是是具具有有同同一一分分布布函函数数若若的的随随机机变变量量是是具具有有分分布布函函数数设设nxFXXXXxFXXXxFXnn定义定义6.26.2.,21个个独独立立的的观观察察值值的的又又称称为为称称为为样样本本值值它它们们的的观观察察值值nXxxxn样本样本 所有可能取值的全体称所有可能取值的全体称为样本空间,为样本空间, 记为记为 。12(,)nXXX的样本点中称为nxxx,2114定理定理6.1).(),(), 2 , 1)()3().(),(),(),()2().(),(),(),() 1 (.),(121*121*21121*2121niiniiniinnniinnnxpXXXixpxXPXxfxxxfXXXxfXxFxxxFXXXxFXXXXX的分布率为则样本的分布率为若总体的概率密度为则样本的概率密度为若总体的分布函数为则样本的分布函数为若总体的样本为来自总体设样本样本的分布的分布15.),(,),(,)0(2121的概率密度求样本是来自总体的样本布的指数分服从参数为设总体nnXXXXXXX解解的概率密度为的概率密度为总体总体 X0, 00,)(xxexfx, 21有有相相同同的的分分布布且且与与相相互互独独立立因因为为XXXXn的概率密度为的概率密度为所以所以),( 21nXXX)(),(121*niinxfxxxf 其其它它, 00,1ixnxenii 例例116.),(,),(, 10), 1(2121的的分分布布律律求求样样本本是是来来自自总总体体的的样样本本其其中中服服从从两两点点分分布布设设总总体体nnXXXXXXppBX 解解的分布律为的分布律为总体总体 X, 21相互独立相互独立因为因为nXXXiippiXP 1)1()1, 0( i,有相同的分布有相同的分布且与且与X的分布律为的分布律为所以所以),( 21nXXX例例217,2211nnxXxXxXP 2211nnxXPxXPxXP niiniixnxpp11)1(.1 , 0,21中取值中取值在集合在集合其中其中nxxx18二、频率分布和直方图二、频率分布和直方图 设连续型总体设连续型总体X的密度函数是未知的密度函数是未知的,是的,是X的一个样本观值下面介绍一的一个样本观值下面介绍一种根据样本观察值来近似地求总体种根据样本观察值来近似地求总体X的的概率密度概率密度f(x)的图解法的图解法-频率直方图频率直方图法。法。其具体方法如下:其具体方法如下:1920 取取a略小于略小于m,b略大于略大于M,则区间,则区间a,b是包含是包含所有样本值的区间所有样本值的区间 再将区间再将区间a,b等分为等分为l个小区间,分点记为个小区间,分点记为 且每个分点且每个分点ti的值应比样本值多取一位小数的值应比样本值多取一位小数 01 latttb相应地,样本值也分成了相应地,样本值也分成了l个数组个数组 21-1( , iitt()/hbal每个小区间每个小区间的长度的长度称为组距,小区间的个数称为组距,小区间的个数l 称为组数称为组数 经验表明,组数经验表明,组数l要适当的选定,过小会掩要适当的选定,过小会掩盖各组内数据的变动情况,过大则将突出随机盖各组内数据的变动情况,过大则将突出随机性的影响而降低稳定性,从而看不出明显的规性的影响而降低稳定性,从而看不出明显的规律律 组数组数l当样本容量当样本容量n50时应以时应以7到到18个为宜,个为宜,且使每个小区间中都有样本值中的数据且使每个小区间中都有样本值中的数据 22-1( , iittif(2)确定频数和频率:设第)确定频数和频率:设第i个小区间个小区间中样本值的频数中样本值的频数,则相应的频率为,则相应的频率为iifvn (1il) 根据伯努利大数定律,当样本容量根据伯努利大数定律,当样本容量n充分大充分大时,应有近似等式时,应有近似等式 111 iitiiiitiiiP tXtf x dxf x htxt23 上面最后一个近似等式的几何意义是,在上面最后一个近似等式的几何意义是,在每个小区间上用矩形面积近似代替曲边梯形面每个小区间上用矩形面积近似代替曲边梯形面积积 其中区间其中区间(-1 ,iitt上矩形的高为上矩形的高为( )iiivf xyh24(-1 ,iittiyivl(3)作频率直方图:在每个小区间)作频率直方图:在每个小区间上,以小区间为底、上,以小区间为底、为高作矩形,矩形面积即为为高作矩形,矩形面积即为,由,由个矩形构成的图形就叫做频率直方图个矩形构成的图形就叫做频率直方图 f xn频率直方图近似总体密度函数频率直方图近似总体密度函数的图形,的图形,愈大,近似程度愈好愈大,近似程度愈好 且样本容量且样本容量25例例6.2 某厂生产圆钉的长度某厂生产圆钉的长度L是一个连续型随及变量,是一个连续型随及变量,从中抽取从中抽取100个测量其长度后得数据如下:个测量其长度后得数据如下:152.2156.9157.3160.9159.5163.8154.8160.4158.5154.2155.1156.9155.5161.9159.1151.6162.3160.4152.9148.6160.2156.1160.4162.7156.3160.1153.5153.6149.1154.2156.5159.9159.9154.9154.7156.1157.7152.5157.7155.0160.9152.6155.5155.5165.5155.1155.7155.2162.8152.9152.0157.1158.6153.6159.8150.9158.3153.3158.5150.5157.2155.8159.9152.0161.1152.5155.0156.7157.5153.7164.7150.0155.0158.9163.7151.5164.4148.1156.0163.6152.7153.8156.9152.7160.7151.1154.1150.8147.0155.6158.8151.8165.8148.5161.2153.8151.3150.5154.0149.6试作出试验数据的频率直方图试作出试验数据的频率直方图26解解 147.0m 165.8M 145.95 ,b165.95a 因数据中的最小值因数据中的最小值,最大值,最大值,取,取将区间将区间 145.95,165.95 10等分,每个等分,每个小区的长小区的长2h 将将100个数据分为个数据分为10组组 ,如表如表6-1所示所示 27表表6-1各组范围各组范围频数频数 fi频率频率i =fi /100yi =i/2145.95147.9510.010.005147.95149.9550.050.025149.95151.95100.100.050151.95153.95160.160.080153.95155.95200.200.100155.95157.95150.150.075157.95159.95120.120.060159.95161.95100.100.05028频率直方图如图频率直方图如图6-1 从直观上看,直方图的上边近似于正态概率密度曲线从直观上看,直方图的上边近似于正态概率密度曲线 145.95 0.025 o x fi /n 0.05 0.075 0.1 149.95 153.95 157.95 161.95 165.95 图图6-1 29三. 经验分布函数 12, ,nxxxxx设总体设总体X的分布函数的分布函数F(x)是未知的,且)是未知的,且为为X的一个样本值对任意实数的一个样本值对任意实数样本值中不超过样本值中不超过则称则称Fn(x)为)为经验分布函数经验分布函数 的数据的频数记为的数据的频数记为m(x),),作作Fn(x)= m(x)/ n, (6.4)上面介绍了利用频率直方图来近似地求总体上面介绍了利用频率直方图来近似地求总体X的概的概率密度,现介绍另一种方法,无论总体率密度,现介绍另一种方法,无论总体X是怎么样是怎么样的随机变量都可以用,这就是根据总体的随机变量都可以用,这就是根据总体X的样本作的样本作出出X的的“经验分布函数经验分布函数”,它是总体,它是总体X的分布函数的良的分布函数的良好近似。好近似。30例例6.3 设总体设总体X为为100个同类铸件中每个铸件上个同类铸件中每个铸件上沙眼的个数从中任取沙眼的个数从中任取7个铸件,检查每个铸个铸件,检查每个铸件上的沙眼数,得样本值件上的沙眼数,得样本值 0, 3, 2, 1, 1, 0, 1试求相应的经验分布函数试求相应的经验分布函数解解:样本值中有四个不同的数值样本值中有四个不同的数值0,1,2,3,它们的频数依次为,它们的频数依次为2,3,1,1 31 0 , 0,2 , 01,75, 12,76, 23,71, 3.nxxFxxxx相应的经验分布函数为相应的经验分布函数为32oxFn(x)1232/75/76/71oxFn(x)1232/75/76/71图图62 nyFx的图形是一条不降的阶梯形曲线(图的图形是一条不降的阶梯形曲线(图62) 33四、统计量1. 统计量的定义统计量的定义.),( ,),(,21212121计量是一个统则称不含未知参数中若的函数是的一个样本是来自总体设nnnnXXXffXXXXXXfXXXX 由样本推断总体特征,需要对样本值进行“加工”,“提炼”.这就需要构造一些样本的函数,它把样本中所含的信息集中起来.34?,),(,22321哪哪些些不不是是些些是是统统计计量量判判断断下下列列各各式式哪哪为为未未知知为为已已知知其其中中样样本本的的一一个个是是来来自自总总体体设设 NXXX,11XT ,3212XeXXT ),(313213XXXT ),max(3214XXXT ,2215 XXT).(123222126XXXT 是是不是不是例例6.4.),(),(,21212121的观察值是则称的样本值是相应于样本设nnnnXXXfxxxfXXXxxx352. 几个常用统计量几个常用统计量( (样本矩样本矩) )的定义的定义.,2121是是这这一一样样本本的的观观察察值值是是来来自自总总体体的的一一个个样样本本设设nnxxxXXX(1)样本平均值样本平均值;11 niiXnX(2)样本方差样本方差niiXXnS122)(11.11 niixnx其观察值其观察值它反映了总体均值它反映了总体均值的信息的信息它反映了总体方差它反映了总体方差的信息的信息.11122niiXnXn36其观察值其观察值niinxxns122)(11.11122niixnxn(3)样本标准差样本标准差;11122niiXXnSS其观察值其观察值.)(1112niixxns37(4) 样本样本 k 阶阶(原点原点)矩矩;, 2, 1,11 kXnAnikik其观察值其观察值.,2111kxnanikik(5)样本样本 k 阶中心矩阶中心矩;, 3, 2, 1,)(11kXXnBnikik其观察值其观察值., 3, 21,)(11kxxnbnikik38样本矩具有下列性质样本矩具有下列性质:性质性质.)()3(;)()2(;)() 1 (:,),(,)(,)(2221212SEXDXEXXXXXDXEXnn则有的样本为来自总体方差的期望设总体证明证明ninniinniinXEXEXE111111)()()() 1 (39211211111222 nninniinniinXDXDXD)()()()()()( )()() 3(21211122112XnEXEXnXESEniinniin)()(1)()(11221XEXDnnXEXDninii221122112211)()(nnnnin40五、小结个体个体 总体总体 有限总体有限总体无限总体无限总体基本概念基本概念:说明说明1一个总体对应一个随机变量一个总体对应一个随机变量X, 我们将不我们将不区分总体和相应的随机变量区分总体和相应的随机变量, 统称为总体统称为总体X.说明说明2在实际中遇到的总体往往是有限总体在实际中遇到的总体往往是有限总体, 它它对应一个离散型随机变量对应一个离散型随机变量; 当总体中包含的个体当总体中包含的个体的个数很大时的个数很大时, 在理论上可认为它是一个无限总在理论上可认为它是一个无限总体体.随机样本随机样本41 总体,样本,样本值的关系总体(理论分布)样本样本值?统计是从手中已有的资料-样本值,去推断总体的情况-总体的分布F(x)的性质.样本是联系二者的桥梁. 总体分布决定了样本取值的概率规律,也就是样本取到样本值的规律,因而可以由样本值去推断总体.42两个最重要的统计量两个最重要的统计量:样本均值样本均值 niiXnX11样本方差样本方差niinXXnS122)(11