统计学之统计量与抽样分布.pptx
统计学-ch5 suyl1第6章统计量与抽样分布统计量与抽样分布总体和样本的分布 统计量统计量抽样分布及抽样分布及抽样分布定理抽样分布定理统计学-ch5 suyl26.1 总体和样本的分布总体和样本的分布l 6.1.1 统计推断中的总体及总体分布统计推断中的总体及总体分布l 要了解研究对象的整体情况要了解研究对象的整体情况,最理想的方法似乎是最理想的方法似乎是进行普查进行普查,但实际上这样做往往是不必要、不可能但实际上这样做往往是不必要、不可能或不允许的或不允许的.l 如如,要研究灯泡寿命要研究灯泡寿命,由于寿命试验是破坏性的由于寿命试验是破坏性的,逐逐个试验是不允许的个试验是不允许的.从所研究的全体对象中从所研究的全体对象中,抽取一抽取一小部分来进行试验小部分来进行试验(称为抽样称为抽样),根据这一小部分所根据这一小部分所显示的统计特性显示的统计特性,来推断来推断整体整体的统计特性的统计特性.统计学-ch5 suyl3总体是根据一定的目的确定的所要研究的事物的全体,总体是根据一定的目的确定的所要研究的事物的全体,它是由客观存在的、具有某种共同性质的众多个别事物它是由客观存在的、具有某种共同性质的众多个别事物构成的整体。构成的整体。总体是总体是研究对象的全体。 在具体的统计推断中,我们感兴趣的是总体单位的某个或某些数量特征。例如研究某种型号灯泡的寿命这一数量特征。总体的含义抽象为所感兴趣的变量的所有取值,我们可以想象,这些值的出现有不同的频率,假设这批灯泡有无限多个,那么频率就收敛到了概率,从而有了使用寿命这个随机变量的概率分布。这个分布称为总体或总体分布。总体(总体分布)是对客观对象变量取值情况的数学描述。总体所含个体的数目称为总体容量总体容量.这这样要研究的总体实质上是某个概率分布样要研究的总体实质上是某个概率分布, 因此我们将因此我们将总体总体定义为一个随机变量定义为一个随机变量X. 数理统计学中“总体”这个基本概念从本质上讲:总体就是一个随机变量总体就是一个随机变量。统计学-ch5 suyl4从社会统计到数理统计总体的演化从社会统计到数理统计总体的演化组成元素组成元素具体对象具体对象组成元素组成元素重复数字重复数字组成元素组成元素数字的取值数字的取值及其概率:及其概率:分布分布研究的标志数字的取值和重复的频率例:研究班级同学的身高例:研究班级同学的身高班级的同学的集合(全体同学)组成元素:每位同学(具体对象)同学身高的集合组成元素:身高的数字(重复数字)身高的取值及其概率组成元素:身高的分布统计学-ch5 suyl5对所研究的对象对所研究的对象,我们常常关心某一项或几项指标我们常常关心某一项或几项指标.总体:总体:研究对象的某项变量值的全体.个体:个体:组成总体的每一个基本元素.例如例如: 某工厂生产的灯泡的使用寿命的全体是一个总体,而每一个灯泡的使用寿命是一个个体.而每个男生的身高是一个个体. 我校男生的身高的全体是一个总体,总体所含个体的数目称为总体容量总体容量.统计学-ch5 suyl6 一般地,我们是从总体中抽取一部分,比如说 n 个进行观测,再根据这 n 个观测值去推断总体的性质.在总体X中,抽取 n 个个体 12,.,nXXX这n个个体称为总体X的一个.就是抽取样本的过程.样本中所含个体的数目n称为样本容量样本容量.由于 是从总体X中随机抽取出来的可能结果,12,.,nXXX是n个随机变量,但是在抽取之后,它们都是,样本样本通过观测或试验的方法,获得的总体中一部分个体的集合,称为样本,每个个体的取值称为样本点。 6.1.1统计推断中的样本及样本分布统计学-ch5 suyl7l如随机抽取n只灯泡,试验得到其使用寿命(x1, x2,xn),称这n个确定的数值(x1, x2,xn)是灯泡使用寿命总体的一个样本。但是,当灯泡样本点的使用寿命还未观测出来时,只能将每个样本点看作与总体同分布的随机变量,这是因为每个样本点的可能取值范围和某个值出现的可能性与总体是一样的,这时样本记为(X1, X2Xn)。 统计学-ch5 suyl8l在相同的条件下对总体X进行n次重复独立的观察。将n次观察结果按试验的次序记为X1, X2, Xn ( 大写英语字母表示) 。由于X1, X2, Xn 是对随机变量X观察的结果,且各次观察是在相同的条件下独立进行的,所以有理由认为X1, X2, Xn是相互独立的相互独立的,且都是与总体X具有相同相同分布的分布的随机变量。这样得到的X1, X2, Xn 称为来自总体X的一个简单随机样本,n称为这个样本的容量。以后无另外说明,所得的样本都是指简单随机样本统计学-ch5 suyl9 n次观察一经完成,我们就得到一组实数x1,x2, xn ( 小写英语字母表示) ,它们依次是随机变量X1, X2, Xn的观察值,称为样本观测值。对于有限总体,采用放回抽样就能得到简单随机样本,但放回抽样使用起来不方便,当个体的总数N比样本的容量n大得多时,在实际中可将不放回抽样近似地当作放回抽样来处理统计学-ch5 suyl10简单随机样本的两个最基本的特性:(1) 独立性12,.,nXXX是相互独立的随机变量.12,.,nXXX即中各个随机变量的取值互不影响,这时称 (2) 代表性 ( 同分布性)即样本中的每个样本点都与总体同分布; 即 中每一个随机变量都与总体X有相同的概率分布.12,.,nXXX6.1.2统计推断中的样本及其性质统计学-ch5 suyl11总体和样本的关系总体和样本的关系数理统计中,样本和总体具有相同的分布数理统计中,样本和总体具有相同的分布 取值取值1概率概率0.2取值取值2:概率概率0.4取值取值3:取值取值0.1分布分布总体总体样品样品X1总体的分布:总体的分布:总体中重复数字取各值的概率总体中重复数字取各值的概率l 分布总体分布总体 总体各个值的概率可以认为是有相应比重的个体取该值。l 随机样本随机样本 由于每一个体都有均等被抽中的概率,因而样本取总体各个值的概率即样本分布与总体分布相同。样品样品X2样品样品Xn。统计学-ch5 suyl12总体 样本 样本观察值 理论分布 是从手中已有的资料样本观察值,去推断总体的情况总体分布.决定了样本取值样本取值的概率规律,也就是样本取到样本观察值的规律,因而可以用样本观察值去推断总体推断总体.是联系两者的桥梁.统计学-ch5 suyl136.2 统计量统计量统计量统计量分布的概念统计量分布的概念 在统计推断中,总体信息是未知的,但从总体中抽取的样本中含有总体的信息,统计推断就是利用样本的信息来推测总体的信息。然而样本的信息是隐蔽的,不明显的,必须要经过必要的加工处理才能用来推断总体信息,构造样本统计量是加工样本提出总体信息的有效手段之一。统计学-ch5 suyl146.2.1 统计量及统计量的分布统计量及统计量的分布如果如果样本X1, ,Xn的函数T(X1, ,Xn)不含不含未知参数,则称未知参数,则称T(X1, ,Xn)是总体X的一个统计量统计量。统计量有以下两个特征: 统计量是样本的函数; 统计量不能含有未知的总体参数。 统计学-ch5 suyl15判断下列是否为统计量1,nXX21()niiTX2211()1niiSXXn0XZ1211nniiXXXXXnn(1)( ),nXX12XX0.5m是是是是是是统计学-ch5 suyl16?,),(,22321哪哪些些不不是是些些是是统统计计量量判判断断下下列列各各式式哪哪为为未未知知为为已已知知其其中中样样本本的的一一个个是是来来自自总总体体设设 NXXX,11XT ,3212XeXXT ),(313213XXXT ),max(3214XXXT ,2215 XXT.是是不是不是.),(),(,21212121的观察值是则称的样本值是相应于样本设nnnnXXXfxxxfXXXxxx222612321()TXXX是是是是是是是是统计学-ch5 suyl17nikiknikikXXnBXnA11,)(11中心矩原点矩2.样本k阶矩,1. 11niiXnX样本均值,)()(112122SSXXnSnii标准差样本均方差样本方差6.2.2 几个常用的统计量统计学-ch5 suyl18样本均值和方差的性质l 1.均值的性质l 2.方差的性质bxaybaxyii则设,)(1)(),()(XDnXDXEXE22211()nniiiiXXXnX)()(2XDsE统计学-ch5 suyl19证明:)(1)(),()() 1 (XDnXDXEXEununEXnXEnXnEXEnii1)(1)(1)1()(1nnnXDnXnDXDniinii2221211)(1)1()(niiniiXnXXX1212)()2(22222222221212221)()()(2)(222)(XnXnXXnXnXXnXnXnXXXnXXXXXXXXXiiiiiniiniiinii统计学-ch5 suyl20)()()3(2XDsE)(111)(2222XnXnnXXSii22222222222222222) 1(11)(11)(11)()()(11)()(11)(11)(nnnununnunnnunnXnEEXXDnXnEEXnXnXEnSEii统计学-ch5 suyl213.3.顺序统计量顺序统计量)()2()1(nXXX顺序统计量顺序统计量:对于样本X1, X2, Xn ,如果按照升幂排列,得到称称X(1), X(2), X(n) 为顺序统计量。统计学-ch5 suyl22l 利用顺序统计量可以计算一些常用的统计量:l(1)最大顺序统计量和最小顺序统计量l(2)样本中位数l(3)样本极差l(4)样本的p分位数l(5)样本的切尾均值统计学-ch5 suyl23统计量的分布统计量的分布统计量分布的概念统计量分布的概念 统计量既然是随机变量的函数,那么它也应该是随机变量,并有其概率分布,统计量的分布也称为抽样分布。抽样分布和统计推断有着密切的联系。统计量提出以后,必须要知道其分布才能在统计推断中使用,因为只有知道了统计量的分布,才能利用概率论对总体的特征进行推断,并得到相应的推断的置信度。所以在统计推断中,一项重要的工作就是寻找统计量和导出统计量的分布。我们从一个简单的例子来讨论统计量分布的概念。统计学-ch5 suyl24 例例6.3 设有一总体设有一总体N=3 (2,4,6)。以样本容量。以样本容量n=1、n=2、n=4及及n=8,从总体中进行复置抽样,抽出全部可能的样本于,从总体中进行复置抽样,抽出全部可能的样本于表表6.1。 表表6.1中列出这些不同样本容量的中列出这些不同样本容量的 抽样分布,并在图抽样分布,并在图4.1用方柱形图表示其分布形状。用方柱形图表示其分布形状。由表中第一列当由表中第一列当N=3,n=1的总体平均数和方差为:的总体平均数和方差为: y 当样本容量依次为当样本容量依次为2、4、8时,其时,其 相应为相应为4、4、4;其其 相应为相应为4/3、2/3、1/3。即。即 , 。y2yyny22383)46()44()42()(222122/NyNii43123)642(1/NyNii统计学-ch5 suyl25n=1 1n=2 2n=4 4n=8 8yffff2 24 46 61 11 11 12 23 34 45 56 61 12 23 32 21 12.02.02.52.53.03.03.53.54.04.04.54.55.05.05.55.56.06.01 14 4101016161919161610104 41 12.002.002.252.252.502.502.752.753.003.003.253.253.503.503.753.754.004.004.254.254.504.504.754.755.005.005.255.255.505.505.755.756.006.001 18 8363611211226626650450478478410161016110711071016101678478450450426626611211236368 81 139816561平均数4444方 差8/34/32/31/3yy 表表6.1 各种不同样本容量的样本平均数各种不同样本容量的样本平均数( )的抽样分布的抽样分布 yy统计学-ch5 suyl26n=1n=2图图6.1 各种不同样本容量的各种不同样本容量的 分布方柱形图分布方柱形图 y统计学-ch5 suyl27图图6 6.1 各种不同样本容量的各种不同样本容量的 分布方柱形图分布方柱形图 yn=4n=8统计学-ch5 suyl28 从这个例子我们可以了解关于样本均值的分布,即所有可能样本计算出的均值所服从的分布(直方图验证了中心极限定理)。但是在实际工作中,总体的容量远不止3,总体的分布也是十分复杂的,统计量也各有不同,象这样一一列举给出统计量的分布是行不通的,我们必须借助于总体分布的类型来讨论统计量的分布的情况。后面我们将集中讨论正态总体的统计量分布的问题,通常称为样本的精确分布。统计学-ch5 suyl29统计学-ch5 suyl30 6.3抽样分布及抽样分布定理抽样分布及抽样分布定理主要内容 2分布 t 分布 F分布 抽样分布的重要定理抽样分布的重要定理统计学-ch5 suyl31 为了讨论统计量的分布,本节首先介绍数理统计中的三个著名分布,它们是t分布,2分布和F分布。参数估计和假设检验等统计推断问题中这三个分布有广泛的应用。 统计学-ch5 suyl326.3.16.3.12分布21,nXX2221nXX22( )n分布的定义 为独立同分布于标准正态总体N(0,1)的随机变量列,则称随机变量:所服从的分布为自由度是n的 分布,记为2统计学-ch5 suyl332(n)分布实质上就是参数为n/2,1/2的分布,即2(n)的密度函数为/ 211222( /2),0( )0,0nnxnxexf xx统计学-ch5 suyl342分布随着自由度增加,分布渐近于正态。图图4-1 2的概率密度曲线的概率密度曲线统计学-ch5 suyl35(1)期望与方差)期望与方差 若X 2(n),则E(X)= n,D(X)=2n。2. 2分布的性质特征分布的性质特征22242241()13 122xiiiDXEXEXx edx )(12niiXD22211()() nniiiiiEEXDXEXn22211( )()2nniiiiDnDXDXn统计学-ch5 suyl36(2)分布可加性 若X 2(n1),Y 2(n2 ), X, Y独立,则 X + Y 2(n1+n2 )。统计学-ch5 suyl37(3)关于自由度)关于自由度统计学-ch5 suyl38统计学-ch5 suyl39l (4) 为便于今后的应用,现在我们引入上侧分位数的概念. 所谓一个分布的上侧分位数就是指这样一个数,它使相应分布的随机变量不小于该数的概率为,比如,若记2变量的上侧分位数为 ,则满足222()p统计学-ch5 suyl40通过Excel查分位点,函数为CHIINV统计学-ch5 suyl411. t分布构造和密度函数构造和密度函数).n( tn/T t(n)称为自由度为n的t分布。6.3.2 t 分布t(n)(n) 的概率密度为 t,)nt1()2n(n)21n() t ( f21n2若 N(0, 1), 2(n), 与 独立,则统计学-ch5 suyl42分子是标准正态随机变量分子是标准正态随机变量分母是自由度为分母是自由度为n的卡方随机变量的卡方随机变量分子分母相互独立,且满足构造公式分子分母相互独立,且满足构造公式t分布的三个要点:统计学-ch5 suyl43t分布的图像统计学-ch5 suyl44 t分布和标准正态分布类似,他们都是对称分布。但是t分布与标准正态分布也是有区别的。t分布尾部厚,即服从分布的随机变量取到尾部值的概率比标准正态分布略大。而对于接近原点的坐标点,t分布的值比标准正态分布的值小。因而t分布曲线尾部又厚于标准正态分布,而峰低于标准正态分布。图图4-2t(n)密度函数曲线密度函数曲线统计学-ch5 suyl45 2. 2. t t分布的性质特征分布的性质特征 (1) f(t)(1) f(t)关于t=0t=0(纵轴)对称。 (2) f(t)(2) f(t)的极限为N(0N(0,1)1)的密度函数,即 x,e21) t () t ( flim2tn2)(nt (3)(3) t分布的数学期望与方差 t分布的数学期望与方差分别是( )0E t ( )/(2)2D tn nn ,统计学-ch5 suyl46)() 10(nttP,称满足条件:对于给定的( )tnt的点为 分的上布分位点 。)()(1ntnt:由概率密度的对称性知.)(45zntn时,当)(nt)(1nt统计学-ch5 suyl47通过Excel可得分位点,函数为TINVl 如查 对话框写0.2,2525, 1 . 0n统计学-ch5 suyl48统计学-ch5 suyl496.3.3 F分布 若 1 2(n1), 2 2(n2), 1, 2独立,则).n,n(Fn/n/F212211 称为第一自由度为n1 ,第二自由度为n2的F分布,其概率密度为 0y, 00y,)ynn1)(2n()(y)n/n)(2nn()y(h2/ )nn(2122n12n2/n2121211111. F分布构造和密度函数构造和密度函数统计学-ch5 suyl50分子是自由度为分子是自由度为n1的卡方随机变量的卡方随机变量分母是自由度为分母是自由度为n2的卡方随机变量的卡方随机变量分子分母相互独立,且满足构造公式分子分母相互独立,且满足构造公式F分布的三个要点:统计学-ch5 suyl511234560.20.40.60.81234560.20.40.60.8m = 10, n = 4 m = 10, n = 10 m = 10, n = 15 m = 4, n =10 m = 10, n = 10 m = 15, n = 10F F分布密度函数图分布密度函数图统计学-ch5 suyl52 2.F-分布性质特征分布性质特征(1) F分布的数学期望和方差分布的数学期望和方差222( )(2)2nE Fnn 2212221222(2)( )(4)(2) (4)n nnD Fnn nn 统计学-ch5 suyl53(2)自由度 F分布有两个自由度,称为第一自由度和第二自由度,分别对应构成F分布的分子和分母的自由度。两个自由度的不同组合和形成F分布曲线的不同形态,这在F分布的图形中已经清楚看到了。F分布的两个自由度还有一个重要性质,它们是可以互相转化的。 统计学-ch5 suyl54(3)F分布的分布的上侧临界值上侧临界值是指满足下式的是指满足下式的 12( ,)F n n临界值121212(,)( ( ,)( ,)( )Fn nP F n nF n nf x dx统计学-ch5 suyl55).,(/1),( F1221nnFFnnF则若),(/1),(12211nnFnnF结论:),() 10(21nnFFP,称满足条件:对于给定的12( ,)Fn nF的点为 分的上布分位点),(21nnF统计学-ch5 suyl56 ( ,)( ,)P F n mF n m11( ,)( ,)PF n mF n m1 ( , )( ,)P F m nF n m1 ( , )1( ,)P F m nF n m 11( , )( ,)Fm nF n m因为则.11( , )( ,)Fm nF n m统计学-ch5 suyl57统计学-ch5 suyl58 例例6-9 设X1, X2 , X9 相互独立,服从正态分布N(0,16), Y1, Y2 , Y16相互独立,服从正态分布N(0,9), X1, X2 , X9 与Y1, Y2 , Y16 相互独立,求随机变量1292221216XXXZYYY所服从的分布。129(0,9 16)XXXN因1291() (0,1)12XXXN故统计学-ch5 suyl59从而根据t分布的构造,则12912922221612161112 (16)1316iiXXXXXXztYYYY1(0,1) ,1,2,163iYNi 又216211(16)3iiY故统计学-ch5 suyl60 例例6-106-10 设总体X1, X2 , X6服从N(0,1)分布。 试确定常数c , 使cY 服从2。) 3 , 0 (, ) 3 , 0 (654321NXXXNXXX) 1 , 0 (31,31654321NXXXXXX265423213131XXXXXX故因此1/3.c ) 2 (312Y22123456()()YXXXXXX统计学-ch5 suyl616.3.4 抽样分布的重要定理抽样分布的重要定理 本节的前面部分,为我们提供了讨论统计量的分布可以利用的结论,下面开始讨论总体服从正态分布场合的抽样分布,这是因为在应用中许多随机变量的概率分布或是正态分布,或是近似正态的。 统计学-ch5 suyl62 定理定理6.1 抽抽样分布的重要定理样分布的重要定理设X为一个正态总体,即其简单随机样本为。则有2S与X相互独立;设母体1,nXX; )/,(2nNX(1 1)(2 2)2( ,)XN 则(3) 1()() 1(2222nXXsni统计学-ch5 suyl63 (1)/Xt nSn 抽样分布定理定理定理6-2:设总体XN(,2),X1, ,Xn 为来自总体X的一个容量为n的样本,则统计学-ch5 suyl642(1) (,)(2) (0,1) /XNnXNSn推论:推论:设X1, ,Xn 为来自任意总体X的一个容量为n的样本,若E(X)=,D(X)=20存在,当n较大时,近似地有统计学-ch5 suyl65定理定理6-3.6-3.两个总体的统计量的分布两个总体的统计量的分布12121112222212111211 11()()11nniiiinniiiiXXYYnnSXXSYYnn 22112222121212(,), (,) (,)XNYNXYNnn设 则统计学-ch5 suyl6622121212(,)XYNnn抽样分布定理定理定理6-3:设两独立总体XN(1,12), YN(2,22) ,则统计量12221212()(0,1)XYNnn从而有:统计学-ch5 suyl6712121222112212211222( )() (2) 11(1)(1) 2 (2) (1,1) wwXYTt nnSnnnSnSSnnSF nnS (1)抽样分布定理定理定理6-4:设两独立且等方差总体XN(1,2), YN(2,2) ,则统计量其中统计学-ch5 suyl68 在这三大分布确立之后,讨论统计量的分布就十分容易了。比如统计学-ch5 suyl69 分布分布 :2 用途:讨论某种工艺生产的产品质量是否稳定,是估计总体方差的问题。对总体的方差进行估计时,必须利用样本的方差那么样本的方差服从什么分布?)1/()(122nxxSii统计学-ch5 suyl70 分布: t用途:对总体的均值进行推断时,通常情况下总体方差是未知的,这就意味着,统计量中含有未知的参数,如果我们用样本的修正方差 代换总体的方差,则上式变为 它不服从标准正态分布,而服从 分布。在总体方差 未知时,推断总体均值,需考虑 统计量。nxz ) 1/()(122nxxSii2 nSxttt统计学-ch5 suyl71F分布用途:在实际的统计分析工作中,我们常常遇到讨论两个总体的方差是否相等的问题。比如某个工厂采用两种不同的工艺生产某种产品,欲了解哪一种工艺的质量稳定,则需要讨论起质量指标的方差是否相等。 ?2221 ?12221