《次序统计量及其分布课件.ppt》由会员分享,可在线阅读,更多相关《次序统计量及其分布课件.ppt(24页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、5.3 次序统计量及其分布次序统计量及其分布定义定义定义定义 5-3-1:设设为取自总体为取自总体X的样本,的样本,将其按大小顺序排序将其按大小顺序排序 则称则称 X(k)为第为第 k 个次序统计量个次序统计量(No.k Order Statistic)特别地,称特别地,称(5-3-1)为最小顺序统计量为最小顺序统计量(Minimum order Statistic)称称(5-3-2)为最大顺序统计量为最大顺序统计量(Maximum order Statistic)。1例例5-3-1:设总体:设总体X的分布为仅取的分布为仅取 0,1,2 的离散均的离散均匀分布,其分布列为匀分布,其分布列为x
2、0 1 2p现从中抽取容量为现从中抽取容量为 3 的样本,其一切可能取值有的样本,其一切可能取值有种,现将它们以及由它们所构成的次序统种,现将它们以及由它们所构成的次序统计量计量 的一切可能值列在表中的一切可能值列在表中(P243),由此可给出由此可给出的分布列如下:的分布列如下:X(1)012P19/277/271/27X(2)012P7/2713/277/27X(3)012P1/277/2719/272可见这三个次序统计量的分布是不相同的。可见这三个次序统计量的分布是不相同的。进一步,我们可以给出两个次序统计量的联合分布,进一步,我们可以给出两个次序统计量的联合分布,如如 x(1)和和 x
3、(2)的联合分布列为的联合分布列为 x(2)x(1)01207/279/273/27104/273/272001/27易于看出易于看出不等于不等于即即 x(1)和和 x(2)是不独立的。是不独立的。3次序统计量的分布次序统计量的分布(一)单个次序统计量的分布(一)单个次序统计量的分布定理定理 5-3-1:设总体:设总体X的密度函数为的密度函数为 p(x),分布函数,分布函数为为 F(x),x1,x2,xn 为样本,则第为样本,则第 k 个次序统计个次序统计量量 x(k)的密度函数为的密度函数为(5-3-3)证明:证明:对任意的实数对任意的实数 x,考虑次序统计量,考虑次序统计量 x(k)取值落
4、取值落在小区间在小区间(x,x+x 内这一事件,它等价于内这一事件,它等价于“样本样本容量为容量为 n 的样本中有的样本中有 1 个观测值落在区间个观测值落在区间 (x,x+x 之间,而有之间,而有 k-1 个观测值小于等于个观测值小于等于 x,有,有 n-k 个观个观测值大于测值大于 x+x”,其直观示意图见下图,其直观示意图见下图 5-8.4 x x+xn-kk-11图图 58 x(k)的取值示意图的取值示意图样本的每一分量小于等于样本的每一分量小于等于 x 的概率为的概率为 F(x),落入区落入区间间(x,x+x 概率为概率为F(x+x)-F(x),落入区间落入区间(x+x,b的概率为的
5、概率为 1-F(x+x),而将,而将 n 个分量分成这个分量分成这样的三组,总的分法有样的三组,总的分法有种,于是,若以种,于是,若以 Fk(x)记记 x(k)的分布函数,则由多的分布函数,则由多项分布可得项分布可得5两边同除以两边同除以 x,并令并令 x0,即有即有推论推论1:最大次序统计量:最大次序统计量 x(n)的概率密度函数为的概率密度函数为推论推论2:最小次序统计量:最小次序统计量 x(1)的概率密度函数为的概率密度函数为(5-3-4)(5-3-5)6例例 5-3-2:设总体设总体X 的密度函数为的密度函数为现从该总体中抽得一个容量为现从该总体中抽得一个容量为 5 的样本,试计算的样
6、本,试计算解:解:我们首先应求出我们首先应求出 x(2)的分布。由总体密度函数的分布。由总体密度函数不难求出总体分布函数为不难求出总体分布函数为由公式(由公式(5-3-3)可以得到)可以得到 x(2)的密度函数为的密度函数为7于是于是8(二)多个次序统计量的联合分布(二)多个次序统计量的联合分布仅讨论任意二个次序统计量的情形。仅讨论任意二个次序统计量的情形。定理定理 5-3-2:设总体:设总体 有密度函数有密度函数 f(x),a x b,(同样可设(同样可设 a=-,b=+)。并且。并且 1,2,n 是是取自取自这这一一总总体的一个体的一个样样本,本,则则其任意两个次序其任意两个次序统计统计量
7、量 (1)(2)的的联联合分布密度函数合分布密度函数为为(5-3-6)证明:对增量证明:对增量 y,z 以及以及 y 0 可以推出可以推出则则该分布参数为该分布参数为(n-1,2)的贝塔分布。的贝塔分布。12总体分位数与样本分位数总体分位数与样本分位数(一)总体分位数(一)总体分位数定义定义5-3-2:设总体设总体 X 的分布函数为的分布函数为 F(x),满足,满足(5-3-7)的的 x称称为为 X 的的 分位数,如下分位数,如下图图所示。所示。几种常用分布几种常用分布 的分位数的分位数13都在书后附表中可以查到。其中都在书后附表中可以查到。其中 N(0,1)是分布函是分布函数表数表(x)反过
8、来查,而其它几个分布反过来查,而其它几个分布,则是分别则是分别对给出对给出 的几个的常用值如的几个的常用值如=0,0.25,0.05,0.1,0.9,0.95,0.975 等等,列出相应分布对应值的等等,列出相应分布对应值的 分分位点。图位点。图 5-9 给出了四种常用分布的给出了四种常用分布的 分位点表示分位点表示方法,其中方法,其中 N(0,1)的的 分位点通常记成分位点通常记成 u.图图 5-914这里要注意到如下几个有用的事实。这里要注意到如下几个有用的事实。,要求的分位数,要求的分位数 x,可化成求可化成求1)若若N(0,1)的分位数的分位数.此时,此时,故故从而从而2)对于对于 T
9、 t(n),由密度函数的对称性可知,由密度函数的对称性可知即即(5-3-8)(5-3-9)153)对于)对于 F分布分布由于由于所以所以即即(5-3-10)16(二)样本分位数(二)样本分位数定义定义5-3-3:设:设为取自总体为取自总体 X 的次序统计量,称的次序统计量,称 mp为样本为样本 p 分位数分位数。(。(Sample p Quantile)特别地,当特别地,当 p=时,称时,称 mp 为为样本中位数样本中位数。(5-3-11)(5-3-12)17对多数总体而言,要给出样本对多数总体而言,要给出样本 p 分位数的精确分布分位数的精确分布通常不是一件容易的事,但当通常不是一件容易的事
10、,但当 n+时,样本时,样本 p 分分位数的渐近分布有比较简单的表达式,我们这里不位数的渐近分布有比较简单的表达式,我们这里不加证明地给出如下定理。加证明地给出如下定理。定理定理 5-3-4:设总体密度函数为:设总体密度函数为 f(x),xp 为其为其 p 分位分位数,数,f(x)在在 xp 处连续且处连续且 f(x)0,则当则当 n+时,时,样本样本 p 分位数分位数 mp 的渐近分布为的渐近分布为特别地,对样本中位数有特别地,对样本中位数有(5-3-13)18例例5-3-2:设总体设总体 X 为柯西分布,其密度函数为为柯西分布,其密度函数为其分布函数为其分布函数为易知,易知,是是该总该总体
11、的中位数,即体的中位数,即 x =.设设是来自该总体的样本,则是来自该总体的样本,则当样本容量当样本容量 n 较大时,样本中位数较大时,样本中位数 m 0.5 的渐近分布的渐近分布为为19五数概括与箱线图五数概括与箱线图次序统计量的应用之一就是五数概括与箱线图。在次序统计量的应用之一就是五数概括与箱线图。在得到有序样本后,容易计算如下五个值:得到有序样本后,容易计算如下五个值:最小观测值最小观测值 x min=x(1);最大观测值最大观测值 x max=x(n);中位数中位数 m 0.5;第一第一 4 分位数分位数 Q 1=m 0.25第三第三 4 分位数分位数 Q3=m 0.75。所谓五数概
12、括就是指用这五个数来大致描述一批数所谓五数概括就是指用这五个数来大致描述一批数据的轮廓。据的轮廓。20例例 5-3-4:表:表 55 是某厂是某厂 160 名销售人员某月的销名销售人员某月的销售量数据的有序样本,由该批数据可计算得到:售量数据的有序样本,由该批数据可计算得到:五数概括的图形表示称为箱线图,由箱子和线段组成。五数概括的图形表示称为箱线图,由箱子和线段组成。图图5-11 是该例中样本数据的箱线图,其作法如下是该例中样本数据的箱线图,其作法如下下面就通过一个具体的实例说明之。下面就通过一个具体的实例说明之。214574768087919293959698991041061111131
13、171201221221241261271271291291301311311331341341351361371371391411411431451481491491491501501531531531531541571601601621631631651651671671681701711721731741751751761781781781791791791801811811881891891911911911921921941941941941951961971971981981981992002012022042042052052062072102142142152152162172
14、18219219221221221221221222223223224227227228229232234234238240242242242244246253253255258282290314319表表 511 某厂某厂 160 名销售员的月销售量的有序样本名销售员的月销售量的有序样本22(1)画一个箱子,其两侧恰为第一)画一个箱子,其两侧恰为第一 4 分位数和第三分位数和第三 4 分位数,在中位数位置上画一条竖线,它在箱子分位数,在中位数位置上画一条竖线,它在箱子内,这个箱子包含了样本中内,这个箱子包含了样本中 50%的数据;的数据;45 144 181 212 319图图 5-11 月
15、销售量数据的箱线图月销售量数据的箱线图(2)在箱子左右两侧各引出一条水平线,分别至最)在箱子左右两侧各引出一条水平线,分别至最小值和最大值为止,每条线段包含了样本中小值和最大值为止,每条线段包含了样本中 25%的的数据。数据。箱线图可用来对数据分布的形状进行大致的判断。箱线图可用来对数据分布的形状进行大致的判断。图图 5-12 给出三种常见的箱线图,分别对应对称分布、给出三种常见的箱线图,分别对应对称分布、左偏分布和右偏分布。左偏分布和右偏分布。23 左偏左偏 对称对称 右偏右偏图图 5-12 三种常见的箱线图及其对应的分布轮廓三种常见的箱线图及其对应的分布轮廓如果我们要对几批数据进行比较,则可以在一张纸如果我们要对几批数据进行比较,则可以在一张纸上同时画出这批数据的箱线图。图上同时画出这批数据的箱线图。图 513 是某厂是某厂 20 天生产的某种产品的直径数据画成的箱线图,从图天生产的某种产品的直径数据画成的箱线图,从图中可以清楚地看出,第中可以清楚地看出,第 17 天的产品出现了异常。天的产品出现了异常。1 2 3 4 5 6 7 8 9 10 12 14 16 18 2030405024
限制150内