高等统计3.pdf
2.2 充分统计量与完备统计量充分统计量与完备统计量 对样本进行加工,将样本中分散的信息浓缩集中起来。因对样本进行加工,将样本中分散的信息浓缩集中起来。因为样本包含了总体的分布信息,而样本是为样本包含了总体的分布信息,而样本是 n 维的,这些信息维的,这些信息是分散到样本的每个分量上的,因此直接从样本出发来推断是分散到样本的每个分量上的,因此直接从样本出发来推断总体是不方便的,由此引发出统计量。总体是不方便的,由此引发出统计量。统计量:通常称样本统计量:通常称样本n21X,X,XL的函数的函数 g(n21X,X,XL)为统为统计量,这里计量,这里 g 是完全已知的函数,一旦样本是完全已知的函数,一旦样本n21X,X,XL的值的值取定,统计量的值就可以算出来。取定,统计量的值就可以算出来。注:为了进行严密的数学研究,通常假定注:为了进行严密的数学研究,通常假定 g 是是 Borel 可测函可测函数。数。例例 设某个总体设某个总体 X 的分布具有均值的分布具有均值,方差,方差2,n21X,X,XL为取自该总体的样本。则此样本的每个分量为取自该总体的样本。则此样本的每个分量iX的分布的均值为的分布的均值为,方差为,方差为2。则。则iX与与的分散程度可用的分散程度可用2来衡量。来衡量。2越小,则越小,则iX与与的集中程度越高;反之,的集中程度越高;反之,2越越大,则大,则iX与与集中程度越低。因此可认为每个集中程度越低。因此可认为每个iX都包含了都包含了关于总体均值的信息,而关于总体均值的信息,而2的大小反映了包含信息的多少:的大小反映了包含信息的多少:2越大,则越大,则iX包含信息越多;反之包含信息越多;反之2越小,则越小,则iX包含包含信息越少。现构造样本均值信息越少。现构造样本均值X这一统计量,这一统计量,X的分布的均值的分布的均值为为,方差为,方差为n/2。因此。因此X中包含中包含关于关于的信息的信息(用(用2n度度量量)远远多于任)远远多于任一分量。这一分量。这正正是将样本中是将样本中所所有有关于关于的信的信息息都都集中起来的集中起来的缘故缘故,不,不仅如仅如此,此,X中包含样本中中包含样本中所所有有关于关于的信息与的信息与 n 成正比。这是因为样本容量越大时,样本中所成正比。这是因为样本容量越大时,样本中所包含关于包含关于的信息越多。为了估计样本均值,人们把样本加的信息越多。为了估计样本均值,人们把样本加工成样本均值,这种加工本质上是统计量压缩数据功能的体工成样本均值,这种加工本质上是统计量压缩数据功能的体现。直观上看,样本的不同的观察值,统计量现。直观上看,样本的不同的观察值,统计量 T=X有有相同相同的值。的值。譬如譬如,改变改变样本样本观察观察的的排列顺序排列顺序,不,不会改变会改变 T 的值,的值,这就是统计量这就是统计量“压“压缩数缩数据”据”的的功能功能。一一、充分统计量充分统计量 我们要用我们要用样本推断总体分布的样本推断总体分布的未未知知参参数,为此来数,为此来构造适构造适当当的统计量。的统计量。显然显然,一个,一个“好”“好”的统计量的统计量应应该该能够把能够把样本中样本中所所包含的包含的关于未关于未知知参参数的信息全数的信息全部部集中起来。集中起来。如何如何将这样一将这样一个直个直观观的的想法用想法用严严格格的数学的数学形式表示呢?英国著名形式表示呢?英国著名的统计的统计学学家家 R.A.Fisher 在在 20 世纪提世纪提出了一个出了一个重要重要的的概念概念:充分统:充分统计量。计量。我们先我们先给给出定出定义义,然然后再后再来来解释它解释它的含的含义义。定定义义:设:设 T=T(n21X,X,XL)为一个为一个一维一维或或多多维的维的统计量,统计量,给给定定 T 时时,样本,样本(n21X,X,XL)的的条件条件分布与分布与无无关关,则称,则称 T为为关于关于的充分统计量。的充分统计量。充分统计量的含充分统计量的含义义可以这样来可以这样来解释解释:样本中包含:样本中包含关于关于总总体分布中体分布中未未知知参参数数的信息,是因为样本分布与的信息,是因为样本分布与有有关关。对。对于于统计量统计量 T,如如果果我们我们已已经经知知道它道它的值以的值以后后,样本分布与,样本分布与无无关关,这就,这就意味着意味着样本的样本的其余其余部部分不分不再再包含包含关于关于的信息。的信息。换换言言之之,在在 T 中包含了中包含了关于关于的全的全部部信息,因此信息,因此要要作作出出关于关于的统计推断的统计推断只需只需从从 T 出发出发即即可。这就是可。这就是“充分统计量充分统计量”这个这个词的含义。为了进一步说明这个道理,我们先看一个例子。词的含义。为了进一步说明这个道理,我们先看一个例子。例:设例:设n21X,X,XL是来自两点分布是来自两点分布 B(1,)的样本,即的样本,即=1)0X(P,)1X(Pii,且,且=n1iiXT,下面说明,下面说明 T 是是的充分统计量。的充分统计量。=txC1)1(C)1()tT(P)tT,xX,xX,xX(P)tTxX,xX,xX(Pitntnttntntnn2211nn2211LL 因此因此 T 是是的充分统计量。的充分统计量。进一进一步步,我们我们利利用用 T=t,设计一个,设计一个随机试验随机试验,使其产生使其产生与与样 本样 本X=(n21X,X,XL)有有 相 同相 同 分 布 的分 布 的 新新 样 本样 本)X,X,X(Xn21=L。定。定义随机试验义随机试验:把把 t 个个 1 和和 n-t 个个 0随机随机排列排列,任任一个这样的一个这样的排列排列出出现都现都是是等等可可能能的。的。若记若记ix为为第第 i 个个位置位置上的数,则上的数,则ix非非 0 即即 1,这样,这样得得到的到的)x,x,x(n21L是是新新样本样本)X,X,X(Xn21=L的的观察观察值。这个值。这个新新样本样本X虽虽然然不不能能与与旧旧样本完全样本完全相同相同,但但是是X与与在在条条件件 T=t 下下 X 的的条件条件概概率率是是相同相同的,的,都都等等于于1tn)C(,故故)xX,xX,xX(PC1)tTxX,xX,xX(Pnn2211tnnn2211=LL 由由于我们所于我们所设计的设计的随机试验随机试验是是在在已知已知 T的的条件下条件下,不含,不含任何任何信息,信息,所所以以旧旧样本样本所所含含的信息全的信息全部在部在统计量统计量 T 中。中。例:设样本例:设样本.d.i.iX,X21,均,均服服从从正正态态分布分布)1,(N,其其中中为为未未知知参参数,则可数,则可证明证明2!XXT+=为为的充分统计量。的充分统计量。因因子子分分解解定定理理:根根据据充分统计量的定充分统计量的定义及其解释义及其解释,在在对总体对总体未未知知参参数数进行推断进行推断时时,应在应在可可能能的的情况下尽情况下尽量量找找出出关于未关于未知知参参数的数的充分统计量。充分统计量。但但是直接是直接根根据据定定义义来来验证验证一个统计量是一个统计量是否否是是充分的是不充分的是不太太方便的,为此方便的,为此需需要要一个一个简单简单的的判别准判别准则。则。下下面介绍面介绍一个一个判判断统计量是断统计量是否否是充分的是充分的非非常常重要重要而而且使且使用用方便的方便的准准则。为则。为简化记号简化记号,用用 X 记记样本。样本。定定理理(因因子子分分解解定定理理)设样本设样本 X 的的概概率率函数函数或或密密度度函数函数为为 p(x,),其其中中为为未未知知参参数,则数,则 T=T(X)为为的充分的充分统计量统计量当当且且仅当仅当:p(x;)=g(T(x);)h(x)其其中中 g(T(x);)仅仅通通过过 T 表示表示为样本为样本及及的函数,的函数,h(x)与与无无关关。证明证明:由:由于于数学工具的数学工具的限制限制,下面只给下面只给出出在在离离散散场合下场合下的的证明。证明。先证充分性先证充分性:设设,x,x21L是是 X 的所有可能取值所组成的集合,再设的所有可能取值所组成的集合,再设)x(Ttii=,则,则T(X)是 离 散 型 随 机 变 量,且是 离 散 型 随 机 变 量,且=ii1)tT(P,对任意,对任意均成立。由离散型情况下的条均成立。由离散型情况下的条件概率的定义,只须指出在件概率的定义,只须指出在)tTxX(P,2,1i,0)tT(Piji=L与与无无关关即即可。可。必必要要性性:例例:设设 X=(n21X,X,XL)是来自均是来自均匀匀分布分布 U(0,)的一个样的一个样本,本,求求的充分统计量。的充分统计量。解解:样本的:样本的联合联合密密度度函数为函数为:例:设样本例:设样本.d.i.iX,X,Xn21L,服服从密从密度度为为 0 xe1),x(px=的的指指数分布,数分布,其其中中(0)为为未未知知参参数,则可数,则可证明证明in1iXT=为为的充分统计量。的充分统计量。例:设例:设 X=(n21X,X,XL)是来自是来自两两参参数数指指数分布的一个数分布的一个样本,样本,其其总体的密总体的密度度为为:=x0 x)xexp(1),;x(p 求求:(,)的充分统计量。的充分统计量。二二、完备统计量完备统计量 定定义义:设对某样本分布:设对某样本分布族族P=:p,统计量统计量T满足满足条件条件:若若对对 T 的的任任一函数一函数 g(T),满足满足,0)T(gE=则一定有则一定有=,1)0)T(g(P;就称就称 T 为分布为分布族族 P 的完备统计量。的完备统计量。这这实实质质上上也也是是T的分布的分布族族的的性性质质,或或称称T的分布的分布族族是完备的。是完备的。例:设例:设n21X,X,XL是来自是来自 Poisson 分布分布 P()的一个样本,的一个样本,令令in1iXT=,则,则 T 是一充分完备统计量。是一充分完备统计量。例:例:正正态态分布分布族族R),0(N2+是不完备的。是不完备的。23 指指数数族族 符符号说明号说明:P 表示表示对对应于应于某某参参数值数值的分布。假定的分布。假定PX,X 的分布函数的分布函数记记为为 F(,),密,密度度函数函数或或概概率率函数函数记记为为 p(,)。一一、单单参参数数指指数数族族 一个一个模模型型的分布的分布族族:p称为称为单指单指数数族族,如如果果存存在在 上的上的实实值函数值函数 c(),d(),nR上的上的实实值函数值函数 T 和和 S以以及及一个集一个集合合 AnR,使得使得p的密的密度度或或概概率率函数函数),x(p可可以以表示表示为:为:)x(I)x(S)(d)x(T)(cexp),x(pA+=这里这里)x(IA是集合是集合 A 的示性函数,注意函数的示性函数,注意函数 c,d,S,T不是唯一的,集合不是唯一的,集合 A 不依赖于不依赖于。因为因为)()(exp)()()(exp),(xIxSdxTcxpA+=g(T(x),)h(x)假设样本的分布为指数分布族,由因子分解定理知假设样本的分布为指数分布族,由因子分解定理知 T(X)关于关于是充分的,我们称是充分的,我们称 T(X)为这个族的自然充分统计)为这个族的自然充分统计量。量。例:二项分布族例:二项分布族 P10),n(B=的总体样本,则充分统计量的总体样本,则充分统计量21iniXT=的的期望期望,方差分,方差分别别为为422n4n,n2n=。二二、K 维维参参数数指指数数族族 自自然形式然形式的的单单参参数数指指数分布数分布族族的的参参数为数为(一维的一维的),充分,充分统计量统计量 T(X)()(是一维的是一维的),K 维维参参数数指指数数族族中的自中的自然参然参数数是是 K 维的,维的,并并且其且其充分统计量充分统计量也也是是 K 维维随机随机向向量。量。定定义义:一个分布:一个分布族族:p称为称为 K 维维参参数的数的指指数分布数分布族族,如如果果存存在在的的实实值函数值函数)(ic和和 d(),nR在上上存存在在实实值函数值函数k21T,T,TL,S 和和集集合合 AnR,使得使得p的密的密度度函数函数(或或概概率率函数函数)可以可以写写成成:)x(I)x(S)(d)x(T)(cexp),x(pAk1iii=+=注注意意:对:对任任意意KK,K 维维参参数数指指数数族族还还是是K维维参参数数指指数数族族。由因由因子子分分解解定定理理,T(X)=()X(T,),X(T),X(Tk21L)是是的充分统计量。的充分统计量。例:例:(具有具有未未知均值知均值和和方差的方差的族族)假设假设 +=p,0,:),(),(Np222则的密的密度度函数函数 )2ln(212xxexp),;x(p222222+=这里这里RA,0)x(S),2ln(21)(d,x)x(T,21)(c,x)x(T,)(c2222222121=+=假设假设 X=(m21X,X,XL)是来自总体是来自总体 k 维维参参数的数的指指数数族族,则则 X 的分布的分布还还是是 k 维维指指数分布数分布族族,自,自然然充分统计量充分统计量)X(TXTXTXT)m(rkm1rr1m1rm),且(,),()()(=L也也是是 k 维维参参数的数的指指数数族族。