广义线性模型_六_.pdf
《广义线性模型_六_.pdf》由会员分享,可在线阅读,更多相关《广义线性模型_六_.pdf(10页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、文章编号:1002-1566(2003)04-0055-10广义线性模型(六)陈希孺(中国科学研究生院,北京100039)摘 要:本讲座是广义线性模型这个题目的一个比较系统的介绍。主要分3部分:建模、统计分析与模型选择和诊断。写作时依据的主要参考资料是L.Fahrmeir等人的:Multivariate Statistical Model2ing Based on Generalized Linear Modles。关键词:广义线性模型;建模;统计分析;模型选择和诊断中图分类号:O212 文献标识码:AGeneralized Linear ModlesCHEN Xi2ru(Graduate S
2、chool of Chinese Academia of Science,Beijing 100039,China)Abstract:This set of articles gives an introduction to generalized linear models.They can be divided into three parts:Modelbuilding,Statistical inference and Model diagnostics.The presentation in mainly based onL.Fahrmeir et al.MultivariateSt
3、atisticar Modeling Based on Generalized Linear Modles.Key words:generalized linear models;model building;statistical inference;model diagnostics213 拟似然法到此为止所有的讨论都是在Y服从指数型分布的假定下进行的。这个假定的根据是,我们的目的在于离散数据统计分析,而在一些应用上很重要的情况下,这种数据的分布是二项分布、多项分布、Poisson分布等,它们都属于指数型。但是,在有些情况下,“指数型”这个假定不一定切合实际:当建模时,往往着眼在变量的均值
4、、方差。像二项、多项、Poisson这些分布,都是单参型分布,其均值方差依赖于一个参数。因此方差2是均值的函数:2=(),()称为方差函数。例如对Poisson分布,()=。对二项分布B(m,),=m,2=m(1-)=(1-/m)。对负二项分布NB(r,),2=r+3+2/r等等。但实际数据有时不符合这个关系,如以前提过的所谓“超散布性”(见111末尾):如对二项分布,Ey=,但2可以大于1-/m(若YB(m,),则DY=m,而Var(Y)=m(1-)=(1-/m)。这时,可以证明,不存在一个取0,1,m为值(每个值的概率 0),服从指数分布,而对1满足Var(Y)=E(Y)(1-1mEY)的
5、变量。Y的分布称为负二项分布NB(r,)。55广义线性模型(六)每次试验成功的概率为,失败的概率为1-。给定自然数r,Y=第r次成功时已失败的次数,则P(Y=y)=r-1+yr-1r(1-)y,y=0,1,注:设有指数分布族P(Y=i)=c()d(i)ei,i=0,1,m,则c()0对一切 0,有c()=(mi=0d(i)ei)21E(Y)=c()=(mi=0id(i)eiE(Y2)=c()=(mi=0i2d(i)eiVar(Y)=c()=(mi=0i2d(i)ei-c2()(mi=0id(i)ei)2设Var(Y)=E(Y)(1-E(Y)/m),则mi=0d(i)ei mi=0i2d(i)e
6、i-(mi=0id(i)ei)=mi=0d(i)ei mi=0id(i)ei-1m(mi=0id(i)ei)2比较两边e的系数,有d(0)d(1)=d(0)d(1),得出 0,故d(i)0,i=0,1,m。因此d(0)d(1)0而必须有=1)对Poisson分布也有这个情况。当“超散布性”出现时,样本的均值方差不一致。这时就不能以Poisson分布为模型。以上讲的是这样一种情况:原来样本可以认为服从某种指数型分布,由于相依性及非齐次性(指在同一x之下多次观察的因变量Y并非同分布,因为还有重要因素未纳入x内。这些因素每次观察时取值可以不同(非齐性),因而使Y值有不同的分布)使指数假定不能成立。另
7、有一些情况,一开始就没有充分理由取指数型分布作为模型。这就说明:在实际问题中往往有必要在对变量的分布并未确切的情况下去建模,并发展出相应的统计推断方法。拟似然法就是为了这个目的。对我们此处的问题而言,拟似然法着眼在均值和方差,尤其是前者,即必须对均值有一个比较确切的描述:=EY=h(Z)(2170)如前,z是由自变量x产生的一个向量,是参数,而h就是一个充分光滑的已知函数。如果这一点也做不到,建模就无法进行了。其次,对方差与的关系有一个描述:2=Var(Y)=()(2171)这通常比确定(2170)要难。如在前面“超散布性”这种情况,相依性和非齐次性并不影响均值。所以,如果可能破坏指数性的原因
8、只在这些,它将不影响均值,而(2170)仍可按指数型分布去建立,但方差则不然。由时,有理由认为对不同的x值,“超散布性”只是使方差增加一个与x无关的倍数(已知),则可定()=(按指数型分布所定的方差),1已知(2172)例如对二项分布B(m,)有()=E(29s()9)=ni=1D2i()22i()zizi(2176)在方差设定正确时,有Fn()=COV(s()。可以证明:在一定条件下,当n 时,拟似然方程(2174)以任意接近于1的概率有一解n为0的相合估计,且nN()0,F21nVnF21n)或 V-12nFn(n-0)dN(0,1)(2177)此处Fn,Vn分别是Fn(0)及Vn(0)。
9、解n不一定唯一(实际上,即使方差设定正确,但h1=g非自然联系函数时,解也不一定唯一)。为用于统计推断,必须对(2177)中的Fn,Vn作估计。对Fn的估计用 Fn=Fn(n)(2178)对Vn的估计则不能用Vnn,因Vn()的表达式中包含真方差2i0(),而2i0()并不知道,可以用75广义线性模型(六)QMLE:Quasi MaximumLIkelihood Estimate.Vn=ni=1D2i(n)Yi-h(zin)24inzizi(2.79)估计Vn。在一定条件下可以证明:(2177)的后一极限关系可用 V-12n Fn(n-0)dN(0,1)(2180)所代替,而(2180)可用于
10、统计推断。至于假设检验,Wald检验与以前无异:对原假设C=a用检验统计量(Cn-a)1(C F21n Vn F21nC)21(Cn-a)当它取大值时否定原假设。可以证明:在一定条件下(既:使(2180)成立的那些条件),当原假设成立时,此统计量依分布收敛于x2(r)(C为rp行满秩)。至于其他两个检验,因涉及似然函数,而此处似然函数未知,情况就有所不同。在可能有“超散布性”存在的情况下,方差函数有形状Var(y=V0()(2181)而0()是在无超散分布(即=1)时正确的方差函数。这时有估计 的问题可用估计量n=1m-pmj=1nj(?yj-j)20(j)式中m=样本中x取不同值的个数(如在
11、例111,m=7)把这些值记为x(x),x(m)nj=样本中x=x(f)的个数(如在例111,若x(1)=(110),则n1=28+30=58)。?Yj=上述nj个样本中Y值的平均(如在例111,若x(1)=(110),则?y1=28/58)。j=x=x(f)时,=E(Y)的估计(如在例111,若x(1)=(110),则按前面的表,在logit模型下1=0148),即j=h(Z(j)n)。(Z(j)=Z(x(j)。0(j)=将j代入方差函数0()的结果。如在Y取0,1两值的情况,0(j)=j(1-j)。可以证明:在一定的条件(使极限定理成立)下,且当n增加时m保持有界,nj 对一切j,则n是的
12、相合估计。例111(续)对前章(一)的例111,采用自然联系,利用下表数据,剖腹产事先计划临时决定感 染有 无感 染有 无用抗生素有危险因子没 有11702118700不 用有危险因子没 有283083223309得到回归系数的估计为(此处用(j)记(j)的估计)(0)=21189,(1)=1107,(2)=2103,(3)=23125于是得到估计log感染概率不感染概率=21.89+1.07x1+2.03x2-3.25x385中文核心期刊 数理统计与管理 22卷 4期 2003年7月(回忆:临时决定x1=1;有危险因子x2=1;服用抗生素x3=1)暂把感染概率/不感染概率称为“危险比”,则由
13、上式危险比=e21.89e1.07x1e2.03x2e23.25x3可知最有利的组合是x1=x2=0,x3=1,它的危险比,比之“最不利组合”x1=x1=1,x3=0要小e6132倍,或572倍。有危险因子者其危险比增大(较之无危险因子但其他因素相同者)e2103=716倍。关系最大的是是否服用抗生素,服用者,其危险比缩小e3.2526倍。而临时仓促决定剖腹者,其危险比增大e1.073倍。如果采用Probit模型,即感染概率=(0+1x1+2x2+3x3),N(0,1)则将得0,3的估计分别为?0=21109,?1=0161,?2=1120,?3=21190而得 危险比=1-=(21.09+0
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 广义 线性 模型
限制150内