广义线性模型_三_.pdf
《广义线性模型_三_.pdf》由会员分享,可在线阅读,更多相关《广义线性模型_三_.pdf(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 文章编号:10021566(2003)01005107广义线性模型(三)陈希孺(中国科学院研究生院,北京 100039)摘 要:本讲座是广义线性模型这个题目的一个比较系统的介绍。主要分3部分:建模、统计分析与模型选择和诊断。写作时依据的主要参考资料是L.Fahrmeir等人的 Multivariate StatisticalModeling Based on Generalized Linear Models。关键词:广义线性模型;建模;统计分析;模型选择和诊断中图分类号:O212文献标识码:AGeneralized linear modelsCHEN Xi2ru(Graduate Scho
2、ol of Chinese Academia of Science,Beijing 100039,China)Abstract:This set of articles gives an introduction to generalized linear models.They can be divided into three parts:Model building,Statistical inference and Model diagnostics.The presentation is mainly based on L.Fahrmeir et al.Multivariate St
3、atistical Modeling Based on Generalized Linear Models.Key words:generalized linear models;model building;statistical inference;model diagnostics(四)状态有序的情况在旅行交通工具的例中,火车、汽车、轮船、飞机等状态,可以认为是“无序”的。一则因为对其优劣次序的看法因人而异,二则即使同一个人,在不同情况下的排序也不同。在有些问题中,目标状态有公认的优劣次序,如病情分1、2、3期,产品品质分1、2、3和等外等等级,都是公认的由好到不好的次序。注意:即使在这
4、种场合,其序号(1,2,)也无数量意义。例1.7呼吸测验:目标Y分3状态:正常、边缘、不正常。自变量2个:年龄,分 40和40-59两级,吸烟史:分“从不吸烟”、“以前级”、“现在吸”3级,数据:例1.8找工作前景的调查调查某大学心理系即将毕业的学生对照工作前景的预期反应分3种:1.不预期能找到合适工作。2.不清楚。3.预期毕业后可立即找到工作。数据:年龄吸烟史结果(人数)正常边缘 不正常40从不吸577277以前吸192203现在吸682461140-59从不吸16440以前吸145157现在吸2454727 大多数有序模型是按下述机制产生:有一个(或几个,此处只考虑一个的情形)明显或潜在的
5、变量U及门限-=01k-1k=,而定Y=r,当且仅当r-1 r|x)=r+x,logP(Yr|x)P(Y r|x)=er+x(1.74)由(1.74)推出:对两组不同的x值x1和x2,有P(Yr|x1)P(Y r|x1)P(Yr|x2)P(Y r|x2)=exp(x1-x2)(1.75)与r无关。若(x1-x2)0,则(1.75)右边 1,因此在x1之下Y取小值的概率。大于在x2之下Y取小值的概率。我们称Y|x1随机的小于Y|x2。反之,若(x1-x2)r|x)=1-F(r+x)=exp(-er+x)(1.76)因此log(-logP(Y r|x)=r+x(1.77)3.极大值分布模型F为极大
6、值分布:F(t)=exp(-e-t),有P(Yr|x)=exp(-er+x)-log(-logP(Yr|x)=r+x(1.78)模型2和3在统计分析方法的角度看是等价的,事实上,若命?Y=(k+1)-Y,则由(1.78)知25中文核心期刊 数理统计与管理 22卷 1期 2003年1月 log(-logP(?Y k+1-r|x)=-r-x(1.79)令?j=-k+1-j,?=-,(1.79)成为log(-logP(?Y k+1-r|x)=?k+1-r+x?,r=1,2,即log(-logP(?Y r|x)=?r+x?(1.80)(1.80)与(1.77)完全一致。因此,把Y的数据转化为?Y,按模
7、型2分析,得(1.77)中r、的估计r、,则模型(1.78)中的r和的估计分别为-k+1-r和-。这3个分布的图形如图三所示。图三看出在小值处,模型1、2接近,而在大值处则模型1、3接近。图中的虚线显示因-x而产生的分布位移,这种位移影响到取各序值概率的大小。积累线性模型的联系函数35广义线性模型(三)仍按前面的记号,记(j)=P(Y=j),j=1,q(q=k-1),=(1),(q)Z(x)=1z(0)(x)11z(0)(x),=1q(1.81)此处已把(1.71)改成较一般的形式U=-z(0)(x)+e(1.82)z(0)(x)由x产生,例如可包含x分量的某些平方项及交互乘积项(交互作用)等
8、。找联系函数(q维)g,使满足g()=g1()gq()=Z(x)=1+z(0)(x)q+z(0)(x)(1.83)把(1.83)与(1.72)对照,注意到P(Yr|x)=(1)+(r),r=1,q(1.84)立即得到(注)gr()=F-1(1)+(r),r=1,q(1.85)由F(-1)(1)+(r)=r+z(0)(x),r=1,q 解出,以得到g的反函数h:(1)+(r)=F(r+z(0)(x),r=1,q(1.86)依次令r=1,2,得(注意到1=-,(1.87)中(r)公式对r=1也对)(1)=F(1+z(0)(x)(r)=F(r+z(0)(x)+F(r-1+z(0)(x),r=2,q,
9、(1.87)注:在前面讨论过的模型中,联系函数有挑选余地。在此处则不然:满足(1.83)的g由模型定了下来(即(1.85),并无选择余地。因此,它可能是也可能不是自然联系函数,但模型中的分布F有挑选余地,故似可挑选之,使由(1.85)决定的g是自然联系函数。我们来看看是否有可能。如将多项分布的概率密度写出,记Y=(Y(1),Y(q)(回忆Y(1),Y(q)是哑变量),有P(Y=(y(1),y(q)=y)=c(y)y(1)(1)y(q)(q)(1-6q1(j)1-6q1y(j)=c(y)7qj=1(j)1-|)y(j)(1-|),|=6qj=1(j)令(j)=log(j)1-|,j=1,q则lo
10、g(j)1-|=log(1+6qj=1e(j)b()=(1),(q),而P(Y=y)=c(y)exp(y-b()自然联系函数要满足=Z,在此例为log(j)1-|=j+z(0)(x),j=1,q45中文核心期刊 数理统计与管理 22卷 1期 2003年1月 故由(1.85)式下面的式子,知应用F-1(1)+(r)=log(r)1-|,r=1,q(A)因(A)式应对一切满足条件(j)0,6q1(j)1的(1),(q)成立,令r=1,(j)0,j2,有F-1(1)=log(1)/1-(1),即F-1(a)=loga1-a,对一切a:(0,1)。令a=(1)+(r),将有F-1(1)+(r)=log
11、(1)+(q)1-(1)+(r)(B)(A)、(B)右边不一致,说明满足(A)的F不存在,即自然联系函数不存在。于是得g-1=h=(h1,hq),其中(1.88)中hr(t)公式对r=1也对)h1(t)=F(1+t),hr(t)=F(r+t)-F(r-1+t),r=2,q(1.88)而(=EY)=h(x),(x)=Z(x),Z(x)见(1.83)。此处的=EY中的Y已不是(1.84)中那个Y,而是已哑变量化,即Y=Y(1),Y(q),其中Y(j)=1当Y=j(Y为(1.84)中的Y),Y(j)=0当Yj。特别,对logisic模型,有F(t)=et/(1+et),而(1.88)成为h1(t)=
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 广义 线性 模型
限制150内