2022年2022年广义线性模型_十_ .pdf
《2022年2022年广义线性模型_十_ .pdf》由会员分享,可在线阅读,更多相关《2022年2022年广义线性模型_十_ .pdf(8页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、文章编号:10021566(2004)02007308广义线性模型(十)陈希孺(中国科学院研究生院,北京 100039)摘 要:本讲座是广义线性模型这个题目的一个比较系统的介绍。主要分3部分:建模、统计分析与模 型 选 择 和 诊 断。写 作 时 依 据 的 主 要 参 考 资 料 是L.Fahrmeir等 人 的MultivariateStatisticalModeling Basedon GeneralizedLinear Models。关键词:广义线性模型;建模;统计分析;模型选择和诊断中图分类号:O212文献标识码:AGeneralized linear modelsCHEN Xi2r
2、u(Graduate Schoolof ChineseAcademia of Science,Beijing 100039,China)Abstract:This setof articles gives an introduction to generalizedlinear models.They can be divided into three parts:Modelbuilding,Statistical inference and Model diagnostics.The presentation is mainly based on L.Fahrmeir et al.Multi
3、variateStatistical Modeling Based on GeneralizedLinear Models.Key words:generalizedlinear models;model building;statistical inference;model diagnostics3.3 诊断问题这是一个内涵不很确定,方法也不很规范的问题。一般在讲到这个题目时多要涉及以下几方面的内容:1.强影响点,即样本中对决定模型有较强影响的那种点。这种点之值得注意,是因为万一它们有较大的误差,将使模型产生较大的偏差。2.残差分析,残差是指因变量观测值Yi与其由模型估计的“理论值”Yi的
4、差。残差的整体状况对研判模型的正确性即数据中有无异常有用,这后一方面就是。3.异常值检测。所谓“异常值”是指那种样本点,它因受到某种系统性因素的影响(如记录错误)而带有很大的误差,表现为其取值远离其它样本之值。这种值起的作用总是负面的,异常值检测的目的就是发现这种值并将其从样本中剔除。即使在最简单的正态线性回归场合,也不能说对以上几个问题有了理论上坚实且(尤其重要的)在应用上行之有效的整套方法,更遑论远为复杂的广义线性模型了。因此,以下所讲的只宜被看作一些原则性的指点,其成功的使用在很大程度上依赖于经验以及对所论问题的专业知识和实际背景的了解。(一)帽子矩阵与高杠杆点先从最简单的线性回归来讲,
5、比较容易理解。设有模型Yi=0+xi0+ei,i=1,n(3.14)37广义线性模型(十)?1994-2007 China Academic Journal Electronic Publishing House.All rights reserved.http:/名师资料总结-精品资料欢迎下载-名师精心整理-第 1 页,共 8 页 -记 0=00,X3=1x11xn,Y=Y1Yn,e=e1en可将(3.14)写为 Y=X30+e(3.15)按 LS 估计,得 0的估计=S3-1X3Y,S3=X3X3于是由(3.15),得Y依模型得到的估计,即其“理论值”为Y=X3S3-1X3Y=PxY(3.
6、16)Px为X3的列向量空间的投影阵。因为它是由Y产生“Y加帽子”的矩阵,故常称为“帽子矩阵”并记为H:H=PX(3.17)假定(3.14)中的ei满足 G auss-Markov条件:Ee=0,Cov(e)=2In(In:n阶单位阵)(3.18)则残差 Y-Y=(I-H)Y(3.19)的期望为 0,因E=(I-H)EY=(I-H)X30=0(后一式由于X3=HX3)而协方差阵为COV()=2(I-H)(3.20)这里用到I-H为幂等阵。特别,记=(1,n),i=Yi-Yi,记H=(hij),有Var(i)=2(1-hii),i=1,n(3.21)(因H为投影阵,有 0 hii1,故 0 Va
7、r(i)2)从(3.21)式看出:若hii1,则Var(i)=Var(Yi-Yi)0。结合E(Yi-Yi)=0,有yi-yi0。这意思是:在(xi,yi)这个点,经验值yi与其理论值yi拟合得特别好,或者说,这样的点有把经验回归平面(即由数据估计得的回归平面)拖向自己的倾向。它被称为高杠杆点,名词的直观理由见下面的解释。往证(记号意义见下)hii=(1,xi)S3-11xi=1n+(xi-x)S-1(xi-x)(3.22)为此,记 1=(1,1,1),X=x1xn,x=1nn1xi=1X利用分块矩阵求逆公式:ABB C-1=A-1+A-1BGBA-1-A-1BG-G BA-1 G(3.23)其
8、中A,C为对称方阵,而G=(C-BA-1B)-1。利用此公式,注意到S3=n1XX 1XX(3.24)以及 XX-X11Xn ni=1(xi-x)(xi-x)(3.25)有 S3-1=1n+xS-1x-xS-1-S-1xS-1(3.26)因此 hii=1n+xSx-2xiS-1x+xiS-1xi=1n+(xi-x)S-1(xi-x),即(3.22)x是数据x1,xn的中心。(3.22)显示:某点xi距此中心越远,则hii之值愈高 如前所述,47中文核心期刊 数理统计与管理23卷 2期 2004年 3 月?1994-2007 China Academic Journal Electronic P
9、ublishing House.All rights reserved.http:/名师资料总结-精品资料欢迎下载-名师精心整理-第 2 页,共 8 页 -它愈有把经验回归拉向自己的倾向。这一点在x为 1 维时,不难从图形上得到理解:看图 3.1,xi远离x,其hii接近 1,是一个高杠杆点。如果(xi,yi),在 点处(属正常状态),则尚不致太影响经验回归线的基本走向。反之,若(xi,yi)在B处,则它把经验回归线由l至l(拖向自己),而大为影响了经验回归线的走向。看图上,好像有一股力把l的右端抬上去,好像以(x,y)为心的一个杠杆作用。这正是高杠杆点这一名称的由来。反观图 3.2,xi离x
10、近,非高杠杆点。这时,如果(xi,yi)处在离开样本群体较远的位置B,其作用大略是把l平行地带上去一点点而方向变化不大,意味着这不大会影响对回归系数的估计而只是影响了其常数项。从实用上看,回归系数比模型中的常数项更重要,因它反映了所考虑的因素对目标变量的影响,而常数项则只反映原点位置,因此,高杠杆点的影响值得注意。这一点到后面再谈。对高杠杆点要避免一种误解,即认为它是不好的,情况不然。一则样本xi离中心x有远有近,在样本量大时,高杠杆点的存在无可避免。二则xi离中心远,除非yi异乎寻常地“出格”很多,它也不足以使经验回归线转动一个太大的角度。三则如果一切样本xi都云集在其中心x附近,情况反而不
11、好,因为在 G M 模型下有 COV()=2S3-1由此式及(3.26)看出:COV()=2S-1,而S=ni=1(xi-x)(xi-x)。当xi都与x接近时,S会偏小,而S-1偏大,即COV()偏大,这意味着的精度低。高杠杆点的意义只在于,在这个异常的y值会对回归系数的估值造成重大影响,因而值得注意。hii要多大才能算是高杠杆点?这并无公认的规定。根据H为幂等,有ni=1hii=tr(H)=tr(X3S3-1X3)=tr(S3-1X3X3),(p为的维数)=tr(S3-1S3)=tr(Ip+1)=p+1这里假定了n(p+1)矩阵X3的秩为p+1(否则S3-1不存在,H也就只能通过广义逆表示:
12、H=X3S3-1X3,这时仍可证明H为幂等,但其 tr 即其秩是等于X3的秩 2(p+1)/n时认为此点为高杠杆点。如果n相对于p很大,则甚至接近于0 的hii也可能被认为是高杠杆点,不甚合理。另一种判法根据如下的结果:若(3.14)中的(x1,Y1),(xn,Yn)为 iid 多维正态,则57广义线性模型(十)?1994-2007 China Academic Journal Electronic Publishing House.All rights reserved.http:/名师资料总结-精品资料欢迎下载-名师精心整理-第 3 页,共 8 页 -Fn-p-1phii-1/n1-hii
13、F(p,n-p-1)(3.27)选定 :(0,1)(如=0.05,0.01),当FF(p,n-p-1)时,认为F值因而hii值异常之高,即当 hii(n-p-1p+pF(p,n-p-1)/(n-p-1+pF(p,n-p-1)(3.28)时,认该点为高杠杆点。对广义线性模型,则是移植以上的想法。当自变量取离散值时,在x的一个值xj处有若干个(nj个)Y值Yj1,Yjnj,起作用的是这些值的平均Yj而不是单个的Yjk。这是因为Y有指数型分布,因而似然含数gj=1exp(jnjk=1Yjk)(略去与 无关的因子)只依赖于Yj,j=1,g,故的 MLE 也只依赖于Yj,所以,个别Yjk其的作用已综合在
14、Yj中,不必一一去考察,只需看Yj就行。按模型,得 jEy-jh(zi0)的估计为j=h(zin),均方误差为E(Y-j-j)2=E(Y-j-j)-(j-j)2=E(Y-j-j)2+E(j-j)2-2E(Y-j-j)(j-j)J1+J2-2J3(3.29)有 J1=2j/nj,(j2=Var(yjk)(3.30)当n较大时,n0,故近似的有j-j=h(zjn)-h(zj0)Djzj(n-0)Djzj-1nS(0)=Djzj-1ngt=1ztDt-2tnt(y-t-t)(3.31)这里用到了(2.21)(给出 n-0-1nS(0),n见(2.15)以及(2.12)(给出S(0),这里利用了 nt
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年2022年广义线性模型_十_ 2022 广义 线性 模型
限制150内