2022年2022年广义线性模型 .pdf
《2022年2022年广义线性模型 .pdf》由会员分享,可在线阅读,更多相关《2022年2022年广义线性模型 .pdf(35页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1 广义线性模型广义线性模型 *(Nelder 和 Wedderburn ,1972)除了正态分布,也允许反应分布,以及模型结构中的一定程度的非线性。GLM 具有基本结构g( i)=Xi,其中 i E(Yi) ,g 是光滑单调 链接函数 ,Xi 是模型矩阵的第i 行,X 和 是未知参数的向量。此外,GLM 通常会做出 Yi 是独立的和 Yi 服从一些指数族分布的假设。指数族分布包括许多对实际建模有用的分布,如泊松分布,二项分布,伽马分布和正态分布。 GLM 的综合参考文献是McCullagh 和 Nelder (1989) , 而 Dobson(2001)提供了一个全面的介绍。因为广义线性模型
2、是以 “ 线性预测器 ”X 的形式详细说明的,所以线性模型的许多一般想法和概念通过一些修改而继续存在到广义线性模型中。除了必须选择的链接函数和分布之外,基本模型公式与线性模型公式基本相同。当然,如果恒等函数被选择作为链接以及正态分布,那么普通线性模型将作为特例被恢复。然而,泛化是以某种成本为代价的:现在的模型拟合必须要迭代完成,而且用于推理的分布结果是近似的,并且由大样本限制结果证明是正确的而不是精确的。但在深入探讨这些问题之前,请考虑几个简单的例子。i=cexp(bti), 例 1:在疾病流行的早期阶段, 新病例的发生率通常会随着时间以指数方式增加。因此,如果 i是第 ti 天的新病例的预期
3、数量,则该形式的模型为请注意, “ 广义” 和“ 一般” 线性模型之间存在区别-后一个术语有时用于指除简单直线以外的所有线性模型。可能是合适的,其中c 和 b 是未知参数。通过使用对数链路,这样的模型可以变成 GLM 形式log( i)=log(c)+bti=0+ti1(根据 0=logc 和 1=b 的定义) 。 请注意, 模型的右侧现在在参数中是线性的。反应变量是每天新病例的数量,因为这是一个计数,所以泊松分布可能是一个合理的可以尝试的分布。因此,针对这种情况的GLM 使用泊松反应分布,对数链路和线性预测器 0+ti 1。, 例 2:狩猎动物捕获猎物的速度yi 往往随着猎物密度xi 的增加
4、而增加,但最终会趋于平衡,当捕食者捕获尽可能多的猎物时。对于这种情况一个合适的模型可能是名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 35 页 - - - - - - - - - 2 其中 a是未知参数,表示最大捕获率,h 是未知参数,表示捕获率为最大速率一半时的猎物密度。很显然,这个模型在其参数中是非线性的,但是通过使用倒数链路,右边的参数可以是线性的:(这里 01/a 和 1h/a) 。在这种情况下, 猎物捕获率的标准差可能与平均速率大致成比例,建议使用Gamma分
5、布作为反应,并完成模型设定。们不限于示例的简单直线形式,但可以有对于线性模型可能具有的线性预测器的任何结构。2.1GLMs 的理论GLM 的估计和推理基于最大似然估计理论,尽管可能性的最大化需要迭代最小二乘法,与 1.8.6 节的方法相关。本部分首先介绍指数分布族,它允许发展一种通用方法来最大化GLM 的可能性。然后基于似然理论的一般结果 (在本章末尾推导)来讨论 GLM 的推论。在本节中,区分反应数据y 和 Y 的观察值的随机变量有时很有用,所以它们在符号上具有区别性:对于估计和估计值,它尚未完成。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - -
6、- - - - - 名师精心整理 - - - - - - - 第 2 页,共 35 页 - - - - - - - - - 3 2.1.1 指数族分布f(y)=expy-b( )/a()+c(y,),GLM 中的反应变量可以来自指数族的任何分布。如果一个分布的概率密度函数或概率质量函数可以写成,则该分布属于指数族分布名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 35 页 - - - - - - - - - 4 其中 b,a和 c 是任意函数, 是任意的 “ 尺度” 参数
7、,并且 被称为分布的 “ 典范参数 ” (在 GLM 上下文中, 将完全依赖于模型参数 ,但是目前没有必要做这个明确) 。例如,很容易看出,正态分布是指数族的一员,因为, . 表 2.1 给出了在 R 中为 GLM 实施的指数族成员的类似分解。用 a,b 和 可以得到指数族分布的均值和方差的一般表达式。给定一个特定的 y,的对数似然性仅仅只是将logf (y)视为 的一个函数。那是. 将 l 作为一个随机变量来处理, 通过用随机变量Y 替换特定的观测值y,可以评估?l/? 的期望值:使用 E(?l/? )=0 这个一般结果,(在 取真值时,参见2.4 节中的( 2.14) )和重新排列意味着E
8、(Y)=b0( ) 。 (2.1)即任何指数族随机变量的均值由bw.r.t.的一阶导数给出。 ,其中 b 的形式取决于特定的分布。该等式是将GLM 的模型参数 与指数族的典范参数联系起来的关键。在 GLM 中,参数 决定了反应变量的均值,并且通过( 2.1) ,它们决定了每个反应观测值的典范参数。, 再次对似然性微分处理, 并将其插入到一般结果中,E(?2l/? 2)=-E(?l/? )2(衍生物在真实值下计算,参见结果( 2.16) ,第 2.4 节) ,重新安排第二个有用的一般结果:var(Y)=b00( )a( ).a原则上可以是 的任何函数,并且当与 GLM 一起工作时,如果 是已知的
9、,处理任何形式的a 都是没有困难的。然而,当未知,事情就会变得很尴尬,除名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 35 页 - - - - - - - - - 5 非我们可以写出( )=/ ,其中 是一个已知常数。事实上,这种限制形式涵盖了所有有实际意义的案例(见表2.1) 。a( )=/ 允许基于正态分布的模型中的不等方差的可能性,但是在大多数情况下,仅为 1.因此,我们现在有var(Y)=b00( ) / .(2.2) 在随后的章节中,我们通常会将var(Y)视
10、为 E (Y)的函数,这会很方便,并且由于 和 通过(2.1)链接,我们总能定义一个函数V( ) =b00 ( )/ ,使得 var(Y)=V( ) 。表 2.1 列出了几个这样的功能。2.1.2 拟合广义线性模型回想一下, GLM 模拟独立反应变量的n 阶向量 Y,其中 E (Y) ,通过g( i)=Xi和Yi f i(yi),其中 f i(yi)表示指数族分布,典范参数i由 i(通过方程 2.1)决定,因此最终由 决定。给定 Y 的一个观测值向量y,的最大似然估计是可能的。由于Yi 是相互独立的, 的似然函数是n L( )=Yfi(yi), i=1 因此 的对数似然函数是, 右边对 的依赖
11、是通过 i对 的依赖。请注意,函数a,b 和 c 可能随着 i 而变化-例如,允许不同的二项分母ni,对于每个二项式反应的观测值,或对于正常反应的不同方差 (但在常数内已知)。另一方面,对于所有的 i,假设 是相同的。正如前一节所讨论的那样,对于实际工作来说,只考虑可以写出ai( )=/ i的情况就足够了,其中i 是已知常数(通常为1) ,在这种情况下. 通过偏导 lw.r.t 来最大化收益。 的每个元素,令结果表达式为零并求出 。, 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第
12、5 页,共 35 页 - - - - - - - - - 6 通过这个链式法则, 所以微分( 2.1) ,我们可以得到, 然后推出. 将(2.1)和( 2.2)代入最后一个方程,意味着求解 的方程是(2.3) , (2.4) 然而,如果权重 V(i)事先已知且与 独立,那么这些方程就正好是为了通过非线性加权最小二乘寻找而必须解出的方程。在这种情况下,最小二乘的目标是其中 i非线性地依赖于 ,但权重 V(i)被视为固定的。要找到最小平方估计值,包括求解 ?S/?j=0 ?j,但当 V(i)项被视为固定时,这个方程组很容易被看作是( 2.3) 。这种对应立即提出了一种求解(2.3)的迭代方法。令k
13、 表示在第 k 次迭代处的估计参数向量,并且令 k 和 k 为具有元素 ik=Xik和 ik=g -1 (ik)的向量,其中g-1( )是链路的反函数。从参数估计开始,0 ,迭代以下步骤,直到 k 的序列收敛:1.计算当前 k 隐含的 V(ik )项。2.为了得到 k+1 (V(ik )被视为固定的而不是作为的函数),给出这些估计,使用第 1.8.6节的方法来最小化( 2.4) ) 。3.设置 k 到 k+1 实际上,这种方法比需要的要慢。第2步本身涉及迭代,但在已经收敛之前实际上将非线性最小二乘方法迭代到收敛没有多大意义。因此,第2 步通常被替换为:2.使用 k 作为初始值,仅执行第1.8.
14、6节中给出的求解( 2.4)的迭代方法的一次迭代来获得 k+1 。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页,共 35 页 - - - - - - - - - 7 应用这种方法会产生一个相当紧凑和简洁的方案。为了看到这个,让我们以矩阵形式写出非线性最小二乘问题。定义对角矩阵Vk ,其中 Vkii=V (ik)(2.4) 按照第 1.8.6节的方法, 被它在 k 附近的一阶泰勒展开替代,所以因此,没有进一步的近似Jij=?i/? j| ?k.Now . 由“伪数据”的定义对
15、角线权重矩阵. 因此,下面的步骤可迭代到收敛1.使用当前的 k 和 k 计算伪数据 zk和迭代权重 Wk 。2.将对于 的平方和最小化,以便获得 k+1 , 因此 k+1=X k+1和 k+1 。将 k 增加 1。收敛的 解决了( 2.3) ,因此是 ? 的最大似然估计。该算法在大多数实际情况下趋于一致,但也有例外(例如,二项数据的不良或过于灵活的模型)。请注意,要开始迭代,我们只需要0 和 0 的值,不需要 0 。因此,迭代通常通过设置 0i=yi和 i0=g (0i )开始,并根据需要轻微调整0i ,以避免 无 限 的i0( 例 如 , 如 果yi=0且 有 对 数 链 路 )。 该 方
16、法 被 称 为IterativelyRe-weightedLeastSquares(IRLS) , 原因很明显,在此背景下,归因于 Nelder和 Wedderburn (1972) 。2.1.3IRLS 的目标是对数似然的二次近似IRLS 迭代中的工作线性模型不仅仅是寻找参数的最大似然估计的手段。在一个加性常数内名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 7 页,共 35 页 - - - - - - - - - 8 (在收敛时)也是模型在附近的对数似然的二次近似。显然,第一个衍
17、生工具是关于对数似然和S 之间的 j匹配:实际上它们都是零。S 的二阶导数矩阵为-XWX/ ,并且这被证明与对数似然的期望的二阶导数矩阵匹配,并且因此在大样本极限中由大数定律来匹配二阶导数矩阵本身。为了证明这一点,首先将u 定义为关于模型参数的对数似然的导数向量,因此 ui=?l/? i,然后将( 2.3)中的导数以矩阵向量形式重写为u=XTG- 1V- 1(y- )/ .?注意,如果 V(i)被视为 的函数,算法不会最小化(2.4) ,因为在这种情况下,令导数为零不会产生(2.3) 。换句话说,最大似然与具有平均方差关系的最小二乘基本上不同。E(uuT) =XTG- 1V- 1E(Y- )(
18、Y- )TV-1G- 1X/ 2=XTG-1V-1VV-1G-1X/ =XTWX / 因为 E(Y-T) (Y- )T=V。根据一般似然结果( 2.19) ,在 2.4.2 节中,-E(uu)也是对数似然的期望二阶导数矩阵。导数的这种对应关系足以证明S 是 附近的对数似然的二次近似,并且由于MLE 的一致性,它们在真实参数值附近。2.1.4AICforGLMs 通过对可能性进行直接比较的模型选择存在如下问题:如果将冗余的参数添加到正确的模型中,可能性几乎总是增加(并且从不减小),因为额外的参数让模型更接近数据,即使这只意味着对数据的组成部分进行“噪声建模”。正如在线性模型的情况下,如果我们能够
19、根据它们拟合数据均值而不是数据y 的能力来选择模型,这个问题会得到缓解。在GLM 背景下,合理的方法是根据模型最大化l(; )而不是l( ;y)的能力来选择模型,但是为了做到这一点,我们必须能够估计出 l(; ) 。实际上这个估计很明确。从2.1.3节我们已经有, 并且因为 y=时,这也必须成立. 然后,这个论据导致在第1.8.5节的( 1.15) (只修改权重)产生了估计量tr(A) 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 8 页,共 35 页 - - - - - - -
20、- - 9 l( ?;y)-tr( A)+n/2 A=X(XTWX )-1XTWandhencetr( A)=p,(可识别的)模型参数的数量。因此,在模型之间进行选择时, 我们会选择哪个模型具有最高的l( )-p 值,这相当于选择了Akaike 信息准则的最低值( Akaike,1973) ,AIC=2-l ( )+p。前面的论点假设已知。如果不是,那么就需要一个的估计来计算AIC,结果 AIC 中的惩罚项 p 将变为 p+1。这种归纳在 2.4.7 节中是合理的。2.1.5 的大样本分布GLM 的分布结果并不精确,反而是基于大样本近似,利用包括一致性在内的最大似然估计的一般性质(见2.4 节
21、) 。根据最大似然估计量的一般性质,我们认为,在大样本限制下,? N(,I- 1), 其中 I=E(uuT)是模型参数的信息矩阵,u 是关于模型参数的对数似然函数的导数向量,因此ui=?l/? i(见 2.4 节(2.20)和(2.19) ) 。在第 2.1.3节中显示 E(uT)=XTWX/ ,因此在大样本限制中? N(,( XTWX )- 1).对于具有已知尺度参数的分布,可以直接使用此结果来查找参数的置信区间,但是如果尺度参数未知(例如对于正态分布),则必须估计它,并且区间必须基于一个合适的 t 分布。尺度参数估计在第2.1.7节中介绍。2.1.6 通过假设检验比较模型考虑检验H0:g(
22、 )=X00相反H1:g( )=X11, 其中 是反应向量 Y 的期望, Y 的元素是来自指数族分布的相同成员的独立随机变量,其中X0? X1。如果我们有反应向量的观测值y,则可以执行广义似然比检验。令 l(0 )和 l(1 )为两个模型的最大似然率。如果H0 为真,则在大样本限制中,2l(?1)-l(?0) 2p1- p0, (2.5) sothattwicethe?whichshouldstrictlybeamaximumlikelihoodestimate ,其中 pi 是模型 i 中(可识别的)参数( i)的数量(参见 2.4.5 节和 2.4.6 节推导该结果)。如果原假设是假的,则
23、模型1 倾向于具有比模型0 高得多的可能性,从而两倍于严格应该是最大似然估计的 ?,或者在大样本限制下倾向于MLE 的估计值。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 9 页,共 35 页 - - - - - - - - - 10 对数似然对于相关的2 分布的一致性差异太大。如果可以计算相关模型的对数似然性,那么近似结果(2.5)仅仅是有用的。在由 IRLS 估算的 GLM 情况下,只有当尺度参数已知时才是这种情况。因此,结果可以与泊松和二项模型一起直接使用,但不能与正态 ,
24、伽马或反高斯分布 (其中尺度参数未知)一起使用。稍后将简短地讨论在后面这些情况下做什么。偏差在实践中使用 GLM 时,在普通的线性建模中, 用与残差平方和类似的方式来解释数量是有用的。Xi=1h i 这 个 数 量 是模型的偏差,被定义为thetermsinsidethesummation其中 l(max )表示饱和模型的最大可能性:每个数据点具有一个参数的模型。在给定数据的情况下,l(max )是可能性具有的最大值,并且可以通过简单地设置=y并计算出可能性来计算。 ? 和 分别表示关于饱和模型和兴趣模型的典范参数的最大似然估计。注意如何将偏差定义为与独立。表 2.1 列出了单个数据对偏差的贡
25、献,对于若干分布-这些是偏差定义中求和中的项(术语)。scaleddeviance, 与偏差相关的是调整偏差,D?=D/,这取决于尺度参数。 对于二项分布和泊松分布, 其中 =1 ,偏差和比例偏差是相同的,但通常情况并非如此。通过广义似然比检验结果(2.5) ,我们可以预计,如果模型是正确的,那么近似D? 2n- p, (2.8) tojustify(2.8)asalargesampleapproximationundermanycircumstances 在大样本限制中。实际上,这样的论点是捏造的,因为证明(2.5)的限制论证依赖于模型中参数的数量保持不变,而样本容量趋于无穷大,但饱和模型具
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年2022年广义线性模型 2022 广义 线性 模型
限制150内