2022年对广义线性模型的学习 .pdf
《2022年对广义线性模型的学习 .pdf》由会员分享,可在线阅读,更多相关《2022年对广义线性模型的学习 .pdf(20页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、对广义线性模型(Generalized Linear Model )的学习引言在学习普通线性模型时就对因变量为离散的情况存有疑问。在统计实验课程研读吴喜之老师的复杂数据一书的第六章时,发现了对离散因变量或者因变量为计数或有序数据时,可采用广义线性模型来处理。因此这燃起了我对于广义线性模型的学习兴趣,通过查阅资料,对此模型有了以下的初步了解。 并在对经典方法理论有了一定的了解之后,利用该模型对实际数据进行了处理与分析,同时又用其他方法(包括机器学习等方法) 对相同的数据进行了处理, 在最后比较了各种方法之间的优缺点。一、数据特点1、横截面数据( Cross-Section Data ):在同一时
2、间,不同统计单位相同统计指标组成的数据列。Note: 与时序数据相比较, 其区别在于数据的排列标准不同,时序数据是按照时间顺序排列的,横截面数据是按照统计单位排列的。横截面数据不要求统计对象及其范围相同,但要求统计的时间相同。#横截面数据即为同一时间截面上的数据2、横截面数据分析的要点:异方差问题名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 20 页 - - - - - - - - - 由于数据是在某一时期对个体或地域的样本的采集,不同个体或地域本身就存在差异。数据的一
3、致性主要包括变量的样本容量是否一致,样本的取样时期是否一致,数据的统计标准是否一致。3、面板数据( Panel Data ):是指在时间序列上取多个截面,对于每一个截面上的数据均为一横截面数据列。Note:面板数据是一个m*n 的数据矩阵,记载的是n 个时间节点上, m 个对象的某一数据指标。其有时间序列和截面两个维度,当这类数据按两个维度排列时,是排在一个平面上,与只有一个维度的数据排在一条线上有着明显的不同,整个表格像是一个面板。如果从其内在含义上讲,把panel data译为“时间序列-截面数据”更能揭示这类数据的本质上的特点。4、广义线性模型主要用于因变量取离散值的情况当可能值为一切自
4、然数0,1,2, 时,多用Poisson分布;当 Y取有限个值(实际是响应可以有有限个状态)时,多项分布是自然的选择。5、在很大的程度上可以说,广义线性回归就是针对因变量为有限个值情况的回归分析。但在具体定模型时,需要考虑这有限个状态之间的关系。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 20 页 - - - - - - - - - 一种是无序的,即各状态的优劣并无公共的认定。 例如外出旅行,有 k 种交通工具可以选择,其优劣取决于具体情况而并无公认的排序。另一种是有
5、序的, 即各状态的优劣次序有公共的认定。如治疗效果、产品质量的分级等。#不同情况建模方法有所不同。二、广义线性模型的提出广义线性模型的提出源于线性模型在应用上有重要影响的几个缺点:1、只适用于因变量Y取值为连续的情况。它特别不适用于分类数据(如Y取 0.1 为值)。2、Y的期望 E(Y) 与自变量 X是用线性关系相联系。选择面太窄,往往与实际情况不符。3、线性模型的统计推断基本上只适用于误差正态的情形。在某些 Y取值连续的场合, Y的分布是偏态的,如指数分布、伽马(Gamma)分布等。广义线性模型的特点 正好是对应上面指出的问题:1、因变量 Y可以取连续值或离散值,从常见的应用看,取离散值的场
6、合更重要。2、取代,有)()(XZhYET函数h(其反函数g称为联系(或连接)函数 (link function) )有较大的选择余地,这样扩大了模型的适用面。)()(XZYET)()(XZYET名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 20 页 - - - - - - - - - 3、Y(q 维)有指数型分布)()(exp(YdbYY其中,为 q 维参数向量, 是qR上的有限测度, 与 无关(或联系函数1hg使)(XZT,称自然联系)。指数型分布是一个适中的选择,
7、一方面它包括了应用上最常见的一些分布:二项分布、多项分布、Poisson 分布,以及连续型的正态分布、指数分布、伽马分布等。另一方面,这分布类有很好的分析性质,又便于理论上的研究。三、广义线性模型设有因变量 Y,自变量 X,普通线性模型有以下几个特征:1、(线性:线性指对 ,而非 X)。Z(X) 为 X的已知(向量)函数。2、X,Z(X),Y都是取值连续的变量,如农作物产量、人的身高体重之类。3、Y的分布为正态,或接近正态的分布。广义线性模型从以下几个方面推广:1、)()(XZhYET,h为一严格单调、充分光滑的函数。h已知,1hg(h的反函数)称为联系函数(link function ),
8、则有TZg)(。即)(YE不等于)(XZT,而是)(XZT的某一函数。2、X,Z(X) ,Y可取连续或离散值,且在应用上更多见的情况为离散值。如 0,1,0,1,2,等。3、Y的分布属于指数型,正态是其一特例。)()(XZYET名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 20 页 - - - - - - - - - 4、以下的表格中列出了GLM中常用的几种分布:由上表格中的第二列( Range of y)可以知道,当因变量为对应数据形式时应选择对应的分布来建立模型。5
9、、以下的表格中列出了GLM中常用的几种分布所对应的联系函数:名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页,共 20 页 - - - - - - - - - 通常称这几种联系函数为标准联系函数,上表中的第三列为偏差。四、 R语言中的模型实现在R语言中利用 stats 包中的 glm() 函数来进行广义线性模型的拟合。和 lm 函数类似, glm 的建模结果可以通过下述的泛型函数进行二次名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - -
10、 - - - - - 名师精心整理 - - - - - - - 第 6 页,共 20 页 - - - - - - - - - 处理,如 summary()、coef() 、confint()、residuals()、anova() 、plot()、predict()。 R提供了一系列广义线性建模工具, 从类型上来说包括gaussian ,反 gaussian ,二项式,poisson 和 gamma 模型的响应变量分布以及在响应变量分布没有明确给定时的拟似然(quasi-likelihood)模型。在后者,方差函数 (variance function)可以认为是均值的函数,但是在另外一些情况
11、下,该函数可以由响应变量的分布得到。函数 glm() 的用法:glm(formula, family = gaussian, data, weights, subset, na.action, start = NULL, etastart, mustart, offset, control = list(.), model = TRUE, method = glm.fit, x = FALSE, y = TRUE, contrasts = NULL, .) 多数选项与普通线性模型的拟合函数lm() 相同,值得注意的是family选项, family即为选择模型的分布,有以下几种选项:binom
12、ial(link = logit)#二项分布gaussian(link = identity)#正态分布Gamma(link = inverse)#伽马分布inverse.gaussian(link = 1/mu2)#反 Gaussian 分布poisson(link = log)#泊松分布quasi(link = identity, variance = constant)#(quasi-likelihood)#拟家族:响应变量分布没有明确给定时的拟似然模型quasibinomial(link = logit)#拟二项分布名师资料总结 - - -精品资料欢迎下载 - - - - - - -
13、- - - - - - - - - - - 名师精心整理 - - - - - - - 第 7 页,共 20 页 - - - - - - - - - #有过度离散现象时使用:样本观测值变异性过大quasipoisson(link = log)#拟泊松分布#有过度离散现象时使用:样本观测值变异性过大注:若样本观测值变异性过大,即出现了过度离散现象,此时仍使用二项分布假设就会影响系数检测的显著性。那么补救的方法是使用准二项分布(quasibinomial)。首先要检测样本是否存在过度离散现象,方法是用残差除以残差自由度,若超过1 则意味着过度离散。那么将family参数改为quasibinomial
14、。同样,在进行泊松分布也要考虑过度离散现象。其检测方法同样是残差除以其自由度。若确定过度离散存在,则要将family参数设置为准泊松分布(quasipoisson)。在 family的分布选项下还有几个常用选型即link和 variance ,可以用来选择联系函数和方差的形式。Example:glm(y x, family = quasi(variance = mu2, link = log)五、建立广义线性模型的实例1、数据分析:该数据是由美国国家癌症研究所资助的多中心血友病队列研究获得的。该项研究从 1978 年 1 月 1 日到 1995 年 12 月 31 日在 16 个治疗中心( 1
15、2 个在美国, 4 个在西欧)跟踪了超过1600 个血友病人,该数据一共有 2144 个观测值及 6 个变量。下表为变量情况:名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 8 页,共 20 页 - - - - - - - - - 为了更加直观的分析该数据的特点,截取了原数据中的部分数据行:变量 hiv 为分类变量,只有两个选项, 1 和 2;变量 factor也为分类变量,有五个选项, 1,2,3,4,5;变量 year、age 和 deaths 均为整数数据,只有变量 py 为数
16、量变量。要进行以死亡数即变量deaths 作为因变量的回归,由于因变量为整数数据,因此选择广义线性模型来进行拟合。考察因变量中数据的分布情况:发现可将其看作是 0,1 ,, 或0,1 ,, ,k 的形式,因此我们名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 9 页,共 20 页 - - - - - - - - - 将采用 Poisson 对数线性模型(即分布设定为Poisson 分布, 联系函数设定为对数函数)和多项logit模型(即分布设定为二项分布,联系函数设定为 logit函
17、数)两种方法来进行数据的拟合。2、卡方检验卡方检验法是在总体X 的分布未知时,根据来自总体的样本,检验关于总体分布的假设的一种检验方法。由于这个数据的分布信息是未知的,并且我们也不是很容易直观的判断出它的分布信息, 因此在这里我们采用卡方检验的方法来判断它的分布信息。使用卡方检验对总体分布进行检验时,我们先提出原假设: H0:总体 X的分布函数为 F(x) 然后根据样本的经验分布和所假设的理论分布之间的吻合程度来决定是否接受原假设。这种检验通常称作拟合优度检验,它是一种非参数检验。3、Poisson 对数线性模型模型:其中,i(i=1,2 )代表 hiv 的两个水平,j(j=1,2, ,5 )
18、代表factor的 5 个水平,1x代表 year(1代表 year 的系数),2x代表 age(2代表 age 的系数),3x代表 py(3代表 py 的系数),0代表截距。 ap= glm(deaths.,family=poisson,data=w) 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 10 页,共 20 页 - - - - - - - - - summary(ap) Call: glm(formula = deaths ., family = poisson, da
19、ta = w) Deviance Residuals: Min 1Q Median 3Q Max -2.1139 -0.4316 -0.2209 -0.1026 3.2727 Coefficients: Estimate Std. Error z value Pr(|z|) (Intercept) -23.135255 1.318652 -17.545 2e-16 * hiv2 2.766461 0.203259 13.611 2e-16 * factor2 -0.636420 0.151922 -4.189 2.80e-05 * factor3 -0.403434 0.140538 -2.8
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年对广义线性模型的学习 2022 广义 线性 模型 学习
限制150内