多元线性回归与logistic回归(共9页).doc
《多元线性回归与logistic回归(共9页).doc》由会员分享,可在线阅读,更多相关《多元线性回归与logistic回归(共9页).doc(9页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上第十一章 多元线性回归与logistic回归一、教学大纲要求(一)掌握内容1多元线性回归分析的概念:多元线性回归、偏回归系数、残差。2多元线性回归的分析步骤:多元线性回归中偏回归系数及常数项的求法、多元线性回归的应用。3多元线性回归分析中的假设检验:建立假设、计算检验统计量、确定值下结论。4logistic回归模型结构:模型结构、发病概率比数、比数比。5logistic回归参数估计方法。6logistic回归筛选自变量:似然比检验统计量的计算公式;筛选自变量的方法。(二)熟悉内容 常用统计软件(SPSS及SAS)多元线性回归分析方法:数据准备、操作步骤与结果输出。(三
2、)了解内容 标准化偏回归系数的解释意义。二、教学内容精要(一) 多元线性回归分析的概念将直线回归分析方法加以推广,用回归方程定量地刻画一个应变量与多个自变量X间的线形依存关系,称为多元线形回归(multiple linear regression),简称多元回归(multiple regression)基本形式:式中为各自变量取某定值条件下应变量均数的估计值,为自变量,为自变量个数,为回归方程常数项,也称为截距,其意义同直线回归,, 称为偏回归系数(partial regression coefficient),表示在除以外的自变量固定条件下,每改变一个单位后的平均改变量。 (二) 多元线性回
3、归的分析步骤是与一组自变量,相对应的变量的平均估计值。多元回归方程中的回归系数,, 可用最小二乘法求得,也就是求出能使估计值和实际观察值的残差平方和为最小值的一组回归系数,, 值。根据以上要求,用数学方法可以得出求回归系数,, 的下列正规方程组(normal equation): 式中常数项可用下式求出:(三)多元线性回归分析中的假设检验在算得各回归系数并建立回归方程后,还应对此多元回归方程作假设检验,判断自变量,是否与真有线性依存关系,也就是检验无效假设(), 备选假设为各值不全等于0或全不等于0。检验时常用统计量 式中为个体数,为自变量的个数。式中 (四) logistic回归模型结构设为
4、一组自变量,为应变量。当是阳性反应时,记为=1;当是阴性反应时,记为=0。用表示发生阳性反应的概率;用表示发生阴性反应的概率,显然+=1。Logistic回归模型为:同时可以写成:式中是常数项;是与研究因素有关的参数,称为偏回归系数。事件发生的概率与之间呈曲线关系,当在之间变化时, 或在(0,1)之间变化。若有例观察对象,第名观察对象在自变量作用下的应变量为,阳性反应记为=1,否则=0。相应地用表示其发生阳性反应的概率;用表示其发生阴性反应的概率,仍然有+=1。和的计算如下:这样,第个观察对象的发病概率比数(odds)为,第个观察对象的发病概率比数为,而这两个观察对象的发病概率比数之比值便称为
5、比数比(odds ratio)。对比数比取自然对数得到关系式:ln等式左边是比数比的自然对数,等式右边的是同一因素的不同暴露水平与之差。的流行病学意义是在其它自变量固定不变的情况下,自变量的暴露水平每改变一个测量单位时所引起的比数比的自然对数改变量。或者说,在其他自变量固定不变的情况下,当自变量的水平每增加一个测量单位时所引起的比数比为增加前的倍。同多元线性回归一样,在比较暴露因素对反应变量相对贡献的大小时,由于各自变量的取值单位不同,也不能用偏回归系数的大小作比较,而须用标准化偏回归系数来做比较。标准化偏回归系数值的大小,直接反映了其相应的暴露因素对应变量的相对贡献的大小。标准化偏回归系数的
6、计算,可利用有关统计软件在计算机上解决。(五)logistic回归参数估计由于logistic回归是一种概率模型,通常用最大似然估计法(maximum likelihood estimate)求解模型中参数的估计值。为在作用下的阳性事件(或疾病)发生的指示变量。其赋值为: 第个观察对象对似然函数的贡献量为: 当各事件是独立发生时,则个观察对象所构成的似然函数是每个观察对象的似然函数贡献量的乘积,即式中为从1到的连乘积。依最大似然估计法的原理,使得达到最大时的参数值即为所求的参数估计值,计算时通常是将该似然函数取自然对数(称为对数似然函数)后,用NewtonRaphson迭代算法求解参数估计值。
7、(六)logistic回归筛选自变量在logistic回归中,筛选自变量的方法有似然比检验(likelihood ratiotest)、计分检验(score test)、Wald检验(Wald test)三种。其中似然比检验较为常用,用表示似然比检验统计量,计算公式为:式中为自然对数的符号,为方程中包含个自变量的似然函数值,为在方程中包含原个自变量的基础上再加入1个新自变量后的似然函数值。在无效假设条件下,统计量服从自由度为1的分布。当时,则在水平上拒绝无效假设,即认为对回归方程的贡献具有统计学意义,应将引入到回归方程中;否则,不应加入。逆向进行即可剔除自变量。三、典型试题分析(一)单项选择题
8、1多元线性回归分析中,反映回归平方和在应变量的总离均差平方和中所占比重的统计量是( )。A 复相关系数B 偏相关系数C 偏回归系数D 确定系数答案:D评析 本题考点:多元线性回归中的几个概念的理解。多元线性回归中的偏回归系数(multiple linear regression)表示在其它自变量固定不变的情况下,自变量每改变一个单位时,单独引起应变量的平均改变量。确定系数(coefficient of determination)表示回归平方和占总离均差平方和的比例,简记为。即 。确定系数的平方根即称为复相关系数(multiple correlation coefficient),它表示个自变
9、量共同对应变量线性相关的密切程度,它不取负值, 即01。2Logistic回归分析适用于应变量为( )。A分类值的资料 B连续型的计量资料C正态分布资料 D一般资料 答案:A评析 本题考点:logistic回归的概念。logistic回归属于概率型回归,可用来分析某类事件发生的概率与自变量之间的关系。适用于应变量为分类值的资料,特别适用于应变量为二项分类的情形。模型中的自变量可以是定性离散值,也可以是计量观测值。(二)计算题根据表11-2数据,分别用SPSS统计软件、SAS统计软件写出多元线性回归的统计分析步骤及其简要结果。表11-1 某学校20名一年级女大学生肺活量及有关变量测量结果 编号
10、体重/kg 胸围/cm 肩宽/cm 肺活量/L1 50.8 73.2 36.3 2.962 49.0 84.1 34.5 3.133 42.8 78.3 31.0 1.914 55.0 77.1 31.0 2.635 45.3 81.7 30.0 2.866 45.3 74.8 32.0 1.917 51.4 73.7 36.5 2.988 53.8 79.4 37.0 3.289 49.0 72.6 30.1 2.5210 53.9 79.5 37.1 3.2711 48.8 83.8 33.9 3.1012 52.6 88.4 38.0 3.2813 42.7 78.2 30.9 1.92
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 线性 回归 logistic
限制150内