线性相关与回归(简单线性相关与回归、多重线性回归课件.ppt
《线性相关与回归(简单线性相关与回归、多重线性回归课件.ppt》由会员分享,可在线阅读,更多相关《线性相关与回归(简单线性相关与回归、多重线性回归课件.ppt(62页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、SPSS软件在医学科研中的应用软件在医学科研中的应用何平平何平平北大医学部流行病与卫生统计学系北大医学部流行病与卫生统计学系Tel:82801619线性相关与回归线性相关与回归内容:内容:多重线性回归分析多重线性回归分析简单线性相关与回归简单线性相关与回归Spearman等级相关等级相关特例特例(一)(一)直线回归(直线回归(linear regression)1.1.定义:用直线方程表达定义:用直线方程表达X(自变量,(自变量,independent variable;解释变量,;解释变量,explanatory variable;预测变量,;预测变量,predictor variable)
2、和和Y(因变量,(因变量,dependent variable;响应变量,;响应变量,response variable;结局变量,;结局变量,outcome variable )之间的数量关系。之间的数量关系。一、一、简单线性相关与回归简单线性相关与回归:是:是Y(实测值)的实测值)的预测值(预测值(predicted value),是直线上点的纵坐标。对于每一个是直线上点的纵坐标。对于每一个X值,根据直线值,根据直线回归方程都可以计算出相应的回归方程都可以计算出相应的Y预测值。预测值。(具体计算过程参见(具体计算过程参见卫生统计学卫生统计学第第4版)。版)。2.2.b和和a的意义的意义a:
3、是回归直线在是回归直线在Y轴上的截距,即轴上的截距,即X0时时Y的预测值。的预测值。b:是回归直线的斜率,又称为回归系数。是回归直线的斜率,又称为回归系数。表示当表示当X改变一个单位时,改变一个单位时,Y的预测值平均改变的预测值平均改变|b|个个单位。单位。3.3.b和和a的估计的估计最小二乘方法(最小二乘方法(the method of least squares):各实测点到直线的纵向距离的平方和最小。各实测点到直线的纵向距离的平方和最小。4.4.b的假设检验的假设检验:b为样本回归系数,由于抽样误差,为样本回归系数,由于抽样误差,实际工作中实际工作中b一般都不为一般都不为0。要判断直线回
4、归方程是否成。要判断直线回归方程是否成立,需要检验总体回归系数立,需要检验总体回归系数 是否为是否为0。只有当只有当 0 0时,才能认为直线回归方程成立(具有统计时,才能认为直线回归方程成立(具有统计学意义)。学意义)。H0:=0 H1:0方法一:方法一:t检验检验方法二:方法二:F检验检验两种方法等价,两种方法等价,5.5.直线回归方程的置信区间估计直线回归方程的置信区间估计(1)总体回归系数总体回归系数 的的95置信区间估计置信区间估计(2)Y的均数的均数的的95置信区间估计置信区间估计当当XX0时,以时,以95的概率估计的概率估计Y的均数的均数的置信区间为的置信区间为(3)个体个体Y值的
5、值的95容许区间估计容许区间估计当当XX0时,以时,以95的概率估计的概率估计个体个体Y值值的波动范围为的波动范围为1.1.定义定义描述具有直线关系的两个变量之间的相互关系。描述具有直线关系的两个变量之间的相互关系。(二)直线相关(二)直线相关(linear correlation)r:相关系数,相关系数,correlation coefficient用来衡量有直线关系的两个变量之间相关的密切程度和用来衡量有直线关系的两个变量之间相关的密切程度和方向。方向。-1-1 r 1 1r00,正相关;,正相关;r=1为完全正相关为完全正相关r 00,负相关,负相关;r=-1为完全负相关为完全负相关|r
6、|越大,两变量相关越密切越大,两变量相关越密切(前提:(前提:r有统计学意义)有统计学意义)2.2.相关类型相关类型正正相关:相关:0r 1负负相关相关-1 r0零零相关相关 r=02.2.相关类型相关类型曲线相关曲线相关r为样本相关系数,由于抽样误差,实际工作中为样本相关系数,由于抽样误差,实际工作中r一般都一般都不为不为0 0。要判断两变量之间是否存在相关性,需要检验。要判断两变量之间是否存在相关性,需要检验总体相关系数总体相关系数 是否为是否为0 0。只有当只有当 0 0时,才能根据时,才能根据|r|的大小判断相关的大小判断相关的密切程度。的密切程度。3.3.r的假设检验的假设检验H0:
7、=0 H1:04.相关与回归的区别和联系相关与回归的区别和联系(1)相关与回归的意义不同相关与回归的意义不同 相关表达两个变量之相关表达两个变量之间相互关系的密切程度和方向。回归表达两个变量间相互关系的密切程度和方向。回归表达两个变量之间的数量关系,已知之间的数量关系,已知X值可以预测值可以预测Y值。从散点图值。从散点图上,散点围绕回归直线的分布越密集,则两变量相上,散点围绕回归直线的分布越密集,则两变量相关系数越大;回归直线的斜率越大,则回归系数越关系数越大;回归直线的斜率越大,则回归系数越大。大。(2)r与与b的符号一致的符号一致 同正同负。同正同负。(3)r与与b的假设检验等价的假设检验
8、等价(4)可以用回归解释相关可以用回归解释相关r2称为决定系数(称为决定系数(coefficient of determination),其越接近于其越接近于1,回归直线拟和的效果越好。,回归直线拟和的效果越好。4.相关与回归的区别和联系相关与回归的区别和联系例例1 1 为研究中年女性体重指数和收缩压的关系,随机测量为研究中年女性体重指数和收缩压的关系,随机测量了了1616名名4040岁以上的女性的体重指数和收缩压(见数据文件岁以上的女性的体重指数和收缩压(见数据文件p237.savp237.sav)。)。变量说明:变量说明:X:体重指数;体重指数;Y:收缩压(收缩压(mmHg)。)。1.1.
9、绘制散点图绘制散点图散点图显示:收散点图显示:收缩压与体重指数缩压与体重指数之间有线性相关之间有线性相关趋势,因此可以趋势,因此可以进一步做直线回进一步做直线回归与相关归与相关2.2.直线回归与相关分析直线回归与相关分析Regression,回归回归 Linear,线性线性2.2.直线回归与相关分析直线回归与相关分析因变量因变量自变量自变量P值值相关相关系数系数r决定决定系数系数r2调整调整r2截距截距a回归系数回归系数bsb标准化回归系数标准化回归系数t值值P值值F值值3.3.直线回归的预测及置信区间估计直线回归的预测及置信区间估计给定给定XX0,预测预测Y3.3.直线回归的预测及置信区间估
10、计直线回归的预测及置信区间估计因变量因变量自变量自变量统计统计保存(产生新变量,保保存(产生新变量,保存在当前数据库)存在当前数据库)3.3.直线回归的预测及置信区间估计直线回归的预测及置信区间估计总体回归系总体回归系数的置信区数的置信区间估计间估计3.3.直线回归的预测及置信区间估计直线回归的预测及置信区间估计预测值预测值非标准化非标准化预测区间预测区间Y的均数的均数个体个体Y值值总体回归系数的总体回归系数的95置信区间置信区间预测值预测值残差残差3.3.直线回归的预测及置信区间估计直线回归的预测及置信区间估计3.3.直线回归的预测及置信区间估计直线回归的预测及置信区间估计X0Y的预测的预测
11、值值Y的均数的置信区的均数的置信区间的下限及上限间的下限及上限个体个体Y值的容许区值的容许区间的下限及上限间的下限及上限例例2:由于改革开放政策,深圳特区中外来人口大幅度增由于改革开放政策,深圳特区中外来人口大幅度增加,为了考察特区中外来人口对本地经济发展的贡献,深加,为了考察特区中外来人口对本地经济发展的贡献,深圳特区统计局收集了所属的宝安县在圳特区统计局收集了所属的宝安县在1987年末年末18个镇的人个镇的人口与工农业总产值数据(口与工农业总产值数据(见数据文件见数据文件reg.sav)。此处把)。此处把工农业总产值当作因变量(工农业总产值当作因变量(W),而把外地及本地人口数),而把外地
12、及本地人口数当作两个自变量(当作两个自变量(Z1,Z2)。)。二、多重线性回归分析二、多重线性回归分析(有关统计方法的原理及计算参见(有关统计方法的原理及计算参见孙尚拱,孙尚拱,医学多变医学多变量统计与统计软件量统计与统计软件,北京医科大学出版社,北京医科大学出版社,2000)数据文件数据文件reg.sav1.如何估计自变量与因变量之间的相互关系?(如何估计自变量与因变量之间的相互关系?(估计回归估计回归方程)方程)2.哪些自变量对因变量有影响?(哪些自变量对因变量有影响?(影响因素分析影响因素分析)3.哪一个自变量对因变量的影响更重要?(哪一个自变量对因变量的影响更重要?(自变量的相对自变量
13、的相对重要性分析重要性分析)4.如何用自变量预测因变量?(如何用自变量预测因变量?(预测分析预测分析)(一)多重回归分析的任务(一)多重回归分析的任务(二)多重回归分析的适用条件(二)多重回归分析的适用条件1.自变量与因变量之间存在线性关系自变量与因变量之间存在线性关系2.残差的正态性残差的正态性3.残差的等方差性残差的等方差性4.剔除强影响点(突出点,剔除强影响点(突出点,outliers)5.自变量之间不应存在共线性自变量之间不应存在共线性6.独立性独立性关于独立性:关于独立性:所有的观测值是相互独立的。如果受试对象仅被随机所有的观测值是相互独立的。如果受试对象仅被随机观测一次,那么一般都
14、会满足独立性的假定。但是出观测一次,那么一般都会满足独立性的假定。但是出现下列三种情况时,观测值不是相互独立的:时间序现下列三种情况时,观测值不是相互独立的:时间序列、重复测量等情况。列、重复测量等情况。SPSS软件在软件在“Linear Regression:Statistics”对对话框中,提供了话框中,提供了Durbin-Watson统计量统计量d,以检验自,以检验自相关系数是否为相关系数是否为0。当。当d值接近于值接近于2,则残差之间是不,则残差之间是不相关的。相关的。1.如何估计自变量与因变量之间的相互关系?(如何估计自变量与因变量之间的相互关系?(估计回归方程估计回归方程)其中其中
15、y为实测值,为实测值,为预测值(为预测值(predicted value)估计模型中系数的方法:估计模型中系数的方法:最小二乘方法(最小二乘方法(Least Square,LS),即残差平方和最小。),即残差平方和最小。b1,b2.bm称为偏回归系数(称为偏回归系数(partial regression coefficient):当固定其他变量时当固定其他变量时,xm每增加一个单位,每增加一个单位,y的增加值都是的增加值都是bm。(一)多重回归分析的任务(一)多重回归分析的任务模型拟和的优良性指标模型拟和的优良性指标R:复相关系数,反映了复相关系数,反映了Y与与M个自变量的总体相关系数;个自变
16、量的总体相关系数;R2:决定系数(决定系数(R Square)R2c:调整决定系数(调整决定系数(Adjusted R square),是对决定系),是对决定系数的修正,是数的修正,是更客观更客观的指标。的指标。这些指标越接近于这些指标越接近于1,说明回归模型拟合越好。,说明回归模型拟合越好。除了上述指标,还有残差标准误除了上述指标,还有残差标准误s,残差标准差越小,说,残差标准差越小,说明回归模型拟合越好。明回归模型拟合越好。2.哪些自变量对因变量有影响?(哪些自变量对因变量有影响?(影响因素分析影响因素分析)对回归模型的统计检验对回归模型的统计检验当当P0.05,则认为此回归模型有显著性。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 线性 相关 回归 简单 多重 课件
限制150内