线性相关与回归简单线性相关与回归多重线性回归Spearman等级相关.pptx
《线性相关与回归简单线性相关与回归多重线性回归Spearman等级相关.pptx》由会员分享,可在线阅读,更多相关《线性相关与回归简单线性相关与回归多重线性回归Spearman等级相关.pptx(62页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、线性相关与回归线性相关与回归第1页/共62页内容:多重线性回归分析简单线性相关与回归Spearman等级相关特例第2页/共62页(一)直线回归(linear regression)1.定义:用直线方程表达X(自变量,independent variable;解释变量,explanatory variable;预测变量,predictor variable)和Y(因变量,dependent variable;响应变量,response variable;结局变量,outcome variable )之间的数量关系。一、简单线性相关与回归第3页/共62页第4页/共62页:是Y(实测值)的预测值(p
2、redicted value),是直线上点的纵坐标。对于每一个X值,根据直线回归方程都可以计算出相应的Y预测值。(具体计算过程参见卫生统计学第4版)。第5页/共62页2.b和a的意义a:是回归直线在Y轴上的截距,即X0时Y的预测值。b:是回归直线的斜率,又称为回归系数。表示当X改变一个单位时,Y的预测值平均改变|b|个单位。3.b和a的估计最小二乘方法(the method of least squares):各实测点到直线的纵向距离的平方和最小。第6页/共62页4.b的假设检验:b为样本回归系数,由于抽样误差,实际工作中b一般都不为0。要判断直线回归方程是否成立,需要检验总体回归系数是否为0
3、。只有当0时,才能认为直线回归方程成立(具有统计学意义)。H0:=0 H1:0方法一:t检验方法二:F检验两种方法等价,第7页/共62页5.直线回归方程的置信区间估计(1)总体回归系数的95置信区间估计(2)Y的均数的95置信区间估计当XX0时,以95的概率估计Y的均数的置信区间为(3)个体Y值的95容许区间估计当XX0时,以95的概率估计个体Y值的波动范围为第8页/共62页1.定义描述具有直线关系的两个变量之间的相互关系。(二)直线相关(linear correlation)r:相关系数,correlation coefficient用来衡量有直线关系的两个变量之间相关的密切程度和方向。-1
4、r1r0,正相关;r=1为完全正相关r 0,负相关;r=-1为完全负相关|r|越大,两变量相关越密切(前提:r有统计学意义)第9页/共62页2.相关类型正相关:0r1负相关-1r0第10页/共62页零相关 r=02.相关类型曲线相关第11页/共62页r为样本相关系数,由于抽样误差,实际工作中r一般都不为0。要判断两变量之间是否存在相关性,需要检验总体相关系数是否为0。只有当0时,才能根据|r|的大小判断相关的密切程度。3.r的假设检验H0:=0 H1:0第12页/共62页4.相关与回归的区别和联系(1)相关与回归的意义不同 相关表达两个变量之间相互关系的密切程度和方向。回归表达两个变量之间的数
5、量关系,已知X值可以预测Y值。从散点图上,散点围绕回归直线的分布越密集,则两变量相关系数越大;回归直线的斜率越大,则回归系数越大。(2)r与b的符号一致 同正同负。(3)r与b的假设检验等价第13页/共62页(4)可以用回归解释相关r2称为决定系数(coefficient of determination),其越接近于1,回归直线拟和的效果越好。4.相关与回归的区别和联系第14页/共62页例1 为研究中年女性体重指数和收缩压的关系,随机测量了16名40岁以上的女性的体重指数和收缩压(见数据文件p237.sav)。变量说明:X:体重指数;Y:收缩压(mmHg)。1.绘制散点图散点图显示:收缩压与
6、体重指数之间有线性相关趋势,因此可以进一步做直线回归与相关第15页/共62页2.直线回归与相关分析Regression,回归 Linear,线性第16页/共62页2.直线回归与相关分析因变量自变量第17页/共62页P值相关系数r决定系数r2调整r2截距a回归系数bsb标准化回归系数t值P值F值第18页/共62页3.直线回归的预测及置信区间估计给定XX0,预测Y第19页/共62页3.直线回归的预测及置信区间估计因变量自变量统计保存(产生新变量,保存在当前数据库)第20页/共62页3.直线回归的预测及置信区间估计总体回归系数的置信区间估计第21页/共62页3.直线回归的预测及置信区间估计预测值非标
7、准化预测区间Y的均数个体Y值第22页/共62页总体回归系数的95置信区间预测值残差3.直线回归的预测及置信区间估计第23页/共62页3.直线回归的预测及置信区间估计X0Y的预测值Y的均数的置信区间的下限及上限个体Y值的容许区间的下限及上限第24页/共62页例2:由于改革开放政策,深圳特区中外来人口大幅度增加,为了考察特区中外来人口对本地经济发展的贡献,深圳特区统计局收集了所属的宝安县在1987年末18个镇的人口与工农业总产值数据(见数据文件reg.sav)。此处把工农业总产值当作因变量(W),而把外地及本地人口数当作两个自变量(Z1,Z2)。二、多重线性回归分析(有关统计方法的原理及计算参见孙
8、尚拱,医学多变量统计与统计软件,北京医科大学出版社,2000)第25页/共62页数据文件reg.sav第26页/共62页1.如何估计自变量与因变量之间的相互关系?(估计回归方程)2.哪些自变量对因变量有影响?(影响因素分析)3.哪一个自变量对因变量的影响更重要?(自变量的相对重要性分析)4.如何用自变量预测因变量?(预测分析)(一)多重回归分析的任务第27页/共62页(二)多重回归分析的适用条件1.自变量与因变量之间存在线性关系2.残差的正态性3.残差的等方差性4.剔除强影响点(突出点,outliers)5.自变量之间不应存在共线性6.独立性第28页/共62页关于独立性:所有的观测值是相互独立
9、的。如果受试对象仅被随机观测一次,那么一般都会满足独立性的假定。但是出现下列三种情况时,观测值不是相互独立的:时间序列、重复测量等情况。SPSS软件在“Linear Regression:Statistics”对话框中,提供了Durbin-Watson统计量d,以检验自相关系数是否为0。当d值接近于2,则残差之间是不相关的。第29页/共62页1.如何估计自变量与因变量之间的相互关系?(估计回归方程)其中y为实测值,为预测值(predicted value)估计模型中系数的方法:最小二乘方法(Least Square,LS),即残差平方和最小。b1,b2.bm称为偏回归系数(partial re
10、gression coefficient):当固定其他变量时,xm每增加一个单位,y的增加值都是bm。(一)多重回归分析的任务第30页/共62页模型拟和的优良性指标R:复相关系数,反映了Y与M个自变量的总体相关系数;R2:决定系数(R Square)R2c:调整决定系数(Adjusted R square),是对决定系数的修正,是更客观的指标。这些指标越接近于1,说明回归模型拟合越好。除了上述指标,还有残差标准误s,残差标准差越小,说明回归模型拟合越好。第31页/共62页2.哪些自变量对因变量有影响?(影响因素分析)对回归模型的统计检验当P0.05,则认为此回归模型有显著性。对自变量的统计检验
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 线性 相关 回归 简单 多重 Spearman 等级
限制150内