相关回归分析.ppt
《相关回归分析.ppt》由会员分享,可在线阅读,更多相关《相关回归分析.ppt(67页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、相关回归相关回归 前面所研究的都是某个随机变量,对其进行统计描述前面所研究的都是某个随机变量,对其进行统计描述和统计推断(单变量研究)。但在医学科研中,常要分析和统计推断(单变量研究)。但在医学科研中,常要分析变量间的关系,如年龄和血压、身高和体重、体重和体表变量间的关系,如年龄和血压、身高和体重、体重和体表面积等。面积等。变量间的关系:变量间的关系:1、确定性关系、确定性关系 (1)因果关系)因果关系 (函数关系)(函数关系) (2)伴随关系)伴随关系2、非确定性关系(、非确定性关系(1)因果关系)因果关系 (2)伴随关系)伴随关系编 号 1 2 3 4 5 6 7 8 9 10 11 12
2、 13 X(kg) 25.5 19.5 24.0 20.5 25.0 22.0 21.5 23.5 26.5 23.5 22.0 20.0 28.0 Y(cm) 9.2 7.8 9.4 8.6 9.0 8.8 9.0 9.4 9.7 8.8 8.5 8.2 9.9 图8-1 13名8岁健康男童体重与心脏横径的散点图7891018202224262830体重(kg)心脏横径(cm) 第一节第一节 直线回归直线回归直线回归方程:表示两变量不确定的函数关系,对观察值直线回归方程:表示两变量不确定的函数关系,对观察值最具代表性、但各观察点并不完全在一直线上,对这些点最具代表性、但各观察点并不完全在一直
3、线上,对这些点最具有代表性的方程称为直线回归方程。最具有代表性的方程称为直线回归方程。一、概念一、概念bXaY(一)一)x和和y的地位不同:的地位不同:x是自变量,是自变量,y应变量应变量1、如果两变量存在因果关系,原因变量为自变量,结、如果两变量存在因果关系,原因变量为自变量,结果变量为应变量;果变量为应变量;2、如不存在因果关系或不明确是否存在因果关系,较、如不存在因果关系或不明确是否存在因果关系,较稳定易测量的为自变量,不易测量的为应变量。稳定易测量的为自变量,不易测量的为应变量。(二)线性回归模型及其应用条件二)线性回归模型及其应用条件iiiXY线性回归模型的前提条件是:线性回归模型的
4、前提条件是:线性(线性(linear)linear)、独立独立( (independent)independent),正态正态( (normal)normal),等方差等方差( (equal variance)equal variance)1. 1. 线性线性是指应变量是指应变量Y Y的总体平均值与自变量的总体平均值与自变量X X呈线性关系。呈线性关系。2、独立独立是指任意两个观察单位之间相互独立。否则会是指任意两个观察单位之间相互独立。否则会使参数估计值不够准确和精确。使参数估计值不够准确和精确。3 3、正态性正态性是指对任意给定的是指对任意给定的x x值,值,y y均服从正态分布,均服从正
5、态分布,该正态分布的均数就是回归直线上与该正态分布的均数就是回归直线上与x x值相对应的那个值相对应的那个点的纵坐标。点的纵坐标。 4 4、等方差等方差是指在自变量的取值范围内,是指在自变量的取值范围内,X不论取什么不论取什么值,值,Y都具有相同的方差。都具有相同的方差。 二、具体方法和步骤二、具体方法和步骤(一)直线回归方程表达式(一)直线回归方程表达式a为截距,回归直线与纵轴交点到原点的距离为截距,回归直线与纵轴交点到原点的距离a0: 交点在横轴上方交点在横轴上方a0 b0 b=0 统计学意义:统计学意义:x每改变一个单位,每改变一个单位,y平均改变平均改变b各单位。各单位。应用最小二乘法
6、原理求应用最小二乘法原理求a,b(最小二乘法原理可保证各实最小二乘法原理可保证各实测点至回归直线的纵向距离的平方和最小。)测点至回归直线的纵向距离的平方和最小。)XXXYllXXYYXXb2)()(XbYa最小二乘法最小二乘法即要求残差平方和达到最小。达到最小。 2121iiniiniBXAYYYQQ值达到最小,值达到最小,a a和和b b应是下面方程组的解。应是下面方程组的解。 00BQAQ解以上方程组得:解以上方程组得:XbYallXXYYXXbXXXYiniiini211(二)具体步骤(二)具体步骤例:某医生研究儿童体重与心脏横径的关系,测得例:某医生研究儿童体重与心脏横径的关系,测得1
7、3名名8岁正常男童的体重与心脏横径,数据见下表试作回岁正常男童的体重与心脏横径,数据见下表试作回归分析。归分析。 编号体重(kg,X)心脏横径(cm,Y)125.59.2219.57.8324.09.4420.58.6525.09.0622.08.8721.59.0823.59.4926.59.71023.58.81122.08.51220.08.21328.09.913名名8岁健康男童体重与心脏横径的关系岁健康男童体重与心脏横径的关系 1、以体重作为自变量,心脏横径作为因变量,作散点、以体重作为自变量,心脏横径作为因变量,作散点图,发现呈直线趋势,可拟合直线回归方程。图,发现呈直线趋势,可拟
8、合直线回归方程。图10.1 13名8岁健康男童体重与心脏横径的关系7.588.599.51018202224262830体重(kg,X)心脏横径(cm,Y)本 例 13n , 5 .301x, 75.70722x, 3 .116y , 63.10442y, 65.2713xy 19.23x , 95. 8y 2692.80135 .30175.7072222nxxlxx 1923. 4133 .11663.1044222nyylyy 3846.16133 .1165 .30165.2713nyxxylxy 故 2041. 02692.803846.16xxxyllb, 2121. 419.23
9、2041. 095. 8xbya 2、求、求a,b3、列出回归方程、列出回归方程xy2041. 02121. 44、在自变量的实测范围内取相距较远且易读数的两个、在自变量的实测范围内取相距较远且易读数的两个值,绘出回归直线。值,绘出回归直线。5、回归方程的检验回归方程的检验 (1)方差分析法)方差分析法其基本思想是将应变量其基本思想是将应变量Y的总变异的总变异SS总总分解为分解为SS回归回归和和SS剩余剩余,然后利用,然后利用F检验来判断回归方程是否成立。检验来判断回归方程是否成立。SS总即2)(YY,为 Y 的离均差平方和(total sum of squares) ,反映未考虑 X 与 Y
10、的回归关系时 Y 的变异,其意义可通过图 12.2 加以说明。 P(X,Y) Y )(YY )(YY )(YY Y X X 图 12.2 应变量 Y 的平方和划分示意图 式中,SS回即2)(YY,为回归平方和(regression sum of squares),它反映在Y的总变异SS总中由于X与Y的直线关系而使Y变异减小的部分, 也就是在总平方和中可以用X解释的部分。 SS回越大, 说明回归效果越好,即SS总中可用X与Y线性关系解释的变异越多。 SS剩即2)(YY, 为剩余平方和(residual sum of squares), 它反映X对Y的线性影响之外的一切因素对Y的变异的作用,也就是
11、在总平方和SS总中无法用X解释的部分。在散点图中,各实测点离回归直线越近,2)(YY也就越小,说明直线回归的估计误差越小。 H0:总体回归系数总体回归系数 =0,即,即8岁男童心脏横径与体重之间岁男童心脏横径与体重之间不存在直线关系不存在直线关系H1:总体回归系数总体回归系数 0,即,即8岁男童心脏横径与体重之间岁男童心脏横径与体重之间存在直线关系存在直线关系 =0.051923. 4yylSS总, 121 n总 3444. 32691.803846.1622xxxyxyllblSS回归, 1回归 8479. 03444. 31923. 4回归总剩余SSSSSS, 112 n剩余 39.431
12、18479. 013444. 3剩余剩余回归回归剩余回归SSSSMSMSF 查方差分析用的查方差分析用的F界值表,得界值表,得P0.01,按按 =0.05水准拒绝水准拒绝H0,接受接受H1,认为认为8岁健康男童心脏横径与体重之间存在岁健康男童心脏横径与体重之间存在直线关系。直线关系。变异来源 SS MS F P 总 4.1923 12 回归 3.3444 1 3.3444 43.39 0.01 剩余 0.8479 11 0.0771 资料的方差分析表资料的方差分析表(2)t检验:检验:H0:总体回归系数总体回归系数 =0,即,即8岁男童心脏横径与体重之岁男童心脏横径与体重之间不存在直线关系间不
13、存在直线关系H1:总体回归系数总体回归系数 0,即,即8岁男童心脏横径与体重之岁男童心脏横径与体重之间存在直线关系间存在直线关系 =0.052776. 00771. 0剩余MSSxy, 03098. 02692.802776. 0 xxxyblss 59. 603098. 02041. 0bsbt 按按 =11查查t界值表,得界值表,得P0.01,按按 =0.05水准拒绝水准拒绝H0,接接受受H1,认为认为8岁健康男童心脏横径与体重之间存在直线关岁健康男童心脏横径与体重之间存在直线关系。系。6、总体回归系数、总体回归系数的区间估计的区间估计根据参数估计原理,回归系数根据参数估计原理,回归系数b
14、是总体回归系数是总体回归系数的的点估计,正像样本均数不一定恰好等于总体均数一点估计,正像样本均数不一定恰好等于总体均数一样,需要通过下面公式对总体回归系数样,需要通过下面公式对总体回归系数进行区间估进行区间估计。计。),() 2() 2(bnbnStbStb 例例 10.2 根据例 10.1 资料的样本回归系数 b=0.2141 估计总体回归系数 的 95%可信区间。 已知 b=0.2141, sb=0.03098, ,11213 t0.05(11)=2.201 则总体回归系数 的 95%可信区间为 (0.2141-2.2010.03098, 0.2041+2.2010.03098)=(0.1
15、359,0.2723) (二)Y的区间估计 Y 是指总体中自变量 X 为某一定值 X0时,Y的总体均数。 对Y的估计可计算可信区间: ),()2()2(YnYnStYStY (12.16) 式中YS即Y的标准误,可按下式计算: 220.)()(1XXXXnSSXYY (12.17) 式中 SY.X为剩余标准差。当XX0时,nSSXYY/.,此时,可信区间的范围最窄,预测精度相对较高。 三、区间估计三、区间估计 (一(一)总体回归系数的区间估计总体回归系数的区间估计例例 10.3 根据例 10.1 资料,试计算当 X0=25.0kg 时,Y的 95%可信区间。 已知1923.23X,2692.8
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 相关 回归 分析
限制150内