《医学医学统计学直线回归.pptx》由会员分享,可在线阅读,更多相关《医学医学统计学直线回归.pptx(53页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、内容概述直线回归方程的建立回归系数和回归方程的意义及性质回归系数的假设检验应变量总变异的分解回归问题的方差分析直线回归的区间估计第1页/共53页两个斜率的比较两条回归直线的合并过定点的直线回归直线回归与直线相关的区别及联系回归分析的正确应用第2页/共53页11.1 概述 Y 因变量,响应变量 (dependent variable,response variable)X 自变量,解释变量 (independent variable,explanatory variable)直线回归的形式:第3页/共53页Regression 释义n=1078单位:英寸x=68 y=69x1=72 y1=71x
2、2=64 y2=67第4页/共53页11.1 直线回归方程的建立最小二乘法(least square estimation)第5页/共53页例:某医院欲研究儿童的体重与体表面积的关系,测量了10名3岁男童体重与体表面积,数据见下表编号编号X(X,kg)Y(Y,103cm2)111.05.283211.85.299312.05.358412.35.292513.15.602613.76.014714.45.830814.96.102915.26.0751016.06.411合计合计133.457.266第6页/共53页1112131415165.05.56.06.510名3岁男童体重与体表面积的
3、直线回归 第7页/共53页体重与体表面积的回归体重与体表面积的回归第8页/共53页回归直线的绘制计算不太接近的两点的Y值:X=12kg时 Y=2.5212+0.238512=5.3832(103cm2)X=15kg时 Y=2.5212+0.238515=6.0987(103cm2)第9页/共53页10名名3岁男童体重与体表面积回归图岁男童体重与体表面积回归图1112131415165.05.56.06.5体重(kg),X体表面积Y(103cm2)第10页/共53页11.3 回归系数和回归方程的意义及性回归系数和回归方程的意义及性质质b 的意义a 的意义 的意义 的意义 的意义第11页/共53页
4、b 的意义的意义斜率斜率(slope)2.5212+0.2385 X 体重每增加体重每增加 1 kg,则体表面积平均增加则体表面积平均增加 0.2385(103cm2)b 的单位为的单位为(Y的单位的单位/X的单位的单位)第12页/共53页a 的意义a 截距截距(intercept,constant)X=0 时,时,Y的估计值的估计值a的单位与的单位与Y值相同值相同当当X可能取可能取0时,时,a才有实际意义。才有实际意义。第13页/共53页估计值估计值 的意义的意义X=11时,=5.145,即体重为 11 kg 的三岁女童,其平均体表面积之估计为 5.145(103cm2);X=15时,=6.
5、099,即体重为 15 kg 的三岁女童,其平均体表面积之估计为 6.099(103cm2).给定X时,Y的估计值。当 时,第14页/共53页由体重由体重(kg)估计体表面积估计体表面积(103cm2)X Y Y 的估计值的估计值 (体重体重,kg)(体表面积体表面积)11.0 5.2835.14511.8 5.2995.33612.0 5.3585.38312.3 5.2925.45513.1 5.6025.64613.76.0145.78914.4 5.8305.95614.9 6.1026.07515.2 6.0756.14616.0 6.4116.337第15页/共53页 的意义的意义
6、 为残差:点到直线的纵向距离。1112131415165.05.56.06.5第16页/共53页残差平方和(residual sum of squares).综合表示点距直线的距离。在所有的直线中,回归直线的残差平方和是最小的。(最小二乘)的意义第17页/共53页回归直线的有关性质(1)直线通过均点(2)直线上方各点到直线的纵向距离之和 =直线下方各点到直线的纵向距离之和即:(3)各点到该回归线纵向距离平方和较到其它任何直线者为小。第18页/共53页11.4 回归系数的假设检验回归系数为0,则回归关系不存在。H0:总体回归系数为0,=0;H1:总体回归系数不为0,0;=0.05。第19页/共5
7、3页回归系数的 t 检验第20页/共53页体重与体表面积回归系数的假设检验体重与体表面积回归系数的假设检验 H 0:总体回归系数 0,即体重与体表面积无回归关系;H 1:总体回归系数 0,即体重与体表面积有回归关系。=0.05。体重与体表面积间存在回归关系。第21页/共53页回归系数与相关系数的假设检验结果等价。第22页/共53页11.5 因变量总变异的分解X P(X,Y)Y第23页/共53页Y的总变异分解未引进回归时的总变异:(sum of squares about the mean of Y)引进回归以后的变异(剩余):(sum of squares about regression)回
8、归的贡献,回归平方和:(sum of squares due to regression)第24页/共53页Y的总变异分解 第25页/共53页第26页/共53页剩余标准差(1)扣除了X的影响后Y方面的变异;(2)引进 回归方程后,Y方面的变异。第27页/共53页11.6 回归问题的方差分析 前面应变量总变异的分解与方差分析中方差的分解原理相同,因而,X对Y的影响是否有统计学意义,或X与Y的回归关系是否成立,可以进行方差分析 第28页/共53页例11.2 对例11.1所建方程进行方差分析。H0:体重与体表面积间无直线回归关系;H1:体重与体表面积间有直线回归关系。=0.05。lXX=24.904
9、0,lYY=1.5439,lXY=5.9396,SS总=lYY=1.5439,根据式(11.6)SS剩=1.5439-5.93962/24.9040=0.1273根据(11.12):SS回=SS总-SS剩=1.5439-0.1273=1.4166第29页/共53页变异来源SSMSF回 归1.416611.416689.01剩 余0.127380.0159总变异1.543990.1715表11.2 方差分析表得F=89.01,今1=1,2=8,查附表4 F界值表,得P0.01,按=0.05水准拒绝H0,接受H1,故可认为3岁男童的体重与体表面积之间有线性回归关系 第30页/共53页11.7 回归
10、问题的区间估计回归系数的可信区间估计估计值 的可信区间估计个体Y值的容许区间估计第31页/共53页复习均数的可信区间:均数界值标准误 (4.3,4.4)个体的容许区间(参考值范围):均数界值标准差 (2.37)第32页/共53页11.7.1 总体回归系数 的可信区间估计根据 t 分布原理估计:0.2385+/-2.3060.02528 0.18020.2968(103cm2/kg)第33页/共53页11.7.2 的可信区间估计 样本 总体Y的总平均给定X时Y的平均 (Y的条件均数)根据 t 分布原理根据:第34页/共53页X=12时,求 的95%可信区间 =13.44,lXX=24.9040,
11、=0.1262。当X=12时,=5.3832,第35页/共53页11.7.3 的容许区间估计 给定 X 时 Y 的估计值是 Y 的均数的一个估计。给定X 时 Y 值的容许区间是 Y 值的可能范围。的100(1-)%容许限:第36页/共53页 的可信区间与Y的容许区间可信区间是针对条件均数的,而容许区间是针对Y的取值范围的。X=12时,的可信区间为:5.25785.5077(103cm2),表示:体重为12kg的3岁男童,估计其平均体表面积为5.3832,95可信区间为(5.2587,5.5077)(103cm2)。X=12时,Y的容许区间为:5.06665.6998(103cm2),表示:体重
12、为12kg的3岁男童,估计有95的人其体表面积在5.06665.6998(103cm2)之间。第37页/共53页结论:体重为12kg的3岁男童,估计有95%的人其体表面积在5.06665.6998(103cm2)之间,平均体表面积为5.3832(103cm2),95可信区间为(5.2587,5.5077)(103cm2)。第38页/共53页可信区间与容许区间示意(confidence band&tolerance band)1112131415164.55.05.56.06.57.0第39页/共53页11.8 两条回归直线的比较有时需要对两条回归方程进行比较,以推断相应的两总体回归直线是否平行
13、,是否重叠。决定直线回归方程的参数是回归系数b和截距a两回归直线平行,等价于1=2;两回归直线重叠,等价于1=2且1=2。第40页/共53页11.8.1 两回归系数的比较检验假设为:H0:12;H1:12。=0.05。t=第41页/共53页11.9 过定点的直线回归例11.4 在用荧光光度法测定全血硒的研究中,分别取不同硒含量的标准液,消化后测定其荧光强度,试作标准直线。含硒量(g)X 荧光强度Y0.0000.000.0254.360.0509.310.10017.130.15025.030.20033.22第42页/共53页过定点(X0,Y0)的直线回归方程一般的直线回归方程(过X的均数和Y
14、的均数):第43页/共53页过定点(X0,Y0)的直线方程估计第44页/共53页不同硒含量所得荧光强度的过定点的回归 荧光强度Y0 0.025 0.05 0.075 0.1 0.125 0.15 0.175 0.2 0 5 10 15 20 25 30 35 硒含量X(g)第45页/共53页11.10 直线回归与直线相关的区别与联系区别r 没有单位,b有单位;所以,相关系数与单位无关,回归系数与单位有关;相关表示相互关系,没有依存关系;而回归有依存关系;对资料的要求不同:当X和Y都是随机的,可以进行相关和回归分析;当Y是随机的(X是控制的),理论上只能作回归而不能作相关分析;I型回归:X是精确
15、控制的;II型回归:X是随机的。由X推算Y:由Y推算X:第46页/共53页11.10 直线回归与直线相关的区别与联系联系均表示线性关系;符号相同:共变方向一致;假设检验结果相同:是否存在共变关系;第47页/共53页11.11 回归分析的正确应用要有实际意义;充分利用散点图,判断:(1)线性趋势 (2)离群值当样本含量较大时,统计学检验的作用减弱;回归关系可以内插,不宜外延;自变量的选择:原因 容易测量的 变异小的 年龄、身高、体重、体表面积第48页/共53页11.11 回归分析的正确应用回归系数是有单位的,不能根据 b 的大小判断回归关系的密切程度。应用条件(LINE):(1)线性(linear)(2)独立(independent)(3)给定X时,Y正态分布(normal)(4)等方差(equal variance)第49页/共53页给定X时,Y是正态分布、等方差示意图第50页/共53页给定X时,Y是正态分布、不等方差示意图第51页/共53页第52页/共53页谢谢您的观看!第53页/共53页
限制150内