研究生统计学讲义第11讲相关与回归.ppt
第六章第六章 一元线性相关与回归一元线性相关与回归 变量间的关系有确定性关系变量间的关系有确定性关系(函数关系函数关系)和随机性关和随机性关系。函数关系是指对于一个变量的每个可能取值,另系。函数关系是指对于一个变量的每个可能取值,另外的变量都有完全确定的值与之对应。随机性关系是外的变量都有完全确定的值与之对应。随机性关系是指变量间的关系以非确定性形式出现的情况。指变量间的关系以非确定性形式出现的情况。例如儿童身高与体重的关系;随着身高的增长,例如儿童身高与体重的关系;随着身高的增长,体重也增加,一般说,身高高的儿童,体重也重一些,体重也增加,一般说,身高高的儿童,体重也重一些,两者之间确实存在着某种关系,但显然不是函数关系,两者之间确实存在着某种关系,但显然不是函数关系,因为身高相同的人体重也有的重,有的轻,身高和体因为身高相同的人体重也有的重,有的轻,身高和体重之间的客观联系存在于随机背景中,不能说某一身重之间的客观联系存在于随机背景中,不能说某一身高的儿童,其体重一定是多少。高的儿童,其体重一定是多少。第一节第一节 直线相关直线相关 相关分析用于测量观察到的任何一对变量之间的联相关分析用于测量观察到的任何一对变量之间的联合强度,我们主要关心两个变量是否互相依赖或共同变合强度,我们主要关心两个变量是否互相依赖或共同变化这里我们没有把变量表示成为其它函数,像回归分化这里我们没有把变量表示成为其它函数,像回归分析一样并未暗示析一样并未暗示Y依赖于依赖于X X和和Y二者测量有误差并二者测量有误差并且我们希望估计这些变量共同变化的程度见图且我们希望估计这些变量共同变化的程度见图 相关与回归分析的种类很多,按变量个数划分,相关与回归分析的种类很多,按变量个数划分,有一个有一个 x 一个一个 y 的简单相关与回归分析,多个的简单相关与回归分析,多个 x 和和一个一个 y 的多元相关与回归分析,以及多个的多元相关与回归分析,以及多个 x 多个多个 y的的典型相关。本章介绍最简单的两变量间的直线相关典型相关。本章介绍最简单的两变量间的直线相关与回归,称为一元线性相关与回归与回归,称为一元线性相关与回归1.散点图散点图 图图7.1 a)图说明图说明X 和和Y 之间具有正相关之间具有正相关b)图说明图说明 X 和和 Y 之间之间具有负相关具有负相关.c)图和图和d)图说明图说明 X 和和 Y 之间没有相关关系之间没有相关关系 双双变变量量相相关关分分析析步步骤骤是是先先作作原原始始数数据据的的散散点点图图,根根据据散散点点图图的的提提示示再再作作恰恰当当分分析析,如如两两变变量量有有直直线线趋趋势势,则则作作直直线线相相关关分分析析。从从散散点点图图可可初初步步看看出出变变量量分分布布非非正态时,应考虑作等级相关而不宜作积矩相关。正态时,应考虑作等级相关而不宜作积矩相关。并非任何有联系的两个变量都是直线联系。例如,并非任何有联系的两个变量都是直线联系。例如,血压很高的人和很低的人死亡率均较高,而中等血压血压很高的人和很低的人死亡率均较高,而中等血压的人死亡率较低,死亡率和血压之间有如图的人死亡率较低,死亡率和血压之间有如图7-1(h)所示所示曲线关系,不适合作直线相关分析。曲线关系,不适合作直线相关分析。2.积矩相关系数积矩相关系数:Pearson积差积差相关系数相关系数,简称相关系数。简称相关系数。表示两个变量间直线关系密切程度和方向的统计指标。表示两个变量间直线关系密切程度和方向的统计指标。用用 r 表示,总体相关系数用表示,总体相关系数用表示,表示,r 是是的点估计。的点估计。考虑考虑 X 和和 Y 的标准正态离差的标准正态离差:和和 把相应的离差同时相乘并求和时把相应的离差同时相乘并求和时,得到一个联合得到一个联合指标指标:这个指标具有下面的性质这个指标具有下面的性质:1如果大的如果大的X 值与大的值与大的Y 值相联系,小的值相联系,小的X 值与小的值与小的Y 值相联系,那么值相联系,那么 和和 二者符号相二者符号相同,在公式中它们的乘积为正同,在公式中它们的乘积为正 X 和和 Y 之间有正相关之间有正相关 2如果大的如果大的X 值与小的值与小的Y 值相联系,小的值相联系,小的X 值与大的值与大的Y 值相联系,那么值相联系,那么 和和 二者符号相二者符号相反,在公式里符号为负反,在公式里符号为负.于是我们就说这种于是我们就说这种情形里情形里 X 和和 Y 之间有之间有负相关负相关 如果我们用如果我们用 n1 除公式除公式,就得到一个新指标就得到一个新指标,用用 r 表示表示,首先它满足两个条件且范围从首先它满足两个条件且范围从1到到+1(我们(我们将在随后验证)将在随后验证).有有 即即 r 是是 X 和和 Y 的修正积差除的修正积差除以以 X 和和 Y 的修正平方和乘积的修正平方和乘积的平方根注意的平方根注意 r 是参数是参数的的估计值,参数估计值,参数定义为定义为:希腊字母希腊字母(“rho”)表示变量表示变量 X 和和 Y 之间真实的之间真实的总体关系总体关系 相关系数无单位相关系数无单位,取值范围为取值范围为1r1,r 的符号表的符号表示相关方向,示相关方向,r0称为正相关,称为正相关,rr,(df),则,则P,可按可按检验水准拒绝检验水准拒绝H0,认为认为 x 与与 y 之间有直之间有直线相关关系线相关关系,0.反之反之r越小越小,P值越大值越大,若若r,按按检验水准不能拒绝检验水准不能拒绝H0,从而认为从而认为x、y之间无直线相关关系。之间无直线相关关系。例例6.1 测得某地测得某地10名三岁儿童的体重与体表面积如下,名三岁儿童的体重与体表面积如下,试计算样本相关系数试计算样本相关系数r,并检验其是否来自,并检验其是否来自0的总体的总体体重体重面积面积y(10-1m2):5.283 5.299 5.358 5.602 5.292 6.014 5.830 6.102 6.075 6.411 H0:总体相关系数:总体相关系数0,体重与体表面积间无直线相,体重与体表面积间无直线相关关系;关关系;H1:0。0.05。在直角坐标系上画出散点图在直角坐标系上画出散点图,有直线趋势有直线趋势,故进行直故进行直线相关分析线相关分析.使用程序型计算器时使用程序型计算器时,在线性回归在线性回归(LR)工工作方式下作方式下,成对地输入成对地输入x 与与y 后后,可直接输出可直接输出r=0.9568。无程序型计算器和计算机时无程序型计算器和计算机时,用一般计算器可求出用一般计算器可求出n对对x与与y 的乘积之和的乘积之和xy=775.6606,=13.440,=5.7272,x、y 的样本标准差的样本标准差Sx=1.6635、Sy=0.4136,按公式计算相关按公式计算相关系数系数 r:=(775.6606-1013.4405.7272)/(10-1)1.66350.4136=5.92492/6.1922=0.9568。以作统计量以作统计量,用自用自由度由度df10-28,查附查附表表16得界值得界值r0.01(8)0.765,统计量统计量r r,P0.01,按水准拒绝按水准拒绝H0,接受接受H1,可以认为可以认为某地三岁儿童体重某地三岁儿童体重(kg)与体表面积与体表面积(101m2)呈正向直线相关。呈正向直线相关。使用统计软件使用统计软件(3)进行直线相关分析)进行直线相关分析 Cross-product deviations and covarlances;输出结果:体重与体表面积的输出结果:体重与体表面积的Pearson相关系数相关系数r=0.923,双侧,双侧 P 值值=0.000,可认为直线相关有统计学,可认为直线相关有统计学意义。意义。三、直线相关分析应注意的问题三、直线相关分析应注意的问题 1判判断断两两个个变变量量间间是是否否存存在在相相关关关关系系,不不能能仅仅根根据据样本相关关系的大小下结论,必须进行假设检验。样本相关关系的大小下结论,必须进行假设检验。2正正相相关关或或负负相相关关并并不不一一定定表表示示一一个个变变量量的的改改变变是是引引起起另另一一个个变变量量变变化化的的原原因因,可可能能同同受受另另一一个个因因素素的的影影响响。因因此此,事事物物间间有有相相关关关关系系,不不一一定定是是因因果果关关系系;但但如果两事物之间存在因果关系,则两者必然是相关的。如果两事物之间存在因果关系,则两者必然是相关的。3当样本含量不大时当样本含量不大时(如如nr 0.4(中中度度相相关关)或或r0.7(高高度度相相关关),都都有作回归分析的必要。有作回归分析的必要。0.4r0.2(低低度度相相关关),是是否否有有作作回回归归分分析析的的必必要,有不同的看法。要,有不同的看法。4相关分析中对变量的选择及统计结果的解释要结相关分析中对变量的选择及统计结果的解释要结合专业背景。不要把合专业背景。不要把P值大小误解为相关程度,样本相值大小误解为相关程度,样本相关系数有统计学意义并不一定反映相关就很密切,需关系数有统计学意义并不一定反映相关就很密切,需要考虑专业意义或进一步结合决定系数来作实际意义要考虑专业意义或进一步结合决定系数来作实际意义解释。牢记:统计上显著性水平的高低,不能代表实解释。牢记:统计上显著性水平的高低,不能代表实际相关水平的高低。际相关水平的高低。第三节第三节 直线回归直线回归 一、直线回归的模型一、直线回归的模型-简单线性回归简单线性回归 在线性回归里,一个变量的变化(因变量在线性回归里,一个变量的变化(因变量Y)是由)是由于另一个变量(自变量于另一个变量(自变量X)的变化所致明确地,我)的变化所致明确地,我们将寻找直线或寻找由们将寻找直线或寻找由X的变化而引起的变化而引起Y的线性变化的线性变化回归分析通常所处的位置是已经控制了变量回归分析通常所处的位置是已经控制了变量X并且并且基本上能够准确测量它当变量之间有曲线关系的时基本上能够准确测量它当变量之间有曲线关系的时候,也就是指数,抛物线或多项式,但我们限定所考候,也就是指数,抛物线或多项式,但我们限定所考虑的是线性情形我们考虑简单线性回归虑的是线性情形我们考虑简单线性回归 分析目标是描述两变量之间的函数关系,这里分析目标是描述两变量之间的函数关系,这里 X 是是自变量而自变量而 Y 是应变量是应变量.假定假定 X 可测量而没有误差可测量而没有误差,而而且是可以重复测量的因为且是可以重复测量的因为Y 是应变量是应变量,它是自由多它是自由多变的变的.当我们把数据画图时当我们把数据画图时,如果数据表现出有线性如果数据表现出有线性关系关系,希望了解这个线性方程性质的真实参数希望了解这个线性方程性质的真实参数 二、直线回归方程的建立与检验二、直线回归方程的建立与检验 回归分析的内容包括三个方面:回归分析的内容包括三个方面:(1)建建立立回回归归方方程程,是是根根据据样样本本数数据据判判定定回回归归方方程程的类型,建立回归方程的估计式。的类型,建立回归方程的估计式。(2)检检验验回回归归方方程程,是是判判断断建建立立的的回回归归方方程程能能否否使使用。用。(3)使使用用回回归归方方程程,是是在在样样本本数数据据范范围围内内,由由自自变变量量数数据据推推算算因因变变量量的的估估计计值值(称称预预测测),或或由由因因变变量量数据推算自变量的估计值(称控制数据推算自变量的估计值(称控制)。1直线回归方程的建立直线回归方程的建立 补充例题补充例题:一名学生想要确定温度与中国林蛙心律之间一名学生想要确定温度与中国林蛙心律之间的关系的关系,调节温度范围从调节温度范围从2到到18,纪录每个温度下的纪录每个温度下的心律心律.数据如下表所示数据如下表所示 编号编号 1 2 3 4 5 6 7 8 9 对两变量之间的关系怎样进行处理描述呢对两变量之间的关系怎样进行处理描述呢?显然两显然两个变量有函数依赖个变量有函数依赖随着温度的增加随着温度的增加,心律也就增加心律也就增加.这里温度由学生控制这里温度由学生控制,且在使用不同蛙的其它实验里且在使用不同蛙的其它实验里能够准确测得相同值能够准确测得相同值(见下图见下图)温度是自变量或温度是自变量或“预预报报”变量变量.心律由温度确定心律由温度确定,因此它是应变量或因此它是应变量或“反反应应”变量变量.以不同温度下心律预测为目标以不同温度下心律预测为目标,回归分析回归分析能够正确地分析这些资料能够正确地分析这些资料 X(温度温度)2 4 6 8 10 12 14 16 18Y(心律心律)5 11 11 14 22 23 32 29 32图图6.5 温度和心律数据用温度和心律数据用表示表示,这些数据接近所显示这些数据接近所显示的直线的直线,在相同温度下在相同温度下,如果重复如果重复7次实验次实验,数据是相数据是相似的似的,但是并非都一样但是并非都一样(见空心见空心).在实验运行中在实验运行中,因因为研究者控制了温度为研究者控制了温度,所以这些点排列在垂线上所以这些点排列在垂线上 线性模型的假定线性模型的假定1.X 固定且测量无误差固定且测量无误差2.对对所所给给的的X,变变量量 Y 的的期期望望值值(或或平平均均值值)用用一一个线性函数来描述个线性函数来描述:E(Y)=Y|X=+X这里的这里的和和是实常数,且是实常数,且0 Y的期望值取决于的期望值取决于X 和参数和参数和和.注意这些注意这些和和与与前面使用的前面使用的型错误和型错误和型错误值不同型错误值不同.它们代表的它们代表的是截矩是截矩 intercept 和斜率和斜率slope,分别表示分别表示 Y 和和 X 之间之间的线性关系的线性关系3.对对任任何何固固定定的的X值值,能能够够测测量量相相应应的的变变量量Y的的一一些些值值.(例例如如固固定定一一个个温温度度,测测量量一一些些蛙蛙的的心心律律值值)然然而而,我我们们假假定定对对任任何何的的X i,Y i 彼彼此此独独立立而而且且服服从从正正态态分分布布,(见图见图10.1垂直排列的数据垂直排列的数据)能够把每一个能够把每一个Yi 值表示为值表示为Y i=+X i +i 或或 Y i 被描述为期望值(被描述为期望值(+X i)加上一个来自于期望)加上一个来自于期望值的偏差值的偏差i 我们假定我们假定i 是具有均值为是具有均值为 0 的正态分布的的正态分布的误差项误差项 4对对不不同同的的X 值值,假假定定 Y 的的分分布布的的方方差差相相等等.统统计计学家说它们是等方差!学家说它们是等方差!为为了了描描述述 Y 和和X 之之间间的的实实验验回回归归关关系系,需需要要执执行行下下列步骤:列步骤:1画散点图借以发现明显存在的线性关系画散点图借以发现明显存在的线性关系2为数据集寻找一条最合适的直线为数据集寻找一条最合适的直线3检验这条拟合的直线是否能解释检验这条拟合的直线是否能解释 Y 的变化的重要的变化的重要部分,也就是检验线性关系是否真实部分,也就是检验线性关系是否真实 作作一一个个初初步步的的散散点点图图以以获获得得两两变变量量之之间间是是否否有有存存在在任任何何联联系系的的印印象象,如如果果是是这这样样,两两变变量量或或许许可可能能有有联联系系下下面面 a)图图表表示示在在 X 和和 Y 之之间间不不存存在在有有意意义义的的关关系系大大的的Y值与既大又小的两个值与既大又小的两个 X 值相联系值相联系图图b),c)和和d)表表示示在在变变量量之之间间有有关关系系,但但不不是是直直线线关关系系如如果果它它们们能能够够通通过过数数学学函函数数转转换换为为直直线线图图形形,回回归分析就能够对转换的数据进行描述归分析就能够对转换的数据进行描述 图图e)显示显示 Y 和和 X 之间有负的线性关系(即之间有负的线性关系(即 X 增加增加时,时,Y减少)而数据点不一定恰好在直线上,它们减少)而数据点不一定恰好在直线上,它们给我们一个线性的印象图给我们一个线性的印象图10.3 f)表示变量之间有很)表示变量之间有很强的正线性关系(即强的正线性关系(即 X 增加,增加,Y 增加),与直线偏差增加),与直线偏差小线性回归只适合最后两种情形小线性回归只适合最后两种情形a)表示在表示在 X 和和 Y 之间不存在有意之间不存在有意义的关系义的关系b),c)和)和d)表表示在变量之间有示在变量之间有关系,但不是直关系,但不是直线关系线关系e)显示显示 Y 和和 X 之间有负的线性之间有负的线性关系关系f)表示变量之)表示变量之间有很强的正间有很强的正线性关系线性关系图图6.6 数据数据最佳直线拟合最佳直线拟合一一旦旦确确定定适适合合作作回回归归分分析析,就就是是要要确确定定哪哪一一条条直直线线最最能能拟拟合合数数据据.在在下下图图拟拟合合了了a,b,c三三条条直直线线.很很明明显显,c 拟拟合合数数据据比比a 和和b 更更好好.这这些些数数据据有有正正的的倾倾向向:随随X的的增增加加,Y也也增增加加.而而直直线线 b 完完全全不不能能够够反反映映 Y 和和 X 之间的关系之间的关系,而且这条线暗指不存在关系而且这条线暗指不存在关系 图图6.7 如何确定哪条线最好拟合这些数据呢?如何确定哪条线最好拟合这些数据呢?在图在图6.8 里,考虑相同数据和两条直线里,考虑相同数据和两条直线c与与d这个时候两条这个时候两条直线都顺着直线的正向为讨论这些直线哪条最能拟合数据直线都顺着直线的正向为讨论这些直线哪条最能拟合数据或者是否有一些其它直线能更好地拟合或者是否有一些其它直线能更好地拟合需要某些我们能够判需要某些我们能够判断其拟合的准则为了产生最满意的直线,下面我们制定这个断其拟合的准则为了产生最满意的直线,下面我们制定这个准则和方法准则和方法 回归的目的是预测回归的目的是预测 Y 的值开始瞬间,忽略变量的值开始瞬间,忽略变量 X,按照,按照前面单样本分析进行思考前面单样本分析进行思考Y的预测值将是的预测值将是E(Y)=Y,通过使,通过使用样本平均值用样本平均值 进行估计该直线有方程进行估计该直线有方程 .见图见图7.9,我们使用记号我们使用记号 (念作(念作“Y hat”)而不是用)而不是用Y去表示它的预测值,去表示它的预测值,预测值不是精确值或观察值直线预测值不是精确值或观察值直线 的斜率为的斜率为0,即它平行,即它平行于于x 轴作为轴作为 ,它意味着,它意味着Y 和和X 之间没有关系,因为之间没有关系,因为Y的值不依赖(随着变化的)的值不依赖(随着变化的)X 值值 图图6.9 对数据拟合对数据拟合 然然而而在在下下面面,我我们们认认为为Y的的值值不不依依赖赖 X 的的取取值值,而而且且我我们们能能够够度度量量 Y 的的精精确确值值Yi 和和 Y 的的预预测测值值 之之间间的的差差值值从从每每一一数数据据点向直线点向直线 画一节垂线任何一段的长度都是画一节垂线任何一段的长度都是见图见图7.10,如果对这些离差平方求和,有,如果对这些离差平方求和,有 图图6.10 从数据点向直线画垂线从数据点向直线画垂线 Y 的总离差平方和的总离差平方和=现在画一条斜线现在画一条斜线 去拟合数据再从每一个去拟合数据再从每一个数据点向斜线画垂线段数据点向斜线画垂线段 如果我们对这个离差求如果我们对这个离差求平方和,就得到:平方和,就得到:,比从图比从图7.10计算计算 要小,因线段短些要小,因线段短些.画出画出“拟合拟合”数据直线后数据直线后,这个剩余变化这个剩余变化被认为是系统残差或无法解释的变化被认为是系统残差或无法解释的变化 图图 最佳直线是这样的一条直线,它的截矩最佳直线是这样的一条直线,它的截矩a 和斜率和斜率 b 同时使这同时使这个残差减至最小与第个残差减至最小与第 8 章一样,我们能划分平方和以确定残章一样,我们能划分平方和以确定残差数量如图差数量如图7.12,每一个每一个 Yi 都能够表示为都能够表示为 移项得移项得 (7.15)对公式对公式7.15两边平方并且求和,我们得到两边平方并且求和,我们得到 总的平方和是总的平方和是 总平方和总平方和 =回归平方和回归平方和 +残差平方和残差平方和 SS总总 =SS回回 +SSE 使使 SS回回 达到最大值,而使达到最大值,而使 SSE 达到最小值达到最小值 要使要使SSE达到最小值,就要使得图达到最小值,就要使得图10.8里作出的垂线里作出的垂线段尽可能地短,拟合直线:段尽可能地短,拟合直线:是样本回归方程,用来估计前面给出的参数关系:是样本回归方程,用来估计前面给出的参数关系:Y|X=+X这里的这里的 a 是真实截矩是真实截矩的估计值,而的估计值,而 b 是是真实斜率真实斜率的估计值在公式的估计值在公式10.1里,因为这条直线使里,因为这条直线使误差平方和达到最小,它就是众所周知的误差平方和达到最小,它就是众所周知的 由上式,对由上式,对 a 作代换得到作代换得到它能表示为(见它能表示为(见P109公式公式7.11)截矩的最优估计)截矩的最优估计:最小二乘回归直线最小二乘回归直线 要要得得到到使使 SSE 取取得得最最小小值值的的斜斜率率b,需需要要最最小小二二乘乘法法技技巧最小二乘回归方程是巧最小二乘回归方程是 斜率斜率 b 由最小二乘回归法确定由最小二乘回归法确定:作为斜率作为斜率b 的方程离差的基本计算是解方程的方程离差的基本计算是解方程7.11然而然而,斜斜率率 b 是由最小二乘法来确定是由最小二乘法来确定,是修正的交叉积是修正的交叉积 lXY 除以修正的除以修正的lXX.值得重复的是值得重复的是,利用公式利用公式7.14,这个方程对一组线性数据集这个方程对一组线性数据集会产生最佳斜率会产生最佳斜率,产生的误差平方项是最小的产生的误差平方项是最小的,而产生的回归而产生的回归平方和是最大的平方和是最大的 如果公式如果公式7.14给出的是最优拟合回归方程,我们需要检验方给出的是最优拟合回归方程,我们需要检验方程的统计显著性程的统计显著性.要明白为什么要明白为什么,考虑图考虑图7.13里的数据,因为用里的数据,因为用箭头指出了数据点箭头指出了数据点,所以能够用一条斜率为正的回归直线来拟合所以能够用一条斜率为正的回归直线来拟合它们它们.这条回归直线能证明这条回归直线能证明X 和和Y 之间有真实的线性关系吗?或之间有真实的线性关系吗?或许不是因为方程有意义就必须解释由许不是因为方程有意义就必须解释由X 的改变而引起的改变而引起Y 的主要的主要变异变异 正的斜率能够象征这组数据吗正的斜率能够象征这组数据吗?变量变量X 和和Y 之间有线性关系吗之间有线性关系吗?SS总总 =SS回回 +SSE因为因为所以所以2.直线回归中变异的分析直线回归中变异的分析 总的平方和是总的平方和是 由回归引起的平方和是由回归引起的平方和是:残差的平方和是残差的平方和是:=SS总总SS回回=SS总总b*lXY SS回回是由是由 x 不同引起的线性效应不同引起的线性效应,它反应在它反应在y 的总变的总变异中异中,由于由于x 与与y 的直线关系而使的直线关系而使 y 变异减小的部分变异减小的部分,为为y 的总变异的总变异SS总总lyy中可以用自变量中可以用自变量 x 来解释的变异来解释的变异.SS回回越大越大,说明回归效果越好。说明回归效果越好。SS剩余剩余表示散点图中各实测点关于回归直线的偏离情表示散点图中各实测点关于回归直线的偏离情况,况,SS剩剩越小,说明各实测点离回归直线越接近,直越小,说明各实测点离回归直线越接近,直线回归的误差越小,反映除自变量线回归的误差越小,反映除自变量x对因变量对因变量y线性影线性影响之外的一切因素对响之外的一切因素对y变异的作用,也就是在总平方和变异的作用,也就是在总平方和中,无法用自变量解释的作用,即随机误差作用。中,无法用自变量解释的作用,即随机误差作用。SS剩剩 的大小与自由度的大小与自由度df剩剩 有关,因为有关,因为 中的中的 a 和和 b 都是都是由样本值算得的,所以由样本值算得的,所以df剩剩n-2。X 和和 Y 的样本相关系数的样本相关系数 r 及及 y的方差的方差 已知时:已知时:SS剩剩(y )2(n-1)(1-r2),df剩剩n-2。3.剩余标准差与决定系数剩余标准差与决定系数 剩余标准差和决定系数都是描述回归方程拟合效果剩余标准差和决定系数都是描述回归方程拟合效果的指标。的指标。(1)剩余标准差)剩余标准差(standard deviation about residual)剩余标准差表示各实测值剩余标准差表示各实测值y关于回归直线关于回归直线 纵向距离纵向距离的离散程度。因的离散程度。因 =a+bx 系由系由x推断推断y,所以其剩余标,所以其剩余标准差记为准差记为Syx:.(7.20)(2)决定系数)决定系数(determining coefficient,R2)回归回归平方和在总平方和中所占的比例称为决定系数:平方和在总平方和中所占的比例称为决定系数:在直线回归中在直线回归中,将将SS回回=代入式代入式(7.25)得得:当当SS总总 不变时不变时,SS回回的大小决定的大小决定 r 的大小的大小.SS回回 越大越大,则则 r 越接近越接近1。如。如 r=0.2,n=100,则则 拒拒绝绝H0,认认为为变变量量之之间间存存在在相相关关关关系系.但但是是,r2=0.04,表表示示SS回回仅仅占占SS总总 的的4%.两两变变量量之之间间相相关关程程度不大。度不大。如如下下图图中中SS剩剩 相相同同时时,但但相相关关系系数数相相差差很很大大,r 随随 b 的的增增大大而而增增大大,所所以以 r 的的大大小小与与SS剩剩 与与 b 有有关关,r 不不能能用来作为回归估计精度的指标。用来作为回归估计精度的指标。对对R2的要求随研究领域而不同的要求随研究领域而不同.在一些临床研究中在一些临床研究中,因病人之间的个体差异较大因病人之间的个体差异较大,R2 达到达到0.7 认为回归效果认为回归效果不错不错.而在一些高精度的医药实验室研究中而在一些高精度的医药实验室研究中,要求要求R2 较较大,例如,标准线的配制要求大,例如,标准线的配制要求 R2 在在0.95以上以上 回归的显著性检验是回归的显著性检验是ANOVA H0:Y的主要变化不能用线性模型解释的主要变化不能用线性模型解释,即即=0 H1:Y的主要变化能用线性模型解释的主要变化能用线性模型解释,即即0 期望值列在表期望值列在表7.1里,这里无需证明,只是为假设检验里,这里无需证明,只是为假设检验提供直接值提供直接值4直线回归方程的检验直线回归方程的检验 (1)直线回归方程的方差分析)直线回归方程的方差分析 对直线回归方程对直线回归方程作方差分析的目的是检验所建立的直线回归方程是作方差分析的目的是检验所建立的直线回归方程是否有统计学意义。否有统计学意义。假设假设H0为真为真:表表6.1 回归分析的方差分析表回归分析的方差分析表 方差来源方差来源 SS DF MS E(MS)F c.v.回归回归 SSR 1 MSR 误差误差 SSE n-2 MSE 见附表见附表7 7 总总 SS总总 n-1 假设假设H1为真为真:2lXX 永远为正或永远为正或 0(在(在H0下为下为0而在而在H 1下为正)下为正)回到前例回到前例,对中国林蛙对中国林蛙(哈士蟆哈士蟆)心律和温度之间的心律和温度之间的关系进行回归分析我们开初使用数据散点图关系进行回归分析我们开初使用数据散点图(见图见图6.14),它表示心律和温度之间存在明显的线性关系它表示心律和温度之间存在明显的线性关系 图图6.14 中国林蛙心律和温度的散点图中国林蛙心律和温度的散点图 下一步对回归分析进行初步计算下一步对回归分析进行初步计算 n=9 X=90 Y=179 X2=1140 Y2=4365 XY=2316现在我们能够计算回归系数或斜率现在我们能够计算回归系数或斜率在图在图6.14 里数据的最优二乘拟合方程是里数据的最优二乘拟合方程是 为画这条直线,在研究的范围值内利用两点温度求两点值,为画这条直线,在研究的范围值内利用两点温度求两点值,我们使用我们使用X=5和和X=15:图图6.15 最小二乘回归线通过两点最小二乘回归线通过两点(5,)和和(15,)延长延长,坐标是由回归方程确定的坐标是由回归方程确定的 作出回归方程后,我们需要检验它是否能够解释作出回归方程后,我们需要检验它是否能够解释 Y 的主要变的主要变化假设化假设 H0:=0 Ha:0利用最初的计算结果,我们有利用最初的计算结果,我们有 SSR=b2lXX=(1.78)2(240)=760.42 SSE=SS 总总SSR 方差来源方差来源 SS DF MS F c.v.回归回归 误差误差 总总 804.89 8 因为因为119.755.59,我们确信心律的主要变化能通过温度的,我们确信心律的主要变化能通过温度的回归进行解释回归进行解释(2)回归系数的假设检验)回归系数的假设检验:根据样本回归系数根据样本回归系数blxy/lxx,由正态分布性质可知由正态分布性质可知:样本回归系数样本回归系数 b 是一个正态变量是一个正态变量;b 的总体均数为的总体均数为.b的的方差为方差为:估计值是估计值是:H0:=0 Ha:0可以检验样本回归系数可以检验样本回归系数 b 是否来自是否来自 =0的总体。的总体。(3)直线回归方程、回归系数、相关系数假设检验的关直线回归方程、回归系数、相关系数假设检验的关系系=F,同样可推导出同样可推导出 tr2=tb2=F 因为线性回归中只有一个自变量因为线性回归中只有一个自变量,所以所以,对同一资料,对同一资料,回归系数的假设检验、相关系数的假设检验、回归方回归系数的假设检验、相关系数的假设检验、回归方程的方差分析都是一致的程的方差分析都是一致的,当相关系数有统计学意义时当相关系数有统计学意义时,回归系数与回归方程也一定有意义回归系数与回归方程也一定有意义,反之亦然反之亦然.由于相由于相关系数的计算及检验比较方便关系数的计算及检验比较方便,故常用相关系数的假设故常用相关系数的假设检验代替回归系数、回归方程的假设检验。检验代替回归系数、回归方程的假设检验。5.回归系数的可信区间回归系数的可信区间 由式由式(7.25),按,按 t 分布的规律,分布的规律,推导出回归系数推导出回归系数的的(1)可信区间计算公式可信区间计算公式(缩写缩写)为:为:例例7.3 由图由图7-4可见例可见例7.1资料三岁儿童体重与体表面积资料三岁儿童体重与体表面积资料的散点图有直线趋势资料的散点图有直线趋势,故适于作回归直线分析。故适于作回归直线分析。第四节第四节 直线回归与相关的区别和联系直线回归与相关的区别和联系 1区别区别 (1)在资料要求上在资料要求上,回归要求因变量回归要求因变量 y 服从正态分布服从正态分布;x是可以精确测量和严格控制的变量是可以精确测量和严格控制的变量,一般称为一般称为 I 型回型回归归相关要求两个变量相关要求两个变量 x、y 都服从正态分布都服从正态分布,称为双变量称为双变量正态分布正态分布.这种资料若进行回归分析这种资料若进行回归分析,称为称为II型回归型回归(1)已已知知x、y 的的标标准准差差Sx、Sy时时,相相关关系系数数r 与与回回归归系系数数 b 可以相互推算:可以相互推算:r=b sx /sy,b=r sy /sx (7.31)同一组数据的同一组数据的r与与b的正负号是一致的。的正负号是一致的。r为正号,说为正号,说明两变量间的相互关系是同向变化的;明两变量间的相互关系是同向变化的;b为正,说明自为正,说明自变量变量 x 增增(减减)一个单位,因变量一个单位,因变量y 平均增平均增(减减)b个单位。个单位。(2)r 和和 b 的假设检验是等价的。对同一样本,二者假的假设检验是等价的。对同一样本,二者假设检验的设检验的t值相等。由于值相等。由于r的假设检验可直接查表,较的假设检验可直接查表,较为方便,故在实际应用中常以前者代替后者。为方便,故在实际应用中常以前者代替后者。(3)回归强度和相关强度可以互相解释。回归强度和相关强度可以互相解释。第五节第五节 回归分析的应用回归分析的应用 1.描述变量间的数量变化关系描述变量间的数量变化关系 2.预测(预测(x=x0时,求时,求y0 估计值的容许区间)估计值的容许区间)3.控制(控制(y=y0时,求时,求x0估计值的容许区间)估计值的容许区间)(1)II型回归资料型回归资料;(2)I 型回归资料时,型回归资料时,4.估计(估计(x=x0时,求时,求的可信区间)的可信区间)y0的的1-预测区间预测区间 的的1-预测区间预测区间 例例6.8 用显微定量法测定生产二陈丸的甘草浓度用显微定量法测定生产二陈丸的甘草浓度(x)与与镜检晶纤维的数目镜检晶纤维的数目(y),得表,得表7-5资料试预测甘草浓资料试预测甘草浓度度x0=4mg/mL时,晶纤维数目总体均数时,晶纤维数目总体均数90%可信区间可信区间 使用使用SPSS 统计软件:统计软件:甘草浓度甘草浓度(x)2.073.104.145.176.20晶纤数目晶纤数目(y)128194273372454第六节第六节 曲线回归曲线回归 1曲线回归的意义曲线回归的意义 2曲线拟合曲线拟合 第六节第六节 曲线回归曲线回归 1曲线回归的意义曲线回归的意义直线回归可分析呈直线变化趋直线回归可分析呈直线变化趋势的变量之间的数量依存关系,但在实践中,很多变势的变量之间的数量依存关系,但在实践中,很多变量之间并不是直线关系,而呈曲线关系,如服药后的量之间并不是直线关系,而呈曲线关系,如服药后的血药浓度与时间的关系;毒物剂量与毒性反应的关系;血药浓度与时间的关系;毒物剂量与毒性反应的关系;年龄与血红蛋白平均浓度的关系;细菌繁殖与培养时年龄与血红蛋白平均浓度的关系;细菌繁殖与培养时间的关系;等等,都不是简单的直线关系,即使在不间的关系;等等,都不是简单的直线关系,即使在不太大的范围内,仍不能以直代曲。对呈曲线关系的资太大的范围内,仍不能以直代曲。对呈曲线关系的资料,需要用曲线回归(料,需要用曲线回归(curve linear regression)的方)的方法进行分析,根据样本资料找出能够反映变量间关系法进行分析,根据样本资料找出能够反映变量间关系的曲线回归方程。的曲线回归方程。2曲线拟合曲线拟合求曲线回归方程的过程或方法叫曲线拟合求曲线回归方程的过程或方法叫曲线拟合(curve fitting)。进行曲线回归分析的要点是选择合适的曲线)。进行曲线回归分析的要点是选择合适的曲线类型。一般,需要采用几种最可能的曲线类型分别拟合同一个类型。一般,需要采用几种最可能的曲线类型分别拟合同一个资料,先对每种拟合结果进行拟合优度检验,然后对它们进行资料,先对每种拟合结果进行拟合优度检验,然后对它们进行拟合优度比较。从而挑选出拟合得最好的曲线模型。如使用统拟合优度比较。从而挑选出拟合得最好的曲线模型。如使用统计软件,一组资料可同时拟合多种模型,可在计软件,一组资料可同时拟合多种模型,可在R Square(决定决定系数系数)接近)接近1和标准估计误差和标准估计误差sy较小者中筛选。如果进行预测,较小者中筛选。如果进行预测,则在上述基础上,对拟合度较好(一般认为,一组资料同时适则在上述基础上,对拟合度较好(一般认为,一组资料同时适用的模型不只一条)的模型进行回代,依预测值评判模型的适用的模型不只一条)的模型进行回代,依预测值评判模型的适用程度,其条件是预测值(尤其是外推值)尽可能接近实际情用程度,其条件是预测值(尤其是外推值)尽可能接近实际情况,然后再以况,然后再以“最适合最适合”的模型评价结果,若同时满足上述条的模型评价结果,若同时满足上述条件的模型有数条,则以变量数最小,结构最简单的模型为首选。件的模型有数条,则以变量数最小,结构最简单的模型为首选。例例6.7 研究板蓝根注射液含量的稳定性,在研究板蓝根注射液含量的稳定性,在pH=6.28,温度为,温度为78下,测得保温时间与含量破坏百分比的