六章节直线回归与相关.ppt
六章节直线回归与相关 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望下一张下一张 主主 页页 退退 出出 上一张上一张 1 回归与相关的概念回归与相关的概念一类是完全确定性的关系,又称函数关系,可以一类是完全确定性的关系,又称函数关系,可以一类是完全确定性的关系,又称函数关系,可以一类是完全确定性的关系,又称函数关系,可以用精确的数学表达式来表示,即当变量用精确的数学表达式来表示,即当变量用精确的数学表达式来表示,即当变量用精确的数学表达式来表示,即当变量x x的值取的值取的值取的值取定后,变量定后,变量定后,变量定后,变量y y有唯一确定的值与之对应。有唯一确定的值与之对应。有唯一确定的值与之对应。有唯一确定的值与之对应。如长方形的面积(如长方形的面积(如长方形的面积(如长方形的面积(S S)与与与与 长(长(长(长(a a)和宽()和宽()和宽()和宽(b b)的关)的关)的关)的关系:系:系:系:S=abS=ab。它们之间的关系是确定性的,只要。它们之间的关系是确定性的,只要。它们之间的关系是确定性的,只要。它们之间的关系是确定性的,只要知道了其中两个变量的值就可以精确地计算出另一知道了其中两个变量的值就可以精确地计算出另一知道了其中两个变量的值就可以精确地计算出另一知道了其中两个变量的值就可以精确地计算出另一个变量的值,这类变量间的关系称为个变量的值,这类变量间的关系称为个变量的值,这类变量间的关系称为个变量的值,这类变量间的关系称为函数关系函数关系函数关系函数关系。各种变量间的关系大致可分为两类:各种变量间的关系大致可分为两类:确定性关系确定性关系确定性关系确定性关系非确定性关系非确定性关系非确定性关系非确定性关系 如人的身高与体重的关系,作物种植密度与产量的关如人的身高与体重的关系,作物种植密度与产量的关如人的身高与体重的关系,作物种植密度与产量的关如人的身高与体重的关系,作物种植密度与产量的关系,食品价格与需求量的关系等等,系,食品价格与需求量的关系等等,系,食品价格与需求量的关系等等,系,食品价格与需求量的关系等等,这些变量间都存在着这些变量间都存在着这些变量间都存在着这些变量间都存在着十分密切的关系,但不能由一个或几个变量的值精确地求十分密切的关系,但不能由一个或几个变量的值精确地求十分密切的关系,但不能由一个或几个变量的值精确地求十分密切的关系,但不能由一个或几个变量的值精确地求出另一个变量的值。出另一个变量的值。出另一个变量的值。出另一个变量的值。统计学中把这些变量间的关系称为统计学中把这些变量间的关系称为统计学中把这些变量间的关系称为统计学中把这些变量间的关系称为相相相相关关系关关系关关系关关系,把存在相关关系的变量称为,把存在相关关系的变量称为,把存在相关关系的变量称为,把存在相关关系的变量称为相关变量相关变量相关变量相关变量。下一张下一张 主主 页页 退退 出出 上一张上一张 另一类是另一类是另一类是另一类是 非确定性关系,不能用精确的数学公非确定性关系,不能用精确的数学公非确定性关系,不能用精确的数学公非确定性关系,不能用精确的数学公式来表示,当变量式来表示,当变量式来表示,当变量式来表示,当变量x x的值取定后,的值取定后,的值取定后,的值取定后,y y有若干种可有若干种可有若干种可有若干种可能取值。能取值。能取值。能取值。在一定范围内,对一个变量的任意数值(在一定范围内,对一个变量的任意数值(在一定范围内,对一个变量的任意数值(在一定范围内,对一个变量的任意数值(XXi i),虽),虽),虽),虽然没有另一个变量的确定数值然没有另一个变量的确定数值然没有另一个变量的确定数值然没有另一个变量的确定数值y yi i与之对应,但是却有一与之对应,但是却有一与之对应,但是却有一与之对应,但是却有一个特定个特定个特定个特定y yi i的条件概率分布与之对应,这种变量的不确定的条件概率分布与之对应,这种变量的不确定的条件概率分布与之对应,这种变量的不确定的条件概率分布与之对应,这种变量的不确定关系,称为相关关系。关系,称为相关关系。关系,称为相关关系。关系,称为相关关系。一种是一种是因果关系因果关系,即一个变量的变,即一个变量的变化受另一个或几个变量的影响。如小麦化受另一个或几个变量的影响。如小麦的生长速度受遗传特性、营养水平、管的生长速度受遗传特性、营养水平、管理条件等因素的影响。理条件等因素的影响。另一种是另一种是平行关系平行关系,它们互为因果,它们互为因果或共同受到另外因素的影响。如人的身或共同受到另外因素的影响。如人的身高和胸围之间的关系属于平行关系。高和胸围之间的关系属于平行关系。下一张下一张 主主 页页 退退 出出 上一张上一张 相关变量间的关系一般分为两种相关变量间的关系一般分为两种:研究研究研究研究“一因一果一因一果一因一果一因一果”,即一个自变量与一个依,即一个自变量与一个依,即一个自变量与一个依,即一个自变量与一个依变量的回归分析称为变量的回归分析称为变量的回归分析称为变量的回归分析称为一元回归分析一元回归分析一元回归分析一元回归分析;研究研究研究研究“多因一果多因一果多因一果多因一果”,即多个自变量与一个依,即多个自变量与一个依,即多个自变量与一个依,即多个自变量与一个依变量的回归分析称为变量的回归分析称为变量的回归分析称为变量的回归分析称为多元回归分析多元回归分析多元回归分析多元回归分析。一元回归分析又分为一元回归分析又分为一元回归分析又分为一元回归分析又分为直线回归分析直线回归分析直线回归分析直线回归分析与与与与曲线回曲线回曲线回曲线回归分析归分析归分析归分析两种;多元回归分析又分为两种;多元回归分析又分为两种;多元回归分析又分为两种;多元回归分析又分为多元线性回归多元线性回归多元线性回归多元线性回归分析分析分析分析与与与与多元非线性回归分析多元非线性回归分析多元非线性回归分析多元非线性回归分析两种。两种。两种。两种。下一张下一张 主主 页页 退退 出出 上一张上一张 统计学上采用统计学上采用统计学上采用统计学上采用回归分析回归分析回归分析回归分析 (regression regression analysisanalysis)方法研究呈因果关系的相关变量间)方法研究呈因果关系的相关变量间)方法研究呈因果关系的相关变量间)方法研究呈因果关系的相关变量间的关系。的关系。的关系。的关系。表示原因的变量称为自变量,表示结果表示原因的变量称为自变量,表示结果表示原因的变量称为自变量,表示结果表示原因的变量称为自变量,表示结果的变量称为依变量。的变量称为依变量。的变量称为依变量。的变量称为依变量。回归分析的任务就是揭示出呈因果关系回归分析的任务就是揭示出呈因果关系的相关变量间的联系形式,建立它们之的相关变量间的联系形式,建立它们之间的回归方程,利用所建立的回归方程,间的回归方程,利用所建立的回归方程,由自变量(原因)来预测、控制依变量由自变量(原因)来预测、控制依变量(结果)。(结果)。回归分析主要包括:找出回归方程;检回归分析主要包括:找出回归方程;检验回归方程是否显著;通过回归方程来验回归方程是否显著;通过回归方程来预测或控制另一变量。预测或控制另一变量。对多个变量进行相关分析时,研究一个对多个变量进行相关分析时,研究一个变量与多个变量间的线性相关称为变量与多个变量间的线性相关称为复相关复相关分析分析;研究其余变量保持不变的情况下两;研究其余变量保持不变的情况下两个变量间的线性相关称为个变量间的线性相关称为偏相关分析偏相关分析。下一张下一张 主主 页页 退退 出出 上一张上一张 统计学上采用统计学上采用相关分析相关分析(correlation analysis)来研究呈平行关系相关变量之间来研究呈平行关系相关变量之间的关系。的关系。对两个变量间的直线关系进行相关分析对两个变量间的直线关系进行相关分析称为称为简单相关分析简单相关分析(也叫(也叫直线相关分析直线相关分析););2 直线回归直线回归 2.1 直线回归方程的建立直线回归方程的建立 下一张下一张 主主 页页 退退 出出 上一张上一张 为了直观地看出为了直观地看出为了直观地看出为了直观地看出x x和和和和y y间的变化趋势,可将间的变化趋势,可将间的变化趋势,可将间的变化趋势,可将每一对观测值在平面直角坐标系中描点,作出散每一对观测值在平面直角坐标系中描点,作出散每一对观测值在平面直角坐标系中描点,作出散每一对观测值在平面直角坐标系中描点,作出散点图点图点图点图 (见图见图见图见图6-16-1)。2.1.1数学模型数学模型 对于两个相关变量,一个变量用对于两个相关变量,一个变量用对于两个相关变量,一个变量用对于两个相关变量,一个变量用x x表示,另表示,另表示,另表示,另一个变量用一个变量用一个变量用一个变量用y y表示,如果通过试验或调查获得两表示,如果通过试验或调查获得两表示,如果通过试验或调查获得两表示,如果通过试验或调查获得两个变量的个变量的个变量的个变量的n n对观测值:(对观测值:(对观测值:(对观测值:(x x1 1,y y1 1),(),(),(),(x x2 2,y y2 2),),),),(,(,(,(x xn n,y yn n)图图图图6-1 x6-1 x与与与与y y的关系散点图的关系散点图的关系散点图的关系散点图 下一张下一张 主主 页页 退退 出出 上一张上一张 散点图可直观地、定性地表示了两个变量之间散点图可直观地、定性地表示了两个变量之间的关系。为了探讨它们之间的规律性,还必须的关系。为了探讨它们之间的规律性,还必须根据观测值将其内在关系定量地表达出来。根据观测值将其内在关系定量地表达出来。两个变量间有关或无关;若有关,两个变量两个变量间有关或无关;若有关,两个变量两个变量间有关或无关;若有关,两个变量两个变量间有关或无关;若有关,两个变量间关系类型,是直线型还是曲线型;间关系类型,是直线型还是曲线型;间关系类型,是直线型还是曲线型;间关系类型,是直线型还是曲线型;由散点图(由散点图(图图6-1)可以看出:)可以看出:两个变量间直线关系的性质(是正相关还是两个变量间直线关系的性质(是正相关还是两个变量间直线关系的性质(是正相关还是两个变量间直线关系的性质(是正相关还是负相关)和程度(是相关密切还是不密切);负相关)和程度(是相关密切还是不密切);负相关)和程度(是相关密切还是不密切);负相关)和程度(是相关密切还是不密切);由于依变量由于依变量由于依变量由于依变量y y的实际观测值总是带有随机误的实际观测值总是带有随机误的实际观测值总是带有随机误的实际观测值总是带有随机误差,因而依变量差,因而依变量差,因而依变量差,因而依变量y y的实际观测值的实际观测值的实际观测值的实际观测值y yi i可用自变量可用自变量可用自变量可用自变量x x的的的的实际观测值实际观测值实际观测值实际观测值x xi i表示为:表示为:表示为:表示为:(i i=1,2,=1,2,n n)(6-16-1)若呈因果关系的两个相关变量若呈因果关系的两个相关变量若呈因果关系的两个相关变量若呈因果关系的两个相关变量y y(依变量)与(依变量)与(依变量)与(依变量)与x x(自变量)间的关系是直线关系,那么,根(自变量)间的关系是直线关系,那么,根(自变量)间的关系是直线关系,那么,根(自变量)间的关系是直线关系,那么,根据据据据n n对观测值所描出的散点图,如对观测值所描出的散点图,如对观测值所描出的散点图,如对观测值所描出的散点图,如图图图图6-16-1(b b)和和和和图图图图6-16-1(e e)所示。)所示。)所示。)所示。式中:式中:式中:式中:,为未知参数,为未知参数,为未知参数,为未知参数,i i为相互独立,且服从为相互独立,且服从为相互独立,且服从为相互独立,且服从NN(0 0,)的随机变量。这就是直线回归的)的随机变量。这就是直线回归的)的随机变量。这就是直线回归的)的随机变量。这就是直线回归的数学模型数学模型数学模型数学模型。总体线性回归模型的图示YX观察值观察值总体线性回归模型总体线性回归模型因变量因变量自变量自变量参数参数随机误差随机误差y y y y条件平均数条件平均数条件平均数条件平均数下一张下一张 主主 页页 退退 出出 上一张上一张 设回归直线方程为设回归直线方程为:(6-26-2)2.1.2 参数参数,的估计的估计其中,其中,是是的估计值,的估计值,b是是的估计值。的估计值。最小二乘估计法最小二乘估计法建立建立 样本线性回归方程的方法样本线性回归方程的方法最小二乘法最小二乘法实际观察值与样本回归线上实际观察值与样本回归线上的点的距离的平方和最小的点的距离的平方和最小xy e1e2e3e4最小最小 、b应使回归估计值应使回归估计值 与实际观测值与实际观测值y的偏差平方和最小的偏差平方和最小,即:,即:总的离回归平总的离回归平方和,即剩余平方和方和,即剩余平方和 根据微积分学中的求极值的方法,令根据微积分学中的求极值的方法,令 Q对对a、b的一阶偏导数等于的一阶偏导数等于0,即:,即:最小最小(6-36-3)(6-46-4)经整理,得关于经整理,得关于a、b的的正规方程组正规方程组:下一张下一张 主主 页页 退退 出出 上一张上一张 解正规方程组,得:解正规方程组,得:(6-56-5)(6-76-7)在在6-7式中,分子为自变量式中,分子为自变量x的离均差与依的离均差与依变量变量y的离均差的乘积和的离均差的乘积和 ,简,简称称乘积和乘积和,记作,记作 ,分母是自变量,分母是自变量x的离均的离均差平方和差平方和 ,记作,记作SSX。所所所所 以以以以 a为为回归截距回归截距(regression interceptregression intercept),是回归,是回归直线与直线与y轴交点的纵坐标,当轴交点的纵坐标,当x=0时,时,;b为为回归系数回归系数(regression coefficientregression coefficient),表示,表示x变变化一个单位,化一个单位,y平均变化的数量;平均变化的数量;b的符号反的符号反映了映了x影响影响y的性质,的性质,b的绝对值大小反映了的绝对值大小反映了x 影响影响y的程度;的程度;为为回归估计值回归估计值,是当,是当x在其在其研究范围内取某一个值时,研究范围内取某一个值时,y值平均数值平均数 的估计值。的估计值。如果将如果将 式代入(式代入(6-2)式,可得)式,可得到回归方程的到回归方程的中心化形式:中心化形式:下一张下一张 主主 页页 退退 出出 上一张上一张 性质性质1性质性质2性质性质3 回归直线通过点回归直线通过点回归方程的基本性质:回归方程的基本性质:【例【例6-1】食品感官评定时,测得食品甜度与】食品感官评定时,测得食品甜度与蔗糖浓度的关系如表蔗糖浓度的关系如表6-2所示,试建立所示,试建立y与与x的的直线回归方程。直线回归方程。2.1.3 计算示例计算示例蔗糖质量分数蔗糖质量分数x%1.03.04.05.57.08.09.5甜度甜度 y1518192122.623.826表表表表6-2 6-2 食品甜度与蔗糖浓度的关系食品甜度与蔗糖浓度的关系食品甜度与蔗糖浓度的关系食品甜度与蔗糖浓度的关系(1)作散点图)作散点图 以蔗糖质量分数以蔗糖质量分数(x)为横坐标,)为横坐标,甜度(甜度(y)为纵坐)为纵坐标作散点图,如标作散点图,如图图6-2所示。所示。图图6-26-2(2)计算回归截距)计算回归截距a,回归系数,回归系数b,建立直线,建立直线回归方程回归方程下一张 主 页 退 出 上一张 首先根据实际观测值计算出下列数据:首先根据实际观测值计算出下列数据:首先根据实际观测值计算出下列数据:首先根据实际观测值计算出下列数据:所以,甜度所以,甜度所以,甜度所以,甜度y y对蔗糖质量分数对蔗糖质量分数对蔗糖质量分数对蔗糖质量分数x x的直线回归方程为:的直线回归方程为:的直线回归方程为:的直线回归方程为:然后计算出然后计算出然后计算出然后计算出b b、a a:以上计算也可在回归计算表中进行。以上计算也可在回归计算表中进行。以上计算也可在回归计算表中进行。以上计算也可在回归计算表中进行。序号序号序号序号k kX Xk kY Yk kX Xk k2 2X Xk kY Yk kY Yk k2 21 11.0 1.0 1.0 1.0 15.0 15.0 15.0 15.0 1.00 1.00 1.00 1.00 15.0 15.0 15.0 15.0 225.00 225.00 225.00 225.00 2 23.0 3.0 3.0 3.0 18.0 18.0 18.0 18.0 9.00 9.00 9.00 9.00 54.0 54.0 54.0 54.0 324.00 324.00 324.00 324.00 3 34.0 4.0 4.0 4.0 19.0 19.0 19.0 19.0 16.00 16.00 16.00 16.00 76.0 76.0 76.0 76.0 361.00 361.00 361.00 361.00 4 45.5 5.5 5.5 5.5 21.0 21.0 21.0 21.0 30.25 30.25 30.25 30.25 115.5 115.5 115.5 115.5 441.00 441.00 441.00 441.00 5 57.0 7.0 7.0 7.0 22.6 22.6 22.6 22.6 49.00 49.00 49.00 49.00 158.2 158.2 158.2 158.2 510.76 510.76 510.76 510.76 6 68.0 8.0 8.0 8.0 23.8 23.8 23.8 23.8 64.00 64.00 64.00 64.00 190.4 190.4 190.4 190.4 566.44 566.44 566.44 566.44 7 79.5 9.5 9.5 9.5 26.0 26.0 26.0 26.0 90.25 90.25 90.25 90.25 247.0 247.0 247.0 247.0 676.00 676.00 676.00 676.00 38.0 38.0 145.4145.4259.50 259.50 856.1856.13104.203104.20回归方程计算表回归方程计算表回归方程计算表回归方程计算表1 1(一级数据)(一级数据)(一级数据)(一级数据)X Xk k=38.0=38.0 Y Yk k=145.4=145.4 n=7n=7x=5.4286x=5.4286x=5.4286x=5.4286y=20.7714y=20.7714y=20.7714y=20.7714X Xk k2 2=259.50=259.50X Xk k Y Yk k=856.1=856.1Y Yk k2 2=3104.20=3104.20(X Xk k)2 2/n=206.2857/n=206.2857(X Xk kY Yk k)/n=789.3143/n=789.3143(Y Yk k)2 2/n=3020.1657/n=3020.1657Lxx=53.2143Lxx=53.2143Lxy=66.7857Lxy=66.7857Lyy=84.0343Lyy=84.0343b=Lxy/Lxxb=Lxy/Lxx66.7857/53.214366.7857/53.21431.255 b1.255 b0 0=y-bx=y-bx20.7714-1.25520.7714-1.2555.4286=13.95855.4286=13.9585 Y=13.9585+1.255XY=13.9585+1.255X回归方程计算表回归方程计算表回归方程计算表回归方程计算表2 2(二级数据)(二级数据)(二级数据)(二级数据)注:注:注:注:x x,y y分别为分别为分别为分别为XX,Y Y的平均数的平均数的平均数的平均数 根据直线回归方根据直线回归方根据直线回归方根据直线回归方程可作出回归直线,程可作出回归直线,程可作出回归直线,程可作出回归直线,见图。从图看出,见图。从图看出,见图。从图看出,见图。从图看出,并不是所有的散点并不是所有的散点并不是所有的散点并不是所有的散点都恰好落在回归直都恰好落在回归直都恰好落在回归直都恰好落在回归直线上,这说明线上,这说明线上,这说明线上,这说明用用用用 去估计去估计去估计去估计y y是有偏差是有偏差是有偏差是有偏差的。的。的。的。下一张下一张 主主 页页 退退 出出 上一张上一张 附:直线回归的偏离度估计附:直线回归的偏离度估计 偏差平方和偏差平方和偏差平方和偏差平方和 的大小表示了实测点与回归的大小表示了实测点与回归的大小表示了实测点与回归的大小表示了实测点与回归直线偏离的程度,因而此偏差平方和又称为直线偏离的程度,因而此偏差平方和又称为直线偏离的程度,因而此偏差平方和又称为直线偏离的程度,因而此偏差平方和又称为离回归平离回归平离回归平离回归平方和方和方和方和。统计学证明:在直线回归分析中离回归平方和。统计学证明:在直线回归分析中离回归平方和。统计学证明:在直线回归分析中离回归平方和。统计学证明:在直线回归分析中离回归平方和的自由度为的自由度为的自由度为的自由度为n n-2-2。那么,。那么,。那么,。那么,离回归均方离回归均方离回归均方离回归均方为:为:为:为:离回归均方是模型(离回归均方是模型(离回归均方是模型(离回归均方是模型(6-16-1)中)中)中)中 2 2的估计值。的估计值。的估计值。的估计值。离回归均方的平方根叫离回归均方的平方根叫离回归均方的平方根叫离回归均方的平方根叫离回归标准误离回归标准误离回归标准误离回归标准误,记为,记为,记为,记为 ,离回归标准误离回归标准误Syx的大小表示了回归直线与的大小表示了回归直线与实测点偏差的程度实测点偏差的程度,即回归估测值,即回归估测值 与实与实 际际观测值观测值y偏离(差)的程度,所以,用偏离(差)的程度,所以,用离回归离回归标准误标准误Syx来表示回归方程的偏离度。来表示回归方程的偏离度。下一张下一张 主主 页页 退退 出出 上一张上一张 对于【例对于【例对于【例对于【例6.16.1】有】有】有】有 所以,离回归标准误为所以,离回归标准误为所以,离回归标准误为所以,离回归标准误为离回归平方和:离回归平方和:由上式计算出由上式计算出由上式计算出由上式计算出 ,然后求出离回归标准误,然后求出离回归标准误,然后求出离回归标准误,然后求出离回归标准误SyxSyx。如果如果如果如果x x和和和和y y变量间并不存在直线关系,变量间并不存在直线关系,变量间并不存在直线关系,变量间并不存在直线关系,但由但由但由但由n n对观测值(对观测值(对观测值(对观测值(x xi i,y yi i)也可以根据上面介绍的方)也可以根据上面介绍的方)也可以根据上面介绍的方)也可以根据上面介绍的方法求得一个回归方程法求得一个回归方程法求得一个回归方程法求得一个回归方程 =a a+bxbx。显然,这样显然,这样显然,这样显然,这样的回归方程所反应的两个变量间的直线关系是的回归方程所反应的两个变量间的直线关系是的回归方程所反应的两个变量间的直线关系是的回归方程所反应的两个变量间的直线关系是不真实的。不真实的。不真实的。不真实的。如何判断直线回归方程所反应的两如何判断直线回归方程所反应的两如何判断直线回归方程所反应的两如何判断直线回归方程所反应的两个变量间的直线关系的真实性呢?这取决于变个变量间的直线关系的真实性呢?这取决于变个变量间的直线关系的真实性呢?这取决于变个变量间的直线关系的真实性呢?这取决于变量量量量x x与与与与y y间是否存在直线关系。间是否存在直线关系。间是否存在直线关系。间是否存在直线关系。从从从从y y的变异着手的变异着手的变异着手的变异着手来分析。来分析。来分析。来分析。下一张下一张 主主 页页 退退 出出 上一张上一张 2.2 直线回归方程的显著性检验直线回归方程的显著性检验图图图图6-3 6-3 的分解图的分解图的分解图的分解图2.2.1 2.2.1 直线回归的变异来源直线回归的变异来源直线回归的变异来源直线回归的变异来源y y总变异的分解总变异的分解总变异的分解总变异的分解 下一张下一张 主主 页页 退退 出出 上一张上一张 由于由于所以所以于是于是由图由图6-3可以看出:可以看出:上式两端平方,然后对所有的上式两端平方,然后对所有的上式两端平方,然后对所有的上式两端平方,然后对所有的n n点求和,则有点求和,则有点求和,则有点求和,则有 所以有所以有所以有所以有 (6-96-9)反映了反映了反映了反映了y y的总变异程度,称为的总变异程度,称为的总变异程度,称为的总变异程度,称为y y的的的的总总总总偏差平方和偏差平方和偏差平方和偏差平方和,记为,记为,记为,记为SSSSy y;反映了由于反映了由于反映了由于反映了由于y y与与与与x x间存在直线关系所间存在直线关系所间存在直线关系所间存在直线关系所引起的引起的引起的引起的y y的变异程度,称为的变异程度,称为的变异程度,称为的变异程度,称为回归平方和回归平方和回归平方和回归平方和,记为,记为,记为,记为SSSSRR;反映了除反映了除y与与x存在直线关系以外存在直线关系以外的一切因素(包括的一切因素(包括x对对y的非线性影响及其他一的非线性影响及其他一切未加控制的随机因素)所引起的切未加控制的随机因素)所引起的y的变异程度,的变异程度,称为称为离回归平方和或剩余平方和离回归平方和或剩余平方和,记为,记为SSr或或SSe。所以,所以,y的总变异平方和可分解为:的总变异平方和可分解为:下一张下一张 主主 页页 退退 出出 上一张上一张 表明表明表明表明y y的总平方和可剖分为的总平方和可剖分为的总平方和可剖分为的总平方和可剖分为 回归平方和回归平方和回归平方和回归平方和 与离回与离回与离回与离回归平方和两部分。与此相对应,归平方和两部分。与此相对应,归平方和两部分。与此相对应,归平方和两部分。与此相对应,y y的总自由度的总自由度的总自由度的总自由度dfdfy y也也也也可分解为回归自由度可分解为回归自由度可分解为回归自由度可分解为回归自由度dfdfr r与离回归自由度与离回归自由度与离回归自由度与离回归自由度dfdfr r两部分,两部分,两部分,两部分,即即即即 在直线回归分析中,回归自由度等在直线回归分析中,回归自由度等于自变量的个数,于自变量的个数,即即 ;y的的 总总 自自 由度由度 ;离回归自由度;离回归自由度 。于是:。于是:离回归均方离回归均方 ,回回 归归 均均 方方 。x x与与与与y y两个变量间是否存在直线关系,可用两个变量间是否存在直线关系,可用两个变量间是否存在直线关系,可用两个变量间是否存在直线关系,可用F F检验法进行检验。检验法进行检验。检验法进行检验。检验法进行检验。无效假设无效假设无效假设无效假设HHOO:=0=0,备择假设,备择假设,备择假设,备择假设HHAA:00。在无效假设成立的条件下,回归均方与离回在无效假设成立的条件下,回归均方与离回在无效假设成立的条件下,回归均方与离回在无效假设成立的条件下,回归均方与离回归均方的比值服从归均方的比值服从归均方的比值服从归均方的比值服从 和和和和 的的的的F F分布,分布,分布,分布,所以,可以用下式来检验回归方程的显著性。所以,可以用下式来检验回归方程的显著性。所以,可以用下式来检验回归方程的显著性。所以,可以用下式来检验回归方程的显著性。下一张下一张 主主 页页 退退 出出 上一张上一张 2.2.2 回归关系(方程)显著性检验回归关系(方程)显著性检验F检验检验dfdf1 1=1=1,dfdf2 2=n n-2-2(6-106-10)回归平方和的计算:回归平方和的计算:下一张下一张 主主 页页 退退 出出 上一张上一张 根据(根据(根据(根据(6-96-9)式,可得到离回归平方和计算公式为:)式,可得到离回归平方和计算公式为:)式,可得到离回归平方和计算公式为:)式,可得到离回归平方和计算公式为:【例【例6.2】检验例检验例6-1中求得的回归方程是中求得的回归方程是否显著(否显著(a=005)方差分析方差分析方差分析方差分析 列出方差分析表进行回归关系显著性检验。列出方差分析表进行回归关系显著性检验。列出方差分析表进行回归关系显著性检验。列出方差分析表进行回归关系显著性检验。下一张下一张 主主 页页 退退 出出 上一张上一张 表表表表6-4 6-4 蔗糖浓度与甜度回归关系方差分析表蔗糖浓度与甜度回归关系方差分析表蔗糖浓度与甜度回归关系方差分析表蔗糖浓度与甜度回归关系方差分析表 变异来源变异来源偏差平方和偏差平方和SS自由度自由度df均方均方MSF值值显著性显著性回归回归83.8161183.81611922.39*剩余剩余0.218250.0436总变异总变异84.03436因为因为 ,表明甜度与蔗糖浓度间存在着极显著的直线关表明甜度与蔗糖浓度间存在着极显著的直线关系。系。采用回归系数的显著性检验采用回归系数的显著性检验t检验检验也可检也可检验验x与与y之之间是否存在直线关系。间是否存在直线关系。t检验时,检验时,无效假设无效假设HO:=0,备择假设备择假设HA:0。2.2.3 回归系数的显著性检验回归系数的显著性检验t检验检验其中,其中,其中,其中,S Sb b为回归系数标准误,为回归系数标准误,为回归系数标准误,为回归系数标准误,t 检验的计算公式为:检验的计算公式为:(6-11)离回归标准误离回归标准误S Syxyx反映回归估测值反映回归估测值反映回归估测值反映回归估测值 与实测值与实测值与实测值与实测值y y的偏离程度的偏离程度的偏离程度的偏离程度t t与临界值与临界值与临界值与临界值t t a a(n-2n-2)比较,以判断显著性。比较,以判断显著性。比较,以判断显著性。比较,以判断显著性。对于对于 【例【例8.1】资资 料料,已计算得,已计算得 故有故有 下一张下一张 主主 页页 退退 出出 上一张上一张 当当 ,查,查t值表,得值表,得 因因 ,否定否定否定否定HHOO:0 0,接受,接受,接受,接受HHAA:00,即直线回归系,即直线回归系,即直线回归系,即直线回归系数数数数b b=1.2550=1.2550是极显著的,表明蔗糖浓度与甜度大小是极显著的,表明蔗糖浓度与甜度大小是极显著的,表明蔗糖浓度与甜度大小是极显著的,表明蔗糖浓度与甜度大小存在极显著的直线关系,可用所建立的直线回归方程存在极显著的直线关系,可用所建立的直线回归方程存在极显著的直线关系,可用所建立的直线回归方程存在极显著的直线关系,可用所建立的直线回归方程来进行来进行来进行来进行 预测和控制。预测和控制。预测和控制。预测和控制。在直线回归假设检验中,在直线回归假设检验中,F检验的结果与检验的结果与t检检验的结果是一致的。验的结果是一致的。特别要指出的是:利用直线回归方程特别要指出的是:利用直线回归方程进行预测或控制时,一般只适用于原来研进行预测或控制时,一般只适用于原来研究的范围,不能随意把范围扩大,因为在究的范围,不能随意把范围扩大,因为在研究的范围内两变量是直线关系,这并不研究的范围内两变量是直线关系,这并不能保证在这研究范围之外仍然是直线关系。能保证在这研究范围之外仍然是直线关系。若需要扩大预测和控制范围,则要有充分若需要扩大预测和控制范围,则要有充分的理论依据或进一步的实验依据。利用直的理论依据或进一步的实验依据。利用直线回归方程进行预测或控制线回归方程进行预测或控制,一一 般只能般只能内插,不要轻易外延。内插,不要轻易外延。3 直线相关直线相关 进行直线相关分析的基本任务在于根据进行直线相关分析的基本任务在于根据x、y的实际观测值,计算表示两个相关变量的实际观测值,计算表示两个相关变量x、y间间线性线性相关程度和性质的统计量相关程度和性质的统计量相关系数相关系数r,并进行显著性检验。并进行显著性检验。下一张下一张 主主 页页 退退 出出 上一张上一张 3.1 决定系数和相关系数决定系数和相关系数 直线回归分析中:直线回归分析中:直线回归分析中:直线回归分析中:由这个等式不难看到,由这个等式不难看到,由这个等式不难看到,由这个等式不难看到,y y与与与与x x直线回归效果的好直线回归效果的好直线回归效果的好直线回归效果的好坏取决于回归平方和坏取决于回归平方和坏取决于回归平方和坏取决于回归平方和 与离回归平方和与离回归平方和与离回归平方和与离回归平方和 的大小,或者说取决于回归平方和在的大小,或者说取决于回归平方和在的大小,或者说取决于回归平方和在的大小,或者说取决于回归平方和在y y的的的的总平方和总平方和总平方和总平方和 中所占的比例的大小。这个比例中所占的比例的大小。这个比例中所占的比例的大小。这个比例中所占的比例的大小。这个比例越大,越大,越大,越大,y y与与与与x x的直线回归效果就越好,反之则差。的直线回归效果就越好,反之则差。的直线回归效果就越好,反之则差。的直线回归效果就越好,反之则差。我们把比值我们把比值我们把比值我们把比值 叫叫叫叫 做做做做 x x 对对对对 y y 的的的的决定系数(决定系数(决定系数(决定系数(determinationdetermination coefficient coefficient),记为),记为),记为),记为 r2,即,即,即,即 下一张下一张 主主 页页 退退 出出 上一张上一张 决定系数的大小表示了回归方程估测可靠程度的决定系数的大小表示了回归方程估测可靠程度的决定系数的大小表示了回归方程估测可靠程度的决定系数的大小表示了回归方程估测可靠程度的高低高低高低高低,或者说表示了回归直线拟合度的高低,或者表,或者说表示了回归直线拟合度的高低,或者表,或者说表示了回归直线拟合度的高低,或者表,或者说表示了回归直线拟合度的高低,或者表示示示示x x对对对对y y的变异影响大小。显然有的变异影响大小。显然有的变异影响大小。显然有的变异影响大小。显然有00r r2 211。如。如。如。如r r2 20.810.81,表明,表明,表明,表明SSRSSR占占占占SSySSy的的的的8181,也就是说,也就是说,也就是说,也就是说,x x决定决定决定决定了了了了y y变异的变异的变异的变异的8181,决定作用强。,决定作用强。,决定作用强。,决定作用强。SPSPxyxy/SSSSx x是以是以是以是以x x为自变量、为自变量、为自变量、为自变量、y y为依变量时的为依变量时的为依变量时的为依变量时的回归回归回归回归系数系数系数系数byxbyx。若把若把若把若把y y作为自变量、作为自变量、作为自变量、作为自变量、x x作为依变量作为依变量作为依变量作为依变量 ,则,则,则,则回归系数回归系数回归系数回归系数 bxy bxy=SPSPxyxy/SSSSy y ,所以决定系数,所以决定系数,所以决定系数,所以决定系数r r2 2等于等于等于等于y y对对对对x x的回归系数与的回归系数与的回归系数与的回归系数与 x x对对对对y y的回归系数的乘积。这就的回归系数的乘积。这就的回归系数的乘积。这就的回归系数的乘积。这就是说,决定系数反应了是说,决定系数反应了是说,决定系数反应了是说,决定系数反应了x x为自变量、为自变量、为自变量、为自变量、y y为依变量和为依变量和为依变量和为依变量和y y为自变量、为自变量、为自变量、为自变量、x x为依变量时两个相关变量为依变量时两个相关变量为依变量时两个相关变量为依变量时两个相关变量x x与与与与y y直线相直线相直线相直线相关的信息关的信息关的信息关的信息