回归分析与协方差分析优秀PPT.ppt
回归分析与协方差回归分析与协方差分析分析第1页,本讲稿共50页内容内容9.1 9.1 一元线性回归一元线性回归 第2页,本讲稿共50页学习目标学习目标散点图散点图,回归系数回归系数,正规方程正规方程,经验经验回归方程;回归平方和回归方程;回归平方和,剩余平方和剩余平方和,相关系数相关系数,显著性检验显著性检验.第3页,本讲稿共50页不确定关系不确定关系人的身高人的身高体重体重农作物的单位面积产量农作物的单位面积产量施肥量施肥量 9.1 9.1 一元线性回归一元线性回归 1.1.一元线性回归的基本概念一元线性回归的基本概念第4页,本讲稿共50页 线性模型线性模型例例 为了研究弹簧悬挂不同重量为了研究弹簧悬挂不同重量(单位:克力单位:克力)x时长度时长度(单位:厘米单位:厘米)y的关系。通过试验得到的关系。通过试验得到一组数据。一组数据。重量重量xi 5 10 15 20 25 30 长度长度yj 7.25 8.12 8.95 9.90 10.90 11.80把这些数据点把这些数据点(xi,yj)画在画在xoy坐标系中,图形坐标系中,图形称为散点图。称为散点图。第5页,本讲稿共50页*L散点图散点图记记L为为第6页,本讲稿共50页进行进行n次独立试验,测得数据如下:次独立试验,测得数据如下:第7页,本讲稿共50页我们的问题是,如何根据这些观测值用我们的问题是,如何根据这些观测值用“最最佳的佳的”形式来表达变量形式来表达变量Y与与X之间的相关关系?之间的相关关系?一般而言,在变量一般而言,在变量x取值以后,若取值以后,若Y所取所取的值服从的值服从N(+x,2)分布,当分布,当、及及2未知时,根据样本未知时,根据样本(x1,Y1),(x2,Y2),(xn,Yn)的的观测值观测值(x1,y1),(x2,y2),(xn,yn)对未知参数对未知参数、及及2所作的估计与检验称为所作的估计与检验称为一元线性回归一元线性回归分析分析,而,而称为截距,称为截距,称为回归系数,称为回归系数,E(Y)+x 称为回归方程。称为回归方程。第8页,本讲稿共50页由回归方程可以推出由回归方程可以推出 根据样本及其观测值可以得到根据样本及其观测值可以得到、及及2 2的估计量及估计值的估计量及估计值 得到回归方程的估计式或经验回归方程得到回归方程的估计式或经验回归方程 第9页,本讲稿共50页最常用的是最小最常用的是最小二乘法,即求出二乘法,即求出 第10页,本讲稿共50页的值最小,所求出的的值最小,所求出的a a称为经验截距,简称称为经验截距,简称为为截距截距,b b称为经验回归系数,简称为称为经验回归系数,简称为回归回归系数系数,而,而 第11页,本讲稿共50页2.2.总体中未知参数的估计总体中未知参数的估计 根据最小二乘法的要求由根据最小二乘法的要求由 第12页,本讲稿共50页得到一元线性回归的正规方程组得到一元线性回归的正规方程组第13页,本讲稿共50页并求出并求出第14页,本讲稿共50页建立一元线性回归方程的具体步骤:建立一元线性回归方程的具体步骤:第15页,本讲稿共50页(3)(3)计算计算b b和和a a,写出一元线性回归方程。,写出一元线性回归方程。与上述与上述a a和和b b相对应的相对应的Q Q的数值又记作的数值又记作SSESSE,称为剩余平方和。称为剩余平方和。将将a a、b b和和SSESSE以及以及 和和 看作是统计量,看作是统计量,它们的表达式分别为它们的表达式分别为 第16页,本讲稿共50页 这些统计量之间以及它们与总体参数之间这些统计量之间以及它们与总体参数之间有以下的内在联系:有以下的内在联系:第17页,本讲稿共50页第18页,本讲稿共50页 为提高为提高a a的估计精度,最理想的选择是的估计精度,最理想的选择是使使 0 0,其绝对值越小越好;,其绝对值越小越好;为提高为提高b b的估计精度,应该使的估计精度,应该使l lxx 取较大取较大的数值,的数值,x x1 1、x x2 2、x xn n越分散越好;越分散越好;观测值的个数观测值的个数n n不能太小。不能太小。第19页,本讲稿共50页 3.3.线性回归方程的显著性检验线性回归方程的显著性检验 因此,必须对回归方程的拟合情况或效果因此,必须对回归方程的拟合情况或效果作显著性检验。作显著性检验。其理论基础就是总平方和的分解,即其理论基础就是总平方和的分解,即第20页,本讲稿共50页第21页,本讲稿共50页第22页,本讲稿共50页表示表示n n个个y1、y2、yn与与之间的差异,当之间的差异,当各个各个yi已知时,它是一个定值,称为总平方已知时,它是一个定值,称为总平方和,记作和,记作SST。第23页,本讲稿共50页通过回归已经达到了最小值,称为剩余平通过回归已经达到了最小值,称为剩余平方和,记作方和,记作SSE。称为回归平方和,记作称为回归平方和,记作SSR。第24页,本讲稿共50页 因此,因此,SSTSSE+SSR。如果如果SSR的数值较大,的数值较大,SSE的数值便比较的数值便比较小,说明回归的效果好;如果小,说明回归的效果好;如果SSR的数值的数值较小,较小,SSE的数值便比较大,说明回归的的数值便比较大,说明回归的效果差。效果差。第25页,本讲稿共50页第26页,本讲稿共50页第27页,本讲稿共50页 如果如果|r|较大,较大,SSE的数值便比较小,说明的数值便比较小,说明回归的效果好或者说回归的效果好或者说x与与Y的线性关系密切;的线性关系密切;如果如果|r|较小,较小,SSE的数值便比较大,说明回的数值便比较大,说明回归的效果差或者说归的效果差或者说x与与Y的线性关系不密切;的线性关系不密切;因此称因此称r为为x与与Y的观测值的相关系数。的观测值的相关系数。又由又由r及回归系数的计算公式及回归系数的计算公式 第28页,本讲稿共50页 可以推出:可以推出:r0时时b0,x增加时增加时Y的观测值的观测值呈增加的趋势;呈增加的趋势;r0时时b0 0时称时称x与与Y正相关,正相关,r0 0时称时称x与与Y负相关。负相关。综上所述,如果设综上所述,如果设H0为为0 0,也就是假设,也就是假设x与与Y不是线性关系,则可以用以下三种实质不是线性关系,则可以用以下三种实质相同的方法检验线性回归方程的显著性,且相同的方法检验线性回归方程的显著性,且当检验的结果显著时当检验的结果显著时x与与Y的线性关系显著,的线性关系显著,回归方程可供应用;当检验的结果不显著时回归方程可供应用;当检验的结果不显著时x与与Y的线性关系不显著,回归方程不可应用。的线性关系不显著,回归方程不可应用。第29页,本讲稿共50页 F检验法检验法:当当H0为真时,为真时,且且SSR与与SSE相互独立;因此,当相互独立;因此,当H0为真时,为真时,当当FF1-(1,n-2)时应该放弃原假设时应该放弃原假设H0。第30页,本讲稿共50页(2)(2)t检验法检验法:当当H0为真时,为真时,当当|t|t1-0.5(n-2)时应该放弃原假设时应该放弃原假设H0。第31页,本讲稿共50页(3)(3)r r检验法检验法:根据根据x与与Y的观测值的相关系数的观测值的相关系数 可以推出可以推出当当H0为真时,为真时,第32页,本讲稿共50页当当FF1-(1,n-2)或或|r|r(n-2)时应该放时应该放弃原假设弃原假设H0,式中的式中的 可由可由r检验用表中查出。检验用表中查出。因此,因此,r常常用来表示常常用来表示x与与Y的线性关系在的线性关系在x与与Y的全部关系中所占的百分比,又称为的全部关系中所占的百分比,又称为x与与Y的观测值的决定系数。的观测值的决定系数。第33页,本讲稿共50页 4.4.利用回归方程进行点预测和区间预测利用回归方程进行点预测和区间预测 若线性回归作显著性检验的结果是放弃若线性回归作显著性检验的结果是放弃H0,也就是放弃回归系数也就是放弃回归系数0 0的假设,便可以的假设,便可以利用回归方程进行点预测和区间预测,这是利用回归方程进行点预测和区间预测,这是人们关注线性回归的主要原因之一。人们关注线性回归的主要原因之一。当当xx0时时,Y0的观测值的观测值y0的点预测是无偏的。的点预测是无偏的。第34页,本讲稿共50页 当当xx0时,用适合不等式时,用适合不等式PY0(G,H)1-的统计量的统计量G和和H所确定的随机区间所确定的随机区间(G,H)预测预测Y0的取值范围称为区间预测,而的取值范围称为区间预测,而(G,H)称称为为Y0的的1-预测区间。预测区间。若若Y0与样本中的各与样本中的各Yi相互独立,则根据相互独立,则根据ZY0-(a+bx0)服从正态分布服从正态分布,E(Z)0,Z与与SSE相互独立,相互独立,第35页,本讲稿共50页可以导出可以导出 因此因此,Y0的的1-预测区间为预测区间为 a+bx0(x0),第36页,本讲稿共50页例例1.11.1吸附方程吸附方程某种物质在不同温度下可某种物质在不同温度下可以吸附另一种物质,如果温度以吸附另一种物质,如果温度x(单位:单位:)与与吸附重量吸附重量Y(单位:单位:mg)mg)的观测值如下表所示:的观测值如下表所示:温度温度x1.5 1.8 2.4 3.0 3.5 3.9 4.4 4.8 5.0 重量重量y4.8 5.7 7.0 8.3 10.9 12.4 13.1 13.6 15.3 试求线性回归方程并用三种方法作显著性检试求线性回归方程并用三种方法作显著性检验,若验,若x02,求,求Y0的的0.95预测区间预测区间。解:根据上述观测值得到解:根据上述观测值得到n9,第37页,本讲稿共50页第38页,本讲稿共50页所求的线性回归方程为所求的线性回归方程为 第39页,本讲稿共50页显著性检验方法显著性检验方法 F检验法检验法:SSTlyy114.516,SSRblxy112.485,SSESST-blxy2.031,n-27,F0.99(1,7)12.2,所以回归方程极显著;所以回归方程极显著;第40页,本讲稿共50页 t t检验法:检验法:所以回归方程极显著;所以回归方程极显著;第41页,本讲稿共50页(3)r检验法:检验法:所以回归方程极显著所以回归方程极显著.第42页,本讲稿共50页Y0的的0.95预测区间为预测区间为(4.09,8.15)。这说明当温度为这说明当温度为2 2时,应该预测吸附另一种时,应该预测吸附另一种物质的重量在物质的重量在4.094.09至至8.158.15之间,并且预测之间,并且预测100100次将有次将有9595次是正确的。次是正确的。第43页,本讲稿共50页 例例1.21.2植物保护植物保护一些夏季害虫的盛发期一些夏季害虫的盛发期与春季温度有关,现有与春季温度有关,现有1956-19641956-1964年间年间3 3月下月下旬至旬至4 4月中旬旬平均温度的累计数月中旬旬平均温度的累计数x和一代三和一代三化螟蛾盛发期化螟蛾盛发期Y(以以5 5月月1010日为日为0)0)的观测值如下:的观测值如下:温度温度x 35.5 34.1 31.7 40.3 36.8 40.2 31.7 39.2 44.2盛发期盛发期y 12 16 9 2 7 3 13 9 -1试求线性回归方程并用三种方法作显著性检试求线性回归方程并用三种方法作显著性检验,若验,若x040,求,求Y0的的0.95预测区间预测区间。第44页,本讲稿共50页解:根据上述观测值得到解:根据上述观测值得到n9,第45页,本讲稿共50页所求的线性回归方程为所求的线性回归方程为 第46页,本讲稿共50页显著性检验方法显著性检验方法 F检验法检验法:SSTlyy249.5556,SSRblxy174.8886,SSESST-blxy74.6670,n-27,F0.99(1,7)12.2,所以回归方程极显著;所以回归方程极显著;第47页,本讲稿共50页所以回归方程极显著;所以回归方程极显著;第48页,本讲稿共50页所以回归方程极显著所以回归方程极显著.第49页,本讲稿共50页Y0的的0.95预测区间为预测区间为(-3.80,12.92)。这说明当这说明当3 3月下旬至月下旬至4 4月中旬旬平均温度的月中旬旬平均温度的累计数为累计数为4040时,应该预测一代三化螟蛾盛时,应该预测一代三化螟蛾盛发期为发期为5 5月月6 6日至日至5 5月月2323日之间,并且预测日之间,并且预测100100次将有次将有9595次是正确的。次是正确的。第50页,本讲稿共50页