第9章 方差分析及回归分析94 多元线性回归.ppt
一、多元线性回归的数学模型一、多元线性回归的数学模型二、数学模型的分析与求解二、数学模型的分析与求解三、三、MATLAB中回归分析的实现中回归分析的实现四、小结四、小结第四节多元线性回归第四节多元线性回归一、多元线性回归的数学模型一、多元线性回归的数学模型用最大似然估计法估计参数用最大似然估计法估计参数.达到最小达到最小.二、数学模型的分析与求解二、数学模型的分析与求解化简可得化简可得正规方程组正规方程组引入矩阵引入矩阵正规方程组的矩阵形式正规方程组的矩阵形式最大似然估计值最大似然估计值称为称为P P元经验线性回归方程元经验线性回归方程,简称简称回归方程回归方程.多元线性回归多元线性回归1.1.确定回归系数的点估计值确定回归系数的点估计值,b,bint,r,rint,stats=regress(Y,X,alpha)rcoplot(r,rint)三、三、MATLAB中回归分析的实现中回归分析的实现用命令用命令:b=regress(Y,X)2.求回归系数的点估计和区间估计求回归系数的点估计和区间估计,并检验回并检验回归模型归模型,用命令用命令:3.画出残差及其置信区间画出残差及其置信区间,用命令用命令:符号说明符号说明(1)(2)alpha为显著性水平为显著性水平,(3)bint为回归系数的区间估计为回归系数的区间估计;(4)r与与rint分别为残差及其置信区间分别为残差及其置信区间;(5)stats 是用于检验回归模型的统计量是用于检验回归模型的统计量,默认为默认为 0.05;有三有三个数值个数值,FF1-alpha第一个是相关系数第一个是相关系数 r2,其值越接近于其值越接近于 1,说说明回归方程越显著明回归方程越显著;第二个是第二个是 F 值值,(p,n-p-1)时,时,拒绝拒绝 H0,F 越大越大,说明回归方程越显著说明回归方程越显著;第三个是与第三个是与F对应的概率对应的概率 p,palpha 时拒绝时拒绝,模型成立模型成立.回归回归身高身高143145 146 147 149 150 153 154腿长腿长8885889192939395身高身高155156 157 158 159 160 162 164腿长腿长969897969899100 102例例1试研究这些数据之间的关系试研究这些数据之间的关系.测得测得16名女子的身高和腿长如下名女子的身高和腿长如下(单位单位:cm):输入数输入数据据x=143,145,146,147,149,150,153,154,155,156,157,158,159,160,162,164;X=ones(16,1),x;Y=88,85,88,91,92,93,93,95,96,98,97,96,98,99,100,102;回归分析及检验回归分析及检验b,bint,r,rint,stats=regress(Y,X);b,bint,stats残差分残差分析析rcoplot(r,rint)预测及作图预测及作图z=b(1)+b(2)*xplot(x,Y,k+,x,z,r)数据比较数据比较残差图形残差图形预测图形预测图形数据比较数据比较帮助帮助程序运行结果程序运行结果一元多项式回归一元多项式回归p,S=polyfit(x,y,m)也可使用命令也可使用命令:polytool(x,y,m)用命令用命令:1.确定多项式系数确定多项式系数,结果产生一个交互式的画面结果产生一个交互式的画面,画面中有拟合曲画面中有拟合曲2.2.预测和预测误差估计用命令预测和预测误差估计用命令:求回归多项式在求回归多项式在x处的预测值处的预测值Y.Y,DELTA=polyconf(p,x,S,alpha)的默认值是的默认值是 0.05.一元多项式回归可化为多元线性回归求解一元多项式回归可化为多元线性回归求解.Y=polyval(p,x)线和线和 y 的置信区间的置信区间,左下方的左下方的 Export 可以输出参数可以输出参数.求回归多项式在求回归多项式在 x 处的预测值处的预测值 Y 以及预测值以及预测值的显著性为的显著性为1-alpha 的置信区间的置信区间 YDELTA,alpha例例2 2 某件产品每件平均单价某件产品每件平均单价Y(元元)与批量与批量x(件件)之间之间的关系的一组数据的关系的一组数据xy304045505560657080901.651.55 1.48 1.40 1.30 1.26 1.24 1.21 1.20 1.0825201.81 1.70解解(XTX)-1(XTX)-1得到回归方程得到回归方程试用一元二次多项式进行回归分析试用一元二次多项式进行回归分析,输入数据输入数据x=20,25,30,35,40,50,60,65,70,75,80,90;y=1.81,1.70,1.65,1.55,1.48,1.40,1.30,1.26,1.24,1.21,1.20,1.18;作二次多项式回归作二次多项式回归p,S=polyfit(x,y,2)预测及作图预测及作图Y=polyconf(p,x,y)plot(x,y,b+,x,Y,r)回归结果回归结果残差图形残差图形预测图形预测图形帮助帮助程序运行结果程序运行结果化为多元线性回归化为多元线性回归X=ones(12,1)x(x.2);b,bint,r,rint,stats=regress(y,X);b,stats与前面的结果一致与前面的结果一致.多元二项式回归多元二项式回归rstool(x,y,model,alpha)认为线性模型认为线性模型.其中其中,输入数据输入数据 x,y 分别为分别为 nm 矩阵和矩阵和 n 维维列向量列向量;alpha 为显著性水平为显著性水平,默认为默认为 0.05;为下列四种模型中的一种为下列四种模型中的一种,输入相应的字符串输入相应的字符串,默默modelrstool的输出是一个交互式画面的输出是一个交互式画面,画面中有画面中有m个个图形图形,分别给出了一个独立变量分别给出了一个独立变量xi与与y的拟合曲线的拟合曲线,以及以及y的置信区间的置信区间,此时其余此时其余m-1个变量取固定值个变量取固定值.可以输入不同的变量的不同值得到可以输入不同的变量的不同值得到y的相应值的相应值.其中剩余标准差最接近于零的模型回归效果最好其中剩余标准差最接近于零的模型回归效果最好.图的左下方有两个下拉式菜单图的左下方有两个下拉式菜单,一个用于传送一个用于传送回归系数、回归系数、剩余标准差、剩余标准差、残差等数据残差等数据;另一个用于另一个用于选择四种回归模型中的一种选择四种回归模型中的一种,选择不同的回归模型选择不同的回归模型,例例3需求量需求量10075807050收入收入10006001200500300价格价格57668需求量需求量659010011060收入收入400130011001300300价格价格75439设某商品的需求量与消费者的平均收入、设某商品的需求量与消费者的平均收入、商商品价格的统计数据如下品价格的统计数据如下,建立回归模型建立回归模型,预测平均收预测平均收入为入为 1000,价格为价格为 6 时的商品需求量时的商品需求量.选择纯二次模型选择纯二次模型,即即数据输入数据输入x1=1000,600,1200,500,300,400,1300,1100,1300,300;x2=5,7,6,6,8,7,5,4,3,9;y=100,75,80,70,50,65,90,100,110,60;x=x1 x2;回归、回归、rstool(x,y,purequadratic)回归图形回归图形回归结果回归结果帮助帮助程序运行结果程序运行结果检验与预测检验与预测化为多元线性回归求解化为多元线性回归求解x1=1000,600,1200,500,300,400,1300,1100,1300,300;x2=5,7,6,6,8,7,5,4,3,9;y=100,75,80,70,50,65,90,100,110,60;X=ones(10,1)x1 x2(x1.2)(x2.2);b,bint,r,rint,stats=regress(y,X)回归系数的点估计以及区间估计回归系数的点估计以及区间估计残差及其置信区间残差及其置信区间检验回归模型的统计量检验回归模型的统计量逐步回归分析逐步回归分析在实际问题中在实际问题中,而这些而这些因素之间可能存在多重共线性因素之间可能存在多重共线性.为得到可靠的回归为得到可靠的回归模型模型,需要一种方法能有效地从众多因素中挑选出需要一种方法能有效地从众多因素中挑选出对因变量贡献大的因素对因变量贡献大的因素.如果采用多元线性回归分析如果采用多元线性回归分析,回归方程稳定性回归方程稳定性差差,每个自变量的区间误差积累将影响总体误差每个自变量的区间误差积累将影响总体误差,预预测的可靠性差、测的可靠性差、精度低精度低;另外另外,如果采用了影响小的如果采用了影响小的变量变量,遗漏了重要变量遗漏了重要变量,可能导致估计量产生偏倚和可能导致估计量产生偏倚和影响因变量的因素很多影响因变量的因素很多,选择选择“最优最优”回归方程的方法回归方程的方法最优者最优者;显著因子显著因子;3.从一个变量开始从一个变量开始,量而不包括影响不显著的变量量而不包括影响不显著的变量.不一致性不一致性.“最优最优”的回归方程应该包含所有有影响的变的回归方程应该包含所有有影响的变1.从所有可能的变量组合的回归方程中选择从所有可能的变量组合的回归方程中选择2.从包含全部变量的回归方程中逐次剔除不从包含全部变量的回归方程中逐次剔除不把变量逐个引入方程把变量逐个引入方程;4.“有进有出有进有出”的的逐步回归分析逐步回归分析.逐步回归分析法逐步回归分析法在筛选变量方面比较理想在筛选变量方面比较理想,是是目前较常用的方法目前较常用的方法.它从一个自变量开始它从一个自变量开始,根据自变根据自变量作用的显著程度量作用的显著程度,从大到小地依次逐个引入回归从大到小地依次逐个引入回归方程方程,但当引入的自变量由于后面变量的引入而变但当引入的自变量由于后面变量的引入而变得不显著时得不显著时,要将其剔除掉要将其剔除掉.引入一个自变量或从回引入一个自变量或从回归方程中剔除一个自变量归方程中剔除一个自变量,为逐步回归的一步为逐步回归的一步,对于对于每一步每一步,都进行检验都进行检验,以确保每次引入新的显著性变以确保每次引入新的显著性变量前回归方程中只包含作用显著的变量量前回归方程中只包含作用显著的变量.方程方程.反复进行上面的过程反复进行上面的过程,直到没有不显著的变量直到没有不显著的变量从回归方程中剔除从回归方程中剔除,也没有显著变量可引入到回归也没有显著变量可引入到回归函数函数:stepwise用法用法:stepwise(x,y,inmodel,alpha)符号说明符号说明:x自变量数据自变量数据,y因变量数据因变量数据,型中引入的自变量型中引入的自变量,认相当于对回归系数给出认相当于对回归系数给出95%的置信区间的置信区间.inmodel由矩阵由矩阵x列的指标构成列的指标构成,表明初始模表明初始模alpha判断模型中每一项显著性的指标判断模型中每一项显著性的指标,默默为为nm矩阵矩阵;为为n1矩阵矩阵;默认为全部自变量默认为全部自变量;例例4序号序号1234567x17111117113x226295631525571x3615886917x46052204733226y78.574.3104.387.695.9109.2102.7序号序号8910111213x1122111110 x2315447406668x3221842398x4442226341212y72.593.1115.983.8113.3109.4水泥凝固时放出的热量水泥凝固时放出的热量 y 与水泥中的四种化与水泥中的四种化学成分学成分 x1,x2,x3,x4 有关有关,今测得一组数据如下今测得一组数据如下,试试用逐步回归法确定一个线性模型用逐步回归法确定一个线性模型.x1=7,1,11,11,7,11,3,1,2,21,1,11,10;x2=26,29,56,31,52,55,71,31,54,47,40,66,68;x3=6,15,8,8,6,9,17,22,18,4,23,9,8;x4=60,52,20,47,33,22,6,44,22,26,34,12,12;y=78.5,74.3,104.3,87.6,95.9,109.2,102.7,72.5,93.1,115.9,83.8,113.3,109.4;x=x1,x2,x3,x4;输入数据输入数据逐步回归逐步回归回归平面回归平面帮助帮助stepwise(x,y)逐步回归分析逐步回归分析程序运行结果程序运行结果对变量对变量 y 和和 x1,x2 作线性回归作线性回归.X=ones(13,1),x1,x2;b,bint,stats=regress(y,X)回归模型为回归模型为三个统计量表明三个统计量表明:回归效果显著回归效果显著.四、小结四、小结1.多元线性回归的数学模型多元线性回归的数学模型2.数学模型的分析与求解数学模型的分析与求解3.MATLAB中回归分析的实现中回归分析的实现(1)多元线性回归多元线性回归b=regress(Y,X)(2)一元多项式回归一元多项式回归p,S=polyfit(x,y,m)(3)多元二项式回归多元二项式回归rstool(x,y,model,alpha)(4)逐步回归分析逐步回归分析stepwise(x,y,inmodel,alpha)