多元回归分析-2.ppt
多元回归分析-2 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望一、多元线性回归的数学模型一、多元线性回归的数学模型多元线性回归模型多元线性回归模型用最大似然估计法估计参数用最大似然估计法估计参数.达到最小达到最小.二、数学模型的分析与求解二、数学模型的分析与求解化简可得化简可得正规方程组正规方程组引入矩阵引入矩阵正规方程组的矩阵形式正规方程组的矩阵形式最大似然估计值最大似然估计值P元经验线性回归方程元经验线性回归方程多元线性回归多元线性回归1.确定回归系数的点估计值确定回归系数的点估计值,用命令用命令:b=regress(Y,X)2.求回归系数的点估计和区间估计求回归系数的点估计和区间估计,并检验回并检验回归模型归模型,用命令用命令:b,bint,r,rint,stats=regress(Y,X,alpha)3.画出残差及其置信区间画出残差及其置信区间,用命令用命令:rcoplot(r,rint)三、三、MATLAB中回归分析的实现中回归分析的实现符号说明符号说明(1)(2)alpha为显著性水平为显著性水平,默认为默认为 0.05;(3)bint为回归系数的区间估计为回归系数的区间估计;(4)r与与rint分别为残差及其置信区间分别为残差及其置信区间;(5)stats 是用于检验回归模型的统计量是用于检验回归模型的统计量,有三个有三个数值数值,第一个是相关系数第一个是相关系数 r2,其值越接近于其值越接近于 1,说明回说明回归方程越显著归方程越显著;第二个是第二个是 F 值值,FF1-alpha(p,n-p-1)时时拒拒绝绝 H0,F 越大越大,说说明回明回归归方程越方程越显显著著;第三个是与第三个是与F对应对应的概率的概率 p,p p=polyfit(x,y,2)p=0.0001 -0.0225 2.1983Y=polyval(p,x)Y=1.7978 1.7134 1.6352 1.5632 1.4975 1.3848 1.2972 1.2627 1.2345 1.2126 1.1969 1.1843预测及作图预测及作图Y=polyconf(p,x,y)plot(x,y,b+,x,Y,r)Y=polyconf(p,x,y)Y=1.7978 1.7134 1.6352 1.5632 1.4975 1.3848 1.2972 1.2627 1.2345 1.2126 1.1969 1.1843预测及作图预测及作图polytool(x,y,2)预测及作图预测及作图polytool(x,y,2)p,S=polyfit(x,y,2);Y,DELTA=polyconf(p,x,S,0.05)Y=1.7978 1.7134 1.6352 1.5632 1.4975 1.3848 1.2972 1.2627 1.2345 1.2126 1.1969 1.1843 DELTA=0.0335 0.0311 0.0299 0.0296 0.0297 0.0302 0.0302 0.0299 0.0297 0.0297 0.0305 0.0354化为多元线性回归化为多元线性回归X=ones(12,1)x(x.2);X=1 20 400 1 25 625 1 30 900 1 35 1225 1 40 1600 1 50 2500 1 60 3600 1 65 4225 1 70 4900 1 75 5625 1 80 6400 1 90 8100化为多元线性回归化为多元线性回归X=ones(12,1)x(x.2);b,bint,r,rint,stats=regress(y,X);b,stats与前面的结果一致与前面的结果一致.多元二项式回归多元二项式回归rstool(x,y,model,alpha)其中其中,输入数据输入数据 x,y 分别为分别为 nm 矩矩阵阵和和 n 维维列列向量向量;alpha 为显为显著性水平著性水平,默默认为认为 0.05;model 为为下下列四种模型中的一种列四种模型中的一种,输输入相入相应应的字符串的字符串,默默认为线认为线性模型性模型.rstool的输出是一个交互式画面的输出是一个交互式画面,画面中有画面中有m个个图形图形,分别给出了一个独立变量分别给出了一个独立变量xi与与y的拟合曲线的拟合曲线,以及以及y的置信区间的置信区间,此时其余此时其余m-1个变量取固定值个变量取固定值.可可以输入不同的变量的不同值得到以输入不同的变量的不同值得到y的相应值的相应值.图的左下方有两个下拉式菜单图的左下方有两个下拉式菜单,一个用于传送一个用于传送回归系数、剩余标准差、残差等数据回归系数、剩余标准差、残差等数据;另一个用于另一个用于选择四种回归模型中的一种选择四种回归模型中的一种,选择不同的回归模型选择不同的回归模型,其中剩余标准差最接近于零的模型回归效果最好其中剩余标准差最接近于零的模型回归效果最好.例例3设某商品的需求量与消费者的平均收入、商设某商品的需求量与消费者的平均收入、商品价格的统计数据如下品价格的统计数据如下,建立回归模型建立回归模型,预测平均收预测平均收入为入为 1000,价格为价格为 6 时的商品需求量时的商品需求量.需求量需求量需求量需求量1001007575808070705050收入收入收入收入1001000 06006001201200 0500500300300价格价格价格价格5 57 76 66 68 8需求量需求量需求量需求量656590901001001101106060收入收入收入收入4004001301300 01101100 01301300 0300300价格价格价格价格7 75 54 43 39 9选择纯二次模型选择纯二次模型,即即数据输入数据输入x1=1000,600,1200,500,300,400,1300,1100,1300,300;x2=5,7,6,6,8,7,5,4,3,9;y=100,75,80,70,50,65,90,100,110,60;x=x1 x2;回归、检验与预测回归、检验与预测rstool(x,y,purequadratic)化为多元线性回归求解化为多元线性回归求解x1=1000,600,1200,500,300,400,1300,1100,1300,300;x2=5,7,6,6,8,7,5,4,3,9;y=100,75,80,70,50,65,90,100,110,60;X=ones(10,1)x1 x2(x1.2)(x2.2);b,bint,r,rint,stats=regress(y,X)回归系数的点估计以及区间估计回归系数的点估计以及区间估计残差及其置信区间残差及其置信区间检验回归模型的统计量检验回归模型的统计量逐步回归分析逐步回归分析在实际问题中在实际问题中,影响因变量的因素很多影响因变量的因素很多,而这些而这些因素之间可能存在多重共线性因素之间可能存在多重共线性.为得到可靠的回归为得到可靠的回归模型模型,需要一种方法能有效地从众多因素中挑选出需要一种方法能有效地从众多因素中挑选出对因变量贡献大的因素对因变量贡献大的因素.如果采用多元线性回归分析如果采用多元线性回归分析,回归方程稳定性回归方程稳定性差差,每个自变量的区间误差积累将影响总体误差每个自变量的区间误差积累将影响总体误差,预预测的可靠性差、精度低测的可靠性差、精度低;另外另外,如果采用了影响小的如果采用了影响小的变量变量,遗漏了重要变量遗漏了重要变量,可能导致估计量产生偏倚和可能导致估计量产生偏倚和不一致性不一致性.选择选择“最优最优”回归方程的方法回归方程的方法1.从所有可能的变量组合的回归方程中选择从所有可能的变量组合的回归方程中选择最优者最优者;2.从包含全部变量的回归方程中逐次剔除不从包含全部变量的回归方程中逐次剔除不显著因子显著因子;3.从一个变量开始从一个变量开始,把变量逐个引入方程把变量逐个引入方程;4.“有进有出有进有出”的逐步回归分析的逐步回归分析.“最优最优”的回归方程应该包含所有有影响的的回归方程应该包含所有有影响的变量而不包括影响不显著的变量变量而不包括影响不显著的变量.逐步回归分析法逐步回归分析法在筛选变量方面比较理想在筛选变量方面比较理想,是是目前较常用的方法目前较常用的方法.它从一个自变量开始它从一个自变量开始,根据自变根据自变量作用的显著程度量作用的显著程度,从大到小地依次逐个引入回归从大到小地依次逐个引入回归方程方程,但当引入的自变量由于后面变量的引入而变但当引入的自变量由于后面变量的引入而变得不显著时得不显著时,要将其剔除掉要将其剔除掉.引入一个自变量或从回引入一个自变量或从回归方程中剔除一个自变量归方程中剔除一个自变量,为逐步回归的一步为逐步回归的一步,对于对于每一步每一步,都进行检验都进行检验,以确保每次引入新的显著性变以确保每次引入新的显著性变量前回归方程中只包含作用显著的变量量前回归方程中只包含作用显著的变量.反复进行上面的过程反复进行上面的过程,直到没有不显著的变量直到没有不显著的变量从回归方程中剔除从回归方程中剔除,也没有显著变量可引入到回归也没有显著变量可引入到回归方程方程.函数函数:stepwise用法用法:stepwise(x,y,inmodel,alpha)符号说明符号说明:x自变量数据自变量数据,为为nm矩矩阵阵;y因变量数据因变量数据,为为n1矩矩阵阵;inmodel由矩阵由矩阵x列的指标构成列的指标构成,表明初始模表明初始模型中引入的自变量型中引入的自变量,默认为全部自变量默认为全部自变量;alpha判断模型中每一项显著性的指标判断模型中每一项显著性的指标,默默认相当于对回归系数给出认相当于对回归系数给出95%的置信区间的置信区间.例例4水泥凝固时放出的热量水泥凝固时放出的热量 y 与水泥中的四种化与水泥中的四种化学成分学成分 x1,x2,x3,x4 有关有关,今测得一组数据如下今测得一组数据如下,试试用逐步回归法确定一个线性模型用逐步回归法确定一个线性模型.序号序号序号序号1 12 23 34 45 56 67 7x x1 17 71 1111111117 711113 3x x2 22626292956563131525255557171x x3 36 615158 88 86 69 91717x x4 46060525220204747333322226 6y y78.578.574.374.3104.3104.387.687.695.995.9109.2109.2102.7102.7序号序号序号序号8 89 91010111112121313x x1 11 12 221211 111111010 x x2 2313154544747404066666868x x3 3222218184 423239 98 8x x4 4444422222626343412121212y y72.572.593.193.1115.9115.983.883.8113.3113.3109.4109.4x1=7,1,11,11,7,11,3,1,2,21,1,11,10;x2=26,29,56,31,52,55,71,31,54,47,40,66,68;x3=6,15,8,8,6,9,17,22,18,4,23,9,8;x4=60,52,20,47,33,22,6,44,22,26,34,12,12;y=78.5,74.3,104.3,87.6,95.9,109.2,102.7,72.5,93.1,115.9,83.8,113.3,109.4;x=x1,x2,x3,x4;输入数据输入数据stepwise(x,y)逐步回归分析逐步回归分析stepwise(x,y)逐步回归分析逐步回归分析对变量对变量 y 和和 x1,x2,x3,x4,作线性回作线性回归归.X=ones(13,1),x1,x2,x3,x4;b,bint,r,rint,stats=regress(y,X)b=62.4054 1.5511 0.5102 0.1019 -0.1441 bint=-99.1786 223.9893 -0.1663 3.2685 -1.1589 2.1792 -1.6385 1.8423 -1.7791 1.4910 r=0.0048 1.5112 -1.6709 -1.7271 0.2508 3.9254 -1.4487 -3.1750 1.3783 0.2815 1.9910 0.9730 -2.2943 rint=-4.0390 4.0485 -3.2331 6.2555 -5.3126 1.9707 -6.5603 3.1061 -4.5773 5.0788 -0.5623 8.4132 -6.0767 3.1794 -6.8963 0.5463 -3.5426 6.2993 -3.0098 3.5729 -2.2372 6.2191 -4.1338 6.0797 -6.9115 2.3228stats=0.9824 111.4792 0.0000 5.9830对变量对变量 y 和和 x1,x2 作线性回归作线性回归.X=ones(13,1),x1,x2;b,bint,stats=regress(y,X)回归模型为回归模型为三个统计量表明三个统计量表明:回归效果显著回归效果显著.对变量对变量 y 和和 x1,x2 作线性回归作线性回归.x=x1,x2;stepwise(x,y)四、小结四、小结1.多元线性回归的数学模型多元线性回归的数学模型2.数学模型的分析与求解数学模型的分析与求解3.MATLAB中回归分析的实现中回归分析的实现(1)多元线性回归多元线性回归b=regress(Y,X)(2)一元多项式回归一元多项式回归p,S=polyfit(x,y,m)(3)多元二项式回归多元二项式回归rstool(x,y,model,alpha)(4)逐步回归分析逐步回归分析stepwise(x,y,inmodel,alpha)